[Machine Learning] Linear Regression Model | 선형 회귀 모델
Linear Regression Model
선형 회귀 모델
- 입력 데이터에 대한 선형 함수를 만들어 예측을 수행하는 머신러닝 모델이다.
- 하나 혹은 그 이상의 Feature(특성)들이 Label에 미치는 영향을 추정하는 통계 기법을 기반으로 한다.
- 회귀가 통계학에서 갖는 의의는 아래 포스트를 참조하자.
* Regression (회귀) (URL)
Linear Regression (선형 회귀)
- \((X_1, X_2, \cdots, X_n)\)을 \(n\)차원의 확률 변수로 하여
조건부 기댓값 \(X_1 = m_1(X_2, \cdots, X_n) = E(x_1 | X_2 = x_2, \cdots, X_n = x_n)\) 이 존재할 때,
이를 "\(X_1\)의 \((X_2, \cdots, X_N)\)으로의 회귀 함수(회귀 곡선)" 이라 한다.
- 특히, \(m_1(x_2, \cdots, x_n) = \alpha + \beta_2x_2 + \cdots + \beta_nx_n\) 이면,
"\(X_1\)의 \((X_2, \cdots, X_n)\) 으로의 회귀는 선형"이라고 한다.
- 즉, 두 변수 사이의 관계가 직교 좌표 상에서 직선으로 표시되는 관계를 '선형 회귀'라 한다.
- 선형 회귀는 일반적으로 모델의 예측과 정답 사이의 오차를 최소화하는
학습 파라미터(계수) \(w\)를 도출해내는 것을 목표로 한다.
- 선형회귀에서의 계수를 찾기 위한 방법은 아래와 같다:
- Ordinary Least Squares (OLS; 최소 제곱법)
- Gradient Descent (경사 하강법)
Ordinary Least Squares (OLS; 최소 제곱법)
def OLS(x, y):
w = np.sum((x-x.mean()) * (y-y.mean())) / np.sum((x-x.mean())**2)
b = y.mean() - w * x.mean()
return w, b
- Residual Error(잔차; \(|y - \widehat{y}|\))의 제곱의 합이 최소가 되는 Weight(기울기; \(w\))와 Bias(편향; \(b\))를 구하는 방법이다.
- 잔차 제곱의 합(\(\sum (y - \widehat{y})^2\))이 최소가 되는 w와 b는 편미분을 통해 도출해낸다.
(각각의 편미분 값이 0인 w와 b에 대한 식을 연립방정식을 세워 계산한다.)
- 식 유도 과정이 간단하다.
- 데이터의 양이 방대해지면 계산량이 기하급수적으로 증가한다.
- 데이터에 Outlier가 있는 경우, 성능이 하락한다.
Gradient Descent (경사 하강법)
\(\large{H(x) = Wx + b}\)
(\(H\): Hypothesis)
\(\large{Cost(W, b) = {1 \over m} \sum\limits_{i=1}^{m} (H(x^{(i)}) - y^{(i)})^2)}\)
(\(Cost\) 함수로 MSE를 이용)
- Hypothesis에 의한 Cost가 최소화되는 직선을 구하는 방법이다.
- 비용을 구하기 위한 Cost 함수로는 일반적으로 MSE가 사용된다. (본 포스트 하단 참조)
- 경사 하강법은 선형회귀 함수 이외에도 Loss 함수를 최소화시키는 계수를 찾는데도 사용된다.
- Cost 함수를 미분하여 Cost가 낮아지는 방향으로 w 값을 변경해 나간다.
- 모든 학습 데이터에 대해 반복적으로 Cost 함수를 최소화하기 위한 값을 업데이트하기 때문에 수행이 오래걸린다.
Implementation of Gradient Descent (경사하강법 구현 및 시각화 예시)
X = np.arange(50)
Y = (2 * X) + 10 * np.random.randn(50) # 'Y = 2X + noise'
plt.plot(X, Y, 'b.') # Visualization for 'Y = 2X + noise'
w_range = np.arange(0.1, 4.1, 0.1)
costs = []
for w in w_range:
h = w * X
cost = 1 / 50 * np.sum( (h-Y) ** 2 )
costs.append(cost)
plt.plot(w_range, costs, 'r.') # Visualization for cost change with w
for w, cost in zip(w_range, costs):
h = w * X
gradient = 2 / 50 * np.sum( (h-Y) * X )
plt.plot(w_range, gradient * (w_range - w) + cost)
plt.axis([0, 4, 0, 3000])
plt.show()
for w, cost in zip(w_range, costs):
plt.plot(w_range, costs, 'r.')
h = w * X
gradient = 2 / 50 * np.sum( (h-Y) * X )
plt.plot(w_range, gradient * (w_range - w) + cost)
plt.axis([0, 4, 0, 3000])
plt.show()
Measurement Metrics of Linear Regression Model (선형 회귀 모델의 성능 측정 지표)
- 선형 회귀 모델에서 사용하는 오류 측정 방법은 아래와 같다:
- R-Squared (Coefficient of Determination)
- MAE (Mean Absoulte Error)
- MAPE (Mean Absolute Percentage Error)
- MSE (Mean Squared Error)
- RMSE (Root Mean Squared Error)
- MPE (Mean Percentage Error)
Legend | Description |
\(y\) | - 실제값 |
\(\widehat{y}\) | - 예측값 |
\(\bar{y}\) | - 평균값 |
\(n\) | - 데이터의 개수 |
R-Squared (Coefficient of Determination)
\(\large{R^2 = 1 - {\sum (y - \widehat{y})^2 \over \sum (y - \bar{y})^2}}\)
- 실제 값의 Variance(분산) 대비 예측 값의 Variance(분산)의 비율이다.
- \(R^2\)의 최댓값은 1이며, 최악의 경우 음수가 도출될 수 있다.
(\(R^2\) 값이 1에 가까울수록 좋은 성능을 의미한다.)
MAE (Mean Absoulte Error)
\(\large{MAE = 1 - {1 \over n} \sum\limits_{i=1}^{n} |y_i - \widehat{y}_i|}\)
- MAE는 실제 값과 예측 값의 차이에 대한 평균값이다.
- MAE는 Outlier에 대해 Robust한 결과를 보여주어 오차에 덜 민감하다.
- MAE는 MSE, RMSE에 비해 오차값이 Outlier의 영향을 상대적으로 적게 받는다.
- MAE의 값이 작을수록 좋은 성능을 의미하지만, 정도에 따라 Overfitting을 의심해봐야 한다.
MAPE (Mean Absolute Percentage Error)
\(\large{MAPE = {1 \over n} \sum\limits_{i=1}^{n} |{y_i - \widehat{y}_i \over y_i}| * 100}\)
- MAPE는 아래와 같은 MPE의 한계점을 보완한다:
- MPE는 예측오차의 합계를 산출하므로 전체적인 크기를 산정할 수 없다.
- MPE에서는 오차가 양수, 0, 음수로 존재하여 오차의 합계가 0이 되는 경우가 존재한다.
- MAPE는 실제값과 예측값의 차이를 절댓값으로 반환하므로 Underestimates/Overestimates 여부를 판단할 수 없다.
MSE (Mean Squared Error)
\(\large{MSE = {1 \over n} \sum\limits_{i=1}^{n} (y_i - \widehat{y}_i)^2}\)
- MSE는 오차의 제곱들에 대한 평균값이다.
(즉, 예측값과 실제값 차이에 해당하는 면적의 평균값이다.)
- MSE는 오차를 제곱하므로, Outlier에 민감하다.
- 1 미만의 오차는 더 작아지고, 1 이상의 오차는 더 커진다.
- MSE는 오차를 제곱하므로, MSE의 단위와 예측 변수의 단위는 같지 않다.
- MSE는 오차를 제곱하므로, Underestimates/Overestimates 여부를 파악하기 어렵고,
MAE와 같이 Scale에 의존적이다.
RMSE (Root Mean Squared Error)
\(\large{RMSE = \sqrt{MSE} = \sqrt{{1 \over n} \sum\limits_{i=1}^{n} (y_i - \widehat{y}_i)^2}}\)
- RMSE는 MSE의 제곱근을 취한 값이다.
- RMSE는 예측변수와 단위가 같아 직관적이다.
- RMSE는 Scale에 의존적이다.
- RMSE는 오차를 제곱한 후 그에 대한 제곱근을 취하기 때문에 MAE와 같이 실제 값에 대해
ex) 기온예측 모델에서 RMSE = 5인 경우는 해당 모델은 평균적으로 5 정도 잘못 예측하고 있음을 의미한다.
MPE (Mean Percentage Error)
\(\large{MPE = {1 \over n} \sum\limits_{i=1}^{n} {y_i - \widehat{y}_i \over y_i} * 100}\)
- MPE는 상대적 예측오차값이다.
- MPE로 Underestimates/Overestimates 여부를 판단할 수 있다.
* Implementation (Python)
def ME(y, t):
return (y-t).mean(axis=None)
def MAE(y, t):
return (abs(y - t)).mean(axis=None)
def MSE(y, t):
return ((y-t)**2).mean(axis=None)
def SSE(y, t):
return 0.5*np.sum((y-t)**2)
def MSLE(y, t):
return np.log((y-t)**2).mean(axis=None)
def RMSE(y, t):
return np.sqrt(((y - t) ** 2).mean(axis=None))
def RMSLE(y, t):
return np.log(np.sqrt(((y - t) ** 2).mean(axis=None)))
def MPE(y, t):
return (((y-t)/y)*100).mean(axis=None)
def MAPE(y, t):
return ((abs((y-t)/y))*100).mean(axis=None)
def MASE(y, t):
n = len(y)
d = np.abs(np.diff(y)).sum() / (n - 1)
errors = abs(y-t)
return errors.mean(axis=None)/d
Example of Application of Linear Regression: Prediction of Boston House Prices
Reference: Introduction to Probability 2nd Edition
(Dimitri P. Bertsekas, John N. Tsitsiklis 저, Massachusetts Institute of Technology, 2008)
Reference: "Linear regression"; Wikipedia; 2022년 8월 27일 작성; 2022년 9월 16일 검색, URL.