Regression
회귀
- 하나 혹은 그 이상의 독립변수(Feature)들이 종속변수(Label)에 미치는 영향을 추정하는 통계 기법이다.
Types of Regression (회귀의 종류)
- 회귀의 종류는 기준에 따라 아래와 같이 분류할 수 있다:
Criteria | Regresison | Description |
예측변수의 종류 | Regression (회귀) |
- 수치형 데이터를 다루는 회귀이다. |
Logistic Regression (로지스틱 회귀) |
- 범주형 데이터를 다루는 회귀이다. | |
예측변수의 개수 | Simple Regression (단순 회귀) |
- 단일 독립변수에 대해 분석한다. |
Multiple Regression (다중 회귀) |
- 2개 이상의 다중 독립변수들에 대해 분석한다. | |
종속변수의 개수 | Univariate Regression (단변량 회귀) |
- 회귀 분석의 결과로 단일 반응변수가 도출된다. |
Multivariate Regression (다변량 회귀) |
- 회귀 분석의 결과로 2개 이상의 다중 반응변수가 도출된다. | |
모델의 차수 | Linear Regression (선형 회귀) |
- 회귀 분석에 1차식 모델이 사용된다. (선형 모델) |
Nonlinear Regression (비선형 회귀) |
- 회귀 분석에 2차식 이상의 모델이 사용된다. (비선형 모델) |
Linear Regression (선형 회귀)
- \((X_1, X_2, \cdots, X_n)\)을 \(n\)차원의 확률 변수로 하여
조건부 기댓값 \(X_1 = m_1(X_2, \cdots, X_n) = E(x_1 | X_2 = x_2, \cdots, X_n = x_n)\) 이 존재할 때,
이를 "\(X_1\)의 \((X_2, \cdots, X_N)\)으로의 회귀 함수(회귀 곡선)" 이라 한다.
- 특히, \(m_1(x_2, \cdots, x_n) = \alpha + \beta_2x_2 + \cdots + \beta_nx_n\) 이면,
"\(X_1\)의 \((X_2, \cdots, X_n)\) 으로의 회귀는 선형"이라고 한다.
- 즉, 두 변수 사이의 관계가 직교 좌표 상에서 직선으로 표시되는 관계를 '선형 회귀'라 한다.
- 선형 회귀는 일반적으로 모델의 예측과 정답 사이의 오차를 최소화하는
학습 파라미터(계수) \(w\)를 도출해내는 것을 목표로 한다.
- 선형회귀에서의 학습 파라미터를 찾기 위한 방법은 아래와 같이 두가지로 존재한다:
- Ordinary Least Squares (OLS; 최소 제곱법)
- Gradient Descent (경사 하강법)
Reference: Introduction to Probability 2nd Edition
(Dimitri P. Bertsekas, John N. Tsitsiklis 저, Massachusetts Institute of Technology, 2008)
Reference: "Linear regression"; Wikipedia; 2022년 8월 27일 작성; 2022년 9월 16일 검색, URL.