Feature Selection (Variable Selection, Attribute Selection)
특징 선택 (변수 선택, 속성 선택)
- 머신러닝에 사용할 변수를 선택하는 작업을 의미한다.
- 출력변수와 연관성이 높은 입력변수를 선택하여 예측력을 높이는 것을 목표로 한다.
- Overfitting Problem(과적합 문제)을 방지하기 위해, 입력 변수의 선별과정에는 반드시 사람이 개입되어야 한다.
Overfitting Problem (과적합 문제)
- AI가 입출력 데이터에 과도하게 최적화되어 있어 예측력이 떨어지는 현상을 의미한다.
- 주어진 데이터에 어떻게든 뜯어 맞추어 모델을 만들어내는 머신러닝 알고리즘의 특성으로 인해 생기는 문제이다.
- 과적합된 AI는 Seen Data(주어진 데이터, 학습에 사용된 데이터)에서는 높은 예측력을 보이지만,
Unseen Data(학습에 사용되지 않은 데이터)에는 좋은 예측력을 보이지 못한다.
- Underfitting(과소적합 문제)이 발생한 경우, "High Bias 하다"라 표현한다.
- Overfitting(과대적합 문제)이 발생한 경우, "High Variance 하다"라 표현한다.
Reference: 머신러닝을 이용한 알고리즘 트레이딩 시스템 개발
(안명호, 류미현 저, 한빛미디어, 2016)