1.3. 모델 선택
2019, Jan 10
- 다항식 모델에는 가장 좋은 일반화를 주는 최적의 다항식 함수가 있음을 1.1장의 다항식 곡선 피팅 모델을 통해 확인할 수 있었습니다.
- 다항식의 차수에 따라 모델의
매개변수
가 결정 → 모델의 복잡도 결정
- 다항식의 차수에 따라 모델의
- training set 만을 이용하여 학습을 하게되면 과적합 문제가 발생하게 됩니다.
- 과적합 문제를 해결하기 위하여 데이터가 충분할 경우에는
validation set
,test set
을 분리해서 사용합니다.- validation set : training set을 통해 학습한 모델의 매개변수와 validation set을 이용한 모델의 매개변수와 비교합니다.
- 한정된 크기의 데이터 집합으로 반복 사용하면 validation set에 대해서도 과적합 문제 발생 가능합니다.
- test set : 선택된 모델의 최종 성능을 판단합니다.
- validation set : training set을 통해 학습한 모델의 매개변수와 validation set을 이용한 모델의 매개변수와 비교합니다.
- 현실적으로 데이터의 크기는 제한적이므로 validation set의 크기 또한 제한적일 수 밖에 없습니다.
- validation set의 크기가 작을 경우에는 예측 성능이 부정확 할 수 있습니다.
- 검증 집합의 크기가 작을 때,
cross validation (교차 검증법)
을 사용할 수 있습니다. -
- S-fold cross validation. 위의 그림은 S=4 인 경우에 대하여 전체 데이터를 S개의 집합으로 나누고 S-1개의 집합을 이용하여 훈련 시킵니다.
- 남은 집합을 이용하여 모델을 평가합니다.
- 총 S개의 평가 모델을 선택 할 수 있으므로 S개 각각에 대하여 훈련 및 평가를 하고 S번의 성능을 평균 내어서 최종 성능을 도출합니다.