데이터 분석/머신러닝

[ML] 과적합(Overfitting)

eunnys 2023. 11. 15. 12:28

과적합이란?

 

- 분석 데이터에만 존재하는 특징을 학습하여 데이터의 작은 변화에도 과장된 결과를 초래하여 예측력이 떨어지는 현상

  • 학습 데이터에는 오차가 감소하지만
  • 실제 데이터에 대해서는 오차가 증가

 

 

 

과적합의 문제점

 

- 모델 적합 시 높은 설명력을 가지나, 과적합으로 인하여 실제 운영 시 예측력이 낮아지게 된다. 즉, 왜곡된 결과가 나오게 되고, 해석 상 잘못된 인자가 도출된다.

 

 

발생원인

 

- 변수가 너무 많이 존재하여 모델이 복잡할 때

- 분석 데이터(표본 데이터)가 모집단의 특성을 설명하지 못할 때

 

 

방지법

 

- 가능한 많은 데이터(다양한 데이터)로 모델링하여 Unseen data(미지의 데이터)의 범위를 좁힘

 

 

과적합 방지를 위한 추가적인 분석 기술