■ 과적합이란? - 분석 데이터에만 존재하는 특징을 학습하여 데이터의 작은 변화에도 과장된 결과를 초래하여 예측력이 떨어지는 현상 학습 데이터에는 오차가 감소하지만 실제 데이터에 대해서는 오차가 증가 ■ 과적합의 문제점 - 모델 적합 시 높은 설명력을 가지나, 과적합으로 인하여 실제 운영 시 예측력이 낮아지게 된다. 즉, 왜곡된 결과가 나오게 되고, 해석 상 잘못된 인자가 도출된다. ■ 발생원인 - 변수가 너무 많이 존재하여 모델이 복잡할 때 - 분석 데이터(표본 데이터)가 모집단의 특성을 설명하지 못할 때 ■ 방지법 - 가능한 많은 데이터(다양한 데이터)로 모델링하여 Unseen data(미지의 데이터)의 범위를 좁힘 ■ 과적합 방지를 위한 추가적인 분석 기술