교차검증 2

[ML] 4. 교차 검증 (Cross Validation)

# 패키지 로딩 import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import KFold, StratifiedKFold, train_test_split, cross_val_score, cross_validate from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score ▷ None Cross Validation iris = load_iris() # data는 독립변수, target은 종속변수 x_train, x_test, y_train, y_test = train..

[ML] 과대적합(Over Fitting) 방지 - 데이터 규제, 교차검증

■ 데이터 규제(Data Regulation) - 규제란 데이터에 과적합을 방지하기 위한 방법 중 하나로, 모델이 학습하는 데 사용되는 가중치에 규제 값을 주어 과적합이 되는 것을 막고, 모델의 일반화 성능이 증가하게 된다. - 즉, 약간의 오차는 허용하면서도 전체적인 데이터의 특징을 잘 반영하는 모델을 만들게 된다. - 모델이 몇 개의 데이터에 집착하면 새로운 데이터는 적응하지 못하게 되며 과대적합이 발생 되는데, 이러한 모델을 일반화 되지 않았다고 한다. - 결국, 가중치의 모든 원소를 0에 가깝에 만드는 것인데, 이는 모든 특성이 출력에 주는 영향을 최소한으로 만든다. 이런 제약을 규제라고 하며 과적합이 되지 않도록 모델을 강제로 제한한다는 의미이다. - 대표적인 규제의 방법은 L1 규제와 L2 규..