데이터 분석/머신러닝

[ML] 지도학습 알고리즘 - 앙상블 러닝

eunnys 2023. 11. 22. 15:55

앙상블 러닝 (Ensemble Learning)

  • 주어진 자료에서 여러 개의 예측모델을 학습한 다음, 하나의 최종 예측모델을 사용하여 정확도를 높이는 기법
  • 모형은 복잡하여 설명이 어렵지만, 성능이 높다.

 

 

 

앙상블 러닝의 종류 

 

보팅 (Voting)

- 동일 데이터셋에 대해 여러 개의 분류기(Model)를 사용하여 학습을 진행

 

 

* Hard Voting : 다수결 투표를 따라감

* Soft Voting : 각 레이블의 예측 확률의 평균으로 최종 분류를 진행

   (레이블 0 예측확률 평균:0.54, 레이블 1 예측확률 평균:0.46)

 

 

배깅 (Bagging)

- 하나의 모델을 다양하게 학습 (Bootstrap + Aggregating => Bagging)

- Bootstrap은 복원 랜덤 샘플링 방식으로 전체 데이터 중 일부분을 뽑는 방식이며 Aggregating은 집계를 의미

- 배깅을 적용한 Decision Tree의 앙상블 모델을 랜덤 포레스트라고 한다.

 

 

 

부스팅 (Boosting)

- 제대로 분류되지 않은, 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 것

- 모형들을 순차적으로 학습하도록 하여, 먼저 학습된 모형이 결과가 다음 모형의 학습에 정보를 제공

- 오차가 큰 모형은 가중치를 높이고 오차가 적은 모형은 가중치를 낮춘다.