■ 확률의 종류
▶ 독립사건
- 사건 A가 발생하고, 그 다음에 사건 B가 발생할 때 선행 사건의 결과가 후행 사건의 결과에 영향을 미치지 않는 경우 A와 B는 독립사건이라고 한다. (ex: 첫 번째 동전을 던져 앞면이 나오고 두 번째 동전을 던져 뒷면이 나올 확률)
▶ 종속사건
- 선행 실험의 결과가 후행 실험의 결과에 영향을 미치는 사건
- 두 번 녀속해서 푸른 공을 꺼낼 사건의 확률은 (2/5) x (1/4) = 2/20 = 1/10이 된다.
▶ 조건부 확률
- 사건 A가 발생한 상태에서 사건 B가 발생할 확률을 의미하며 P(B|A)로 나타낸다.
- P(B|A) : 첫 번째 실험에서 푸른 공을 꺼내는 것을 사건 A라고 하고, 두 번째 실험에서도 푸른 공을 꺼내는 사건을 B라고 하면, 사건 A 이후에 사건 B가 일어날 확률은 (2/5) x (1/4) = 2/20 = 1/10이 된다.
- 단, A와 B가 독립이면 P(B|A) = P(B)
■ 베이즈 이론(Bayes's Theorem)
- 추론 대상의 사건 확률과 추가적인 정보를 기반으로 해당 대상의 사후 확률을 추론하는 통계적 방법
약자 - C: Cancer(암 환자), P: Positive(양성), N: Negative(음성)
P(C) : 암 환자일 확률 = 0.105
P(~C) : 암 환자가 아닐 확률 = 0.895
P(P|C) : 암 환자일 때 양성 판정을 받을 확률 = 0.905
P(N|C) : 암 환자일 때 음성 판정을 받을 확률 = 0.095
P(P|~C) : 암 환자가 아닐 때 양성 판정을 받을 확률 = 0.204
P(P|~C) : 암 환자가 아닐 때 음성 판정을 받을 확률 = 0.796 (이를 특이도라고 한다, specificity)
■ 나이브 베이즈 분류 (Naive Bayes Classification)
- 나이브 베이즈는 베이즈 이론을 사용하는 확률 분류기의 일종으로 특성들 사이에 독립을 가정한다.
- 일반적으로 조건적 사건 A에 있어서 세부적인 특성이 존재할 수 있으며 이들의 특성은 서로 균등하고 독립적이라고 가정을 한다.
<나이브 베이즈의 종류>
- 가우시안 나이브 베이즈 (Gaussian Naive Bayes Classification): 설명 변수가 연속형인 경우
- 멀티노미얼 나이브 베이즈(Multinomial Naive Bayes Classification): 설명 변수가 범주형인 경우
- 베르누이 나이브 베이즈(Bernoulli Naive Bayes Classification): 설명 변수가 이분형인 경우
■ 의사결정 트리 (Decision Tree)
- 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 도구의 알종
- 과거의 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 속성의 조합으로 나타내는 분류 모형
■ 의사결정 트리 구조
- 두 가지로 나뉘는 부분들을 '규칙노드'라고 부른다. (분기를 위한 조건을 갖는다)
- 이 분기들 중 가장 위에 있는 분기를 루트 노드라고 부른다. 또한 나뉘어 내려가는 선들을 결정 노드라고 부른다.
- 맨 밑에 있는 노드를 잎 노드라고 부른다. (결정된 클래스)
■ 의사결정 트리 알고리즘 구조
- 노드들을 가장 효율적으로 선정하고 배치하기 위해서 정보획득량이라는 개념과 엔트로피라는 개념이 필요하다.
- 정보획득량이란 어떤 사건이 얼마만큼의 정보를 줄 수 있는지를 수치화한 값이며, 엔트로피란 무질서도를 정량화해서 표현한 값이다.
- 어떤 집합의 엔트로피가 높을수록 그 집단의 특징을 찾는 것이 어렵다.
- 따라서 의사결정 트리의 잎 노드들의 엔트로피가 최소가 되는 방향으로 분류해 나가는 것이 최적의 방법으로 분류한 것이라고 할 수 있다.
- 즉, 부모 노드보다 순도(Purity: 원소들의 동질성이 높은 정도)가 더 높은 자식 노드를 만들고 이를 반복해서 의사결정 트리를 만들게 된다.
▶ 정보 함수
- 정보 함수는 정보의 가치를 반환하는데 발생할 확률이 작은 사건일수록 정보의 가치가 크고, 반대로 발생할 확률이 큰 사건일수록 정보의 가치는 작다.
▶ 엔트로피
- 엔트로피는 주어진 데이터 집합의 혼잡도를 의미한다.
- 확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아진다.
- 반대로 여러가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아진다.
▶ 정보 획득량 (Information gain)
- 정보 획득량은 전체 엔트로피에서 분류 후 엔트로피를 뺀 값을 의미한다.
- 분류 전 엔트로피가 1이었느데 분류 후 엔트로피도 1이라면 정보획득은 전혀 이뤄지지 않았다고 볼 수 있다.
- 반대로, 분류 전 엔트로피가 1이었는데 분류 후에는 0으로 감소했다면 모든 값들을 분류할 수 있게 되었다는 것을 의미하며 정보 획득량은 1이라고 볼 수 있다.
▶지니 계수 (gini index)
- 경제학에서 불평등 지수를 나타낼 때 사용하는 계수로 0이 가장 평등하고 1로 갈수록 불평등함을 나타낸다.
- 머신러닝에서는 지니 계수가 낮을수록 데이터의 순도가 높은 것으로 해석해 지니 계수가 낮은 속성을 기준으로 분할한다.
■ 의사결정 트리 학습과정
▶ 재귀적 분기 (Recursive Partitioning)
▶ 가지치기 (Pruning)
- 모든 잎의 엔트로피가 0이 될 때까지 분류하면 기존 데이터에는 적합한 분류가 될 수 있지만 새로운 데이터는 제대로 분류하지 못하는 과적합 현상을 일으키기 때문에 일정 단계에서 중지해주거나 분기를 재조정 해주어야 한다.
- 분기를 재조정 해주는 방식을 가지치기라고 하는데, 모든 노드를 분리한 뒤 분기를 적절히 합치는 과정을 거쳐 일반화를 해주는 것을 의미한다.
- Pre-pruning : 트리 생성을 사전에 중단하는 방법으로 tree의 최대 깊이를 제한하여 leaf node의 최대 개수를 제한하는 방법으로 노드를 분화 시키기 위해 필요한 촤소한의 데이터 개수를 지정한다.
- Post-pruning : 트리를 만든 후 하위 노드를 제거하거나 병합하는 방법으로 데이터의 개수가 적은 노드를 삭제하는 방법으로 하위 노드의 분순도의 감소가 특정 값 이하인 경우 하위 노드를 병합한다.
■ 의사결정 트리 파라미터
'데이터 분석 > 머신러닝' 카테고리의 다른 글
[ML] 지도학습 알고리즘 - 앙상블 러닝 (1) | 2023.11.22 |
---|---|
[ML] 지도학습 알고리즘 - KNN (0) | 2023.11.22 |
[ML] 지도학습 알고리즘 - 다지분류, 다중 클래스 혼동행렬 (0) | 2023.11.21 |
[ML] 지도학습 알고리즘 - 비용함수, 평가지표 (0) | 2023.11.21 |
[ML] 5. 이진분류 - Logistic Regression (0) | 2023.11.20 |