라벨인코딩 2

[ML] 6. 나이브 베이즈

▶ 붓꽃 분류 - 텍스트 데이터처럼 희소한 고차원인 경우 높은 정확도와 속도를 제공 - 적용 분야 : 스펨 메일 분류, 문서 주제 분류, 컴퓨터 네트워크 침입자 분류 from sklearn.datasets import load_iris from sklearn.naive_bayes import GaussianNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, confusion_matrix # 데이터 로드 및 분할 x, y = load_iris(return_X_y=True) x_train, x_test, y_train, y_test = train_test_split(x, y, tes..

[ML] 데이터 전처리

■ One-hot encoding (원-핫 인코딩) - 머신러닝에서 분류 모델을 다루거나, 데이터 분석에서 범주형 데이터 혹은 카테고리컬한 문제를 만난다면, 우리는 데이터를 컴퓨터가 인식할 수 있도록 변형해줘야 한다. - 유니크값이 많지 않은 경우 원-핫 인코딩을 사용한다. One-hot encoding이란 단 하나의 값만 True이고 나머지는 모두 False인 인코딩을 의미한다. 이 과정을 거치면 데이터 형태는 0.1로 이루어졌기 때문에 컴퓨터가 인식하고 학습하기에 용이하다. 즉, 범주형 변수를 이진 벡터로 표시한다. 모든 범주형 변수를 정수인 1과 0의 이진형 벡터로 표시하면서 범주형 변수를 열거하고, 해당하지 않는 모든 항목은 0으로, 해당하는 항목은 1로 표시한다. ▷ Pandas pd.get_d..