데이터 분석/머신러닝
[ML] 개념 및 종류
eunnys
2023. 11. 15. 10:14
■ 머신러닝의 정의
기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 알고리즘을 개발하는 연구분야 (아서 사무엘)
- 데이터로부터 유용한 규칙, 지식 표현 또는 판단 기준 등을 추출한다는 점에서 데이터 마이닝이나 통계 및 수학적 최적화 문제와 관련이 깊음
▶ 학습(Learning)
- 인간 : 대부분의 사람들은 순식간에 인식
- 컴퓨터 : 각 숫자를 구분하는 법칙이나 알고리즘을 찾아야 함 (숫자를 나누는 기준 정립)
■ 머신러닝의 종류
■ 지도학습(Supervised Learning)
- 목표변수(y)의 값이 존재하는 데이터를 학습하는 학습방법
- 표식이 있는 자료, 또는 해답이 있는 자료를 대상으로 입력자료 x로부터 y의 예측을 학습하는 방법
- y를 예측하기 위한 모형 도출
- y는 레이블, 정답, 타겟, 종속변수
- 분류학습(Classification) y가 범주형 데이터인 경우 : 스펨필터, 손글씨 인식, 얼굴인식, x-ray 질병유무 판별
- 회귀학습(Regression) y가 연속형 변수인 경우 : 주식예측, 특정 제품 선호 소비자 연령 예측, 기온 예측
- 대표적 분석 알고리즘 : Decision Tree, KNN, Linear Regression, Neural Network, Logistic Regression, Support Vector Machine(SVM)
■ 비지도학습(Unsupervised Learning)
- 목표변수(y)의 값이 존재하지 않는 데이터를 학습하는 학습방법
- 자료에 숨겨진 구조를 찾고자 하는 학습방법
- y가 없기 때문에 찾아낸 구조나 패턴이 얼마나 정밀한지에 대한 검증 불가
- 데이터 내에서 구조의 특징을 정의하기 위한 모형 도출
- 군집학습(Clustering) x의 유사성을 이용해 몇개의 그룹으로 분류 : 고객특성분류, 음향/영상 주제별 분류
- 잠재요인추출(Latent Factor extraction) x에서 관측되지 않은 잠재 요인을 추출 : 주성분분석, 선형판별분석, 커널방법
- 대표적인 분석 알고리즘 : K-means, Neural Network, PCA
■ 강화학습(Reinforcement Learning)
- 주어진 환경에 의해 시스템의 성능을 향상시키는 머신러닝(게임이나 로봇에 주로 사용)
- 어떤 행동을 했을 때 받는 보상에 따라 미래의 행동을 바꿔하는 방식
- 시행착오와 보상이라는 개념