Supervised Learning(지도 학습)
x,y가 주어지고 f(x)를 학습하는 것임
- Regression:target value(y)를 예측하는 것
- Classification: predicting class Labels(ex x=size y=cancer(1,0))
- Classification은 x1,x2 2차원으로도 가능
Unsupervised Learning(비지도 학습)
- Supervised Learning과 다르게 y데이터가 주어지지 않는다 알아서 패턴이나 구조를 찾아 알아서 구조를 나눈다
Reinforcement Learning(강화 학습)
- Agent와 Environment가 서로 상호작용하면서 reward를 최대화 하는 방향으로 행동을 학습하는 머신러닝 방법
머신러닝 시스템의 과정
- Preprocessing(전처리)-데이터를 사용하기 위해서 알맞게 자료를 수정한다고 생각하면 됨
-Data cleaning 사라진 값들을 채우거나 noise데이터를 다루고 outliers를 삭제하거나 일치하게 한다.
-Normalization(정규화) 0과 1사이로 feature values의 크기를 조정한다.
-Standardization(표준화) 평균 0, 표준편차 1이 되도록 변환하는 전처리 방법
여러 피처의 스케일이 다를 경우 학습이 비효율적이거나 왜곡될 수 있으나 표준화를 통해 해결 가능하다
-Feature Selection(특성선택) 모델을 구성할 때 유용한 특성을 선택하는 과정
모델 단순화 및 차원의 저주(curse of dimension) 회피
- Dimensionality Reduction (차원 축소) 고차원->저차원
PCA(데이터를 선형적으로 상관없는 변수들로 변환하는 기법)과 같은 방법을 사용
2. Learning(traing dataset)(학습)
알고리즘을 사용해서 모델을 학습하여 최종모델을 다음 입력으로 건내줌
3. Evaluation(test dataset)(평가)
-Overfitting(과적합)
훈련 데이터에 너무 과하게 맞춰져 테스트 데이터에 대한 일반화 성능이 떨어진다.(불필요한 패턴, 잡음까지 학습해서)
모델의 성능을 평가한다
4. Prediction(예측)
최종 학습된 모델에 새로운 데이터를 입력하여 예측된 레이블을 출력한다.