GBM 부스팅 알고리즘이란? 여러 개의 약한 모델을 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선해 나아가는 방식 종류 → AdaBoost, GBM, XGBoost, LGBM AdaBoost = 첫 번째 약한 학습기가 분류 기준 1로 분류. → 이 오류 데이터에 대해 가중치 값 부여, 가중치가 부여된 오류 데이터는 다음 약한 학습기가 더 잘 분류할 수 있게 크기가 커짐. → 두 번째 약한 학습기가 분류 기준 2로 분류 → 잘못 분류된 오류 데이터에 대해 다음 약한 학습기가 잘 분류할 수 있게 더 큰 가중치를 부여함 → 세 번째 약한 학습기가 분류 기준 3로 분류하고 오류 데이터 찾음. 에이다부스트는 이렇게 약한 학습기가 순차적으로 오류 값에 대해 가중치를 부여한 예측 결정 ..
랜덤포레스트 결정 트리를 기본 모델로 이용하는 앙상블 기법 여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨. bootstrapping(샘플을 여러개 뽑음) + aggregating(각 모델을 학습시킨 결과물 집계) +OOB(Out-Of-Bag) : 샘플링 과정에서 선택되지 않은 데이터 → 모델 검증에 이용 가능 → OOB 샘플 (전체의 36.8%)로 모델 검증 어떤 한 샘플이 추출되지 않을 확률 = 36.8% 학습 도중 생성한 tree에 OOB 데이터를 넣고 accuracy나 error rate 등을 측정하면 학습이 잘 진행되고 있는지, overfitting은 없는지 등의 여부를 ..
목차 1. 결정 트리 2. 앙상블 학습 1.결정 트리 decision tree 2. 앙상블 학습 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법. 전통적으로 보팅, 배깅, 부스팅 3가지. 보팅 → 서로 다른 알고리즘을 가진 분류기를 결합 ex) 선형 회귀, K 최근접 이웃, 서포트 벡터 머신 배깅 → 각각의 분류기가 모두 같은 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅을 수행하는 것. (bootstrap + aggregating) : 개별 분류기가 부트스트래핑 방식으로 샘플링된 데이터 세트에 대해서 학습을 통해 개별적인 예측을 수행한 결과를 보팅을 통해서 최종 예측 결과를 선정하는 방식 부스팅 → 여러 분류기가 순차적으로 학..