본문 바로가기

Contact English

【알고리즘】 13강. 앙상블 학습

 

13강. 앙상블 학습(autoencoder)

 

추천글 : 【알고리즘】 알고리즘 목차 


1. 개요 [본문]

2. 기법 [본문]


 

1.  개요 [목차]

⑴ 정의 : 여러 가지 모델들의 예측, 분류 결과를 종합하여 의사결정을 하는 기법  

특징 : 다양한 모형들의 예측 결과를 결합함으로써 단일 모형보다 신뢰성이 높음

⑶ 절차 

1단계. 트레이닝 데이터에서 여러 학습 집합들을 도출

2단계. 각 집합으로부터 모델을 학습 

3단계. 각 학습 모델로부터의 결과를 조합

4단계. 학습된 모델들의 최적 의견을 도출 

⑷ 앙상블 베이스 모형의 독립성을 증가시키는 방법

① 입력 변수를 다양하게 함

② 서로 다른 알고리즘을 사용

③ 매개변수를 다양하게 함

 

 

2. 기법 [목차]

⑴ bootstraping : 중복을 허용하는 데이터의 복원 추출 

기법 1. 배깅(bagging; bootstrap aggregating)

① 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블

② 데이터 포인트뿐만 아니라 피처도 샘플링할 수 있음 

랜덤 포레스트(random forest)

부트스트랩을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기들을 결합시키는 알고리즘 

○ 모델의 수, tree의 깊이, tree의 타입 (e.g., CART, C5) 등이 하이퍼파라미터가 됨 

기법 2. 부스팅(boosting)

① 잘못 분류된 개체들에 가중치를 적용하고, 새로운 분류 규칙을 만드는 과정을 반복해 최종 모형을 만드는 알고리즘

② 분류하기 힘든 관측값(hard sample)들에 대해서 정확하게 분류를 잘하도록 유도해서 예측력을 강화시키기 위함

③ 다소 높은 계산 복잡도가 있으나, 특정 케이스의 경우 상당히 높은 성능을 보임 

AdaBoost(adaptive boost) : 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선하는 알고리즘

GBM(gradient boost machine) : 경사 하강법(gradient descent)을 이용하여 가중치를 업데이트함으로써 최적화된 결과를 획득

CatBoost

XGBoost 

LightGBM

Gradient Boost

RUSTBoost

기법 3. 스태킹(stacking)

 

입력: 2023.06.27 00:55

수정: 2023.09.22 22:49