【알고리즘】 13강. 앙상블 학습

13강. 앙상블 학습(autoencoder)

추천글 : 【알고리즘】 알고리즘 목차

1. 개요 [본문]

2. 기법 [본문]

1. 개요 [목차]

⑴ 정의 : 여러 가지 모델들의 예측, 분류 결과를 종합하여 의사결정을 하는 기법

⑵ 특징 : 다양한 모형들의 예측 결과를 결합함으로써 단일 모형보다 신뢰성이 높음

⑶ 절차

① 1단계. 트레이닝 데이터에서 여러 학습 집합들을 도출

② 2단계. 각 집합으로부터 모델을 학습

③ 3단계. 각 학습 모델로부터의 결과를 조합

④ 4단계. 학습된 모델들의 최적 의견을 도출

⑷ 앙상블 베이스 모형의 독립성을 증가시키는 방법

① 입력 변수를 다양하게 함

② 서로 다른 알고리즘을 사용

③ 매개변수를 다양하게 함

2. 기법 [목차]

⑴ bootstraping : 중복을 허용하는 데이터의 복원 추출

⑵ 기법 1. 배깅(bagging; bootstrap aggregating)

① 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블

② 데이터 포인트뿐만 아니라 피처도 샘플링할 수 있음

③ 랜덤 포레스트(random forest)

○ 부트스트랩을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기들을 결합시키는 알고리즘

○ 모델의 수, tree의 깊이, tree의 타입 (e.g., CART, C5) 등이 하이퍼파라미터가 됨

⑶ 기법 2. 부스팅(boosting)

① 잘못 분류된 개체들에 가중치를 적용하고, 새로운 분류 규칙을 만드는 과정을 반복해 최종 모형을 만드는 알고리즘

② 분류하기 힘든 관측값(hard sample)들에 대해서 정확하게 분류를 잘하도록 유도해서 예측력을 강화시키기 위함

③ 다소 높은 계산 복잡도가 있으나, 특정 케이스의 경우 상당히 높은 성능을 보임

④ AdaBoost(adaptive boost) : 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선하는 알고리즘

⑤ GBM(gradient boost machine) : 경사 하강법(gradient descent)을 이용하여 가중치를 업데이트함으로써 최적화된 결과를 획득

⑥ CatBoost

⑦ XGBoost

⑧ LightGBM

⑨ Gradient Boost

⑩ RUSTBoost

⑷ 기법 3. 스태킹(stacking)

⑸ 기법 4. parametric bootstrap

① Monte Carlo sampling : 특정 확률분포에서 표본 추출

② bootstrap : 원래 데이터에서 재표본 추출. 데이터의 분포를 모르거나 복잡한 경우에 유리함

③ parametric bootstrap : 데이터가 특정 분포를 따른다고 추정하고 추정된 모델 및 모수에서 샘플 생성

입력: 2023.06.27 00:55

수정: 2023.09.22 22:49

'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글

【알고리즘】 9강. 패턴 인식 알고리즘 (0)	2023.12.19
【알고리즘】 8강. 클러스터링 알고리즘 (0)	2023.09.22
【알고리즘】 20강. 오토인코더 (0)	2023.06.27
【알고리즘】 17강. RNN 알고리즘 (0)	2023.06.27
【알고리즘】 21-1강. 프롬프트 엔지니어링 (0)	2023.04.03

정빈이의 공부방

최근댓글

【알고리즘】 13강. 앙상블 학습

'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글

티스토리툴바

【알고리즘】 13강. 앙상블 학습

'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글

'▶ 자연과학/▷ 알고리즘·머신러닝' 관련 포스팅

티스토리툴바