【통계학】 18강. 회귀분석의 정규화

18강. 회귀분석의 정규화(regularization, penalization)

추천글 : 【통계학】 통계학 목차

1. 개요 [본문]

2. MSPE [본문]

3. 기법 1. Ridge regression [본문]

4. 기법 2. Lasso regression [본문]

5. 기법 3. 엘라스틱 넷 [본문]

6. 기법 4. SelectFromModel [본문]

1. 개요 [목차]

⑴ 회귀분석의 문제점 : 주로 회귀변수가 굉장히 많은 경우에서 두드러짐

① 다중공선성(multicollinearity)

② 언더피팅(underfitting) : 모델이 flexibity가 떨어져서 주어진 데이터를 제대로 학습하지 못하는 것

③ 오버피팅(overffiting)

○ 평범한 회귀분석인 OLS 추정을 하는 경우 표본의 부정확성을 학습하여 예측력이 떨어짐

○ 학습을 시킬 때 바이어스 또한 학습시키는 게 오히려 예측력을 개선시킴

⑵ regularization (penalization)

① 회귀분석의 문제점을 해결하기 위해 파라미터에 대한 panelty 항을 추가함

② regularization을 안 하면 오버피팅이 일어나고 너무 많이 하면 언더피팅이 일어남을 유의

③ 데이터 표준화(standardization)을 같이 수행해 주어야 함

○ 값이 큰 피처는 계수도 커져서 더 강하게 규제되어 계수가 과도하게 작아질 수 있음

○ 이에 반해 값이 작은 피처는 계수도 작아져 덜 규제되어 충분히 규제되지 않을 수 있음

④ 밸리데이션 세트로 파라미터(예 : panelty 항의 가중치)를 최적화하는 과정이 포함되기도 함

⑤ regularization의 예상 결과

출처 : 서울대학교 데이터사이언스의 원리와 응용(이상혁 교수님, 2021) 수업자료. Credit: Gonzalo R. Arce

Figure. 1. regularization의 예상 결과

2. MSPE(mean squared prediction error) : MSE라고도 함 [목차]

⑴ 개요

① 에러(error) : e를 squared error, h를 hypothesis, f를 true function이라고 할 때,

② 종류 1. in-sample error : training error라고도 함. bias와 유사함

③ 종류 2. out-of-sample error : generalization error, MSPE라고도 함. variance와 유사함

○ 1단계. 주어진 샘플을 가지고 예측모델을 생성

○ 2단계. 샘플 밖(OOS, out of sample)의 데이터 X^OOS, Y^OOS를 이용하여 예측값과 실제값을 비교

○ 단, ŷ은 샘플 내 데이터를 통해 얻은 예측값을 의미

④ (참고) bias-variance tradeoff

⑤ 최고 예측량 : oracle predictor라고 함. E(Y^OOS | X^OOS)

○ MSPE에서 발생된 예측 오류는 다음과 같음

○ 본질 에러(fundamental error) : 개선할 수 없음. Y^OOS - E(Y^OOS | X^OOS)

○ 추정 에러(estimation error) : Ŷ(X^OOS) - E(Y^OOS | X^OOS)

⑵ MSPE 추정량

① β가 알려져 있으면 MSPE = σ_u²가 성립

② k/n은 클 수 있음

⑶ 가정

① 가정 1. 다중 공선성이 없을 것

② 가정 2. (X^OOS, Y^OOS)가 동일한 모집단으로부터 랜덤하게 추출된 것일 것

⑷ 변형

① 표준화(standardization)

○ (X_i1*, ···, X_ki*, Y_i*)는 원본 샘플에서 추출된 값

○ X_ji를 (X_ji* - μ_Xj*) / σ_Xj*로 정의

○ 종속변수는 Yσ_j ← Yσ_j - μ_Y*로 변형

② 수축의 원리(principle of shrinkage)

○ MSPE를 줄일 수 있음

○ 대신 편향성이 발생함 : 트레이드오프

○ 가장 유명한 예는 James-Stein estimator임

⑸ in-sample MSPE 계산 : m-fold cross validation이 주로 사용

① 1^st. 주어진 샘플을 m개의 파트로 분류

② 2^nd. m-1개의 파트는 파라미터를 계산하는 데 이용 : 트레이닝 데이터

③ 3^rd. 나머지 1개의 파트는 퍼포먼스를 확인하는 데 사용 : 테스팅 데이터

④ 4^th. 이를 서로 다른 조합에 대해 m번 반복

⑤ 5^th. 평균을 취하여 최종 추정량을 결정

⑥ 일반적으로 10-fold cross validation이 사용됨

⑹ out-of-sample root MSPE 계산

① 다른 샘플의 데이터를 in-sample을 통해 얻은 학습 모델에 대입하여 퍼포먼스를 확인

② 다른 샘플의 데이터를 밸리데이션 세트(validation set)라고 함

3. 기법 1. Ridge regression [목차]

⑴ 개요

① 정의 : model complexity가 너무 크지 않도록 제곱의 형태로 패널티를 주는 방식. weight의 함수로 패널티를 제공

② L2 regularization이라고도 함

③ 역행렬의 부존재로 회귀분석의 해가 정의되지 않는 문제를 해결하기 위해 1962년 A. E. Hoerl에 의해 최초로 소개

④ Gaussian distribution에 대한 MAP learning

⑵ 목적 함수(objective function)

① 단순한 형태

② PRSS(penalized residual sum of squares)

⑶ 경우 1. 회귀변수들이 상관관계가 없는 경우

① 단순한 형태 : λ = 0일 때 구한 회귀변수 β̂_j에 대해 상대적으로 표현할 수 있음

② 행렬 표현 : Ridge objective function은 convex function이기 때문에 미분을 통해 쉽게 해를 도출할 수 있음

⑷ 경우 2. 회귀변수들이 상관관계가 있는 경우 : λ_Ridge에 따른 MSPE를 살펴야 함

① bias-variance trade-off

Figure. 2. 일반적인 bias-variance trade-off

② λ_Ridge는 cross validation을 통해 계산됨

③ λ_Ridge = 0은 in-sample 기준으로 가장 잘 들어맞지만 out-of-sample에 대해서는 잘 들어맞지 않음

Figure. 3. λ_Ridge에 따른 MSPE의 제곱근^]

⑸ Ridge regression 해의 특징

① 만일 X^tX의 역함수가 없어도 λ가 있음으로 인해 역함수를 구할 수 있게 함

② 각 λ별로 한 개의 추정량이 존재함

③ λ → 0 : overfitting. linear regression solution, 즉 OLS 해에 도달함

④ λ → ∞ : underfitting. 각 계수 w는 0과 가까워짐 (∵ 계수들의 절대값이 큰 것에 대해 패널티를 부과)

⑹ 응용 1. soft order constraints : 결국 || w || ≤ C와 같은 부등식 제약이 등호 제약으로 바뀌게 됨

⑺ 응용 2. weight decay : || w ||는 error-term처럼 보아 일반적인 신경망 업데이트 접근 방법을 사용할 수 있음

① 일반적인 gradient descent : w_t - η∇E_in(w_t)

⑻ 응용 3. MAP(maximum a posterier)

① Bayes rule

② 일반적인 MAP learning : Bayes rule에서 "P(D) = 일정"인 상황을 상기

○ 정규분포를 따른다는 가정 : 단, w가 w₀를 제외하고는 priori와 무관하고 작다는 가정

③ Ridge regression에서의 MAP learning

⑼ 응용 4. 다른 방법과의 비교

Figure. 4. 예측 퍼포먼스 비교

4. 기법 2. Lasso regression (least absolute shrinkage and selection operator) [목차]

⑴ 개요

① 정의 : model complexity가 너무 크지 않도록 절댓값의 형태로 패널티를 주는 방식. weight의 함수로 패널티를 제공

② L1 regularization이라고도 함

③ Laplacian prior에 대한 MAP learning

Figure. 5. Laplace probability density function

⑵ 목적 함수(objective function)

① 단순한 형태

② 행렬 표현

⑶ 목적함수의 해 : λ_Lasso에 따른 MSPE를 구함

&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lambda;Lasso에 따른 MSPE의 제곱근 — 출처 : 서울대학교 계량경제학(Okui Ryo, 2019) 수업

Figure. 6. λ_Lasso에 따른 MSPE의 제곱근^]

① λ_Lasso는 cross validation을 통해 계산됨

② Ridge regression에 비해 일반적인 함수 형태가 없음

⑷ 특징

① 모델이 성김 특성(sparsity property)이 있는 경우 유용 : 즉, 많은 계수들이 0인 경우

② λ → 0 : linear regression solution, 즉 OLS 해에 도달. in-sample은 가장 잘 맞고 out-of-sample은 잘 안 맞음

③ λ → ∞ : 각 계수 w는 0과 가까워짐 (∵ 계수들의 절대값이 큰 것에 대해 패널티를 부과)

⑸ 응용 1. sparsity의 원리

① Laplace prior는 덜 중요한 변수들을 딱 0으로 만듦 : 중요하지 않은 변수를 제거하는 효과

Figure. 7. shrinkage factor에 따른 각 계수의 추이 ^]

② sparsity의 원리에 대한 도식

Figure. 8. Lasso regression의 sparsity에 대한 직관적인 이해^]

○ 붉은색 타원은 MSE(mean squared error)가 동일한 점들을 연결해 놓은 것

○ 하늘색 영역은 penalty가 일정한 점들을 연결해 놓은 것

○ λ가 증가하면 penality가 증가하므로 LASSO와 Ridge 모두 shrink함

○ Ridge의 경우 붉은색 타원과 원형 하늘색 영역이 접하는 지점에서 최적해가 생성 : 만약 접하지 않으면 붉은색 타원을 따라가다 보면 원점과 더 가까운 (penality가 더 작은) 부분이 존재함

○ LASSO의 경우 원형 하늘색 영역이 충분히 작은 경우 특정 계수가 0인 지점에서 최적해가 생성 : 뾰족한 그 지점에서 하늘색 영역의 가장자리를 따라 움직이면 붉은색 타원의 '밖' (→ MSE가 커짐)으로 벗어남

○ 이로 인해 Ridge와 달리 LASSO는 sparsity를 유도함

⑹ 응용 2. 다른 방법과의 비교

Figure. 9. 예측 퍼포먼스 비교

5. 기법 3. 엘라스틱 넷(elastic net) [목차]

⑴ 라쏘(lasso)와 릿지(ridge) 두 개를 선형 결합한 방법. 즉, 가중치 절댓값의 합과 제곱 합을 동시에 추가적인 제약조건으로 하는 방법

⑵ 파라미터 1. alpha (α) : L1과 L2 penalty의 혼합 비율을 조절. α = 1이면 Lasso, α = 0이면 Ridge와 동일해짐

⑶ 파라미터 2. lambda (λ) : penalty의 강도를 조절하는 파라미터. 전체 규제항에 곱해짐

6. 기법 4. SelectFromModel [목차]

⑴ 의사결정나무(decision tree) 기반 알고리즘에서 변수를 선택하는 방법

입력: 2019.12.08 12:35

수정: 2024.09.27 08:47

저작자표시 (새창열림)

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

【통계학】 통계학 기초 문제 [01-20] (5)	2024.12.24
【통계학】 14-10강. Cochran-Mantel-Haenszel (CMH) 검정 (7)	2024.10.14
【통계학】 21강. 정보이론 (5)	2024.10.07
【통계학】 14-4강. 우도비 검정과 Wilks’ phenomenon 증명 (3)	2024.09.25
【통계학】 Optimal Transport 및 Gromov-Wasserstein 거리 이해하기 (3)	2023.11.04

정빈이의 공부방

최근댓글

【통계학】 18강. 회귀분석의 정규화

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

티스토리툴바

【통계학】 18강. 회귀분석의 정규화

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

'▶ 자연과학/▷ 조합론·통계학' 관련 포스팅

티스토리툴바