본문 바로가기

Contact 日本語 English

【알고리즘】 5-1강. 빅데이터의 정규화

 

5-1강. 빅데이터의 정규화(regularization of big data)

 

추천글 : 【알고리즘】 5강. 회귀 알고리즘 


1. 빅데이터 [본문]

2. 빅데이터 회귀식의 정규화 [본문]


 

1. 빅데이터 [목차]

⑴ 정의

① 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍트임

② 빅데이터는 일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

③ 빅데이터는 양(volume), 다양성(variety), 속도(velocity)가 급격히 증가하면서 나타난 현상 

분야 1. 빅데이터의 정규화(regularization) : 주로 회귀변수가 굉장히 많은 경우가 문제가 됨

분야 2. 카테고리화(categorization)

2-1. 분류 알고리즘 

2-2. 클러스터링 알고리즘 

분야 3. 다중가(multiple hypothesis) 혹은 hypothesis-free approach 

분야 4. 비표준 데이터 분석(nonstandard data analysis)

① 4-1. 이미지 패턴 인식(pattern recognition) 

4-2. 자연어 처리(NLP, natural language processing)

 

 

2. 빅데이터 회귀식의 정규화 [목차]

⑴ 개요

언더피팅(underfitting)

○ 모델이 flexibity가 떨어져서 주어진 데이터를 제대로 학습하지 못하는 것

오버피팅(overffiting)

○ 평범한 회귀분석인 OLS 추정을 하는 경우 표본의 부정확성을 학습하여 예측력이 떨어짐

○ 학습을 시킬 때 바이어스 또한 학습시키는 게 오히려 예측력을 개선시킴

③ regularization : 밸리데이션 세트로 파라미터를 최적화하는 과정

○ 목적 :플을 오버피팅하여 샘플 밖에서 예측력이 떨어지는 것을 방지하기 위함

○ regularization을 안 하면 오버피팅이 일어나고 너무 많이 하면 언더피팅이 일어남을 유의 

○ regularization의 예상 결과

 

출처 : 서울대학교 데이터사이언스의 원리와 응용(이상혁 교수님, 2021) 수업자료. Credit: Gonzalo R. Arce

Figure. 1. regularization의 예상 결과

 

위와 같은 이슈는 주로 회귀변수가 굉장히 많은 경우에서 두드러짐  

⑵ MSPE(mean squared prediction error) : MSE라고도 함

① 개요

○ 에러(error) : e를 squared error, h를 hypothesis, f를 true function이라고 할 때, 

종류 1. in-sample error : training error라고도 함. bias와 유사함

 

 

종류 2. out-of-sample error : generalization error, MSPE라고도 함. variance와 유사함

 

 

1단계. 주어진 샘플을 가지고 예측모델을 생성

2단계. 샘플 밖(OOS, out of sample)의 데이터 XOOS, YOOS를 이용하여 예측값과 실제값을 비교

○ 단, ŷ은 샘플 내 데이터를 통해 얻은 예측값을 의미

○ (참고) bias-variance tradeoff 

○ 최고 예측량 : oracle predictor라고 함. E(YOOS | XOOS)

MSPE에서 발생된 예측 오류는 다음과 같음 

○ 본질 에러(fundamental error) : 개선할 수 없음. YOOS - E(YOOS | XOOS

○ 추정 에러(estimation error) : Ŷ(XOOS) - E(YOOS | XOOS)  

② MSPE 추정량

 

 

○ β가 알려져 있으면 MSPE = σu2가 성립

○ k/n은 클 수 있음

③ 가정

가정 1. 다중 공선성이 없을 것

가정 2. (XOOS, YOOS)가 동일한 모집단으로부터 랜덤하게 추출된 것일 것

④ 변형

○ 표준화(standardization)

○ (Xi1*, ···, Xki*, Yi*)는 원본 샘플에서 추출된 값

○ Xji를 (Xji* - μXj*) / σXj*로 정의

○ 종속변수는 Yσj ← Yσj - μY*로 변형

○ 수축의 원리(principle of shrinkage)

 

 

○ MSPE를 줄일 수 있음

○ 대신 편향성이 발생함 : 트레이드오프

○ 가장 유명한 예는 James-Stein estimator임

in-sample MSPE 계산 : m-fold cross validation이 주로 사용

○ 1st. 주어진 샘플을 m개의 파트로 분류

○ 2nd. m-1개의 파트는 파라미터를 계산하는 데 이용 : 트레이닝 데이터

○ 3rd. 나머지 1개의 파트는 퍼포먼스를 확인하는 데 사용 : 테스팅 데이터

○ 4th. 이를 서로 다른 조합에 대해 m번 반복

○ 5th. 평균을 취하여 최종 추정량을 결정

 

 

○ 일반적으로 10-fold cross validation이 사용됨

⑥ out-of-sample root MSPE 계산

○ 다른 샘플의 데이터를 in-sample을 통해 얻은 학습 모델에 대입하여 퍼포먼스를 확인

○ 다른 샘플의 데이터를 밸리데이션 세트(validation set)라고 함

기법 1. Ridge regression 

① 개요

정의 : model complexity가 너무 크지 않도록 제곱의 형태로 패널티를 주는 방식. weight의 함수로 패널티를 제공

○ L2 regularization이라고도 함

○ 역행렬의 부존재로 회귀분석의 해가 정의되지 않는 문제를 해결하기 위해 1962년 A. E. Hoerl에 의해 최초로 소개

 

 

Gaussian distribution에 대한 MAP learning 

② 목적 함수(objective function)

○ 단순한 형태

 

 

○ PRSS(penalized residual sum of squares)

 

 

경우 1. 회귀변수들이 상관관계가 없는 경우 

단순한 형태 : λ = 0일 때 구한 회귀변수 β̂j에 대해 상대적으로 표현할 수 있음

 

 

○ 행렬 표현 : Ridge objective functon은 convex function이기 때문에 미분을 통해 쉽게 해를 도출할 수 있음

 

 

경우 2. 회귀변수들이 상관관계가 있는 경우 : λRidge에 따른 MSPE를 살펴야 함

○ bias-variance trade-off

 

출처 : 서울대학교 데이터사이언스의 원리와 응용(이상혁 교수님, 2021) 수업자료. Credit: Gonzalo R. Arce

Figure. 2. 일반적인 bias-variance trade-off

 

○ λRidge는 cross validation을 통해 계산됨

λRidge = 0은 in-sample 기준으로 가장 잘 들어맞지만 out-of-sample에 대해서는 잘 들어맞지 않음

 

출처 : 서울대학교 계량경제학(Okui Ryo, 2019) 수업

Figure. 3. λRidge에 따른 MSPE의 제곱근]

 

⑤ Ridge regression 해의 특징

○ 만일 XtX의 역함수가 없어도 λ가 있음으로 인해 역함수를 구할 수 있게 함

○ 각 λ별로 한 개의 추정량이 존재함

○ λ → 0 : overfitting. linear regression solution, 즉 OLS 해에 도달함 

○ λ → : underfitting. 각 계수 w는 0과 가까워짐 ( 계수들의 절대값이 큰 것에 대해 패널티를 부과)

응용 1. soft order constraints : 결국 || w || ≤ C와 같은 부등식 제약이 등호 제약으로 바뀌게 됨

 

 

응용 2. weight decay : || w ||는 error-term처럼 보아 일반적인 신경망 업데이트 접근 방법을 사용할 수 있음  

○ 일반적인 gradient descent : wt - η∇Ein(wt)

 

 

응용 3. MAP(maximum a posterier)

○ Bayes rule

 

 

○ 일반적인 MAP learning : Bayes rule에서 P(D) = 일정한 상황을 상기 

 

 

○ 정규분포를 따른다는 가정 : 단, w가 w0를 제외하고는 priori와 무관하고 작다는 가정

 

 

○ Ridge regression에서의 MAP learning

 

 

기법 2. Lasso regression (least absolute shrinkage and selection operator)

개요 

정의 : model complexity가 너무 크지 않도록 절댓값의 형태로 패널티를 주는 방식. weight의 함수로 패널티를 제공

○ L1 regularization이라고도 함

Laplacian prior에 대한 MAP learning 

 

Figure. 4. Laplace probability density function

 

② 목적 함수(objective function)

○ 단순한  형태

 

 

○ 행렬 표현

 

 

③ 목적함수의 해 : λLasso에 따른 MSPE를 구함

 

λLasso에 따른 MSPE의 제곱근
출처 : 서울대학교 계량경제학(Okui Ryo, 2019) 수업

Figure. 5. λLasso에 따른 MSPE의 제곱근]

 

λLasso는 cross validation을 통해 계산됨

○ Ridge regression에 비해 일반적인 함수 형태가 없음

③ 특징

모델이 성김 특성(sparsity property)이 있는 경우 유용 : 즉, 많은 계수들이 0인 경우

○ λ → 0 : linear regression solution, 즉 OLS 해에 도달. in-sample은 가장 잘 맞고 out-of-sample은 잘 안 맞음

○ λ →  : 각 계수 w는 0과 가까워짐 ( 계수들의 절대값이 큰 것에 대해 패널티를 부과)

응용 1. sparsity의 원리

○ Laplace prior는 덜 중요한 변수들을 딱 0으로 만듦 : 중요하지 않은 변수를 제거하는 효과 

 

출처 : 서울대학교 데이터사이언스의 원리와 응용(이상혁 교수님, 2021) 수업자료. Credit: Gonzalo R. Arce

Figure. 6. shrinkage factor에 따른 각 계수의 추이 ]

 

sparsity의 원리에 대한 도식

 

출처 : 서울대학교 데이터사이언스의 원리와 응용(이상혁 교수님, 2021) 수업자료. Credit: Gonzalo R. Arce

Figure. 7. Lasso regression의 sparsity에 대한 직관적인 이해]

 

○ 붉은색 타원은 MSE(mean squared error)가 동일한 점들을 연결해 놓은 것

○ 하늘색 영역은 penalty가 일정한 점들을 연결해 놓은 것

λ가 증가하면 penality가 증가하므로 LASSO와 Ridge 모두 shrink함

○ Ridge의 경우 붉은색 타원과 원형 하늘색 영역이 접하는 지점에서 최적해가 생성 : 만약 접하지 않으면 붉은색 타원을 따라가다 보면 원점과 더 가까운 (penality가 더 작은) 부분이 존재함

○ LASSO의 경우 원형 하늘색 영역이 충분히 작은 경우 특정 계수가 0인 지점에서 최적해가 생성 : 뾰족한 그 지점에서 하늘색 영역의 가장자리를 따라 움직이면 붉은색 타원의 '밖' (→ MSE가 커짐)으로 벗어남

○ 이로 인해 Ridge와 달리 LASSO는 sparsity를 유도함 

기법 3. 엘라스틱 넷(elastic net)

① 라쏘(lasso)와 릿지(ridge) 두 개를 선형 결합한 방법

② 가중치 절댓값의 합과 제곱 합을 동시에 추가적인 제약조건으로 하는 방법

기법 4. SelectFromModel

의사결정나무(decision tree) 기반 알고리즘에서 변수를 선택하는 방법 

 

입력: 2019.12.08 12:35