5-1강. 빅데이터의 정규화(regularization of big data)
추천글 : 【알고리즘】 5강. 회귀 알고리즘
1. 빅데이터 [목차]
⑴ 정의
① 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍트임
② 빅데이터는 일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
③ 빅데이터는 양(volume), 다양성(variety), 속도(velocity)가 급격히 증가하면서 나타난 현상
⑵ 분야 1. 빅데이터의 정규화(regularization) : 주로 회귀변수가 굉장히 많은 경우가 문제가 됨
⑶ 분야 2. 카테고리화(categorization)
① 2-1. 분류 알고리즘
② 2-2. 클러스터링 알고리즘
⑶ 분야 3. 다중가설(multiple hypothesis) 혹은 hypothesis-free approach
⑷ 분야 4. 비표준 데이터 분석(nonstandard data analysis)
① 4-1. 이미지 패턴 인식(pattern recognition)
② 4-2. 자연어 처리(NLP, natural language processing)
2. 빅데이터 회귀식의 정규화 [목차]
⑴ 개요
① 언더피팅(underfitting)
○ 모델이 flexibity가 떨어져서 주어진 데이터를 제대로 학습하지 못하는 것
② 오버피팅(overffiting)
○ 평범한 회귀분석인 OLS 추정을 하는 경우 표본의 부정확성을 학습하여 예측력이 떨어짐
○ 학습을 시킬 때 바이어스 또한 학습시키는 게 오히려 예측력을 개선시킴
③ regularization : 밸리데이션 세트로 파라미터를 최적화하는 과정
○ 목적 : 샘플을 오버피팅하여 샘플 밖에서 예측력이 떨어지는 것을 방지하기 위함
○ regularization을 안 하면 오버피팅이 일어나고 너무 많이 하면 언더피팅이 일어남을 유의
○ regularization의 예상 결과
Figure. 1. regularization의 예상 결과
④ 위와 같은 이슈는 주로 회귀변수가 굉장히 많은 경우에서 두드러짐
⑵ MSPE(mean squared prediction error) : MSE라고도 함
① 개요
○ 에러(error) : e를 squared error, h를 hypothesis, f를 true function이라고 할 때,
○ 종류 1. in-sample error : training error라고도 함. bias와 유사함
○ 종류 2. out-of-sample error : generalization error, MSPE라고도 함. variance와 유사함
○ 1단계. 주어진 샘플을 가지고 예측모델을 생성
○ 2단계. 샘플 밖(OOS, out of sample)의 데이터 XOOS, YOOS를 이용하여 예측값과 실제값을 비교
○ 단, ŷ은 샘플 내 데이터를 통해 얻은 예측값을 의미
○ (참고) bias-variance tradeoff
○ 최고 예측량 : oracle predictor라고 함. E(YOOS | XOOS)
○ MSPE에서 발생된 예측 오류는 다음과 같음
○ 본질 에러(fundamental error) : 개선할 수 없음. YOOS - E(YOOS | XOOS)
○ 추정 에러(estimation error) : Ŷ(XOOS) - E(YOOS | XOOS)
② MSPE 추정량
○ β가 알려져 있으면 MSPE = σu2가 성립
○ k/n은 클 수 있음
③ 가정
○ 가정 1. 다중 공선성이 없을 것
○ 가정 2. (XOOS, YOOS)가 동일한 모집단으로부터 랜덤하게 추출된 것일 것
④ 변형
○ 표준화(standardization)
○ (Xi1*, ···, Xki*, Yi*)는 원본 샘플에서 추출된 값
○ Xji를 (Xji* - μXj*) / σXj*로 정의
○ 종속변수는 Yσj ← Yσj - μY*로 변형
○ 수축의 원리(principle of shrinkage)
○ MSPE를 줄일 수 있음
○ 대신 편향성이 발생함 : 트레이드오프
○ 가장 유명한 예는 James-Stein estimator임
⑤ in-sample MSPE 계산 : m-fold cross validation이 주로 사용
○ 1st. 주어진 샘플을 m개의 파트로 분류
○ 2nd. m-1개의 파트는 파라미터를 계산하는 데 이용 : 트레이닝 데이터
○ 3rd. 나머지 1개의 파트는 퍼포먼스를 확인하는 데 사용 : 테스팅 데이터
○ 4th. 이를 서로 다른 조합에 대해 m번 반복
○ 5th. 평균을 취하여 최종 추정량을 결정
○ 일반적으로 10-fold cross validation이 사용됨
⑥ out-of-sample root MSPE 계산
○ 다른 샘플의 데이터를 in-sample을 통해 얻은 학습 모델에 대입하여 퍼포먼스를 확인
○ 다른 샘플의 데이터를 밸리데이션 세트(validation set)라고 함
⑶ 기법 1. Ridge regression
① 개요
○ 정의 : model complexity가 너무 크지 않도록 제곱의 형태로 패널티를 주는 방식. weight의 함수로 패널티를 제공
○ L2 regularization이라고도 함
○ 역행렬의 부존재로 회귀분석의 해가 정의되지 않는 문제를 해결하기 위해 1962년 A. E. Hoerl에 의해 최초로 소개
○ Gaussian distribution에 대한 MAP learning
② 목적 함수(objective function)
○ 단순한 형태
○ PRSS(penalized residual sum of squares)
③ 경우 1. 회귀변수들이 상관관계가 없는 경우
○ 단순한 형태 : λ = 0일 때 구한 회귀변수 β̂j에 대해 상대적으로 표현할 수 있음
○ 행렬 표현 : Ridge objective functon은 convex function이기 때문에 미분을 통해 쉽게 해를 도출할 수 있음
④ 경우 2. 회귀변수들이 상관관계가 있는 경우 : λRidge에 따른 MSPE를 살펴야 함
○ bias-variance trade-off
Figure. 2. 일반적인 bias-variance trade-off
○ λRidge는 cross validation을 통해 계산됨
○ λRidge = 0은 in-sample 기준으로 가장 잘 들어맞지만 out-of-sample에 대해서는 잘 들어맞지 않음
Figure. 3. λRidge에 따른 MSPE의 제곱근
⑤ Ridge regression 해의 특징
○ 만일 XtX의 역함수가 없어도 λ가 있음으로 인해 역함수를 구할 수 있게 함
○ 각 λ별로 한 개의 추정량이 존재함
○ λ → 0 : overfitting. linear regression solution, 즉 OLS 해에 도달함
○ λ → ∞ : underfitting. 각 계수 w는 0과 가까워짐 (∵ 계수들의 절대값이 큰 것에 대해 패널티를 부과)
⑥ 응용 1. soft order constraints : 결국 || w || ≤ C와 같은 부등식 제약이 등호 제약으로 바뀌게 됨
⑦ 응용 2. weight decay : || w ||는 error-term처럼 보아 일반적인 신경망 업데이트 접근 방법을 사용할 수 있음
○ 일반적인 gradient descent : wt - η∇Ein(wt)
⑧ 응용 3. MAP(maximum a posterier)
○ Bayes rule
○ 일반적인 MAP learning : Bayes rule에서 P(D) = 일정한 상황을 상기
○ 정규분포를 따른다는 가정 : 단, w가 w0를 제외하고는 priori와 무관하고 작다는 가정
○ Ridge regression에서의 MAP learning
⑷ 기법 2. Lasso regression (least absolute shrinkage and selection operator)
① 개요
○ 정의 : model complexity가 너무 크지 않도록 절댓값의 형태로 패널티를 주는 방식. weight의 함수로 패널티를 제공
○ L1 regularization이라고도 함
○ Laplacian prior에 대한 MAP learning
Figure. 4. Laplace probability density function
② 목적 함수(objective function)
○ 단순한 형태
○ 행렬 표현
③ 목적함수의 해 : λLasso에 따른 MSPE를 구함
Figure. 5. λLasso에 따른 MSPE의 제곱근
○ λLasso는 cross validation을 통해 계산됨
○ Ridge regression에 비해 일반적인 함수 형태가 없음
③ 특징
○ 모델이 성김 특성(sparsity property)이 있는 경우 유용 : 즉, 많은 계수들이 0인 경우
○ λ → 0 : linear regression solution, 즉 OLS 해에 도달. in-sample은 가장 잘 맞고 out-of-sample은 잘 안 맞음
○ λ → ∞ : 각 계수 w는 0과 가까워짐 (∵ 계수들의 절대값이 큰 것에 대해 패널티를 부과)
④ 응용 1. sparsity의 원리
○ Laplace prior는 덜 중요한 변수들을 딱 0으로 만듦 : 중요하지 않은 변수를 제거하는 효과
Figure. 6. shrinkage factor에 따른 각 계수의 추이
○ sparsity의 원리에 대한 도식
Figure. 7. Lasso regression의 sparsity에 대한 직관적인 이해
○ 붉은색 타원은 MSE(mean squared error)가 동일한 점들을 연결해 놓은 것
○ 하늘색 영역은 penalty가 일정한 점들을 연결해 놓은 것
○ λ가 증가하면 penality가 증가하므로 LASSO와 Ridge 모두 shrink함
○ Ridge의 경우 붉은색 타원과 원형 하늘색 영역이 접하는 지점에서 최적해가 생성 : 만약 접하지 않으면 붉은색 타원을 따라가다 보면 원점과 더 가까운 (penality가 더 작은) 부분이 존재함
○ LASSO의 경우 원형 하늘색 영역이 충분히 작은 경우 특정 계수가 0인 지점에서 최적해가 생성 : 뾰족한 그 지점에서 하늘색 영역의 가장자리를 따라 움직이면 붉은색 타원의 '밖' (→ MSE가 커짐)으로 벗어남
○ 이로 인해 Ridge와 달리 LASSO는 sparsity를 유도함
⑸ 기법 3. 엘라스틱 넷(elastic net)
① 라쏘(lasso)와 릿지(ridge) 두 개를 선형 결합한 방법
② 가중치 절댓값의 합과 제곱 합을 동시에 추가적인 제약조건으로 하는 방법
⑹ 기법 4. SelectFromModel
① 의사결정나무(decision tree) 기반 알고리즘에서 변수를 선택하는 방법
입력: 2019.12.08 12:35
'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글
【알고리즘】 14강. 다층 퍼셉트론 (0) | 2021.11.21 |
---|---|
【알고리즘】 10강. 딥러닝 개요 (0) | 2021.11.21 |
【알고리즘】 4강. 데이터 시각화 (0) | 2021.10.28 |
【알고리즘】 1-1강. 정렬 알고리즘 실험 (0) | 2021.10.01 |
【알고리즘】 3강. 자료구조 (0) | 2021.09.22 |
최근댓글