본문 바로가기

Contact English

【통계학】 20강. 회귀분석의 분산분석

 

20강. 회귀분석의 분산분석

 

추천글 : 【통계학】 통계학 목차


1. 단순선형회귀분석의 분산분석 [본문]

2. 공변량 분석 [본문]


 

1. 단순선형회귀분석의 분산분석 [목차]

⑴ 문제 상황

 

나이 (년) 진드기의 수
3 5
6 13
9 16
12 14
15 18
18 23
21 20
24 32
27 29
30 28

Table. 1. 단순선형회귀분석의 분산분석 예제]

 

t 통계표

 

요인 계수 표준오차 t significance
절편 5.733 2.265 2.531 0.035
나이 0.853 0.122 7.006 0.001

Table. 2. t 통계표

 

 

⑶ F 통계표

 

요인 제곱합 df 평균제곱 F significance
regression 539.648 1 539.648 49.086 < 0.001
residual 87.952 8 10.994    
총합 627.600 9      

Table. 3. F 통계표

 

① 귀무가설 H0 : 회귀선의 기울기가 0과 다름 없음

② 발상 : MS of Regression > MS of Residual이면 회귀선의 기울기는 0이 아님

③ 계산

 

 

회귀선의 자유도가 1인 이유 : 회귀변수가 한 개이므로

F 통계량이 t 통계량보다 검정력이 높은 이유 : F 통계량의 p value가 더 작음

① F 통계량은 t 통계량보다 더 많은 정보를 이용

② 마치 샘플 사이즈가 커지는 효과로 인해 F 통계량의 검정력이 더 큼

 

 

2. 공변량 분석(ANCOVA, analysis of covariance) [목차]

⑴ 개요

① one-way ANOVA에 단순선형회귀분석을 융합하는 개념

② 필요성 : 실제 문제 상황에서 한 요인의 교락효과로 제2의 요인이 달라지고, 이로 인해 종속변수에 영향을 미칠 수 있음

③ two-way ANOVA와의 차이점 : ANCOVA 기법은 특정 ANOVA 기법과 경합하지 않음. 두 기법을 동시에 할 수 있음

⑵ 문제상황

① 독립변수 : 오염된 광산 지역과 그렇지 않은 지역

② 종속변수 : 렛(rat)들의 장기의 납 농도

③ 교락효과(confounding effect) : 나이

⑶ 나이를 고려하지 않은 결과표

 

요인 제곱합 자유도 평균제곱 F 비
Treatment SS Treatment k-1 MS treatment = SS Treatment / (k-1)  F = MS Treatment / MS Error
Error SS Error N-k MS Error = SS Error / (N-k)  
합계 SS Total N-1    

 

Table. 4. 단순한 one-way ANOVA 결과표

  

나이 효과가 통제되지 않으면 잔차가 더 커짐

② 잔차가 커지면 MS Error가 커지고 F 비가 작아짐

③ F 비가 작아지면 검정력이 떨어짐 : 즉, treatment의 유의성 입증이 어려움

⑷ 가정

① 등분산성(homoscedasticity)

② 독립성(independency)

③ 정규성(normality)

④ 공변량(covariate)과 종속변수의 관계가 선형일 것

⑤ 평행성(parallelism)

○ 예를 들면 오염된 광산 지역과 그렇지 않은 지역 각각의 회귀선을 계산 시 기울기가 같을 것

○ 평행성을 만족한다는 것은 상호작용이 없다는 것과 동일한 의미

○ 만일 평행성이 만족하지 않으면 하나의 선택된 값(예 : 나이의 전체 평균)에 대해 차이를 비교하는 것은 공변량의 범위 전체를 대표할 수 없음

 

ANCOVA에서 평행성이 결여된 예
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 1. ANCOVA에서 평행성이 결여된 예]

 

○ ANCOVA를 하기 전에 나이와 지역의 상호작용을 먼저 평가하여 평행성을 확인해야 함

⑸ 과정

① 1st. 나이와 납의 상관관계 확인

 

나이와 납의 상관관계
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 2. 나이와 납의 상관관계]

 

② 2nd. 나이와 지역의 상호작용(interaction)이 통계적으로 유의하지 않음을 확인

 

요인 제곱합 자유도 평균제곱 F p value
Age          
Site          
Age × Site         NS
Error          
Total          

Table. 5. 상호작용을 포함한 결과표

 

③ 3rd. 납에 대한 나이의 회귀선 계산

 

납에 대한 나이의 회귀선
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 3. 납에 대한 나이의 회귀선]

 

④ 4th. 3rd에서 얻은 회귀선으로부터 다음 조건을 만족하는 두 개의 회귀선을 계산

 

두 개의 회귀선 계산
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 4. 두 개의 회귀선 계산]

 

○ 3rd에서 얻은 회귀선의 기울기는 유지한 채 y절편만 변경

○ 각 독립변수의 level에 대해서 제곱합이 최소가 되도록 할 것

⑤ 5th. 4th에서 얻은 각 회귀선으로부터 잔차 계산

 

잔차 계산
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 5. 잔차 계산]

 

⑥ 6th. 전체 집단에 대한 나이의 평균을 구한 뒤 그 값에 대한 각 회귀선의 함수값을 표준값으로 지정

○ 전체 집단에 대한 나이의 평균은 한 예시일 뿐 어떤 값이든 상관 없음

 

표준값 계산
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 6. 표준값 계산]

 

⑦ 7th. 각 treatment 그룹에 대해 표준값에서 5th에서 구한 잔차를 위아래로 표시

 

최종 결과
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 7. 최종 결과]

 

⑧ 8th. 최종적으로 SS Error가 더 작아졌음을 확인할 수 있음 : p value가 더 작아짐

 

결과 비교
출처 : Statistics Explained 2nd edition-Steve McKillup-Cambridge-2012

Figure. 8. 결과 비교]

 

⑹ 결과

① 보정 결과

 

오염된 광산 지역의 납 농도
출처 : 서울대학교 통계학 개론 및 실습(김희발 교수님) 수업

Figure. 9. 오염된 광산 지역의 납 농도]

 

그렇지 않은 지역의 납 농도
출처 : 서울대학교 통계학 개론 및 실습(김희발 교수님) 수업

Figure. 10. 그렇지 않은 지역의 납 농도]

 

② 보정 전 결과표

 

요인 제곱합 자유도 평균제곱 F p value
Site 320 1 320 2.74 0.115
Error 2100.8 18 116.71    
Total 2420.800 19      

Table. 6. 보정 전 결과표

 

③ 보정 후 결과표 : 회귀선으로부터 Age에 대한 제곱합을 계산할 수 있음

 

요인 제곱합 자유도 평균제곱 F p value
Age 1776.290 1 1776.290 93.054 < 0.001
Site 1094.335 1 1094.335 57.329 < 0.001
Error 324.510 17 19.089    
Total 2420.800 19      

Table. 7. 보정 후 결과표

 

④ 보고 양식 : A preliminary analysis for parallelism showed no significant difference between the slopes of the lines for lead concentration in relation to age (age × site: F1,16 = 0.00, NS). The subsequent ANCOVA showed a significant effect of site (F1,17 = 57.329, P < 0.001) as well as a significant effect of the covariate (age) (F1,17 = 93.054, P < 0.001). Rats from the mine site had higher levels of lead than those from the control.

오염된 광산 지역의 회귀선과 그렇지 않은 지역의 회귀선의 y 절편을 비교하지 않는 이유

① 상황 : 평행성(parallelism)을 만족하는 경우 y 절편을 비교하는 것이 훨씬 쉬움

② y 절편의 비교는 샘플 사이즈가 한 표본집단의 샘플 사이즈 수준

③ ANCOVA는 전체 에러 텀을 가지고 계산하므로 샘플 사이즈가 한 표본집단의 샘플 사이즈의 수준

④ 따라서 ANCOVA를 하면 y 절편을 단순 비교하는 것보다 검정력이 높아짐

응용 1. 2-factor ANCOVA

① 2-factor ANOVA 분석 시 ANCOVA 기법을 적용하는 것

② 예 : 독립변수가 성별, 약물이고 종속변수가 혈압이고 교락요인이 나이인 경우

응용 2. 교락요인이 여러 개인 경우

① 다중선형회귀분석을 이용

고급 회귀이론을 사용할 수도 있음

 

입력: 2019.12.07 23:04