본문 바로가기

Contact English

【통계학】 19강. 고급 회귀분석

 

19강. 고급 회귀분석

 

추천글 : 【통계학】 통계학 목차


1. 타당도 [본문]

2. 패널 데이터 [본문]

3. 도구 변수 [본문]

4. 랜덤 통제 실험 [본문]

5. 유사실험 [본문]

6. heterogeneous population [본문]


 

1. 타당도(validity) [목차]

⑴ 내부적 타당도(internal validity)

① 정의 : 회귀분석 결과 얻은 계수가 타당하게 계산된 것인지에 대한 정성적 평가

위협 요인 1. omitted variable bias

○ 정의 : 다음 두 가지 조건을 만족하는 변수가 존재하는 경우 잔차의 기댓값이 0이 아니게 되는 것

조건 1. 하나 또는 몇 개의 기존 변수들과 상관관계가 있을 것

조건 2. 생략된 변수가 Y의 결정자(determinator)일 것

○ 잔차의 기댓값 예시

 

 

○ 해결방법

○ omitted variable을 회귀분석 시에 포함

○ 만일 해당 omitted variable에 관한 데이터가 없는 경우 다음 3가지 방법이 존재함

방법 1. 패널 데이터(panel data) : 시간에 따라 변하지 않는 특성인 경우 제거 가능

방법 2. 도구변수 회귀(instrumental variable regression) : 도구변수를 통해 에센스 정보만 추출할 수 있음

방법 3. 랜덤 통제 실험 하에서 새롭게 정보를 수집하는 방법

위협 요인 2. wrong functional form bias

○ 정의 : 비선형 관계에 선형회귀분석을 함으로써 생기는 바이어스

○ omitted variable bias의 일종

위협 요인 3. errors-in-variable bias 또는 measurement error in the regressors

○ 정의 : 측정오차가 있는 독립변수 X̃i 는 오차 vi와 상관관계를 보일 수 있음

○ 수식화

 

 

문제점 1. 계량경제학의 철의 법칙(the iron law of econometrics) : 기울기의 OLS 추정량은 참값보다 낮아지는 경향이 있음

 

 

문제점 2. OLS 추정량이 일관성(consistency)이 없음

문제점 3. 통계적 추론이 부정확함

○ 해결방법

방법 1. 측정기기의 정확도 향상

방법 2. 도구변수 회귀 : 도구변수를 통해 에센스 정보만 추출할 수 있음

방법 3. 오차 보정 : 오차가 패턴이 있는 경우 보정 가능

○ (참고) 종속변수에 측정오차가 있는 경우

○ 수식화

 

 

○ 기울기의 추정량은 변하지 않음

 

 

○ 단순선형회귀모델의 3대 가정을 만족

가정 1. Xi가 vi에 대한 어떤 정보도 제공하지 않음

 

 

가정 2.

 

○ Yi와 wi는 i.i.d.이고 상호독립이기 때문에 Ỹi 는 i.i.d.

○ i ≠ j에 대해 Xi는 Yj 및 wj와 독립이기 때문에 Xi와 Ỹi 는 독립

○ 따라서 가정 2를 만족함

가정 3. 4차 적률(4th order moment)의 존재성

○ ui와 wi는 유한한 4차 적률을 가지고 상호독립이기 때문에 vi = ui + wi는 유한한 4차 적률을 가짐

○ 따라서 (Xi, vi)는 0이 아닌 유한한 4차 적률을 가짐

○ errors-in-variable bias의 경우와 3가지 차이점이 존재

차이 1. OLS 추정량이 일관성(consistency)이 있음

차이 2. 통계적 추론이 정확함

차이 3. 회귀 에러의 분산을 증가시킴 → OLS 추정량의 분산도 증가

 

 

위협 요인 4. sample selection bias

○ 데이터 선택 과정에서 바이어스가 생기는 경우

○ 즉, 전체 집단의 특성을 추론할 때 부분으로부터 추론하여 바이어스가 생기는 경우

예 1. 요인 A와 요인 B에 대한 채용률

○ 채용률은 A와 B가 증가할수록 증가한다고 가정

○ A 요인이 낮은 사람들은 지원 자체를 안 하려고 함

○ A 요인이 낮은 사람들 중 B 요인이 높은 사람들이 지원을 함

○ 그 결과 A 요인에 대한 채용률 회귀곡선에서 A 요인에 대한 효과가 실제보다 낮게 측정

위협 요인 5. simultaneous causality bias

독립변수에서 종속변수로 causal link가 있는 것은 당연함

○ 종속변수에서 독립변수로 causal link가 있는 경우 위 독립변수의 계수에 바이어스가 발생

○ 마치 피드백 회로가 복잡한 수식으로 표현되는 것을 상기하면 됨

○ 양성 피드백 회: 계수의 절대값을 크게 함

○ 음성 피드백 회로 : 계수의 절대값을 작게 함

○ 예 : 출생률과 사망률은 양방향 인과관계가 있음. 양성 피드백 회로와 유사

○ 해결방법

방법 1. 도구변수 회귀 : causal link가 제거된 에센스 정보만을 추출

방법 2. 랜덤 통제 실험 : 랜덤하게 treatment를 처리함으로써 종속변수의 인과성을 제거

⑵ 외부적 타당도(external validity)

① 정의 : 회귀분석 결과 얻은 각 독립변수의 계수를 다른 모집단에서도 적용할 수 있는지에 대한 정성적 평가

위협 요인 1. 대표성이 없는 샘플(non-representative sample) : 모집단 자체의 차이

위협 요인 2. 대표성이 없는 프로그램 또는 정책(non-representative program or policy) : 시스템의 차이

○ 모집단이 같아도 시스템이 달라서 외부적 타당도 위반이 될 수 있음

○ 예 : 교육환경의 차이, 법 및 제도의 차이, 물리적 환경의 차이

위협 요인 3. general equilibrium effect

○ 정의 : treatment로 인해 전체 환경이 바뀌고 이로 인해 treatment의 효과가 증폭되거나 억제될 수 있음

○ simultaneous causality bias와 유사함

예시 : 석유 유전의 존재가 소득에 미치는 영향

○ 유전의 존재 → 근로자들의 소득 증가

○ 근로자들의 소득 증가 → 새로운 근로자들의 유입 증가

○ 주택 구입률 증가 → 주택 부족으로 인한 주택 가격 증가 → 소득 감소 요인

○ 자동차 혼잡도 증가 → 소득 감소 요인

○ 소득 증가에 따른 식당 품질증가의 요구 증가 → 외식비 증가 → 소득 감소 요인

⑤ 해결방법

○ 모집단과 셋팅에 따라 회귀관계의 결론을 조절하는 방법

○ 메타분석(meta-analysis) : 같지는 않지만 비슷한 모집단들의 결론을 비교해 보는 것

 

 

2. 패널 데이터(panel data) [목차]

⑴ 개요

① 다음과 같은 데이터를 지칭

 

 

② 균형 패널 데이터(balanced panel data) : 모든 시간 구간에서 모든 엔티티가 갖춰진 경우

③ 비균형 패널 데이터(unbalanced panel data) : 균형 패널 데이터가 아닌 경우

④ (구별개념) repeated cross-sectional data

○ 패널 데이터는 각각의 개인에 대해 추적한 데이터

○ repeated cross-sectional data는 시간을 달리하여 얻은 데이터

○ repeated cross-sectional data에도 동일인이 전후 데이터에 포함될 수 있고 저렴함

⑵ before and after regression model

① 수식화

 

 

○ 시간에 따라 상수인 요소를 제거할 수 있음

○ Z는 i에 따라 다른 값을 가지므로 intercept와 차이가 있음

② fixed effect regression model의 일종

⑶ fixed effect regression model

① 주요 가정

가정 1. E(uit | Xi1, ···, XiT, αi) = 0 : E(uit | Xit, αi) = 0으로는 충분하지 않음 ( Y와 u의 평균치에 모든 시간의 정보가 쓰임)

가정 2. (Xi1, ···, XiT, ui1, ···, uiT) 결합분포 하에서 i.i.d. : 즉, cov(uit, uis) = 0 (t ≠ s)을 의미하는 게 아님

가정 3. 4차 적률의 존재성

 

 

가정 4. 완전 다중공선성이 없을 것 : Xit는 반드시 t에 따라 달라야 함

주요 가정 하에 fixed effect estimator는 일관성(consistency)과 정규근사성(asymptotically normality)을 만족

n과 T는 무관하므로 n이 무한으로 커져도 Y의 시간평균은 일관성과 정규근사성을 만족하지 않음

② 수식화

 

 

○ 데이터를 i에 관한 축과 t에 관한 축 상에서 표현되는 테이블로 이해해야 함

○ T = 2인 경우 before and after regression model에 해당

○ slope 표준편차 = clustered standard error = HAC(heteroscedasticity & autocorrelation consistent standard error)

t = 1, ···, T까지 총 T개의 회귀선이 나오는 게 아님. 그저 한 개의 회귀선에 불과

○ β1이지 β1, t가 아님

알고리즘 예시]

 

data <- read.csv("C:/Users/sun/Desktop/Guns.csv", header = T)
attach(data)

y <- data[, 2]
y <- log(y)
x1 <- data[, 13]
x2 <- data[, 5]
x3 <- data[, 11]
x4 <- data[, 10]
x5 <- data[, 9]
x6 <- data[, 6]
x7 <- data[, 7]
x8 <- data[, 8]

state_y <- array(dim = 56)
state_x1 <- array(dim = 56)
state_x2 <- array(dim = 56)
state_x3 <- array(dim = 56)
state_x4 <- array(dim = 56)
state_x5 <- array(dim = 56)
state_x6 <- array(dim = 56)
state_x7 <- array(dim = 56)
state_x8 <- array(dim = 56)

for(i in 1:56){
    if(i != 3 && i != 7 && i != 14 && i != 43 && i != 52){
        data_sub <- data[stateid == i, ]
        state_y[i] <- mean(data_sub[, 2])
        state_x1[i] <- mean(data_sub[, 13])
        state_x2[i] <- mean(data_sub[, 5])
        state_x3[i] <- mean(data_sub[, 11])
        state_x4[i] <- mean(data_sub[, 10])
        state_x5[i] <- mean(data_sub[, 9])
        state_x6[i] <- mean(data_sub[, 6])
        state_x7[i] <- mean(data_sub[, 7])
        state_x8[i] <- mean(data_sub[, 8])
    }
}

Y <- array(dim = 1173)
X1 <- array(dim = 1173)
X2 <- array(dim = 1173)
X3 <- array(dim = 1173)
X4 <- array(dim = 1173)
X5 <- array(dim = 1173)
X6 <- array(dim = 1173)
X7 <- array(dim = 1173)
X8 <- array(dim = 1173)

for(i in 1 : dim(data)[1]){
    j <- data[i, 12]
    Y[i] <- y[i] - state_y[j]
    X1[i] <- x1[i] - state_x1[j]
    X2[i] <- x2[i] - state_x2[j]
    X3[i] <- x3[i] - state_x3[j]
    X4[i] <- x4[i] - state_x4[j]
    X5[i] <- x5[i] - state_x5[j]
    X6[i] <- x6[i] - state_x6[j]
    X7[i] <- x7[i] - state_x7[j]
    X8[i] <- x8[i] - state_x8[j]
}



RELATION <- lm(Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8)

summary(RELATION)

 

④ fixed effect regression model 적용 결과 원래 결과와 크게 다른 결론이 나온 경우

○ 원래 모델에서 omitted variable bias가 있었음을 강력히 시사

⑤ 주요 가정을 만족해도 자기상관이 있을 수 있음

○ 자기상관(autocorrelation) : uit와 uit* (t ≠ t*)도 serial correlation이 있을 수 있음. HAC와 관련

○ 자기상관이 없는 경우

 

자기상관이 없는 경우
출처 : 이미지 클릭

Figure. 1. 자기상관이 없는 경우]

 

○ 자기상관이 있는 경우

 

자기상관이 있는 경우
출처 : 이미지 클릭

Figure. 2. 자기상관이 있는 경우]

 

자기상관이 없는 경우 cov(vit, vis) = 0 (단, k ≠ s)의 증명

 

 

⑷ fixed effect regression model 행렬 표현

① 모델링

 

 

② 가정

 

 

③ fixed effects estimator

 

 

④ consistency

 

 

⑤ asymptotic normality

 

 

⑸ LSDV(least squares dummy variables model)

① 수식화

 

 

② D1i를 포함시키지 않은 이유 : 완전 다중공선성(perfect multi-collinearity)을 피하기 위함

○ 수식화

 

 

○ 저런 계수들이 존재하면 γ1이 얼마가 되도 상관 없음 : 즉 γ1을 정의할 수 없음

○ 더미변수가 야기하는 완전 다중공선성을 더미 변수 트랩(dummy variable trap)이라고도 함

i의 범위 n이 너무 커지면 계산 불가능 : 회귀변수의 개수가 너무 많아지므로

⑹ 시간효과(time effect)

① 시간효과 항(time effect term) : λt로 표시

 

 

② 모델링

 

 

알고리즘 예시]

 

data <- read.csv("C:/Users/sun/Desktop/Guns.csv", header = T)
attach(data)

# definition
y <- data[, 2]
y <- log(y)
x1 <- data[, 13]
x2 <- data[, 5]
x3 <- data[, 11]
x4 <- data[, 10]
x5 <- data[, 9]
x6 <- data[, 6]
x7 <- data[, 7]
x8 <- data[, 8]

# elimination of fixed state effects
state_y <- array(dim = 56)
state_x1 <- array(dim = 56)
state_x2 <- array(dim = 56)
state_x3 <- array(dim = 56)
state_x4 <- array(dim = 56)
state_x5 <- array(dim = 56)
state_x6 <- array(dim = 56)
state_x7 <- array(dim = 56)
state_x8 <- array(dim = 56)

for(i in 1:56){
    if(i != 3 && i != 7 && i != 14 && i != 43 && i != 52){
        data_sub <- data[stateid == i, ]
        state_y[i] <- mean(data_sub[, 2])
        state_x1[i] <- mean(data_sub[, 13])
        state_x2[i] <- mean(data_sub[, 5])
        state_x3[i] <- mean(data_sub[, 11])
        state_x4[i] <- mean(data_sub[, 10])
        state_x5[i] <- mean(data_sub[, 9])
        state_x6[i] <- mean(data_sub[, 6])
        state_x7[i] <- mean(data_sub[, 7])
        state_x8[i] <- mean(data_sub[, 8])
    }
}

Y <- array(dim = 1173)
X1 <- array(dim = 1173)
X2 <- array(dim = 1173)
X3 <- array(dim = 1173)
X4 <- array(dim = 1173)
X5 <- array(dim = 1173)
X6 <- array(dim = 1173)
X7 <- array(dim = 1173)
X8 <- array(dim = 1173)

for(i in 1 : dim(data)[1]){
    j <- data[i, 12]
    Y[i] <- y[i] - state_y[j]
    X1[i] <- x1[i] - state_x1[j]
    X2[i] <- x2[i] - state_x2[j]
    X3[i] <- x3[i] - state_x3[j]
    X4[i] <- x4[i] - state_x4[j]
    X5[i] <- x5[i] - state_x5[j]
    X6[i] <- x6[i] - state_x6[j]
    X7[i] <- x7[i] - state_x7[j]
    X8[i] <- x8[i] - state_x8[j]
}

# elimination of fixed time effects
time_Y <- array(dim = 23)
time_X1 <- array(dim = 23)
time_X2 <- array(dim = 23)
time_X3 <- array(dim = 23)
time_X4 <- array(dim = 23)
time_X5 <- array(dim = 23)
time_X6 <- array(dim = 23)
time_X7 <- array(dim = 23)
time_X8 <- array(dim = 23)

for(t in 77:99){
    data_sub2 <- data[year == t, ]
    time_Y[t - 76] <- mean(data_sub2[, 2]) - mean(state_y, na.rm = TRUE)
    time_X1[t - 76] <- mean(data_sub2[, 13]) - mean(state_x1, na.rm = TRUE)
    time_X2[t - 76] <- mean(data_sub2[, 5]) - mean(state_x2, na.rm = TRUE)
    time_X3[t - 76] <- mean(data_sub2[, 11]) - mean(state_x3, na.rm = TRUE)
    time_X4[t - 76] <- mean(data_sub2[, 10]) - mean(state_x4, na.rm = TRUE)
    time_X5[t - 76] <- mean(data_sub2[, 9]) - mean(state_x5, na.rm = TRUE)
    time_X6[t - 76] <- mean(data_sub2[, 6]) - mean(state_x6, na.rm = TRUE)
    time_X7[t - 76] <- mean(data_sub2[, 7]) - mean(state_x7, na.rm = TRUE)
    time_X8[t - 76] <- mean(data_sub2[, 8]) - mean(state_x8, na.rm = TRUE)
}

YY <- array(dim = 1173)
XX1 <- array(dim = 1173)
XX2 <- array(dim = 1173)
XX3 <- array(dim = 1173)
XX4 <- array(dim = 1173)
XX5 <- array(dim = 1173)
XX6 <- array(dim = 1173)
XX7 <- array(dim = 1173)
XX8 <- array(dim = 1173)

for(i in 1 : dim(data)[1]){
    j <- data[i, 1]
    YY[i] <- Y[i] - time_Y[j - 76]
    XX1[i] <- X1[i] - time_X1[j - 76]
    XX2[i] <- X2[i] - time_X2[j - 76]
    XX3[i] <- X3[i] - time_X3[j - 76]
    XX4[i] <- X4[i] - time_X4[j - 76]
    XX5[i] <- X5[i] - time_X5[j - 76]
    XX6[i] <- X6[i] - time_X6[j - 76]
    XX7[i] <- X7[i] - time_X7[j - 76]
    XX8[i] <- X8[i] - time_X8[j - 76]
}

RELATION <- lm(YY ~ XX1 + XX2 + XX3 + XX4 + XX5 + XX6 + XX7 + XX8)

summary(RELATION)

 

⑺ 더미 변수(dummy variable)를 이용한 시간 효과 회귀

① 수식화 

 

 

② B1t를 포함시키지 않은 이유 : 완전 다중공선성(perfect multi-collinearity)을 피하기 위함

○ 수식화

 

 

○ 저런 계수들이 존재하면 δ1이 얼마가 되도 상관 없음 : 즉 δ1을 정의할 수 없음

○ 더미변수가 야기하는 완전 다중공선성을 더미 변수 트랩(dummy variable trap)이라고도 함

 

 

3. 도구변수(instrumental variable) [목차]

⑴ 정의 : 제3의 변수로 회귀변수의 에센스(essence)만을 분리하는 방법

⑵ 단순표현

① 모델링

○ 회귀변수가 하나인 경우

 

 

○ 회귀변수가 다중인 경우

 

 

○ endogenous variable : ui와 상관관계가 있는 변수

○ exogenous variable : ui와 상관관계가 없는 변수

○ exactly identified : m = k

○ over-identified : m > k

○ under-identified : m < k

○ under-identified에서 모델링 불가 : 도구변수가 많아야 한다는 의미

○ W를 포함시킨 이유 : 조건을 만족하는 Z를 찾기 어려울 때 이를 가능케 함

 

 

② 가: 도구변수 회귀를 쓰기 위한 가정

가정 1. E(ui | W1i, ···, Wri) = 0

가정 2. (X1i, ···, Xki, W1i, ···, Wri, Z1i, ···, Zmi, Yi)는 i.i.d.

가정 3. 모든 변수는 유한한 4차 적률을 가짐

가정 4. 도구변수 유효성

4-1. instrument relevance

4-2. instrument exogeneity

4-3. no perfectly collinearity

○ 이 가정이 만족하면 TSLS 추정량은 일관성과 정규근사성을 만족

③ 과정

○ 회귀변수가 하나인 경우

○ 1st. Xi를 도구변수 Zi로 회귀

 

 

○ 2nd. Xi의 추정량을 계산

 

 

○ 3rd. Yi를 Xi의 추정량으로 회귀

 

 

○ 회귀변수가 여럿인 경우

○ 1st. Xi를 도구변수 Zi로 회귀 : ℓ = 1, ···, k에 대하여

 

 

2nd. Xi의 추정량을 계산 : ℓ = 1, ···, k에 대하여

 

 

3rd. Yi Xi의 추정량으로 회귀 : ℓ = 1, ···, k에 대하여

 

 

OLS 회귀를 두 번 하는 것은 표준 에러를 잘못 계산할 우려가 있음

④ TSLS(two-step least squares) 추정량

○ 수식화

 

 

○ 증명

 

 

 

○ (참고) Zi := Xi라면 β1의 TSLS 추정량은 β1의 OLS 추정량과 동일함

 

 

⑤ 일관성(consistency)

 

 

⑥ 정규근사성(asymptotic normality)

 

 

⑶ 도구변수 유효성 보충

① instrument relevance

○ 수식화

 

 

○ 약한 도구변 : 회귀변수와 충분한 상관관계가 있지 않는 경우. 추정량은 매우 이상한 값을 보여줌

○ 도구변수의 강함 테스트

○ 1st stage F 통계량 계산하였을 때 F가 10보다 크면 그 도구변수는 강함

 

 

homoskedasticity에서만 사용 가능

○ W1i, ···, Wri는 도구변수의 강함과 무관

② instrument exogeneity

○ 수식화

 

 

○ u를 특정해야 instrument exogeneity를 알 수 있음

 

 

○ over-identifying restrictions test

○ 다음과 같은 통계량을 계산하였을 때 J는 자유도가 m-k인 카이제곱분포를 따름

 

 

○ J에 대한 귀무가설 H0 : instrument variable들이 exogenous함

논리는 instrument relevance와 비슷함 : F 통계량이 작으면 correlation이 없다(모든 계수가 0)는 의미

homoskedasticity에서만 사용 가능 : 많은 통계 프로그램은 heteroskedasticity-robust J-test도 제공

○ 귀무가설을 기각 시 어느 도구변수가 endogenous한 지 알 수 없음

○ J 통계량의 자유도의 의미

○ k개의 도구변수는 잔차를 만드는 데 쓰임 : k개의 endogenous variable과 대응됨

○ 나머지 m-k개의 도구변수는 잔차와의 상관관계를 테스트하는 데 사용됨 

○ exactly identified인 경우 상관관계를 분석할 도구변수가 없으므로 J 테스트 적용 불가 : J 통계량은 이 경우 항상 0이 나옴

③ no perfect collinearity

 

 

⑷ 행렬표현

① 모델링

 

 

Xi와 Zi가 겹칠 수 있음

② 가정

○ Yi = Xitβ + ui

○ (Yi, Xi, Zi), i = 1, ···, N is i.i.d

○ E(ui | Zi) = 0

○ E(ZiXit), E(ZiZit)는 역행렬이 존재

Zi, Xi, ui는 유한한 4차 적률이 있음

③ 과정

○ 1st. Xi를 도구변수 Zi로 회귀

○ 2nd. Xi의 추정량을 계산

○ 3rd. Yi Xi의 추정량으로 회귀

④ 추정량

 

 

⑤ 일관성(consistency)

 

 

⑥ 정규근사성(asymptotic normality)

 

 

⑦ 정규분포 분산의 추정량

 

 

도구변수 탐색 : 구변수 탐색은 예술의 영역임

① Joshua Angrist (MIT)

② Steven Levitt (Chicago) : "Freakonomics"를 집필

③ Daron Acemoglu (MIT) : "Why Nations Fail"을 집필

 

 

4. 랜덤 통제 실험(randomized controlled experiment) [목차]

⑴ 개요

① 정의 : 모집단에서 피실험자들을 랜덤추출한 뒤 다시 랜덤하게 그룹을 나누어 처리(treatment)를 달리 하는 것

② 계량경제학에서 랜덤 통제 실험은 드묾

③ 랜덤 통제 실험을 하면 omitted variable bias를 제거할 수 있음 : 타당도가 100% 보장되지 않음

④ 어느 것을 인과관계로 판단할지에 대한 기준을 제시

⑵ 수식화

① 단순 모델

 

 

② 추가적인 회귀변수를 포함하는 모델

 

 

③ 추가적인 회귀변수를 추가하는 이유

이유 1. 랜덤 체크(randomization check)

○ 추가적인 회귀변수의 유무에 관계없이 β1은 consistent함

○ 추가적인 회귀변수의 유무에 따라 β1이 크게 바뀌면 랜덤하지 않았던 것임

이유 2. 효율성 : 추가적인 회귀변수가 있으면 더 분산이 작음

이유 3. 조건부 랜덤화

○ 사람 개개의 특성에 따라 랜덤하게 추출한 것 같아도 랜덤하지 않을 수 있음

○ 추가적인 회귀변수가 고정된 상태에서 랜덤추출을 하면 그러한 우려를 최소화할 수 있음

○ β1 추정량이 consistent하려면 다음과 같은 조건부 독립을 만족해야 함 : 독립보다 요구조건이 약함

 

 

○ 상호작용 : treatment effect는 W에 의존할 수 있음

 

 

⑶ 내부적 타당도 위협(threats to internal validity)

① 랜덤처리 실패(failure to randomize)

○ treatment effect뿐만 아니라 nonrandom assignment effect가 나타남

○ 가설 검정 : pre-treatment characteristic인 W1i, ···, Wri로 Xi를 회귀했을 때 각 계수들이 모두 0이면 랜덤처리

○ 예 : 만일 이름으로 랜덤처리를 하는 경우 특정 민족이 처리군으로 많이 배정될 수 있음

② 처리 프로토콜 적용 실패(failure to follow treatment protocol, partial compliance)

○ 정의 : 랜덤처리가 잘 이루어져도 피실험자가 제대로 안할 수 있음

○ 이로 인해 Xi와 ui가 상관관계를 가질 수 있음

○ randomized encourage design : 랜덤처리를 도구변수로 하고, 실제 처리를 도구변수 회귀하면 적용 실패 여부를 알 수 있음

③ attrition

○ 정의 : 랜덤추출 후 treatment와 관련 있는 이유로 피실험자가 제외되는 것

④ 호손효과(Hawthorne effect)

○ 정의 : 피실험자가 자신이 어떤 실험을 수행하는지를 아는 것 자체가 실험 결과에 영향을 줄 수 있음

○ 신약 연구에서는 이중맹검을 통해 피해갈 수 있음

○ 계량경제학에서는 이중맹검을 하기 어려움

⑤ 작은 샘플(small sample)

○ 사람과 관련된 연구는 비싸기 때문에 샘플 사이즈가 작음

○ 많은 통계적 추정이 정규근사성을 기반으로 함

○ 샘플 사이즈가 작으면 정규분포로 추정하면 안 됨

⑷ 외부적 타당도 위협(threats to external validity)

① 대표성이 없는 샘플(non-representative sample)

○ 일반적인 계량경제 실험은 학부생 자원봉사자를 대상으로 함

○ 자원봉사자들은 더 동기부여가 돼 있어 효과가 과대평가될 수 있음

② 대표성이 없는 프로그램 또는 정책(non-representative program or policy)

○ 실험 프로그램 또는 정책이 실제와 유사해야 함

○ 예 : 실험 프로그램은 짧은 시간 동안 수행됨. 실제 궁금한 영역은 더 긴 시간이 요구될 수 있음

③ general equilibrium effect

○ 정의 : treatment로 인해 전체 환경이 바뀌고 이로 인해 treatment의 효과가 증폭되거나 억제될 수 있음

○ 작은 실험에서는 그 환경의 변화가 반영되지 않아 외부적 타당도를 별도로 고려해야 함

 

 

5. 유사실험(quasi-experiment) [목차]

⑴ 정의

① 독립변인이 실험자의 통제 하에 있지 않고 자연적인 상황에서 이루어지는 실험

② 자연실험(natural experiment)이라고도 함

③ 유사실험 목적 : 프로그램 평가(program evaluation)

방법 1. DID 추정량(differences-in-differences estimator)

가장 단순한 모형 (패널 데이터 기준)

 

DID 추정량의 그래프 표현
출처 : 서울대학교 계량경제학(Okui Ryo, 2019) 수업

Figure. 3. DID 추정량의 그래프 표현]

 

 

② 추가 회귀변수가 있을 때 모형 (패널 데이터 기준) : 전후 데이터 사이에 다른 조건이 바뀔 수도 있으므로

 

 

③ repeated cross-sectional data 기준

 

 

방법 2. 도구변수 회귀

① 1st. Zi를 랜덤 통제 실험을 했을 때의 회귀변수로 정의

② 2nd. Zi는 Xi에 대한 좋은 도구변수 : instrument relevance 만족

③ 3rd. Yi는 관심이 있는 결과값

④ 4th. Zi를 도구변수로 하여 Yi에 대한 Xi의 효과를 평가

방법 3. 회귀단절모형(RDD, regression discontinuity design)

① 개요

○ 역치(컷오프, threshold, cut-off) ω0를 설정하면 역치 근처의 데이터는 비슷하다고 할 수 있음

○ 역치 근처의 데이터에 처리를 달리하면 그 차이는 온전히 treatment effect라고 볼 수 있음

○ 매우 인기 있는 실험 기법

○ 단점 : outlier에 대해서 회귀 단절 모형을 적용하기 어려움

② sharp regression discontinuity design

 

sharp regression discontinuity design
출처 : 서울대학교 계량경제학(Okui Ryo, 2019) 수업

 Figure. 4. sharp regression discontinuity design]

 

 

③ fuzzy regression discontinuity design

sharp regression discontinuity design에서 정의한 Xi처럼 매끄럽게 실험이 안될 수도 있음

○ 다음과 같은 도구변수 Zi는 실제 Xi에 대한 좋은 도구변수가 될 수 있음

 

 

⑸ 내부적 타당도 위협(threats to internal validity)

① 랜덤처리 실패(failure to randomize)

○ treatment effect뿐만 아니라 nonrandom assignment effect가 나타남

○ 가설 검정 : pre-treatment characteristic인 W1i, ···, WriXi를 회귀했을 때 각 계수들이 모두 0이면 랜덤처리

○ 예 : 만일 이름으로 랜덤처리를 하는 경우 특정 민족이 처리군으로 많이 배정될 수 있음

② 처리 프로토콜 적용 실패(failure to follow treatment protocol, partial compliance)

○ 정의 : 랜덤처리가 잘 이루어져도 피실험자가 제대로 안할 수 있음

○ 이로 인해 Xi와 ui가 상관관계를 가질 수 있음

○ randomized encourage design : 랜덤처리를 도구변수로 하고, 실제 처리를 도구변수 회귀하면 적용 실패 여부를 알 수 있음

③ attrition

○ 정의 : 랜덤추출 후 treatment와 관련 있는 이유로 피실험자가 제외되는 것

호손효과 없음 

○ 유사실험에서 호손효과를 주의할 이유가 전혀 없음 : 자연실험이므로

⑤ 도구변수 유효성

○ instrument relevance는 데이터를 통해 평가할 수 있음

○ 도구변수가 랜덤하게 할당된 것으로 보여도 instrument exogeneity가 갖춰지지 않을 수 있음

○ 예 : 징병 추첨제(draft lottery)의 숫자에 따른 소득을 보고자 하는 경우에도 낮은 숫자가 뽑힌 사람들이 징집을 피하기 위한 행동을 유도하면서 Xi와 ui가 상관관계를 가질 수 있음

외부적 타당도 위협(threats to external validity)

① 대표성이 없는 샘플(non-representative sample)

② 대표성이 없는 프로그램 또는 정책(non-representative program or policy)

③ general equilibrium effect

⑺ 비판

① quasi-experiment에서는 좋은 변수들을 찾기 위한 시도가 이루어짐

② 정말 좋은 quasi-experiment는 그렇게 많지 않음

 

 

6. heterogeneous population [목차]

정의 : 회귀선의 계수 β0i, β1i가 상수가 아니고 표본에 따라 바뀌는 경우

 

 

① β1i : Xi의 heterogeneous effect

② 관심있는 파라미터는 E(β1i)임

β1i가 관측 가능한 경우 상호작용(interaction)을 이용한 모델이 이용될 수 있음

β1i가 관측 불가능한 경우 아래와 같이 분석됨

⑵ OLS

가정 : Xi가 랜덤할 것 → Xi와 (ui, β0i, β1i)가 독립일 것

○ 실제로 만족하기 어려운 조건

② 수식화

 

 

⑶ IV(instrumental variables estimation)

가정 : Zi가 랜덤할 것 → Zi와 (ui, vi, β0i, β1i, π0i, π1i)가 독립일 것

② 수식화

 

 

E(β1iπ1i) / E(π1i)를 LATE(local average treatment effect)라고 함

③ LATE와 ATE가 같아지기 위한 조건

경우 1. β1i = β1 = 상수 : 이분산성이 없을 것

경우 2. π1i = π1 : 도구변수에 이분산성이 없을 것

경우 3. β1i와 π1i가 독립일 것

④ 함축

○ instrument exogeneity는 평가하기 어려움

○ J-test는 LATE들의 차이만을 알려줌

 

입력: 2019.11.26 10:29