본문 바로가기

Contact English

【통계학】 11강. 표본집단과 표본분포

 

11강. 표본집단과 표본분포

 

추천글 : 【통계학】 통계학 목차


1. 용어 [본문]

2. 표본집단의 특성 [본문]

3. 카이제곱분포 [본문]

4. T-분포 [본문]

5. F-분포 [본문]


 

1. 용어 [목차]

⑴ 모집단(population) : 관심이 되는 집단 전체

⑵ 조사

① 전수조사(complete enumeration) : 모집단 전체를 조사하는 것, 비용이 많이 듦

② 표본조사(sample enumeration) : 모집단 일부를 조사하는 것

⑶ 표본조사

① 대표표본(representative sample) : 모집단의 특성을 잘 반영하는 표본

유의추출(purposive sampling) : 모집단을 대표할 수 있도록 조사자의 주관이 개입한 표본

무작위추출(random sampling) : 조사자의 주관이 개입하지 않은 표본

○ 샘플 하나하나가 뽑힐 확률이 동일한 경우

특징 1. 동일 분포 (identically distributed)

특징 2. 독립 분포 (independently distributed) : 샘플들 간 독립성이 존재

○ 두 개의 특징을 i.i.d(independently identically distributed)라고 하며 무작위추출의 중요한 장점

 

 

2. 표본집단의 특성 [목차]

⑴ 무작위표본 : 무작위로 n개의 표본 X1, ···, Xn을 추출했을 때,

① 각 표본은 독립

② 각 표본은 동일한 확률분포를 가짐

③ E(Xi) = E(X) = m

④ VAR(Xi) = VAR(X) = σ2

⑵ 표본집단과 모집단의 관계

① 모집단의 평균 μ, 분산 σ2에 대하여

② 표본평균

 

 

표본분산 (sample covariance)

 

 

④ 표본상관계수 (sample correlation) : 상관계수 ρ(x, y)의 정의와 유사

 

 

○ | rXY | ≤ 1

rXY = 1 ⇔ Yi = aXi + b, a > 0

rXY = -1 Yi = aXi + b, a < 0

⑶ 새로운 확률변수의 도입 : 표본평균

① 표본평균의 평균

 

 

② 표본평균의 분산

 

 

중심극한정리(central limit theorem)

① 정의 : 이항분포의 정규분포 근사

② 확장 : 임의의 확률분포를 가지는 X에 대해, X의 표본평균은 n이 충분히 크면 정규분포로 근사 가능

 

 

3. 카이제곱분포(chi-squared distribution) [목차]

⑴ 개요

① 표본 통계량이 표본 분산일 때의 표본 분포

② n개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포

 λ = 1/2, r = n/2인 특수한 형태의 감마분포 

 

 

의미 1. 표본분산과 관련된 확률변수의 분포

 

 

lemma 1. Z ~ N(0, 1)이면 Y = Z2 ~ χ2(1)

 

 

lemma 2. (Xi - μ) / σ ~ N(0, 1)이므로 이것의 제곱은 χ2(1)을 따름

 

 

lemma 3. Zi ~ N(0, 1)이면 W = ∑Zi2 ~ χ2(n)

 

 

lemma 4. 모평균을 알고 있을 때 ⑵의 확률분포

 

 

lemma 5. ⑵의 확률변수의 전개

 

 

lemma 6. A와 C는 독립 : A와 C가 정규분포를 따르므로 COV(A, C) = 0과 필요충분

○ COV(Xi - Xavg, Xavg) = 0 : 직관적으로 Xi가 Xavg로 설명되지 않는 나머지 성분과 Xavg는 독립

 

 

lemma 7. ψA(t) × ψC(t) = ψB(t)이므로( A와 C는 독립) A ~ χ2(n-1)

 

 

의미 2. 지수분포와 카이제곱분포

 

 

⑷ 자유도(degree of freedom)

① 카이제곱분포에서 처음으로 사용

② χ2(n)은 자유도가 n인 카이제곱분포

③ 자유도 n이 작을수록 왼쪽으로 치우치는 비대칭적 모양

④ 자유도 n ≥ 3부터 단봉 형태이고, 값이 클수록 정규분포에 가까워짐 

⑸ 성질

χ2(1) = Z(0, 1)2

기댓값 : E(X) = n (단, 자유도는 n)

분산 : V(X) = 2n (단, 자유도는 n)

④ χ2(n) / n은 n → 에 따라 1로 수렴

 

 

⑹ 적용

카이제곱분포표 

 

출처 : 이미지 클릭

 

Table. 1. 카이제곱분포표]

 

확률밀도함수 : 0 < x < , 자유도 n에 대해

 

 

현실적으로, 손으로 확률밀도함수를 이용하기 어려움

 그래프

 

Bokeh Plot

 

Figure. 1. 자유도 df = 55일 때의 카이제곱분포의 확률밀도함수

 

 (참고) 파이썬 프로그래밍 (Bokeh

 

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html

import numpy as np
from scipy.stats import chi2
from bokeh.plotting import figure, output_file, show

output_file("chi_squared_distribution.html")

df = 55

x = np.linspace(0, 100, 300)
y = chi2.pdf(x, df)

p = figure(width = 400, height = 400, title = "Chi-squared Distribution", 
               tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)

 

③ R studio에서의 코드 

 

qchisq(0.95, 1)
# [1] 3.841459
qchisq(0.99, 1)
# [1] 6.634897
chi_square <- seq(0, 10) dchisq(chi_square, 1) # density function
# [1] Inf 0.2419707245 0.1037768744 0.0513934433 0.0269954833
# [6] 0.0146449826 0.0081086956 0.0045533429 0.0025833732 0.0014772828
# [11] 0.0008500367
df <- matrix(c(38, 14, 11, 51), ncol = 2, dimnames = list(hair = c("Fair", "Dark"), eye = c("Blue", "Brown"))) 
df_chisq <- chisq.test(df)
attach(df_chisq)
p.value
# [1] 8.700134e-09

 

 

4. T-분포(Student's t-distribution) [목차]

⑴ 정의 : Z ~ N(0, 1), Y ~ χ2(n)일 때 다음과 같은 확률변수의 확률분포

 

 

 

⑵ 의미

 

 

① 정규분포는 모집단의 분산을 알아야 함

② 현실적으로 모집단의 분산을 모르기 때문에 표본분산을 사용

구간추정에서 표본분산을 사용시 표본평균의 분포가 바로 T-분포

⑶ 특징

① 대칭성(symmetry)

② T-분포는 표준정규분포보다 뚱뚱함 : 신뢰구간이 더 넓어짐

 

자유도 신뢰구간
4 ± 3.182
60 ± 2.001
200 ± 1.972
1000 ± 1.962
± 1.96

 

 

Table. 2. t 분포의 95% 신뢰구간

 

⑷ 적용

 T-분포표 

 

출처 : 이미지 클릭

 

Table. 3. T-분포표]

 

확률밀도함수 : - < x < , 자유도 n에 대해

 

 

현실적으로, 손으로 확률밀도함수를 이용하기 어려움

 그래프

 

Bokeh Plot

 

Figure. 2. 자유도 df = 2.74일 때 t 분포

 

 (참고) 파이썬 프로그래밍 (Bokeh) 

 

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html

import numpy as np
from scipy.stats import t
from bokeh.plotting import figure, output_file, show

output_file("t_distribution.html")

df = 2.74

x = np.linspace(-7, 7, 300)
y = t.pdf(x, df)

p = figure(width = 400, height = 400, title = "Student's t Distribution", 
               tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)

 

 

5. F-분포(Snedecor's F-distribution) [목차]

⑴ 정의 : U ~ χ2(n), V ~ χ2(m)일 때 다음과 같은 확률변수의 확률분포

 

 

⑵ 의미

 

 

⑶ 성질

성질 1. X ~ F(n, m)이면, 1 / X ~ F(m, n)이 성립

성질 2. X ~ F(n, m)일 때, E(X) = m / (m - 2) (단, m > 2)

성질 3. X ~ F(n, m)일 때, VAR(X) = 2m2(n + m - 2) ÷ n(m - 2)2(m - 4) (단, m > 4)

성질 4. F(1, n) = T2(n)

성질 5. F(n, ) = χ2(m) / m

○ 이유 : χ2(n) / n은 n → 에 따라 1로 수렴

⑷ 적용

F-분포표 

 

출처 : 이미지 클릭

Table. 4. F-분포표 (α : 0.01)]

출처 : 이미지 클릭

Table. 5. F-분포표 (α : 0.025)]

 

출처 : 이미지 클릭

Table. 6. F-분포표 (α : 0.05)]

 

확률밀도함수 : 0 < x < , 자유도 n, m에 대해 (단, F(n, m) 기준)

 

 

 현실적으로, 손으로 확률밀도함수를 이용하기 어려움

○ 그래프

 

Bokeh Plot

 

Figure. 3. 분자의 자유도 = 29, 분모의 자유도가 18일 때 F 분포

 

 (참고) 파이썬 프로그래밍 (Bokeh)

 

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f.html

import numpy as np
from scipy.stats import f
from bokeh.plotting import figure, output_file, show

output_file("f_distribution.html")

dfn, dfd = 29, 18

x = np.linspace(0, 6, 300)
rv = f(dfn, dfd)
y = rv.pdf(x)

p = figure(width = 400, height = 400, title = "F Distribution", 
               tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)

 

입력 : 2019.06.19 13:42