11강. 표본집단과 표본분포
추천글 : 【통계학】 통계학 목차
1. 용어 [목차]
⑴ 모집단(population) : 관심이 되는 집단 전체
⑵ 조사
① 전수조사(complete enumeration) : 모집단 전체를 조사하는 것, 비용이 많이 듦
② 표본조사(sample enumeration) : 모집단 일부를 조사하는 것
⑶ 표본조사
① 대표표본(representative sample) : 모집단의 특성을 잘 반영하는 표본
② 유의추출(purposive sampling) : 모집단을 대표할 수 있도록 조사자의 주관이 개입한 표본
③ 무작위추출(random sampling) : 조사자의 주관이 개입하지 않은 표본
○ 샘플 하나하나가 뽑힐 확률이 동일한 경우
○ 특징 1. 동일 분포 (identically distributed)
○ 특징 2. 독립 분포 (independently distributed) : 샘플들 간 독립성이 존재
○ 두 개의 특징을 i.i.d(independently identically distributed)라고 하며 무작위추출의 중요한 장점
2. 표본집단의 특성 [목차]
⑴ 무작위표본 : 무작위로 n개의 표본 X1, ···, Xn을 추출했을 때,
① 각 표본은 독립
② 각 표본은 동일한 확률분포를 가짐
③ E(Xi) = E(X) = m
④ VAR(Xi) = VAR(X) = σ2
⑵ 표본집단과 모집단의 관계
① 모집단의 평균 μ, 분산 σ2에 대하여
② 표본평균
③ 표본분산 (sample covariance)
④ 표본상관계수 (sample correlation) : 상관계수 ρ(x, y)의 정의와 유사
○ | rXY | ≤ 1
○ rXY = 1 ⇔ Yi = aXi + b, a > 0
○ rXY = -1 ⇔ Yi = aXi + b, a < 0
⑶ 새로운 확률변수의 도입 : 표본평균
① 표본평균의 평균
② 표본평균의 분산
⑷ 중심극한정리(central limit theorem)
① 정의 : 이항분포의 정규분포 근사
② 확장 : 임의의 확률분포를 가지는 X에 대해, X의 표본평균은 n이 충분히 크면 정규분포로 근사 가능
3. 카이제곱분포(chi-squared distribution) [목차]
⑴ 개요
① 표본 통계량이 표본 분산일 때의 표본 분포
② n개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포
③ λ = 1/2, r = n/2인 특수한 형태의 감마분포
⑵ 의미 1. 표본분산과 관련된 확률변수의 분포
① lemma 1. Z ~ N(0, 1)이면 Y = Z2 ~ χ2(1)
② lemma 2. (Xi - μ) / σ ~ N(0, 1)이므로 이것의 제곱은 χ2(1)을 따름
③ lemma 3. Zi ~ N(0, 1)이면 W = ∑Zi2 ~ χ2(n)
④ lemma 4. 모평균을 알고 있을 때 ⑵의 확률분포
⑤ lemma 5. ⑵의 확률변수의 전개
⑥ lemma 6. A와 C는 독립 : A와 C가 정규분포를 따르므로 COV(A, C) = 0과 필요충분
○ COV(Xi - Xavg, Xavg) = 0 : 직관적으로 Xi가 Xavg로 설명되지 않는 나머지 성분과 Xavg는 독립
⑦ lemma 7. ψA(t) × ψC(t) = ψB(t)이므로(∵ A와 C는 독립) A ~ χ2(n-1)
⑶ 의미 2. 지수분포와 카이제곱분포
⑷ 자유도(degree of freedom)
① 카이제곱분포에서 처음으로 사용
② χ2(n)은 자유도가 n인 카이제곱분포
③ 자유도 n이 작을수록 왼쪽으로 치우치는 비대칭적 모양
④ 자유도 n ≥ 3부터 단봉 형태이고, 값이 클수록 정규분포에 가까워짐
⑸ 성질
① χ2(1) = Z(0, 1)2
② 기댓값 : E(X) = n (단, 자유도는 n)
③ 분산 : V(X) = 2n (단, 자유도는 n)
④ χ2(n) / n은 n → ∞에 따라 1로 수렴
⑹ 적용
① 카이제곱분포표
② 확률밀도함수 : 0 < x < ∞, 자유도 n에 대해
○ 현실적으로, 손으로 확률밀도함수를 이용하기 어려움
○ 그래프
Figure. 1. 자유도 df = 55일 때의 카이제곱분포의 확률밀도함수
○ (참고) 파이썬 프로그래밍 (Bokeh)
# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html
import numpy as np
from scipy.stats import chi2
from bokeh.plotting import figure, output_file, show
output_file("chi_squared_distribution.html")
df = 55
x = np.linspace(0, 100, 300)
y = chi2.pdf(x, df)
p = figure(width = 400, height = 400, title = "Chi-squared Distribution",
tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)
③ R studio에서의 코드
qchisq(0.95, 1)
# [1] 3.841459
qchisq(0.99, 1)
# [1] 6.634897
chi_square <- seq(0, 10) dchisq(chi_square, 1) # density function
# [1] Inf 0.2419707245 0.1037768744 0.0513934433 0.0269954833
# [6] 0.0146449826 0.0081086956 0.0045533429 0.0025833732 0.0014772828
# [11] 0.0008500367
df <- matrix(c(38, 14, 11, 51), ncol = 2, dimnames = list(hair = c("Fair", "Dark"), eye = c("Blue", "Brown")))
df_chisq <- chisq.test(df)
attach(df_chisq)
p.value
# [1] 8.700134e-09
4. T-분포(Student's t-distribution) [목차]
⑴ 정의 : Z ~ N(0, 1), Y ~ χ2(n)일 때 다음과 같은 확률변수의 확률분포
⑵ 의미
① 정규분포는 모집단의 분산을 알아야 함
② 현실적으로 모집단의 분산을 모르기 때문에 표본분산을 사용
③ 구간추정에서 표본분산을 사용시 표본평균의 분포가 바로 T-분포
⑶ 특징
① 대칭성(symmetry)
② T-분포는 표준정규분포보다 뚱뚱함 : 신뢰구간이 더 넓어짐
자유도 | 신뢰구간 |
4 | ± 3.182 |
60 | ± 2.001 |
200 | ± 1.972 |
1000 | ± 1.962 |
∞ | ± 1.96 |
Table. 2. t 분포의 95% 신뢰구간
⑷ 적용
① T-분포표
② 확률밀도함수 : -∞ < x < ∞, 자유도 n에 대해
○ 현실적으로, 손으로 확률밀도함수를 이용하기 어려움
○ 그래프
Figure. 2. 자유도 df = 2.74일 때 t 분포
○ (참고) 파이썬 프로그래밍 (Bokeh)
# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html
import numpy as np
from scipy.stats import t
from bokeh.plotting import figure, output_file, show
output_file("t_distribution.html")
df = 2.74
x = np.linspace(-7, 7, 300)
y = t.pdf(x, df)
p = figure(width = 400, height = 400, title = "Student's t Distribution",
tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)
5. F-분포(Snedecor's F-distribution) [목차]
⑴ 정의 : U ~ χ2(n), V ~ χ2(m)일 때 다음과 같은 확률변수의 확률분포
⑵ 의미
⑶ 성질
① 성질 1. X ~ F(n, m)이면, 1 / X ~ F(m, n)이 성립
② 성질 2. X ~ F(n, m)일 때, E(X) = m / (m - 2) (단, m > 2)
③ 성질 3. X ~ F(n, m)일 때, VAR(X) = 2m2(n + m - 2) ÷ n(m - 2)2(m - 4) (단, m > 4)
④ 성질 4. F(1, n) = T2(n)
⑤ 성질 5. F(n, ∞) = χ2(m) / m
○ 이유 : χ2(n) / n은 n → ∞에 따라 1로 수렴
⑷ 적용
① F-분포표
② 확률밀도함수 : 0 < x < ∞, 자유도 n, m에 대해 (단, F(n, m) 기준)
○ 현실적으로, 손으로 확률밀도함수를 이용하기 어려움
○ 그래프
Figure. 3. 분자의 자유도 = 29, 분모의 자유도가 18일 때 F 분포
○ (참고) 파이썬 프로그래밍 (Bokeh)
# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f.html
import numpy as np
from scipy.stats import f
from bokeh.plotting import figure, output_file, show
output_file("f_distribution.html")
dfn, dfd = 29, 18
x = np.linspace(0, 6, 300)
rv = f(dfn, dfd)
y = rv.pdf(x)
p = figure(width = 400, height = 400, title = "F Distribution",
tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)
입력 : 2019.06.19 13:42
'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글
【통계학】 14강. 통계적 검정 (0) | 2019.06.19 |
---|---|
【통계학】 13강. 통계적 추정 (0) | 2019.06.19 |
【통계학】 8강. 확률변수변환 (0) | 2019.06.19 |
【통계학】 10강. 통계학 주요 정리 2부 (0) | 2019.06.18 |
【통계학】 9강. 통계학 주요 정리 1부 (0) | 2019.06.18 |
최근댓글