【통계학】 11강. 표본집단과 표본분포

11강. 표본집단과 표본분포

추천글 : 【통계학】 통계학 목차

1. 용어 [본문]

2. 표본집단의 특성 [본문]

3. 카이제곱분포 [본문]

4. T-분포 [본문]

5. F-분포 [본문]

1. 용어 [목차]

⑴ 모집단(population) : 관심이 되는 집단 전체

⑵ 조사

① 전수조사(complete enumeration) : 모집단 전체를 조사하는 것, 비용이 많이 듦

② 표본조사(sample enumeration) : 모집단 일부를 조사하는 것

⑶ 표본조사

① 대표표본(representative sample) : 모집단의 특성을 잘 반영하는 표본

② 유의추출(purposive sampling) : 모집단을 대표할 수 있도록 조사자의 주관이 개입한 표본

③ 무작위추출(random sampling) : 조사자의 주관이 개입하지 않은 표본

○ 샘플 하나하나가 뽑힐 확률이 동일한 경우

○ 특징 1. 동일 분포 (identically distributed)

○ 특징 2. 독립 분포 (independently distributed) : 샘플들 간 독립성이 존재

○ 두 개의 특징을 i.i.d(independently identically distributed)라고 하며 무작위추출의 중요한 장점

2. 표본집단의 특성 [목차]

⑴ 무작위표본 : 무작위로 n개의 표본 X₁, ···, X_n을 추출했을 때,

① 각 표본은 독립

② 각 표본은 동일한 확률분포를 가짐

③ E(X_i) = E(X) = m

④ VAR(X_i) = VAR(X) = σ²

⑵ 표본집단과 모집단의 관계

① 모집단의 평균 μ, 분산 σ²에 대하여

② 표본평균

③ 표본분산 (sample variance)

④ 표본상관계수 (sample correlation) : 상관계수 ρ(x, y)의 정의와 유사

○ | r_XY | ≤ 1

○ r_XY = 1 ⇔ Y_i = aX_i + b, a ＞ 0

○ r_XY = -1 ⇔ Y_i = aX_i + b, a ＜ 0

⑶ 새로운 확률변수의 도입 : 표본평균

① 표본평균의 평균

② 표본평균의 분산

⑷ 중심극한정리(central limit theorem)

① 정의 : 이항분포의 정규분포 근사

② 확장 : 임의의 확률분포를 가지는 X에 대해, X의 표본평균은 n이 충분히 크면 정규분포로 근사 가능

3. 카이제곱분포(chi-squared distribution) [목차]

⑴ 개요

① 표본 통계량이 표본 분산일 때의 표본 분포

② n개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포

③ λ = 1/2, r = n/2인 특수한 형태의 감마분포

⑵ 의미 1. 표본분산과 관련된 확률변수의 분포

① lemma 1. Z ~ N(0, 1)이면 Y = Z² ~ χ²(1)

② lemma 2. (X_i - μ) / σ ~ N(0, 1)이므로 이것의 제곱은 χ²(1)을 따름

③ lemma 3. Z_i ~ N(0, 1)이면 W = ∑Z_i² ~ χ²(n)

④ lemma 4. 모평균을 알고 있을 때 ⑵의 확률분포

⑤ lemma 5. ⑵의 확률변수의 전개

⑥ lemma 6. A와 C는 독립 : A와 C가 정규분포를 따르므로 COV(A, C) = 0과 필요충분

○ COV(X_i - X_avg, X_avg) = 0 : 직관적으로 X_i가 X_avg로 설명되지 않는 나머지 성분과 X_avg는 독립

⑦ lemma 7. ψ_A(t) × ψ_C(t) = ψ_B(t)이므로(∵ A와 C는 독립) A ~ χ²(n-1)

⑶ 의미 2. 지수분포와 카이제곱분포

⑷ 자유도(degree of freedom)

① 카이제곱분포에서 처음으로 사용

② χ²(n)은 자유도가 n인 카이제곱분포

③ 자유도 n이 작을수록 왼쪽으로 치우치는 비대칭적 모양

④ 자유도 n ≥ 3부터 단봉 형태이고, 값이 클수록 정규분포에 가까워짐

⑸ 성질

① χ²(1) = Z(0, 1)²

② 기댓값 : E(X) = n (단, 자유도는 n)

③ 분산 : V(X) = 2n (단, 자유도는 n)

④ χ²(n) / n은 n → ∞에 따라 1로 수렴

⑹ 적용

① 카이제곱분포표

Table. 1. 카이제곱분포표^]

② 확률밀도함수 : 0 ＜ x ＜ ∞, 자유도 n에 대해

○ 현실적으로, 손으로 확률밀도함수를 이용하기 어려움

○ 그래프

Bokeh Plot

Figure. 1. 자유도 df = 55일 때의 카이제곱분포의 확률밀도함수

○ (참고) 파이썬 프로그래밍 (Bokeh)

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html

import numpy as np
from scipy.stats import chi2
from bokeh.plotting import figure, output_file, show

output_file("chi_squared_distribution.html")

df = 55

x = np.linspace(0, 100, 300)
y = chi2.pdf(x, df)

p = figure(width = 400, height = 400, title = "Chi-squared Distribution", 
               tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)

③ R studio에서의 코드

qchisq(0.95, 1)
# [1] 3.841459
qchisq(0.99, 1)
# [1] 6.634897
chi_square <- seq(0, 10) dchisq(chi_square, 1) # density function
# [1] Inf 0.2419707245 0.1037768744 0.0513934433 0.0269954833
# [6] 0.0146449826 0.0081086956 0.0045533429 0.0025833732 0.0014772828
# [11] 0.0008500367
df <- matrix(c(38, 14, 11, 51), ncol = 2, dimnames = list(hair = c("Fair", "Dark"), eye = c("Blue", "Brown"))) 
df_chisq <- chisq.test(df)
attach(df_chisq)
p.value
# [1] 8.700134e-09

4. T-분포(Student's t-distribution) [목차]

⑴ 정의 : Z ~ N(0, 1), Y ~ χ²(n)일 때 다음과 같은 확률변수의 확률분포

⑵ 의미

① 정규분포는 모집단의 분산을 알아야 함

② 현실적으로 모집단의 분산을 모르기 때문에 표본분산을 사용

③ 구간추정에서 표본분산을 사용시 표본평균의 분포가 바로 T-분포

⑶ 특징

① 대칭성(symmetry)

② T-분포는 표준정규분포보다 뚱뚱함 : 신뢰구간이 더 넓어짐

자유도	신뢰구간
4	± 3.182
60	± 2.001
200	± 1.972
1000	± 1.962
∞	± 1.96

Table. 2. t 분포의 95% 신뢰구간

⑷ 적용

① T-분포표

Table. 3. T-분포표^]

② 확률밀도함수 : -∞ ＜ x ＜ ∞, 자유도 n에 대해

○ 현실적으로, 손으로 확률밀도함수를 이용하기 어려움

○ 그래프

Bokeh Plot

Figure. 2. 자유도 df = 2.74일 때 t 분포

○ (참고) 파이썬 프로그래밍 (Bokeh)

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html

import numpy as np
from scipy.stats import t
from bokeh.plotting import figure, output_file, show

output_file("t_distribution.html")

df = 2.74

x = np.linspace(-7, 7, 300)
y = t.pdf(x, df)

p = figure(width = 400, height = 400, title = "Student's t Distribution", 
               tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)

5. F-분포(Snedecor's F-distribution) [목차]

⑴ 정의 : U ~ χ²(n), V ~ χ²(m)일 때 다음과 같은 확률변수의 확률분포

⑵ 의미

⑶ 성질

① 성질 1. X ~ F(n, m)이면, 1 / X ~ F(m, n)이 성립

② 성질 2. X ~ F(n, m)일 때, E(X) = m / (m - 2) (단, m ＞ 2)

③ 성질 3. X ~ F(n, m)일 때, VAR(X) = 2m²(n + m - 2) ÷ n(m - 2)²(m - 4) (단, m ＞ 4)

④ 성질 4. F(1, n) = T²(n)

⑤ 성질 5. F(n, ∞) = χ²(m) / m

○ 이유 : χ²(n) / n은 n → ∞에 따라 1로 수렴

⑷ 적용

① F-분포표

Table. 4. F-분포표 (α : 0.01)^]

Table. 5. F-분포표 (α : 0.025)^]

Table. 6. F-분포표 (α : 0.05)^]

② 확률밀도함수 : 0 ＜ x ＜ ∞, 자유도 n, m에 대해 (단, F(n, m) 기준)

○ 현실적으로, 손으로 확률밀도함수를 이용하기 어려움

○ 그래프

Bokeh Plot

Figure. 3. 분자의 자유도 = 29, 분모의 자유도가 18일 때 F 분포

○ (참고) 파이썬 프로그래밍 (Bokeh)

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f.html

import numpy as np
from scipy.stats import f
from bokeh.plotting import figure, output_file, show

output_file("f_distribution.html")

dfn, dfd = 29, 18

x = np.linspace(0, 6, 300)
rv = f(dfn, dfd)
y = rv.pdf(x)

p = figure(width = 400, height = 400, title = "F Distribution", 
               tooltips=[("x", "$x"), ("y", "$y")] )
p.line(x, y, line_width = 2)
show(p)

입력 : 2019.06.19 13:42

저작자표시 (새창열림)

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

【통계학】 14강. 통계적 검정 (0)	2019.06.19
【통계학】 13강. 통계적 추정 (0)	2019.06.19
【통계학】 8강. 확률변수변환 (0)	2019.06.19
【통계학】 10강. 통계학 주요 정리 2부 (0)	2019.06.18
【통계학】 9강. 통계학 주요 정리 1부 (0)	2019.06.18

정빈이의 공부방

최근댓글

【통계학】 11강. 표본집단과 표본분포

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

티스토리툴바

【통계학】 11강. 표본집단과 표본분포

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

'▶ 자연과학/▷ 조합론·통계학' 관련 포스팅

티스토리툴바