본문 바로가기

Contact English

【통계학】 7강. 연속확률분포

 

7강. 연속확률분포

 

추천글 : 【통계학】 통계학 목차


1. 균일분포 [본문]

2. 정규분포 [본문]

3. 감마분포 [본문]

4. 지수분포 [본문]

5. 베타분포 [본문]

6. 파레토 분포 [본문]

7. 로지스틱 분포 [본문]

8. 디리클레 분포 [본문]


a. 분위수 대 분위수 플롯(Q-Q plot)


 

1. 균일분포(uniform distribution) [목차]

⑴ 정의 : 모든 확률변수에 대해 일정한 확률을 가지는 확률분포

⑵ 확률밀도함수 : X ~ u[a, b], p(x) = 1 / (b - a) I{a ≤ x ≤ b}

 

Bokeh Plot

 

Figure. 1. X ~ u[1, 9]의 x-p(x) 그래프

 

(참고) 파이썬 프로그래밍 (Bokeh)   

 

from bokeh.plotting import figure, output_file, show

output_file("uniform_distribution.html")
p = figure(width=400, height=400, title = "Uniform Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line([1, 2, 3, 4, 5, 6, 7, 8, 9], [1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8], 
       line_width=2)
show(p)

 

⑶ 통계량

① 적률생성함수

 

 

② 평 : E(X) = (a + b) / 2

 

 

③ 분산 : VAR(X) = (b - a)2 / 12

 

 

⑷ 팁

① 주변확률분포는 길이 ÷ 전체 면적의 의미를 가짐

 

 

2. 정규분포(normal distribution) [목차]

⑴ 정의 : nCx θx (1 - θ)n-x에서 n → 으로 극한을 취한 것

① 보편적으로 관찰되므로 정규분포라고 함

② 일반적으로 표준정규분포 밀도함수를 φ(·)로, 누적분포함수를 Φ(·)로 표시

중심극한정리(central limit theorem) : X = ∑Xi인 경우 n → ∞으로 극한을 취하면 정규분포를 따름

④ 이항분포를 근사하기 위해 최초로 유도됨 (De Moivre, 1721)

⑤ 천문학에서 model error를 모델링하기 위해 사용됨 (Gauss, 1809)

이로 인해 가우스분포(Gaussian distribution)라고도 함

⑵ 확률밀도함수

 

 

Bokeh Plot

 

Figure. 2. 표준정규분포의 확률밀도함수

 

 (참고) 파이썬 프로그래밍 (Bokeh

 

# see https://stackoverflow.com/questions/10138085/how-to-plot-normal-distribution
import numpy as np
import scipy.stats as stats
from bokeh.plotting import figure, output_file, show

output_file("normal_distribution.html")
x = np.linspace(-3, 3, 100)
y = stats.norm.pdf(x, 0, 1)

p = figure(width=400, height=400, title = "Normal Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width=2)
show(p)

 

⑶ 통계량

① 적률생성함수

 

 

② 평균 : E(X) = μ

 

 

③ 분산 : VAR(X) = σ2

 

 

⑷ 성질

성질 1. μ를 중심으로 대칭성(symmetric)

성질 2. X ~ N(μ, σ2)이면 Y = aX + b ~ N(aμ + b, a2σ2)

 

 

성질 3. Xi ~ N(μi, σi2)이면 X = ∑Xi ~ N(∑μi, ∑σi2)

성질 4. 비상관성 : X와 Y가 jointly normal이고 uncorrelated이면 X와 Y는 독립

⑸ 표준정규분포(standard normal distribution)

① 정의 : 평균이 0, 표준편차가 1인 정규분포

② 정규화(normalization) : X ~ N(μ, σ2)라면, Z = (X - μ) / σ

③ 표준정규분포의 누적분포함수 Φ(z)

 

 

④ zα : X가 zα보다 더 큰 값을 가질 확률이 α가 되는 zα

⑹ 로그정규분포(log-normal distribution)

① 정의 : 그 로그가 정규분포를 따르는 확률변수의 분포. 즉, 확률변수 자체는 정규분포를 따르는 확률변수를 지수로 하는 지수함수

② 예시 : 시퀀싱 데이터에서 각 샘플/세포/스팟 별 카운트 값은 로그정규분포를 따름 

⑺ 정규분포표

 

출처 : 이미지 클릭

 

Table. 1. 정규분포표]

 

 

3. 감마분(gamma distribution) [목차]

⑴ 감마함수(gamma function)

정의 1. x > 0에 대해,

 

 

정의 2.

 

 

③ 특징

○ Γ(-3/2) = 4/3 √π

○ Γ(-1/2) = -2 √π

○ Γ(1/2) = √π

○ Γ(1) = 1

○ Γ(3/2) = 1/2 √π

○ Γ(a + 1) = aΓ(a)

○ Γ(n + 1) = n!

⑵ 감마분포

확률밀도함수 : x, r, λ > 0에 대하여,

 

 

Bokeh Plot

 

Figure. 3. 감마분포의 확률밀도함수

 

 (참고) 파이썬 프로그래밍 (Bokeh)   

 

# see https://www.statology.org/gamma-distribution-in-python/

import numpy as np
import scipy.stats as stats
from bokeh.plotting import figure, output_file, show

output_file("gamma_distribution.html")
x = np.linspace(0, 40, 100)
y1 = stats.gamma.pdf(x, a = 5, scale = 3)
y2 = stats.gamma.pdf(x, a = 2, scale = 5)
y3 = stats.gamma.pdf(x, a = 4, scale = 2)

p = figure(width=400, height=400, title = "Normal Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line(x, y1, line_width=2, color = 'red', legend_label = 'shape=5, scale=3')
p.line(x, y2, line_width=2, color = 'green', legend_label = 'shape=2, scale=5')
p.line(x, y3, line_width=2, color = 'blue', legend_label = 'shape=4, scale=2')

show(p)

 

② 의미

○ r 번째 사건이 일어날 때까지의 시간의 확률분포

○ r (shape parameter)

○ λ (rate parameter) : 한 단위기간 당 평균 사건 횟수

β (scale parameter) : β = 1 / λ

통계량

① 적률생성함수

 

 

② 평균 : E(X) = r / λ

 

 

③ 분산 : VAR(X) = r / λ2

 

 

⑷ 다른 확률분포와의 관계

① 이항분포

 

 

② 음이항분포

 

 

③ 베타분포

 

 

 

4. 지수분포(exponential distribution) [목차]

⑴ 개요 

 지정된 시점으로부터 어떤 사건이 일어날 때까지 걸리는 시간을 측정하는 확률분포

○ 즉, 첫 번째 사건이 일어날 때까지의 기간

감마분포에서 α = 1인 특수한 경우

③ 모수(parameter)의 의미

○ λ (rate parameter) : 한 단위기간 당 평균 사건 횟수

○ β (survival parameter) : λ의 역수. scale이라고도 함

④ (참고) 푸아송분포 : 기간이 고정, 사건의 횟수가 확률변수

⑵ 확률밀도함수 : x > 0에 대하여,

 

 

Bokeh Plot

 

Figure. 4. 지수분포의 확률밀도함수

 

 (참고) 파이썬 프로그래밍 (Bokeh

 

# see https://www.alphacodingskills.com/scipy/scipy-exponential-distribution.php

import numpy as np
from scipy.stats import expon
from bokeh.plotting import figure, output_file, show

output_file("exponential_distribution.html")
x = np.arange(-1, 10, 0.1)
y = expon.pdf(x, 0, 2)

p = figure(width=400, height=400, title = "Exponential Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width=2, legend_label = 'loc=0, scale=2')

show(p)

 

⑶ 통계량

① 적률생성함수

 

 

② 평균 : E(X) = 1 / λ

○ 직관적으로 1 / λ임을 알 수 있음

 

 

③ 분산 : VAR(X) = 1 / λ2

 

 

⑷ 무기억성(memorylessness)

① 정의

 

 

② 예시 : 배터리 수명이 지수분포를 따를 때, 기존 사용 시간이 남은 수명에 영향을 주지 않음

 

 

5. 베타분포(beta distribution) [목차]

⑴ 베타함수(beta function) : α, β > 0에 대하여,

 

 

⑵ 베타분포

 

 

Bokeh Plot

 

Figure. 5. 베타분포의 확률밀도함수

 

 (참고) 파이썬 프로그래밍 (Bokeh

 

# see https://vitalflux.com/beta-distribution-explained-with-python-examples/
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import beta
from bokeh.plotting import figure, output_file, show

output_file("beta_distribution.html")
x = np.linspace(0, 1, 100)
y1 = beta.pdf(x, 2, 8)
y2 = beta.pdf(x, 5, 5)
y3 = beta.pdf(x, 8, 2)

p = figure(width=400, height=400, title = "Beta Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line(x, y1, line_width=2, color = 'red', legend_label = 'a=2, b=8')
p.line(x, y2, line_width=2, color = 'green', legend_label = 'a=5, b=5')
p.line(x, y3, line_width=2, color = 'blue', legend_label = 'a=8, b=2')

show(p)

 

② E(X) = α ÷ (α + β)

③ VAR(X) = αβ ÷ ((α + β)2(α + β + 1))

⑵ 감마함수와의 관계식

 

 

⑶ 성질

① 교환법칙 : B(α, β) = Β(β, α)

② 등가표현

 

 

베타이항분포(beta binomial distribution)

베타분포를 갖는 사건을 여러 차례 시행하는 경우에 성공 횟수가 따르는 분포

○ 베타이항분포는 이항분포보다 분산이 큼

⑷ 일반화된 베타분포 

 

 

 

6. 파레토 분포(Pareto distribution) [목차]

⑴ 단순 파레토 분포

① 확률밀도함수 : shape parameter a에 대하여, 

 

 

Bokeh Plot

 

Figure. 6. 기본 파레토 분포의 확률밀도함수

 

 (참고) 파이썬 프로그래밍 (Bokeh)   

 

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pareto.html

import matplotlib.pyplot as plt
from scipy.stats import pareto
from bokeh.plotting import figure, output_file, show

output_file("pareto_distribution.html")
x = np.linspace(1, 10, 100)
y1 = pareto.pdf(x, 1)
y2 = pareto.pdf(x, 2)
y3 = pareto.pdf(x, 3)

p = figure(width=400, height=400, title = "Pareto Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line(x, y1, line_width=2, color = 'red', legend_label = 'a=1')
p.line(x, y2, line_width=2, color = 'green', legend_label = 'a=2')
p.line(x, y3, line_width=2, color = 'blue', legend_label = 'a=3')

show(p)

 

② 확률분포함수

 

 

⑵ 일반적인 파레토 분포

확률밀도함수 : scale parameter b에 대하여,

 

 

② 확률분포함수

 

 

 

7. 로지스틱 분포(logistic distribution) [목차]

⑴ 단순 로지스틱 분포

① 확률밀도함수

 

 

Bokeh Plot

 

Figure. 7. 단순 로지스틱 분포 

 

 (참고) 파이썬 프로그래밍 (Bokeh)   

 

# see https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.logistic.html

import matplotlib.pyplot as plt
from scipy.stats import logistic
from bokeh.plotting import figure, output_file, show

output_file("logistic_distribution.html")
x = np.linspace(1, 10, 100)
y = logistic.pdf(x)

p = figure(width=400, height=400, title = "Logistic Distribution", 
           tooltips=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width=2)

show(p)

 

 일반적인 로지스틱 분

확률밀도함수

 

 

 

8. 디리클레 분포(Dirichlet distribution) [목차]

⑴ 개요 

베타 분포의 다변량 확장판으로 각 확률변수가 항상 0 ~ 1 사이의 값이고 그 합은 1이어야 함 

② 디리클레 분포가 가지는 비율 합이 1로 고정된 제약 조건 때문에, 이 분포를 사용한 최적화는 다른 분포보다 다소 까다로움 

simplex를 분석할 수 있어서 주목받음

⑵ 확률밀도함수 : x = (x1, ···, xD)와 양수 파라미터 (λ1, ···, λD)에 대하여,

 

출처 : 이미지 클릭

Figure. 8. 디리클레 분포

 

입력: 2019.06.19 00:27

수정: 2024.10.06 09:27