3-3강. 시그마 대수(σ-algebra)
추천글 : 【통계학】 3강. 확률공간
1. 시그마 대수 [본문]
2. 확률 변수 [본문]
3. 필트레이션 [본문]
4. 부록 [본문]
1. 시그마 대수 [목차]
⑴ 확률공간(probability space) (Ω, ℱ)
① Ω : 표본공간(sample space)
② ℱ : 시그마 대수(σ-algebra, event space), 즉 Ω의 부분집합들의 모음
○ 예 1. Ω = {1, 2, 3}인 경우 σ-대수 ℱ = {∅, Ω}는 아무 것도 모르는 경우와 대응됨
○ 예 2. Ω = {1, 2, 3}인 경우 σ-대수 ℱ = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}, Ω}는 모든 사건을 볼 수 있는 경우와 대응
○ 예 3. Ω = {1, 2, 3}인 경우 σ-대수 ℱ = {∅, {1}, {2, 3}, Ω}는 중간 정도의 경우
③ ω ∈ Ω : 구현된 표본. 랜덤 프로세스에서는 표본 경로(sample-path)를 의미함
⑵ 대수(algebra)
① 군이론에서 대수적 구조 중 하나
② 조건 1. non-empty : Ω ∈ ℱ 또는 ∅ ∈ ℱ이 성립
③ 조건 2. 여집합에 대해 닫힘 : A ∈ ℱ이 성립하면 AC = Ω - A ∈ ℱ도 성립함
○ non-empty 조건과 함께 고려하면 ∅, Ω는 반드시 ℱ의 원소임을 암시함
④ 조건 3. 유한한 합집합에 대해 닫힘 : A, B ∈ ℱ이 성립하면, A ∪ B ∈ ℱ도 성립함
○ A1, ⋯, An ∈ ℱ이 성립하면, ∪i Ai = A1 + ⋯ + An ∈ ℱ도 성립함
⑶ 시그마 대수(σ-algebra)
① 도입취지 : sample space가 매우 크면 (예 : Ω = ℝ), 형식적인 확률론이 잘 적용이 안 되서 (예 : ℱ = 2Ω) ℱ를 시그마 대수로 제약할 필요가 있음. Caratheodory's extension theorem과 관련
② 조건 1. 대수(algebra)일 것
③ 조건 2. 셀 수 있는 무한(countably many)만큼 무한한 합집합에 대해 닫힘 : Ai ∈ ℱ에 대해 ∪i Ai = A1 + ⋯ A∞ ∈ ℱ
④ 시그마 대수의 직관적 의미
○ 어떤 공집합이 아닌 집합 Ω 위의 부분집합들의 모음
○ 확률을 부여할 수 있는 모든 사건들의 집합
○ 생성될 수 있는 모든 함수/확률변수들의 집합
⑤ 시그마 대수끼리 크기는 다양함
○ 자명 σ-대수 : {∅, ℝ} (가장 작음)
○ σ(𝒜) : 𝒜의 모든 원소를 포함하는 최소한의 시그마 대수
○ Borel σ-대수 : ℬ(ℝ) (모든 열린 집합들을 포함하는 σ-대수 중 최소)
○ 가산/여가산 σ-대수 : 가산집합 또는 여가산집합의 모임
○ 멱집합 σ-대수 : 𝒫(ℝ) (가장 큼)
○ 르베그 측도가능 집합들의 σ-대수 : ℒ (보렐보다 큼. ‘완비화’의 전형적인 예)
○ 시그마 대수끼리의 교집합 또한 시그마 대수가 됨
⑥ Borel σ-algebra : 모든 열린집합을 포함하는 가장 작은 시그마 대수
○ Ω = ℝ, ℱ = ℬ(ℝ)
○ 시그마 대수의 성질을 이용하면 열린구간 → 닫힌구간, 반열린구간, 단일점 집합 {x}, [1,3] ∪ [4,5]도 보렐 대수에 포함됨
○ 유리수 집합, 무리수 집합처럼 복잡한 집합도 보렐 집합임
○ 구간을 countably 많이 합치거나 빼거나 교차시켜서 얻는, 더 복잡한 집합들도 전부 보렐 집합
○ 꼭 ℝ에만 한정되지는 않고, 임의의 위상공간 X에 대해 정의할 수 있음 : 예를 들어 [0,1] 구간 위에도, ℝn 위에도, 일반 위상공간 위에도 각각의 보렐 σ-대수가 존재함
○ 실제로는 Lebesgue 비가측 집합, Vitali 집합 같은, 보렐 σ-대수로는 만들 수 없는 집합도 존재 : uncountable infinite와 관련
2. 확률 변수 [목차]
⑴ 확률분포(probability distribution)
① ℱ의 요소들에 값을 부여하는 함수, 즉 ℙ : ℱ ↦ [0, 1]
② 조건 1. ℙ(Ω) = 1
③ 조건 2. 셀 수 있는 무한만큼 무한하고 배반인 {Ai}i∈ℕ에 대하여, ℙ(A1 + ⋯ + A∞) = ℙ(A1) + ⋯ + ℙ(A∞)
○ 배반(disjoint) : Ai ∩ Aj = ∅
⑵ 확률변수(random variable, measurable function) : 사건을 값과 연결시키는 것
① 표현 1. ∀B ∈ ℬ(ℝ)에 대해 X-1(B) ∈ ℱ를 만족하는 함수 X가 있으면(measurable), 즉 ℙ(X ∈ B)가 잘 정의되면 X가 measurable하다고 하고, 그러한 함수를 확률변수라고 함
② 표현 2. X : Ω → ℝ이 확률변수 ⇔ X-1(A) = {ω ∈ Ω : X(ω) ∈ A} ∈ ℱ ∀ A ∈ ℬ(ℝ)
○ 의미 1. 역함수의 존재성 : 즉, ℬ(ℝ)이 ℱ-measurable. X가 연속이라면 일반적으로 이 조건은 성립함
○ 의미 2. 역함수의 치역의 존재성 : 즉, 역함수의 치역이 ℱ의 부분집합
○ ℱ는 그에 대해 measurable인 모든 확률변수(혹은 함수)들의 모음과 동치로 볼 수 있음
○ 예 : ℙX(x ∈ A) = ℙ(X-1(A))
③ 표현 3. X가 measurable ⇔ ∀a ∈ ℝ, {ω : X(ω) ≤ a} ∈ ℱ
④ 확률변수와 measurable의 엄밀한 차이
○ measurable은 측도 없이 정의 가능 : 쌍 (Ω, ℱ)와 (ℝ, 𝒢)만 필요. 일반적으로 𝒢 = ℬ(ℝ)로 설정
○ 확률변수는 측도 ℙ까지 포함된 확률공간에서의 측정가능 함수
⑤ 예 1. Bernoulli distribution
○ 정의역 = Ω = {앞면, 뒷면}
○ ℱ = 2Ω = {∅, {앞면}, {뒷면}, {앞면, 뒷면}}
○ 공역 = {0, 1}
○ 𝒢 = 2공역 = {∅, {0}, {1}, {0, 1}}
○ 임의의 𝒢의 원소와 대응되는 ℱ의 원소가 존재하므로 X : Ω → {0, 1}는 measurable
⑥ 예 2. measurable하지 않은 함수 예시
○ Ω = [0, 1], ℱ = {∅, [0, 1]}
○ 𝒢 = ℬ(ℝ)은 [0, 1/2]를 포함하는데 이것과 대응되는 ℱ의 원소가 존재하지 않음
○ 따라서 X : (Ω, ℱ) → (ℝ, 𝒢)는 measurable하지 않음 : 구체적으로는 ℱ-measurable하지 않다고 하며 ℱ에 더 많은 정보가 필요
⑦ 일반적인 measurable space
○ 정의 : 두 개의 measurable space인 (Ω, ℱ)와 (Ω1, ℱ1) 간의 맵핑 X : Ω → Ω1이 다음 조건을 만족하면 X는 확률변수라고 불림

⑧ 확률프로세스(random process, stochastic process)
○ 정의 : X : ℐ × Ω ↦ E와 같이 각 i ∈ ℐ에 대해 확률변수 X(i, ·) : Ω ↦ E가 존재하는 경우
⑶ π-class와 λ-class
① π-class의 정의 : A, B ∈ 𝒞 ⊂ 2Ω라면, A ∩ B ∈ 𝒞
② λ-class의 정의

③ λ-class의 성질

④ Dynkin's theorem : 𝒟가 π-class, 𝒞가 λ-class, 𝒟 ⊂ 𝒞이면, σ(𝒟) ⊂ 𝒞
⑷ stationary
① strinctly stationary

② wide-sense stationary : strictly stationary는 wide-sense stationary이기도 함

⑸ 독립(independence)
① 결합분포(joint distribution)를 이용한 독립의 정의 : ℙ(X1 ∈ B1, X2 ∈ B2) = ℙ(X1 ∈ B1) ℙ(X2 ∈ B2) ∀B1, B2 ∈ ℬ(ℝ)
② 모멘트(moment)를 이용한 독립의 정의
③ 적률생성함수를 이용한 독립의 정의
④ σ-대수를 이용한 독립의 정의 : σ(x1)과 σ(x2)가 독립인 경우 (단, σ(X) = {X-1(A) : A ∈ ℬ(ℝ)}

⑹ Markov process
① 베이즈 정리(Bayes' rule) : ℙ(A | B) = ℙ(A ∩ B) / ℙ(B) if ℙ(B) > 0
② conditional expectation 𝔼[X | 𝒢]
③ Markov process : ∀A ∈ 𝓔, ℙ(Xin ∈ A | Xi1, Xi2, ⋯, Xin-1) = ℙ(Xin ∈ A | Xin-1), 즉 현재 상태가 직전 과거 상태에 의해서만 결정됨
3. 필트레이션(filtration) [목차]
⑴ 두브의 정리(Doob's theorem)
① σ(X1, X2, ···, Xn) : X1, X2, ···, Xn이 measurable이 되게 하는 가장 작은 σ-대수
② 두브의 정리 : σ(X1, X2, ···, Xn)은 g(X1, X2, ···, Xn) 꼴의 모든 함수들의 모음과 동치
③ σ-대수가 클수록, 그에 대해 measurable인 함수의 수도 많아짐. 즉, 정보량도 더 큼
⑵ 필트레이션(여과, filtration)
① σ-대수들의 모음으로, 포함관계에 따라 증가하는 순서로 배열됨
② ⊆로 순서를 정하며, ℱ1 ⊆ ℱ2이면 ℱ2가 ℱ1보다 나중(afterwards)
③ 편의상 시간 지표를 t = 0, 1, 2, ⋯로 두면, 필트레이션은 {ℱt} t∈ℤ+이고, 모든 s ≤ t에 대해 ℱs ⊆ ℱt를 만족함
④ 직관적 의미 : 시간이 지남에 따라 관측이 늘어나면서 정보가 증가하는 상황을 나타냄
⑶ 마팅게일(Martingale)
① 조건부 기댓값의 성질
○ 임의의 확률변수 Y에 대해, 𝔼[Y | X1, ···, Xn] = 𝔼[Y | σ(X1, ···, Xn)]이 성립함
○ 이유 : σ(X1, ···, Xn)은 X1, ···, Xn으로 생성된 모든 함수들의 집합과 동치이기 때문
○ 추가로 σ(Y) ⊂ σ(Z)일 때, 𝔼[𝔼[X | Z] | Y] = 𝔼[𝔼[X | Y] | Z] = 𝔼[X | Y]가 성립함
② 마팅게일 : 필트레이션 {ℱt}t∈ℤ+에 적응(adapted)된 확률과정 {Xt}t∈ℤ+이 다음 조건을 모두 만족하는 경우
○ 조건 1. 모든 t ∈ ℤ+에 대해 Xt가 ℱt-measurable
○ s ≤ t ≤ s', ℱs ⊆ ℱt ⊆ ℱs'이면, xt ∈ ℱt는 ℱs-measurable하지 않고 (∵ 정보량 부족) ℱs'-measurable
○ 조건 2. 모든 t ∈ ℤ+에 대해 𝔼[|Xt|]가 유한
○ 조건 3. 모든 t ∈ ℤ+에 대해 𝔼[Xt | ℱs] = Xs, almost surely for all s ≤ t
○ 해석 : 시각 s까지의 정보(ℱs)만 알고 Xt를 최적으로 예측하면 최적 예측이 Xs와 같음 (Xs로 제한됨)
○ 보충 : 마팅게일 성질이 필요한 것은 오로지 과거 정보로 미래를 예측하는 경우뿐. 즉, 𝔼[Xt | ℱs] = Xt, s > t는 마팅게일 여부와 무관하게 항상 성립함 (적분가능성만 있으면 됨)
○ s < t에서 𝔼[Xs | ℱt] = Xs도 맞음 : Xs가 ℱs-measurable하고 ℱs ⊆ ℱt라 정보량이 적기 때문
③ 참고로, i.i.d. 과정은 일반적으로 마팅게일이 아님 (단, 상수과정인 경우는 제외)
4. 부록 [목차]
⑴ Dynkin’s theorem

⑵ bounded convergence theorem

⑶ Fatou's lemma

⑷ de Moivre's formula

⑸ Stirling's formula

⑹ Borel-Cantelli lemma

⑺ Kolmogorov’s maximal inequality

⑻ Caratheodory’s extension theorem

⑼ Fubini-Tonelli theorem

⑽ Kolmogorov’s extension theorem (KET)

입력: 2025.09.07 08:40
'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글
| 【통계학】 4강. 확률변수와 분포 (0) | 2019.06.16 |
|---|---|
| 【통계학】 3강. 확률공간 (0) | 2019.06.16 |
| 【통계학】 12강. 오차해석 (오차이론) (0) | 2019.04.13 |
| 【통계학】 2강. 경우의 수 (0) | 2018.09.13 |
| 【통계학】 1강. 통계의 기초 (0) | 2018.07.29 |
최근댓글