본문 바로가기

Contact English

【통계학】 3-3강. 시그마 대수(σ-algebra)

 

3-3강. 시그마 대수(σ-algebra)

 

추천글 : 【통계학】 3강. 확률공간 


1. 시그마 대수 [본문]

2. 확률 변수 [본문]

3. 필트레이션 [본문]

4. 부록 [본문]


 

1. 시그마 대수 [목차]

⑴ 확률공간(probability space) (Ω, ℱ) 

① Ω : 표본공간(sample space)

② ℱ : 시그마 대수(σ-algebra, event space), 즉 Ω의 부분집합들의 모음

예 1. Ω = {1, 2, 3}인 경우 σ-대수 ℱ = {∅, Ω}는 아무 것도 모르는 경우와 대응됨

예 2. Ω = {1, 2, 3}인 경우 σ-대수 ℱ = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}, Ω}는 모든 사건을 볼 수 있는 경우와 대응

 예 3. Ω = {1, 2, 3}인 경우 σ-대수 ℱ = {∅, {1}, {2, 3}, Ω}는 중간 정도의 경우 

③ ω ∈ Ω : 구현된 표본. 랜덤 프로세스에서는 표본 경로(sample-path)를 의미함 

⑵ 대수(algebra) 

군이론에서 대수적 구조 중 하나

조건 1. non-empty : Ω ∈ ℱ 또는 ∅ ∈ ℱ이 성립

조건 2. 여집합에 대해 닫힘 : A ∈ ℱ이 성립하면 AC = Ω - A ∈ ℱ도 성립함 

○ non-empty 조건과 함께 고려하면 ∅, Ω는 반드시 ℱ의 원소임을 암시함 

조건 3. 유한한 합집합에 대해 닫힘 : A, B ∈ ℱ이 성립하면, A ∪ B ∈ ℱ도 성립함 

○ A1, ⋯, An ∈ ℱ이 성립하면, ∪i Ai = A1 + ⋯ + An ∈ ℱ도 성립함 

⑶ 시그마 대수(σ-algebra)

① 도입취지 : sample space가 매우 크면 (예 : Ω = ℝ), 형식적인 확률론이 잘 적용이 안 되서 (예 : ℱ = 2Ω) ℱ를 시그마 대수로 제약할 필요가 있음. Caratheodory's extension theorem과 관련

조건 1. 대수(algebra)일 것

조건 2. 셀 수 있는 무한(countably many)만큼 무한한 합집합에 대해 닫힘 : Ai ∈ ℱ에 대해 ∪i Ai = A1 + ⋯ A ∈ ℱ

시그마 대수의 직관적 의미 

○ 어떤 공집합이 아닌 집합 Ω 위의 부분집합들의 모음

○ 확률을 부여할 수 있는 모든 사건들의 집합

○ 생성될 수 있는 모든 함수/확률변수들의 집합

⑤ 시그마 대수끼리 크기는 다양함

○ 자명 σ-대수 : {∅, ℝ} (가장 작음)

σ(𝒜) : 𝒜의 모든 원소를 포함하는 최소한의 시그마 대수

○ Borel σ-대수 : ℬ(ℝ) (모든 열린 집합들을 포함하는 σ-대수 중 최소)

○ 가산/여가산 σ-대수 : 가산집합 또는 여가산집합의 모임

○ 멱집합 σ-대수 : 𝒫(ℝ) (가장 큼)

○ 르베그 측도가능 집합들의 σ-대수 : ℒ (보렐보다 큼. ‘완비화’의 전형적인 예)

○ 시그마 대수끼리의 교집합 또한 시그마 대수가 됨 

⑥ Borel σ-algebra : 모든 열린집합을 포함하는 가장 작은 시그마 대수

Ω = ℝ, ℱ = ℬ(ℝ)

○ 시그마 대수의 성질을 이용하면 열린구간 → 닫힌구간, 반열린구간, 단일점 집합 {x}, [1,3] ∪ [4,5]도 보렐 대수에 포함됨

○ 유리수 집합, 무리수 집합처럼 복잡한 집합도 보렐 집합임

○ 구간을 countably 많이 합치거나 빼거나 교차시켜서 얻는, 더 복잡한 집합들도 전부 보렐 집합

○ 꼭 ℝ에만 한정되지는 않고, 임의의 위상공간 X에 대해 정의할 수 있음 : 예를 들어 [0,1] 구간 위에도, ℝn 위에도, 일반 위상공간 위에도 각각의 보렐 σ-대수가 존재함

○ 실제로는 Lebesgue 비가측 집합, Vitali 집합 같은, 보렐 σ-대수로는 만들 수 없는 집합도 존재 : uncountable infinite와 관련

 

 

2. 확률 변수 [목차]

⑴ 확률분포(probability distribution)

ℱ의 요소들에 값을 부여하는 함수, 즉 ℙ : ℱ ↦ [0, 1]

조건 1. ℙ(Ω) = 1

조건 2. 셀 수 있는 무한만큼 무한하고 배반인 {Ai}i∈ℕ에 대하여, ℙ(A1 + ⋯ + A) = ℙ(A1) + ⋯ + ℙ(A)

○ 배반(disjoint) : Ai ∩ Aj = ∅

⑵ 확률변수(random variable, measurable function) : 사건을 값과 연결시키는 것

표현 1. B ∈ ℬ(ℝ)에 대해 X-1(B) ∈ ℱ를 만족하는 함수 X가 있으면(measurable), 즉 ℙ(X ∈ B)가 잘 정의되면 X가 measurable하다고 하고, 그러한 함수를 확률변수라고 함

표현 2. X : Ω → ℝ이 확률변수 ⇔ X-1(A) = {ω ∈ Ω : X(ω) ∈ A} ∈ ℱ ∀ A ∈ ℬ(ℝ)

의미 1. 역함수의 존재성 : 즉, ℬ(ℝ)ℱ-measurable. X가 연속이라면 일반적으로 이 조건은 성립함 

의미 2. 역함수의 치역의 존재성 : 즉, 역함수의 치역이 ℱ의 부분집합 

○ ℱ는 그에 대해 measurable인 모든 확률변수(혹은 함수)들의 모음과 동치로 볼 수 있음

○ 예 :X(x ∈ A) = ℙ(X-1(A))

표현 3. X가 measurable ∀a ∈ ℝ, {ω : X(ω) ≤ a} ∈ ℱ

④ 확률변수와 measurable의 엄밀한 차이

○ measurable은 측도 없이 정의 가능 : 쌍 (Ω, ℱ)와 (ℝ, 𝒢)만 필요. 일반적으로 𝒢 = ℬ(ℝ)로 설정

○ 확률변수는 측도 ℙ까지 포함된 확률공간에서의 측정가능 함수

예 1. Bernoulli distribution 

○ 정의역 = Ω = {앞면, 뒷면}

= 2Ω = {∅, {앞면}, {뒷면}, {앞면, 뒷면}}

○ 공역 = {0, 1}

○ 𝒢 = 2공역 = {∅, {0}, {1}, {0, 1}}

○ 임의의 𝒢의 원소와 대응되는 ℱ의 원소가 존재하므로 X : Ω → {0, 1}는 measurable

예 2. measurable하지 않은 함수 예시

○ Ω = [0, 1], ℱ = {∅, [0, 1]}

○ 𝒢 = ℬ(ℝ)은 [0, 1/2]를 포함하는데 이것과 대응되는 ℱ의 원소가 존재하지 않음

○ 따라서 X : (Ω, ℱ) → (ℝ, 𝒢)는 measurable하지 않음 : 구체적으로는 -measurable하지 않다고 하며 에 더 많은 정보가 필요

⑦ 일반적인 measurable space

○ 정의 : 두 개의 measurable space인 (Ω, ℱ)와 (Ω1, ℱ1) 간의 맵핑 X : Ω → Ω1이 다음 조건을 만족하면 X는 확률변수라고 불림

 

 

확률프로세스(random process, stochastic process)

○ 정의 : X : ℐ × Ω ↦ E와 같이 각 i ∈ ℐ에 대해 확률변수 X(i, ·) : Ω ↦ E가 존재하는 경우

 π-class와 λ-class

① π-class의 정의 : A, B ∈ 𝒞 ⊂ 2Ω라면, A ∩ B ∈ 𝒞

② λ-class의 정의

 

 

③ λ-class의 성질

 

 

④ Dynkin's theorem : 𝒟가 π-class, 𝒞가 λ-class, 𝒟 ⊂ 𝒞이면, σ(𝒟) ⊂ 𝒞

⑷ stationary

 strinctly stationary 

 

 

wide-sense stationary : strictly stationary는 wide-sense stationary이기도 함 

 

 

⑸ 독립(independence)

결합분포(joint distribution)를 이용한 독립의 정의 : ℙ(X1 ∈ B1, X2 ∈ B2) = ℙ(X1 ∈ B1) ℙ(X2 ∈ B2) ∀B1, B2 ∈ ℬ(ℝ)

② 모멘트(moment)를 이용한 독립의 정의

③ 적률생성함수를 이용한 독립의 정의

④ σ-대수를 이용한 독립의 정의 : σ(x1)과 σ(x2)가 독립인 경우 (단, σ(X) = {X-1(A) : A ∈ ℬ(ℝ)}

 

 

⑹ Markov process 

베이즈 정리(Bayes' rule) : ℙ(A | B) = ℙ(A ∩ B) / ℙ(B) if ℙ(B) > 0

② conditional expectation 𝔼[X | 𝒢]

③ Markov process : ∀A ∈ 𝓔, ℙ(Xin ∈ A | Xi1, Xi2, ⋯, Xin-1) = ℙ(Xin ∈ A | Xin-1), 즉 현재 상태가 직전 과거 상태에 의해서만 결정됨

 

 

3. 필트레이션(filtration) [목차]

 두브의 정리(Doob's theorem)

① σ(X1, X2, ···, Xn) : X1, X2, ···, Xn이 measurable이 되게 하는 가장 작은 σ-대수

② 두브의 정리 : σ(X1, X2, ···, Xn)은 g(X1, X2, ···, Xn) 꼴의 모든 함수들의 모음과 동치

③ σ-대수가 클수록, 그에 대해 measurable인 함수의 수도 많아짐. 즉, 정보량도 더 큼

⑵ 필트레이션(여과, filtration) 

① σ-대수들의 모음으로, 포함관계에 따라 증가하는 순서로 배열됨

② ⊆로 순서를 정하며, ℱ1 ⊆ ℱ2이면 ℱ2가 ℱ1보다 나중(afterwards)

③ 편의상 시간 지표를 t = 0, 1, 2, ⋯로 두면, 필트레이션은 {ℱt} t∈ℤ+이고, 모든 s ≤ t에 대해 ℱs ⊆ ℱt를 만족함

④ 직관적 의미 : 시간이 지남에 따라 관측이 늘어나면서 정보가 증가하는 상황을 나타냄

마팅게일(Martingale)

① 조건부 기댓값의 성질

임의의 확률변수 Y에 대해, 𝔼[Y | X1, ···, Xn] = 𝔼[Y | σ(X1, ···, Xn)]이 성립함 

○ 이유 : σ(X1, ···, Xn)은 X1, ···, Xn으로 생성된 모든 함수들의 집합과 동치이기 때문 

○ 추가로 σ(Y) ⊂ σ(Z)일 때, 𝔼[𝔼[X | Z] | Y] = 𝔼[𝔼[X | Y] | Z] = 𝔼[X | Y]가 성립함

② 마팅게일 : 필트레이션 {ℱt}t∈ℤ+에 적응(adapted)된 확률과정 {Xt}t∈ℤ+이 다음 조건을 모두 만족하는 경우

조건 1. 모든 t ∈ ℤ+에 대해 Xt가 ℱt-measurable

○ s ≤ t ≤ s', ℱs ⊆ ℱt ⊆ ℱs'이면, xt ∈ ℱt는 ℱs-measurable하지 않고 ( 정보량 부족) ℱs'-measurable

조건 2. 모든 t ∈ ℤ+에 대해 𝔼[|Xt|]가 유한

조건 3. 모든 t ∈ ℤ+에 대해 𝔼[Xt | ℱs] = Xs, almost surely for all s ≤ t

해석 : 시각 s까지의 정보(ℱs)만 알고 Xt를 최적으로 예측하면 최적 예측이 Xs와 같음 (Xs로 제한됨)

보충 : 마팅게일 성질이 필요한 것은 오로지 과거 정보로 미래를 예측하는 경우뿐. 즉, 𝔼[Xt | ℱs] = Xt, s > t는 마팅게일 여부와 무관하게 항상 성립함 (적분가능성만 있으면 됨)

○ s < t에서 𝔼[Xs | ℱt] = Xs도 맞음 : Xs가 ℱs-measurable하고 ℱs ⊆ ℱt라 정보량이 적기 때문

③ 참고로, i.i.d. 과정은 일반적으로 마팅게일이 아님 (단, 상수과정인 경우는 제외)

 

 

4. 부록 [목차]

⑴ Dynkin’s theorem

 

 

⑵ bounded convergence theorem

 

 

⑶ Fatou's lemma

 

 

⑷ de Moivre's formula

 

 

⑸ Stirling's formula

 

 

⑹ Borel-Cantelli lemma

 

 

⑺ Kolmogorov’s maximal inequality 

 

 

⑻ Caratheodory’s extension theorem

 

 

⑼ Fubini-Tonelli theorem

 

 

⑽ Kolmogorov’s extension theorem (KET)

 

 

입력: 2025.09.07 08:40