【생물정보학】 TransPhylo의 이해

TransPhylo의 이해

추천글 : 【생물정보학】 생물정보학 분석 목차

1. 개요 [본문]

2. 역학 모델링 [본문]

3. 종결된 전염병 시나리오 [본문]

4. 진행중인 전염병 시나리오 [본문]

5. 최종 추론 [본문]

1. 개요 [목차]

⑴ 의의 : 부분적인 샘플링(partial sampling) 및 계속 진행중인 상태를 위한 역학 모델 (ref1, ref2)

⑵ 추론 전략 : 먼저 phylogenetic tree P를 계산하고, 그 뒤 T, θ, N_eg를 추론하는 전략

① T : transmission tree

② θ : transmission tree와 샘플링 모델을 나타내는 파라미터 집합을 통틀어 이름

③ N_eg : 숙주 내 병원체의 유전적 다양성. 감염 과정에서 이 다양성은 없어진다고 가정

⑶ Bayes' theorem

① 전염 트리 T가 이미 θ의 정보를 포함하기 때문에, P는 T를 통해 간접으로만 θ에 의존함

② 위 식에서 P(T | θ)를 구하는 것이 어려움

2. 역학 모델링 [목차]

⑴ α(k) : 자손이 k명일 확률. 음이항 분포로 정의됨

① k : 성공 횟수, 즉 감염된 개체가 전염을 성공한 횟수

② r : 실패 횟수, 즉 감염된 개체가 전염을 실패한 횟수. 고정된 값으로 감염된 개체가 전염을 전파할 수 있는 기본적인 강도를 의미함

③ p : 성공 확률, 즉 각 전염이 성공할 확률

3. 종결된 전염병 시나리오 [목차]

⑴ 샘플링에서 제외될 확률 : 재귀식으로 구성돼 있음

① ω_* : 어떤 개체와 그 자손이 샘플링에서 제외될 확률. 위 식에 의해 바로 계산될 수 있는 값

② π : 샘플링 확률. 어떤 개체가 샘플링되지 않을 확률은 1 - π

③ G(z) : 음이항 분포의 확률 생성 함수. 참고로, 확률 생성 함수는 G(z) = 𝔼[z^X] = M(ln z)으로 정의됨

④ 예 1. (1 - π) × α(0) : 0명의 자손을 남긴 개체가 전염 트리에 포함되지 않을 확률

⑤ 예 2. (1 - π) × α(1) × ω_* : 1명의 자손을 남긴 개체가 전염 트리에 포함되지 않았고, 그 자손도 전염 트리에 포함되지 않을 확률

⑵ d명의 자손이 전염 트리에 포함될 확률

① d : 전염 트리에 포함된 자손의 수

② P(d offspring included) : d명의 자손이 전염 트리에 포함될 확률. k명의 총 자손 중 d명이 포함될 확률을 합산한 값

③ _kC_d·α(k) : 자손이 k명이고 k명의 총 자손 중 d명을 고르는 확률

④ ω_*^k-d(1 - ω_*)^d : 이미 정해진 d명은 샘플링이 됐고, 그렇지 않은 k - d명은 샘플링이 되지 않았을 확률

⑤ (1 - ω_*)^d가 고정항이기 때문에 계산의 단순화를 위해 해당 텀을 삭제함 : 최적화 알고리즘 결과에 전혀 영향을 안 줌

⑶ p_*(T | θ)의 계산

① n : 노드의 수. 감염된 개인의 수와 대응됨

② s_i : 그 개인이 샘플링되면 s_i = 1, 샘플링되지 않으면 s_i = 0

③ t_i^sam : 그 i번째 개인이 샘플링된 시간

④ t_i^inf : 그 i번째 개인이 감염된 시간

⑤ σ : 샘플링 시간에 대한 확률밀도함수. s_i = 1일 때만 σ가 곱해지도록 (σ(t_i^sam - t_i^inf))^s_i를 고려하게 됨

⑥ α_*(d_i) : i번째 개인이 감염시킨 d_i명의 개인이 전염 트리에 포함될 확률

⑦ γ : i번째 개인과 그 자가 감염시킨 다른 개인의 감염 시간 차이에 대한 확률밀도함수

4. 진행중인 전염병 시나리오 [목차]

⑴ 샘플링 확률 π 수정

⑵ 샘플링에서 제외될 확률 ω 수정

① γ(τ) : 감마함수

⑶ 자손함수 α 수정

⑷ 전염트리 확률 P(T | θ) 수정

5. 최종 추론 [목차]

⑴ 전염 트리 모델의 정의

① 노드 : 각각의 노드는 감염된 개체를 나타냄

② 터미널 노드 : 샘플링된 감염 개체를 나타냄

③ 엣지 : 감염 간의 직접적인 전염 사건을 나타냄

④ 완전 전염 병목(bottleneck) : 전염 과정에서 단일 병원체 변이(single genomic variant)만이 전염되는 것으로 가정

⑵ 베이지안 추론을 통한 전염 트리 추정

① 두 확률 계산

○ P(T | θ) : 전염 트리의 사전 확률. 전염 모델 매개변수 θ에 의존

○ P(P | N_eg, T) : 공통 계통 모델(coalescent model)을 사용하여 계산됨

② 계통수 색칠하기(coloring the phylogeny)

○ 각 숙주마다 고유의 색을 할당하여 계통수에서 전염 트리를 구성

○ 샘플링되지 않은 숙주가 있을 가능성을 고려하여, 색의 개수가 고정되지 않은 모델을 적용

③ MCMC를 통한 탐색

○ 전염 트리의 매개변수 공간을 MCMC를 사용하여 탐색

○ 트리에 새로운 전염 사건을 추가하거나 제거하는 reversible jump MCMC 방법을 사용함

⑶ MCMC 전환 확률

① MCMC 과정에서 새로운 전염 사건을 추가하거나 제거할 때의 전환 확률은 다음과 같이 정의됨

② 새로운 전염 사건 추가

○ |P| : 계통수의 브랜치 길이의 합

○ n + 1 - ∑_{i=1 to n} s_i : 새로 추가될 전염 사건의 가능한 위치 수

③ 전염 사건 제거

○ 제거할 수 있는 전염 사건의 개수와 계통수 길이의 비율로 가중치가 조정됨

⑷ 추론 과정의 추가 매개변수

① 음이항 분포의 첫 번째 매개변수 r : 사전분포로서 λ = 1인 지수분포를 사용

② 음이항 분포의 성공 확률 p : 사전분포로서 [0, 1] 구간의 균일분포를 사용

③ 샘플링 확률 π : 사전분포로서 [0, 1] 구간의 균일분포를 사용

④ 숙주 내 유효 집단 크기 N_eg : 사전분포로서 λ = 1인 지수분포를 사용

입력: 2024.01.07 10:45

'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글

【생물정보학】 생물정보학 분석 목차 (5)	2025.04.06
【생물정보학】 생물정보학 부록 (6)	2025.02.20
【생물정보학】 리눅스 프로그래밍(bash programming) (0)	2025.01.16
【생물정보학】 후성유전학 라이브러리 (4)	2024.01.07
【생물정보학】 전사체 분석 파이프라인(Transcriptomics Pipeline) (23)	2023.12.29

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

정빈이의 공부방

최근댓글

【생물정보학】 TransPhylo의 이해

'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

【생물정보학】 TransPhylo의 이해

'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글

'▶ 자연과학/▷ 생물정보학' 관련 포스팅

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역