MIA 분석의 이해 및 실행 (ref)
추천글 : 【생물정보학】 생물정보학 분석 목차
1. 배경이론 [본문]
2. 코드 [본문]
3. 결과 1. scRNA-seq data validation [본문]
4. 결과 2. ST chracterization [본문]
5. 결과 3. MIA(multimodal intersection analysis) [본문]
6. 결과 4. scRNA-seq의 subpopulation을 MIA를 통해 분석 [본문]
7. 결과 5. cancer population을 MIA를 통해 분석 [본문]
8. 결과 6. tumor microenvironment를 MIA를 통해 분석 [본문]
9. 결과 7. TCGA(The Cancer Genome Atlas)로 보강 [본문]
10. 한계 [본문]
1. 배경이론 [목차]
⑴ scRNA-seq
① 장점 : unbiasedness. 해상도가 높음
② 단점 : spatial information을 잃어버림. cellular interaction과 TME에서의 organization을 모름
⑵ ST
① 장점 : unbiasedness. 공간적인 정보를 포함함
② 단점 : cellular resolution이 낮음. 각 점은 10-200개의 cell만을 가지고 있음
○ 즉, 각 점에 여러 가지 cell type이 혼재해 있으므로 cell type information을 잃어버림
⑶ KNN(k-nearest neighbors smoothing) : scRNA-seq data에 내재된 노이즈를 제거하는 데 사용
⑷ MIA(multimodal intersection analysis)
① scRNA-seq와 ST를 parallel하게 진행
② 두 데이터를 종합
2. 코드 [목차]
⑴ (참고) R에서 함수 사용법
⑵ n!에 log 10을 취한 값
log10_factorial <- function(n){
if(n == 0){
return(0)
}
out <- 0
for(i in 1 : n){
out <- out + log(i) / log(10)
}
return(out)
}
⑶ Fisher's exact test를 이용하여 두 집합의 통계적 동일을 검정하는 방법
my.Fisher.exact.test <- function(total, A, B, cross){
a1 <- log10_factorial(A)
a2 <- log10_factorial(total - A)
a3 <- log10_factorial(B)
a4 <- log10_factorial(total - B)
b1 <- log10_factorial(cross)
b2 <- log10_factorial(A - cross)
b3 <- log10_factorial(B - cross)
b4 <- log10_factorial(total - cross - (A - cross) - (B - cross))
b5 <- log10_factorial(total)
out = a1 + a2 + a3 + a4 - b1 - b2 - b3 - b4 - b5
return(10^out)
}
⑷ MIA assay (enrichment)
my.MIA.assay.enrichment <- function(total, A, B, cross){
out <- 0
for(i in cross:min(A, B)){
out = out + my.Fisher.exact.test(total, A, B, i)
}
return(out)
}
⑸ MIA assay (depletion)
my.MIA.assay.depletion <- function(total, A, B, cross){
out <- 0
for(i in 0:cross-1){
out = out + my.Fisher.exact.test(total, A, B, i)
}
return(out)
}
3. 결과 1. scRNA-seq data validation [목차]
⑴ t-SNE projection (Fig. 1b)
① PDAC-A : 1,926 cells. PDAC-B : 1,733 cells
② cell type을 알기 위해 recursive hierarchical clustering scheme을 이용함
○ 1st. KNN smoothing
○ 2nd. Tfeeman-Tukey transformation
○ 3rd. Fano factor와 mean expression을 이용하여 most variable genes를 탐색
○ 4th. Ward's criterion을 통한 clustering
○ 5th. DEG를 조사하여 각 cluster에 이름을 붙임
○ 6th. UMI, mitochondrial content를 조사하고 PDAC-A, PDAC-B, PDAC-C를 비교하여 artifact로 생긴 clusters of low-quality cells를 제거
○ (주석) recursive hierarchical clustering scheme을 이용하지 않고도 Seurat package로 충분히 할 수 있음
③ 의의 : cancer cluster가 어딘지 파악함
⑵ correspondence between PDAC-A and PDAC-B
① 실험의 재현성을 입증함
⑶ SNV profile (Suppl' Fig. 2)
① 가로축은 genes로 chromosomal location에 따라 재배열
② 세로축은 ductal cells, TM4SF1 positive cells, S100A4 positive cells에 따라 autonomic하게 배열
③ 여러 가지 cell sub-population을 발견할 수 있음
○ ductal cells
○ cancer (TM4SF1) in PDAC-A
○ cancer (S100A4) in PDAC-A
○ cancer (TM4SF1) in PDAC-B
⑷ expression profiles of KRT19, TM4SF1, S100A4 onto t-SNE : ⑶에 대한 validation 성격
① PDAC-A와 PDAC-B가 유사함
⑸ double immunofluorescent imaging : ⑶에 대한 validation 성격
① Fig. 1f
○ mutually exclusive staining for TM4SF1 and S100A4
○ colocalization of KRT19 and TM4SF1 in PDAC-B, no colocalization of the KRT19 and S100A4는 ⑵와 일치
② Suppl' Fig. 2
○ malignant ducts와 non-malignant ducts 간에 양상이 상이함
4. 결과 2. ST characterization [목차]
⑴ H&E staining
① 각 spot은 20 ~ 74개의 핵을 포함함 (Suppl' Fig. 4)
⑵ ST mapping
① PDAC-A (Fig. 2e) : 428개 spots
② PDAC-B (Fig. 2f) : 224개 spots
③ (주석) scRNA-seq에서 cell loss가 좀 있는 듯 : 428 × 20 ≫ 1926
④ spatial expression of many variably expressed genes matched the annotated histological regions (Fig. 2c, d)
⑶ PCA(principal component analysis)
① the resulting clusters were consistent with the independent histological annotations (Fig. 2e, f, Suppl' Fig. 5g, h)
5. 결과 3. MIA(multimodal intersection analysis) [목차]
⑴ MIA procedure
① 1st. scRNA-seq으로부터 도출된 각 cell type에 대해 DEG (P < 10-5, two-tailed Student's t-test)를 조사
② 2nd. ST datasets으로부터 도출된 각 region에 대해 DEG (P < 0.01, two-tailed Student's t-test)를 조사
③ 3rd. 행렬을 하나 구성한 뒤 각 행을 cell type에 대해 배열하고 각 열을 region에 대해 배열
④ 4th. 행렬의 각 칸에 대해 ①, ②에서 얻은 DEG sets를 가지고 hypergeometric cumulative distribution에 대입
⑤ 5th. 예를 들면, fibroblasts cell이 cancer region에 많다는 것을 보일 수 있음
⑥ 예제
○ Fig. 2g : 논문은 14.44. 실제 계산 결과 15.06356
○ Fig. 5b : 논문은 2.92. 실제 계산 결과 2.366678
○ (주석) background gene에 대한 이해가 부족한 듯
⑦ (주석) 샘플이 크기 때문에 chi-square independence test를 쓰는 것이 좋을 것 같음
⑵ 기준 1. MIA 결과가 enrichments와 depletions에 대해 fair해야 함 (Suppl' Fig. 5i, j)
① (주석) p-value threshold가 덜 엄격해서 관련이 적은 gene들도 많이 고려되면 enrichment로 편향되는 듯
⑶ 기준 2. specific genes의 개수가 충분히 있어야 함
① cancer region-specific genes를 100개 미만으로 하면 fibroblast-specific genes가 cancer에 유의하지 않음 (P > 0.05)
② 이는 cancer region-specific genes를 충분히 증가시키면 되므로 parameter-independence가 있다고 결론지을 수 있
6. 결과 4. scRNA-seq의 subpopulation을 MIA를 통해 분석 [목차]
⑴ KRT19-expressing ductal cells를 4개의 ductal subpopulation으로 나눌 수 있음
① subpopulation (Fig. 3a-d) : ductal cells만 따로 scRNA-seq를 해 보니 4개의 sub-population으로 쪼개짐
○ APOL1 high/hypoxic : APOL1 (대표), APOL2, APOL3, CA9, DUOX2, ERO1A 등 286 genes를 많이 발현
○ 이번에 새롭게 발견된 sub-population
○ Centroacinar : AQP3 (대표), CFTR, CRISP3, REG1A, REG1B, REG3A 등 382 genes를 많이 발현
○ 이미 선행논문에 있는 sub-population
○ Antigen presenting : C1S, C4A, C4B, CFB, CFH, CD74, HLA-DPA1, HLA-DQA2, HLA-DRA, HLA-DRB1, HLA-DRB5 (대표) 등 120 genes를 많이 발현
○ 이번에 새롭게 발견된 sub-population
○ 물론 B-cell, macrophages, dendritic cells가 MHC Class II를 훨씬 많이 발현함
○ 그러나 간의 epithelial cells, gastrointestinal tracts, respiratory tracts 또한 MHC Class II를 발현함
○ 이들 antigen-presenting ductal cells가 T-cell activation을 통해 inflammatory response를 조절함
○ Terminal duct : KRT16, KRT18, TFF1 (대표), TFF2, TFF3 등 187 genes를 많이 발현
○ 이미 선행논문에 있는 sub-population
○ H&E staining 결과 이들은 모두 KRT19를 발현하므로 KRT19-expressing ductal sub-population이 맞음을 입증 (Fig. 3e-h)
○ Suppl' Fig. 6에는 merge하기 전의 이미지가 있으므로 참고할 것
② MIA analysis
○ PDAC-A 및 PDAC-B에서 ductal subpopulation이 모두 duct epithelium에 많이 있다는 것을 알 수 있음
○ APOL1 high/hypoxic이 특이하게도 cancer region에 많고 (∵ low oxygen content) pancreatic tissue에 적음
⑵ macrophages를 M1-like macrophages와 M2-like macrophages로 나눌 수 있음
① subpopulation (Suppl' Fig. 7a) : violin plots로 알아냄. (주석) 아마도 scRNA-seq로 분리가 안 되는 듯
○ used M1 marker : IL1B, IL1RN, CLEC5A
○ used M2 marker : MS4A6A, SDS, CD163
② MIA analysis (Suppl' Fig. 7b)
○ PDAC-A에 대해서 MIA analysis를 진행한 결과 M1-like macrophages는 stroma와 cancer regions에 분포하여 inflammatory environment를 반영하고 M2-like macrophages는 ducts에 분포하여 tissue resident macriphages를 반영
⑶ dendritic cells를 A와 B로 나눌 수 있음
① subpopulation (Suppl' Fig. 7c) : violin plots로 알아냄. (주석) 아마도 scRNA-seq로 분리가 안 되는 듯
○ used A marker : TUBB, TLR5, CLEC4A
○ used B marker : C1QA, C1QB, HLA-DRB1
○ B는 complement pathway genes나 MHC class II 등이 많이 발현되는 게 특징
② MIA analysis
○ macrophage처럼 두 sub-cluster가 exclusive pattern이 나오는데 각각이 unique role이 있는 거 같
7. 결과 5. cancer population을 MIA를 통해 분석 [목차]
⑴ 문제의식
① PDAC-A에서 TM4SF1-cancer와 S100A4-cancer가 분명히 다른 cell type이라는 것을 밝혔음
② 그러나 MIA analysis를 한 결과 이들 두 cell type이 동일한 region에 있다고 나타남
③ 그렇다면 이들 두 cell type은 colocalized 돼 있는가 아니면 두 cell type의 분포가 상이한가?
⑵ 기존의 PDAC-A (PDAC-A-1)에 추가로 PDAC-A-2에 대한 ST analysis를 진행한 뒤 sub-region을 정의
⑶ MIA 결과 cancer cluster 1은 fibroblasts가 많이 발현되는 region에 많이 있고 (stromal response와 관련 있는 듯) cancer cluster 2는 fibroblasts가 적게 발현되는 region에 있는 듯 (Fig. 4d)
8. 결과 6. tumor microenvironment를 MIA를 통해 분석 [목차]
⑴ 문제의식
① 최근 scRNA-seq 연구에 따르면 glioblastoma, melanoma, head and neck cancer 등 여러 가지 cancer type이 밝혀짐
② 여러 cancer 간의 상호작용으로 여러 가지 cancer cell state가 있을 수 있음
③ 그렇다면, MIA analysis를 이용해 이들 cancer cell state를 mapping할 수 있지 않을까?
⑵ heatmap (Fig. 5a)
⑶ coenrichment of genes of stress-response module with the cancer stress-response module
① 1st. cancer stress-response module
○ Elyada et al.에 의해 scRNA-seq-defined inflammatory fibroblast signature가 정의
○ 시그니처(signature) : 유전자 이름, FC 값, 또는 p-value로 구성된 데이터프레임. 유전자 스코어도 시그니처라고 할 수 있음
② 2nd. genes of stress-response module
○ 2nd-1st. PDAC-A-1에서 cancer region spots를 구함
○ 2nd-2nd. cancer stress-response module를 coloring
○ 2nd-3rd. highly expressing spots와 lowly expressing spots를 구분
○ 2nd-4th. 두 region을 구분짓는 DEG를 조사
③ 3rd. MIA analysis : 총 10개의 ST array를 진행
○ stress-module spots와 inflammatory fibroblasts의 strong coenrighment가 나타남
○ significant coenrichments of monocytes and T/natural killer cells가 나타남 : inflammatory fibroblasts만큼은 아님)
⑷ immunofluorescence
① inflammatory fibroblasts에서 주요하게 발현되는 IL-6로 immunofluorescence를 수행
② DAPI, KRT19, IL-6, 그리고 H&E staining에 대해 진행
③ 결론 1. IL-6와 KRT19의 colocalization : IL-6가 inflammatory fibroblasts에서 주요하게 발현된다는 결과와 일치
④ 결론 2. H&E staining 결과 tissue 내 epithelial cells는 정말로 malignant cells와 일치함
⑤ 최종 결론 : inflammatory fibroblast와 cancer cells expressing a stress-response gene module은 관계가 있음
9. 결과 7. TCGA(The Cancer Genome Atlas)로 보강 [목차]
⑴ correlation between the expression of each identified cancer gene module and the inflammatory fibroblast gene signature
① TCGA에 나와있는 142개의 PDAC tumors에 대해 진행
② hypoxia module, oxidative phosphorylation module, stress-response module 중에서 stress-response module만 유의성 있는 Pearson correlation coefficient가 나왔음
⑵ Tirosh의 scRNA-seq와 Thrane et al.의 ST data를 이용 (Suppl' Fig. 12)
① 결론 1. fibroblasts와 endothelial cells의 colocalization : TCGA data로 MIA map을 그려보니 stromal tissue compartment가 대부분 fibroblasts와 endothelial cells로 구성됨. 이는 앞서 연구에서도 확인됨
② 결론 2. macrophage가 melanoma region 내 특정 지점에만 존재함
③ 결론 3. CD8+ T cell marker가 상당히 부족함 : CD8+ T cell marker가 prognosis와 response to therapy marker로서 활용될 수 있다는 의미
10. 한계 [목차]
⑴ 한계 1. ST array는 전체 조직을 cover하지도 못하고 각 spot이 single-cell resolution도 아님
⑵ 한계 2. 모든 histological features에 대해 tissue permeablization condition이 최적이 아닐 수 있음
입력: 2021.01.03 23:28
'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글
【생물정보학】 CellPhoneDB Tutorial (0) | 2021.04.13 |
---|---|
【생물정보학】 데이터 분석 : Kaplan-Meier 생존 곡선 (0) | 2021.04.13 |
【생물정보학】 scater로 cell type 결정하기 (0) | 2019.12.20 |
【생물정보학】 Seurat로 cell type 결정하기 (7) | 2019.11.25 |
【생물정보학】 Cell Type Classification Pipeline (0) | 2019.11.22 |
최근댓글