본문 바로가기

Contact English

【생물정보학】 MIA 분석의 이해 및 실행

 

MIA 분석의 이해 및 실행 (ref)

 

추천글 :생물정보학생물정보학 분석 목차 


1. 배경이론 [본문]

2. 코드 [본문]

3. 결과 1. scRNA-seq data validation [본문]

4. 결과 2. ST chracterization [본문]

5. 결과 3. MIA(multimodal intersection analysis) [본문]

6. 결과 4. scRNA-seq의 subpopulation을 MIA를 통해 분석 [본문]

7. 결과 5. cancer population을 MIA를 통해 분석 [본문]

8. 결과 6. tumor microenvironment를 MIA를 통해 분석 [본문]

9. 결과 7. TCGA(The Cancer Genome Atlas)로 보강 [본문]

10. 한계 [본문]


 

1. 배경이론 [목차]

⑴ scRNA-seq

① 장점 : unbiasedness. 해상도가 높음

② 단점 : spatial information을 잃어버림. cellular interaction과 TME에서의 organization을 모름

⑵ ST

 장점 : unbiasedness. 공간적인 정보를 포함함

② 단점 : cellular resolution이 낮음. 각 점은 10-200개의 cell만을 가지고 있음

○ 즉, 각 점에 여러 가지 cell type이 혼재해 있으므로 cell type information을 잃어버림 

KNN(k-nearest neighbors smoothing) : scRNA-seq data에 내재된 노이즈를 제거하는 데 사용

⑷ MIA(multimodal intersection analysis)

① scRNA-seq와 ST를 parallel하게 진행

② 두 데이터를 종합

 

 

2. 코드 [목차]

⑴ (참고) R에서 함수 사용법 

⑵ n!에 log 10을 취한 값

 

log10_factorial <- function(n){
  if(n == 0){
    return(0)
  }

  out <- 0
  for(i in 1 : n){
    out <- out + log(i) / log(10)
  }
  return(out)
}

 

⑶ Fisher's exact test를 이용하여 두 집합의 통계적 동일을 검정하는 방법

 

my.Fisher.exact.test <- function(total, A, B, cross){
  a1 <- log10_factorial(A)
  a2 <- log10_factorial(total - A)
  a3 <- log10_factorial(B)
  a4 <- log10_factorial(total - B)

  b1 <- log10_factorial(cross)
  b2 <- log10_factorial(A - cross)
  b3 <- log10_factorial(B - cross)
  b4 <- log10_factorial(total - cross - (A - cross) - (B - cross))
  b5 <- log10_factorial(total)

  out = a1 + a2 + a3 + a4 - b1 - b2 - b3 - b4 - b5
  return(10^out)
}

 

⑷ MIA assay (enrichment)

 

my.MIA.assay.enrichment <- function(total, A, B, cross){
  out <- 0
  for(i in cross:min(A, B)){
    out = out + my.Fisher.exact.test(total, A, B, i)
  }
  return(out)
}

 

⑸ MIA assay (depletion)

 

my.MIA.assay.depletion <- function(total, A, B, cross){
  out <- 0
  for(i in 0:cross-1){
    out = out + my.Fisher.exact.test(total, A, B, i)
  }
  return(out)
}

 

 

3. 결과 1. scRNA-seq data validation [목차]

t-SNE projection (Fig. 1b)

 PDAC-A : 1,926 cells. PDAC-B : 1,733 cells

② cell type을 알기 위해 recursive hierarchical clustering scheme을 이용함 

 1st. KNN smoothing 

○ 2nd. Tfeeman-Tukey transformation 

○ 3rd. Fano factor와 mean expression을 이용하여 most variable genes를 탐색 

○ 4th. Ward's criterion을 통한 clustering 

○ 5th. DEG를 조사하여 각 cluster에 이름을 붙임

○ 6th. UMI, mitochondrial content를 조사하고 PDAC-A, PDAC-B, PDAC-C를 비교하여 artifact로 생긴 clusters of low-quality cells를 제거 

○ (주석) recursive hierarchical clustering scheme을 이용하지 않고도 Seurat package로 충분히 할 수 있음

 의의 : cancer cluster가 어딘지 파악함 

correspondence between PDAC-A and PDAC-B

 실험의 재현성을 입증함

SNV profile (Suppl' Fig. 2

 가로축은 genes로 chromosomal location에 따라 재배열

 세로축은 ductal cells, TM4SF1 positive cells, S100A4 positive cells에 따라 autonomic하게 배열

 여러 가지 cell sub-population을 발견할 수 있음 

 ductal cells

○ cancer (TM4SF1) in PDAC-A

○ cancer (S100A4) in PDAC-A

○ cancer (TM4SF1) in PDAC-B

 expression profiles of KRT19, TM4SF1, S100A4 onto t-SNE : ⑶에 대한 validation 성격

PDAC-A와 PDAC-B가 유사함

 double immunofluorescent imaging : ⑶에 대한 validation 성격

Fig. 1f

 mutually exclusive staining for TM4SF1 and S100A4 

○ colocalization of KRT19 and TM4SF1 in PDAC-B, no colocalization of the KRT19 and S100A4는 ⑵와 일치

Suppl' Fig. 2 

malignant ducts와 non-malignant ducts 간에 양상이 상이함

 

 

4. 결과 2. ST characterization [목차]

 H&E staining 

① 각 spot은 20 ~ 74개의 핵을 포함함 (Suppl' Fig. 4)

⑵ ST mapping

 PDAC-A (Fig. 2e: 428개 spots

② PDAC-B (Fig. 2f) : 224개 spots

(주석) scRNA-seq에서 cell loss가 좀 있는 듯 : 428 × 20 ≫ 1926

④ spatial expression of many variably expressed genes matched the annotated histological regions (Fig. 2c, d)

⑶ PCA(principal component analysis)

① the resulting clusters were consistent with the independent histological annotations (Fig. 2e, f, Suppl' Fig. 5g, h)

 

 

5. 결과 3. MIA(multimodal intersection analysis) [목차]

⑴ MIA procedure

 1st. scRNA-seq으로부터 도출된 각 cell type에 대해 DEG (P < 10-5, two-tailed Student's t-test)를 조사

② 2nd. ST datasets으로부터 도출된 각 region에 대해 DEG (P < 0.01, two-tailed Student's t-test)를 조사

③ 3rd. 행렬을 하나 구성한 뒤 각 행을 cell type에 대해 배열하고 각 열을 region에 대해 배열

④ 4th. 행렬의 각 칸에 대해 ①, ②에서 얻은 DEG sets를 가지고 hypergeometric cumulative distribution에 대입

⑤ 5th. 예를 들면, fibroblasts cell이 cancer region에 많다는 것을 보일 수 있음

⑥ 예제

 Fig. 2g : 논문은 14.44. 실제 계산 결과 15.06356 

Fig. 5b : 논문은 2.92. 실제 계산 결과 2.366678 

○ (주석) background gene에 대한 이해가 부족한 듯

⑦ (주석) 샘플이 크기 때문에 chi-square independence test를 쓰는 것이 좋을 것 같음

기준 1. MIA 결과가 enrichments와 depletions에 대해 fair해야 함 (Suppl' Fig. 5i, j)

(주석) p-value threshold가 덜 엄격해서 관련이 적은 gene들도 많이 고려되면 enrichment로 편향되는 듯 

기준 2. specific genes의 개수가 충분히 있어야 함

 cancer region-specific genes를 100개 미만으로 하면 fibroblast-specific genes가 cancer에 유의하지 않음 (P > 0.05)

② 이는 cancer region-specific genes를 충분히 증가시키면 되므로 parameter-independence가 있다고 결론지을 수 있

 

 

6. 결과 4. scRNA-seq의 subpopulation을 MIA를 통해 분석 [목차]

KRT19-expressing ductal cells를 4개의 ductal subpopulation으로 나눌 수 있음

 subpopulation (Fig. 3a-d) : ductal cells만 따로 scRNA-seq를 해 보니 4개의 sub-population으로 쪼개짐

 APOL1 high/hypoxic : APOL1 (대표), APOL2, APOL3, CA9, DUOX2, ERO1A 등 286 genes를 많이 발현

○ 이번에 새롭게 발견된 sub-population

○ Centroacinar : AQP3 (대표), CFTR, CRISP3, REG1A, REG1B, REG3A 등 382 genes를 많이 발현

이미 선행논문에 있는 sub-population

 Antigen presenting : C1S, C4A, C4B, CFB, CFH, CD74, HLA-DPA1, HLA-DQA2, HLA-DRA, HLA-DRB1, HLA-DRB5 (대표) 등 120 genes를 많이 발현

 이번에 새롭게 발견된 sub-population

○ 물론 B-cell, macrophages, dendritic cells가 MHC Class II를 훨씬 많이 발현함

○ 그러나 간의 epithelial cells, gastrointestinal tracts, respiratory tracts 또한 MHC Class II를 발현함

○ 이들 antigen-presenting ductal cells가 T-cell activation을 통해 inflammatory response를 조절함

 Terminal duct : KRT16, KRT18, TFF1 (대표), TFF2, TFF3 등 187 genes를 많이 발현

이미 선행논문에 있는 sub-population

 H&E staining 결과 이들은 모두 KRT19를 발현하므로 KRT19-expressing ductal sub-population이 맞음을 입증 (Fig. 3e-h)

Suppl' Fig. 6에는 merge하기 전의 이미지가 있으므로 참고할 것

② MIA analysis

 PDAC-A 및 PDAC-B에서 ductal subpopulation이 모두 duct epithelium에 많이 있다는 것을 알 수 있음

APOL1 high/hypoxic이 특이하게도 cancer region에 많고 ( low oxygen content) pancreatic tissue에 적음 

⑵ macrophages를 M1-like macrophages와 M2-like macrophages로 나눌 수 있음

① subpopulation (Suppl' Fig. 7a) : violin plots로 알아냄. (주석) 아마도 scRNA-seq로 분리가 안 되는 듯

 used M1 marker : IL1B, IL1RN, CLEC5A 

○ used M2 marker : MS4A6A, SDS, CD163 

② MIA analysis (Suppl' Fig. 7b)

PDAC-A에 대해서 MIA analysis를 진행한 결과 M1-like macrophages는 stroma와 cancer regions에 분포하여 inflammatory environment를 반영하고 M2-like macrophages는 ducts에 분포하여 tissue resident macriphages를 반영

⑶ dendritic cells를 A와 B로 나눌 수 있음

① subpopulation (Suppl' Fig. 7c) : violin plots로 알아냄. (주석) 아마도 scRNA-seq로 분리가 안 되는 듯

 used A marker : TUBB, TLR5, CLEC4A

○ used B marker : C1QA, C1QB, HLA-DRB1

○ B는 complement pathway genes나 MHC class II 등이 많이 발현되는 게 특징

② MIA analysis 

○ macrophage처럼 두 sub-cluster가 exclusive pattern이 나오는데 각각이 unique role이 있는 거 같

 

 

7. 결과 5. cancer population을 MIA를 통해 분석 [목차]

⑴ 문제의식

① PDAC-A에서 TM4SF1-cancer와 S100A4-cancer가 분명히 다른 cell type이라는 것을 밝혔음

② 그러나 MIA analysis를 한 결과 이들 두 cell type이 동일한 region에 있다고 나타남

③ 그렇다면 이들 두 cell type은 colocalized 돼 있는가 아니면 두 cell type의 분포가 상이한가?

⑵ 기존의 PDAC-A (PDAC-A-1)에 추가로 PDAC-A-2에 대한 ST analysis를 진행한 뒤 sub-region을 정의

⑶ MIA 결과 cancer cluster 1은 fibroblasts가 많이 발현되는 region에 많이 있고 (stromal response와 관련 있는 듯) cancer cluster 2는 fibroblasts가 적게 발현되는 region에 있는 듯 (Fig. 4d)

 

 

8. 결과 6. tumor microenvironment를 MIA를 통해 분석 [목차]

문제의식

① 최근 scRNA-seq 연구에 따르면 glioblastoma, melanoma, head and neck cancer 등 여러 가지 cancer type이 밝혀짐

② 여러 cancer 간의 상호작용으로 여러 가지 cancer cell state가 있을 수 있음

③ 그렇다면, MIA analysis를 이용해 이들 cancer cell state를 mapping할 수 있지 않을까?

⑵ heatmap (Fig. 5a)

⑶ coenrichment of genes of stress-response module with the cancer stress-response module

① 1st. cancer stress-response module

Elyada et al.에 의해 scRNA-seq-defined inflammatory fibroblast signature가 정의

시그니처(signature) : 유전자 이름, FC 값, 또는 p-value로 구성된 데이터프레임. 유전자 스코어도 시그니처라고 할 수 있음

② 2nd. genes of stress-response module

 2nd-1st. PDAC-A-1에서 cancer region spots를 구함

○ 2nd-2nd. cancer stress-response module를 coloring

○ 2nd-3rd. highly expressing spots와 lowly expressing spots를 구분

○ 2nd-4th. 두 region을 구분짓는 DEG를 조사

③ 3rd. MIA analysis : 총 10개의 ST array를 진행

stress-module spots와 inflammatory fibroblasts의 strong coenrighment가 나타남

○ significant coenrichments of monocytes and T/natural killer cells가 나타남 : inflammatory fibroblasts만큼은 아님)

⑷ immunofluorescence

① inflammatory fibroblasts에서 주요하게 발현되는 IL-6로 immunofluorescence를 수행

DAPIKRT19, IL-6, 그리고 H&E staining에 대해 진행

결론 1. IL-6와 KRT19의 colocalization : IL-6가 inflammatory fibroblasts에서 주요하게 발현된다는 결과와 일치

결론 2. H&E staining 결과 tissue 내 epithelial cells는 정말로 malignant cells와 일치함

최종 결론 : inflammatory fibroblast와 cancer cells expressing a stress-response gene module은 관계가 있음

 

 

9. 결과 7. TCGA(The Cancer Genome Atlas)로 보강 [목차]

⑴ correlation between the expression of each identified cancer gene module and the inflammatory fibroblast gene signature

 TCGA에 나와있는 142개의 PDAC tumors에 대해 진행

② hypoxia module, oxidative phosphorylation module, stress-response module 중에서 stress-response module만 유의성 있는 Pearson correlation coefficient가 나왔음 

⑵ Tirosh의 scRNA-seq와 Thrane et al.의 ST data를 이용 (Suppl' Fig. 12)

결론 1. fibroblasts와 endothelial cells의 colocalization : TCGA data로 MIA map을 그려보니 stromal tissue compartment가 대부분 fibroblasts와 endothelial cells로 구성됨. 이는 앞서 연구에서도 확인됨 

결론 2. macrophage가 melanoma region 내 특정 지점에만 존재함 

결론 3. CD8+ T cell marker가 상당히 부족함 : CD8+ T cell marker가 prognosis와 response to therapy marker로서 활용될 수 있다는 의미

 

 

10. 한계 [목차]

한계 1. ST array는 전체 조직을 cover하지도 못하고 각 spot이 single-cell resolution도 아님 

한계 2. 모든 histological features에 대해 tissue permeablization condition이 최적이 아닐 수 있음


입력: 2021.01.03 23:28