본문 바로가기

Contact English

【생물정보학】 Cell Type Classification Pipeline

 

Cell Type Classification Pipeline

 

추천글 : 【생물정보학】 생물정보학 분석 목차


1. matrix와 sparse matrix [본문]

2. PCA로 차원 축소 [본문]

3. 클러스터링 [본문]

4. DEG 탐색 [본문]

5. 패키지 소개 [본문]


a. Seurat로 cell type 결정하기

b. scater로 cell type 결정하기 

c. scanpy로 cell type 결정하기 


 

1. matrix와 sparse matrix [목차]

⑴ sparse matrix는 0이 아닌 데이터의 값과 위치를 표시한 행렬

⑵ 생물정보학에서 다루는 데이터의 양이 크므로 sparse matrix 사용

 

 

2. PCA로 차원 축소 [목차]

⑴ 큰 데이터에 PCA를 적용할 수 없으므로 최적화 필요

최적화 전략 1. 약 30,000개의 유전자 중 가장 변동이 많은 일부 유전자만 이용

최적화 전략 2. 이들 유전자가 input variance의 95% 이상을 설명하도록 개수 설정

⑷ 기타 차원 축소 알고리즘 : tSNE, UMAP, SVD, ICA, MDS, LDA, CCA, RPCA, PHATE, ODA, LLE, LSA, PLSA

 

 

3. 클러스터링 [목차]

⑴ PCA를 한 뒤에 10개의 주성분을 가지고 클러스터링을 함

⑵ t-SNE 등의 클러스터링 알고리즘이 사용됨

 

 

4. DEG(diffrential expression gene) 탐색 [목차]

⑴ DEG : 클러스터링하여 얻어진 각 그룹이 다른 그룹에 대해 특별히 더 많이 발현하는 유전자

⑵ t-t analysis나 GLM 등의 방법이 있음

⑶ 각 그룹을 대표하는 gene들의 생물학적인 의미를 찾아 각 그룹에 cell type을 명명 (자동화 불가)

⑷ 생물학적인 의미를 가지는 대표 유전자들을 마커 유전자(marker gene)라고 함

 

 

5. 패키지 소개 [목차]

⑴ R에서는 Seurat, Scater 등의 패키지가 위 파이프라인을 구현

⑵ 파이썬에서는 Scanpy가 위 파이프라인을 구현

 

입력 : 2019.11.22 13:49