RNA 시퀀싱 quality control (QC)
추천글 : 【생물정보학】 생물정보학 분석 목차
1. 조직 QC [본문]
2. 데이터 QC [본문]
3. 트러블슈팅 [본문]
b. 전사체 분석 파이프라인
1. 조직 QC(quality control) [목차]
⑴ 정의 : 조직의 품질을 평가하는 척도
⑵ 종류 1. RIN (RNA integrity number)
① Agilent 2100 Bioanalyzer에 의해 측정됨
② RIN = 10 : 온전한 RNA
③ RIN = 1 : 완전히 degradation이 된 RNA
④ RIN > 7 : 일반적으로 RNA-seq을 하기 적합한 퀄리티 수준
⑶ 종류 2. DV200 : FFPE 조직의 경우 RNA가 끊어져 있어서, 200 nt 정도 되는 조각이 몇 %인지를 보는 것
2. 데이터 QC(quality control) [목차]
⑴ 정의 : 데이터의 품질을 평가하고, 필요시 개선하는 것
⑵ 종류 1. 데이터 QC 메트릭 : 메뉴얼 혹은 다른 데이터셋과 비교하여 external validity 확인 목적
① QC 메트릭
○ dUTP method 기준, "_1.fastq"는 first strand (anti-sense)이고, "_2.fastq"는 second strand (sense; 원래 RNA 서열)
○ non-coding RNA 비율이 높고, duplication이 많으면 RNA 퀄리티가 낮음을 의미
○ GC 함량이 너무 높은 경우 : rRNA contamination이 있을 가능성이 높음. 이 경우 5S, 18S, 28S rRNA를 필터링해야 함
○ GC 함량이 너무 낮은 경우 : 역전사 반응이 제대로 되지 않을 가능성이 높음
○ 일반적으로 DNA-seq은 duplicates를 제거하고, RNA-seq은 제거하지 않음
○ unique molecule이 10% 미만인 경우 RNA 퀄리티가 상당히 낮음을 의미
○ fragment가 너무 작으면 adaptor가 읽히기 시작함 : 이 경우 adaptor cut을 함
○ poly-A(+) RNA-seq의 경우 exonic이 50 ~ 70%
○ rRNA(-) RNA-seq의 경우 exonic의 비율이 적어짐
② ChIP-seq의 QC 메트릭
○ background uniformity (biasedness)
○ qPCR enrichment
○ input DNA qualuty via NanoDrop
○ cross-correlation analysis : NSC (normalized strand coefficient), RSC (relative strand correlation)
○ FRiP (fraction of reads in peaks) (ref1, ref2)
○ IDR (irreproducibility discovery rate) (ref1, ref2)
○ denQCi, simQCi, QC-STAMP (ref)
③ 방법 1. 다른 데이터셋 : 10x Genomics, GEO, ZENODO 등
④ 방법 2. FastQC 프로그램 사용
⑤ 방법 3. conda Fastqc 명령어 사용 (리눅스)
⑥ 방법 4. SRA (Sequence Reads Archive) Toolkit을 다운받은 후 fastqc 명령어 사용 (리눅스) : 아래는 실제 생성 파일 예시
sudo apt install fastqc
cd sratoolkit.3.0.5-ubuntu64/
cd bin
fastqc DRR016938.fastq
⑦ 방법 5. SnakeMake : 통합 파이프라인이므로 QC 기능도 제공됨
○ Snakefile : 파일명이 Snakefile. SnakeMake 스크립트로서 파이썬을 기반으로 함
# Snakefile
# 결과 파일을 정의
rule all:
input:
"results/processed_data.tsv"
# 데이터 처리 규칙
rule process_data:
input:
"data/raw_data.tsv"
output:
"results/processed_data.tsv"
shell:
"""
cat {input} | awk -F'\t' '{{print $1, $2, $3}}' > {output}
"""
○ config.yaml (선택적) : Snakemake workflow의 설정
○ requirements.txt (선택적) : 패키지 dependency
○ 입력 파일
○ 출력 파일
⑧ 방법 6. QuASAR-QC : Hi-C seq 데이터에 적용
⑨ 트러블슈팅
⑶ 종류 2. 샘플 간의 rank-correlation : internal validity 확인 목적
① 목적 1. 하나의 샘플 내에 정렬 특성이 있는 두 변량의 alignment를 살펴서 샘플의 품질을 평가할 수 있음
○ 예 1. 서로 유사하다고 알려진 두 유전자의 발현 정도의 alignment를 살피는 것
○ 예 2. 서로 유사하다고 알려진 두 유전자 발현이 비슷한 클러스터에서 나타나는지 살피는 것
② 목적 2. 동일한 한 쌍의 샘플의 correspondence를 보는 때 주로 사용함
③ 목적 3. 데이터 분포 특성이 다른 서로 다른 두 변량의 상관계수를 조사할 수 있음
○ QC 분석과는 다소 거리가 있는 개념
○ 예시 : scRNA-seq에서의 어떤 유전자 A 발현과 ST에서의 A 발현의 상관계수를 조사하는 경우
④ 방법 1. Pearson 상관계수
○ 정의 : X와 Y의 표준편차 σx, σy에 대해,
○ 특징
○ 등간, 비율척도로 측정된 두 변수들의 상관관계
○ 연속형 변수를 대상으로 함
○ 정규성 가정
○ 대부분 많이 사용
○ cor(x, y)
○ cor(x, y, method = "pearson")
○ cor.test(x, y)
○ cor.test(x, y, method = "pearson")
⑤ 방법 2. Spearman 상관계수
○ 정의 : x' = rank(x)와 y' = rank(x)에 대해 다음과 같이 정의
○ 특징
○ 서열 척도인 두 변수들의 상관관계를 측정하는 방식
○ 순서형 변수를 대상으로 하는 비모수적 방법
○ 제로가 많은 데이터에 유리함
○ 데이터 내 편차나 에러에 민감
○ 켄달 상관계수보다 높은 값을 가짐
○ cor(x, y, method = "spearman")
○ cor.test(x, y, method = "spearman")
⑥ 방법 3. Kendall 상관계수
○ 정의 : concordant pair와 discordant pair에 대해 상관계수를 정의
○ 특징
○ 서열 척도인 두 변수들의 상관관계를 측정하는 방식
○ 순서형 변수를 대상으로 하는 비모수적 방법
○ 제로가 많은 데이터에 유리함
○ 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용함
○ 절차
○ step 1. x 값에 대한 오름차순으로 y 값을 정렬 : 각 y 값을 yi로 표기
○ step 2. 각 yi 값에 대하여 yj > yi (단, j > i)인 concordant pair의 개수를 셈
○ step 3. 각 yi 값에 대하여 yj < yi (단, j > i)인 discordant pair의 개수를 셈
○ step 4. 상관계수 정의
○ nc : total number of concordant pairs
○ nd : total number of discordant pairs
○ n : size of x and y
○ cor(x, y, method = "kendall")
○ cor.test(x, y, method = "kendall")
3. 트러블슈팅 [목차]
⑴ 방법 1. 웹사이트 조사 : pre-fligh error, in-flight error 또는 alerts
① Failing to install bcl2fastq
② ATAC Sequencing depth per cell is low (Cell Ranger ARC v2.0) : Ideal > 10,000. Low ATAC sequencing depth negatively impacts the quality of peak calling, clustering, differential analysis and feature linkage. At very low sequencing depth, < 5000 raw read-pairs per cell, identification of cell barcodes may be unreliable.
③ GEX Sequencing depth per cell is low (Cell Ranger ARC v2.0) : Ideal > 5,000. Low GEX sequencing depth negatively impacts the quality of clustering, differential analysis and feature linkage. At very low sequencing depth, < 2,000 raw read-pairs per cell, identification of cell barcodes may be unreliable.
④ ATAC Median fragments per cell is low (Cell Ranger ARC v2.0) : A low value is generally caused by low sequence depth, the wrong genome reference, or low library complexity that could be due to a problem during the transposition step or a problem in the library preparation workflow. Low fragment counts negatively impact clustering, differential analysis and feature linkage detection.
⑤ Number of linkages detected is low (Cell Ranger ARC v2.0) : The number of detected feature linkage is < 100. This may be caused by a low number of nuclei recovered, low sequencing depth, poor peak calling, or a sample that is relatively homogenous.
⑥ GEX Median UMI counts per cell is low (Cell Ranger ARC v2.0) : Observed value < 100. This may be a consequence of very low sequencing depth, poor sample quality, an error in the library preparation workflow, the wrong reference genome, or poor genome annotations. Low UMI counts negatively impact clustering, differential analysis and feature linkage detection.
⑦ GEX Reads mapping to reference is low (Cell Ranger ARC v2.0) : Ideal > 80%. This can be caused by the wrong reference genome being used or a poor quality genome assembly. Application performance may be affected.
⑧ GEX Reads mapping to transcriptome is low (Cell Ranger ARC v2.0) : Ideal > 50%. This can indicate use of the wrong reference transcriptome, a reference transcriptome with overlapping genes, poor library quality, poor sequencing quality, or reads shorter than the recommended minimum. Application performance may be affected.
⑨ ATAC Reads mapping to reference is low (Cell Ranger ARC v2.0) : Ideal > 80%. This can be caused by the wrong reference genome being used or a poor quality genome assembly. Application performance may be affected.
⑩ GEX Transcriptome reads in cells is low (Cell Ranger ARC v2.0) : Ideal > 60%. Many of the reads were not assigned to cell-associated barcodes. This is generally indicative of poor sample prep resulting in high levels of ambient RNA. It could also indicate a problem in the cell calling algorithm that could be caused by high RNA or DNA background, exclusion of a large number of barcodes from cell calling due to low targeting, or due to a population of nuclei with low RNA content. The latter case can be addressed by inspecting the data to determine the appropriate cell count and rerunning the pipeline supplying appropriate parameters to override the cell caller. Application performance may be affected.
⑪ Low Fraction Reads Confidently Mapped To Transcriptome (Cell Ranger v6.1) : Ideal > 30%. This can indicate use of the wrong reference transcriptome, a reference transcriptome with overlapping genes, poor library quality, poor sequencing quality, or reads shorter than the recommended minimum. Application performance may be affected.
⑫ No Cells Detected (Cell Ranger v6.1) : Estimated number of cells is expected to be > 100. This usually indicates poor cell handling, poor library, or poor sequencing quality. Application performance is likely to be affected.
⑬ Low Fraction Valid UMIs (Cell Ranger v6.1) : Ideal > 75%. This may indicate a quality issue with the Illumina R2 read for Single Cell 3' v1 or the R1 read for Single Cell 3' v2/v3 and Single Cell 5'. Application performance may be affected.
⑭ Fraction of UMI bases with Q-score >= 30 is low (Cell Ranger v6.1) : Fraction of UMI bases (Illumina R2 Read for Single Cell 3' v1, R1 for Single Cell 3' v2/v3 and Single Cell 5') with Q-score >= 30 should be above 75%. A lower fraction might indicate poor sequencing quality.
⑮ Fraction of cell barcode bases with Q-score >= 30 is low (Cell Ranger v6.1) : Fraction of cell barcode bases (Illumina I7 Read for Single Cell 3' v1, R1 for Single Cell 3' v2/v3 and Single Cell 5') with Q-score >= 30 should be above 55%. A lower fraction might indicate poor sequencing quality.
ⓐ Too many detected cells (Cell Ranger ATAC v2.0) : Estimated number of cells is expected to be under 10,000. A high value might indicate an overlapping of cells, a problem during library preparation, or unexpected behavior in the cell calling algorithm.
ⓑ Average fraction of barcode bases with high sequencing quality is low (Cell Ranger ATAC v2.0) : Average fraction of bases in barcode with quality above Q30 should be ideally above 75%. A lower fraction might indicate poor sequencing quality.
ⓒ Median fragments per cell is low (Cell Ranger ATAC v2.0) : The median number of fragments (that passed all filters) detected in single cells is expected to be above 500. A lower value suggests low sensitivity, potentially due to insufficient sequencing.
ⓓ The percentage of transposition events falling within peaks is low (Cell Ranger ATAC v2.0) : It is expected that more than 25% of the transposition events fall within peak regions. A lower value could suggest peak undercalling or low sequencing depth.
ⓔ Estimated number of cells is low (Cell Ranger ATAC v2.0) : Number of cells detected is expected to be higher than 500. This usually indicates poor cell, library, or sequencing quality.
ⓕ Average fraction of barcode bases with high sequencing quality is low (Cell Ranger ATAC v2.0) : Average fraction of bases in barcode with quality above Q30 should be above 75%. A lower fraction might indicate poor sequencing quality.
ⓖ Fraction of RNA read bases with Q-score >= 30 is low (Space Ranger v1.3) : Fraction of RNA read bases with Q-score >= 30 should be above 80%. A lower fraction might indicate poor sequencing quality.
ⓗ Low Fraction Reads in Spots (Space Ranger v1.3) : Ideal > 50%. Application performance may be affected. Many of the reads were not assigned to tissue covered spots. This could be caused by high levels of ambient RNA resulting from inefficient permeabilization or because of poor tissue detection. The latter case can be addressed by using the manual tissue selection option through Loupe.
⑵ 방법 2. technical note 조사
① Single Cell Gene Expression Assay
② Single Cell Multiome ATAC + Gene Expression Assay
입력: 2023.05.22 11:48
'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글
【생물정보학】 FASTQ, FASTA, GTF, GFF, BAM, SAM, Loom, VCF 파일 이해하기 (0) | 2023.08.03 |
---|---|
【생물정보학】 셀 타입 마커 유전자 (2) | 2023.07.05 |
【생물정보학】 모델 생물 라이브러리 (0) | 2022.07.20 |
【생물정보학】 bulk RNA-seq에서 DEG 획득하기 (DESeq2, t test, ANOVA) (0) | 2022.07.02 |
【생물정보학】 유전자 스코어 라이브러리 (0) | 2022.06.21 |
최근댓글