본문 바로가기

Contact 日本語 English

【생물학】 10강. 게놈 프로젝트와 시퀀싱 기술

 

10강. 게놈 프로젝트와 시퀀싱 기술

 

천글 : 【생물학】 생물학 목차


1. 게놈 프로젝트 [본문]

2. 시퀀싱 기술 [본문]


a. 파이로시퀀싱

b. 후성유전체 시퀀싱

c. 생물정보학 분석 목차

d. 전사체 분석 파이프라인 


 

1. 게놈 프로젝트(genome project) [목차]

⑴ 개요

1990년 왓슨이 지휘하면서 시작 : 6개국 연합의 15년 과제로 출범

350여 연구기관 공동 연구

 200061184.5 % 완성, 초안 발표

 200341599.99% 정확도의 완결편 발표

2,800명 이상의 연구자가 13년간 참여하였으며 2.7조 원이 소요

 인간유전체 연구의 부수효과

생물정보학의 탄생 

 인체 단백질 생산 공정의 개발을 촉진

○ 인슐린(insulin) : 최초로 서열이 결정된 단백질 

 자동화된 염기서열 분석기기 개발을 촉진

 응용성 있는 다른 생물의 유전체 분석 촉진

방법론 1. 단계적 서열분석법 : 과학자 진영

단계 1. 제한효소 인식 부위 결정

제한효소로 DNA를 자른 뒤 전기영동을 하면 각 절편의 크기를 알 수 있음

두 개의 제한효소를 여러 방식으로 처리하면 두 효소의 제한효소 인식부위의 상대적 거리를 알 수 있음

단계 2. 유전자 지도 작성

염색체 상의 유전자의 상대적 거리를 결정하는 것

교차율을 통해 유전자 사이의 거리를 추론할 수 있음

단계 3. 물리적 지도 (DNA 지도) 작성

○ 제한효소 인식 부위 결정의 의미 : 각 제한효소 인식 부위를 지도 삼아서 염기순서를 알아낸 단편들의 정보로 물리적 지도를 누적적으로 작성

○ 유전자 지도 작성의 의미 : 물리적 지도가 작성되면 유전자 지도와 대조할 수 있음. 유전자 사이에는 인트론이 있음

하나의 라이브러리로 접근하는 방식

방법론 2. 산탄식 서열분석법 (Celera, J. Craig Venter) : 기업가 진영

하나의 DNA를 여러 방법으로 자름

하나의 방법으로 잘린 토막들의 염기 순서를 모두 밝혀냄

분석 시료의 길이는 제한돼 있으므로 한 번에 DNA 순서를 알 수는 없음

각각의 방법에서 염기들의 배열을 무작위적으로 하여 공통된 결과를 이를 때까지 계속

④ 컴퓨터 사이언스에 기반한 방법

과학자 진영 vs 기업가 진영

과학자 진영은 기업가 진영이 자신들의 공로와 투자를 가로채 가는 것이 불만

기업가 진영은 과학자 진영이 정보를 공개하지 않는 것이 불만 새로운 방법론 개발

게놈 지도의 최종 완성은 둘 모두의 공으로 합의

 

단계적 서열 분석법과 산탄식 서열 분석법
출처: 서울대학교 생물학(안태인 교수님) 강의

Figure. 1. 단계적 서열 분석법과 산탄식 서열 분석법]

 

 

2. 시퀀싱 기술 [목차]

⑴ 개요

① DNA 시퀀싱 : DNA 복제 원리를 응용 

주형 : DNA의 각 사슬

기질 : dNTP(dATP, dCTP, dGTP, dTTP)

○ NTP는 2' 탄소에 -OH기가 달려있는 것으로 RNA 중합의 재료

DNA 중합효소 : 디옥시리보오스의 3‘-OH에 다음 뉴클레오티드의 인산이 결합

합성 방향 : 5‘ 3’, 주형과 상보적인 염기쌍 형성

ddNTP : 3번 탄소가 OH기가 아니라 H기이므로 DNA 중합이 중단

② RNA 시퀀싱 : RNA 전사 원리를 응용

in vitro cloning : 가장 최초의 시퀀싱 방법

⑶ 디데옥시 사슬 종결법 (= Sanger sequencing) : 1977년 보고, 생어(Sanger)의 두 번째 노벨상

기질 : dNTP + ddNTP 소량 + buffer (pH 안정)

○ ddNTP는 3'-OH기가 없으므로 중합 반응을 종료시킴

만약 ddNTP를 많이 넣으면 모든 주형 DNA가 단시간에 중합을 중단

프라이머

○ 예 : p32-프라이머 (CTAG)

1st. 주형 DNA와 중합효소 첨가

2nd. 중합반응 후 가열하여 복제 가닥 분리

3rd. 전기영동 후 X선 필름에서 서열 판독 하거나 형광 조사

 

디데옥시 사슬 종결법의 과정
출처: 서울대학교 생물학(안태인 교수님) 강의

Figure. 2. 디데옥시 사슬 종결법의 과정]

 

⑥ 장점 : 아주 긴 가닥도 읽을 수 있어 아직도 실험실에서 활용됨

⑦ 단점 : 같은 DNA 가닥이 매우 많아야 함

⑷ dye-디데옥시 사슬 종결법 : 레이저 이용

dNTP4색 형광 - ddNTP 소량 첨가

자동 염기서열 판독 가능

 

Dye-디데옥시 사슬 종결법의 과정
출처: 서울대학교 분자영상수업 강의

Figure. 3. Dye-디데옥시 사슬 종결법의 과정]

 

파이로시퀀싱(pyrosequencing)

① 정의 : DNA 중합 시 나오는 피로인산의 양에 비례하여 발광하도록 함으로써 수행되는 DNA 서열결정법

② 모식도

 

Nucleotide incorporation generates light seen as a peak in the pyrogram.

Figure. 4. 파이로시퀀싱 모식도

 

③ 과정

 

Figure. 5. 파이로시퀀싱 과정

 

⑹ Illumina solid-phase amplication (ref)

 

Illumina solid-phase amplication
출처 : 이미지 클릭

Figure. 6. Illumina solid-phase amplication]

 

형광 색깔 분포 사진
출처 : 이미지 클릭

Figure. 7. 형광 색깔 분포 사진]

 

① 1st. 절편화 : 주어진 DNA 시료를 랜덤하게 자름

② 2nd. gel-based size selection : 필요한 경우 각 DNA fragment의 사이즈를 한정할 수 있음 

3rd. adaptor binding : 모든 DNA 시료 절편의 양 말단에 어댑터를 붙임

4th. amplification

○ 4th - 1st. DNA를 single-strand로 변성

○ 4th - 2nd. single-stranded DNA를 illumina flow cell에 부착

○ 4th - 3rd. 효소를 첨가하여 solid-phase substrate 상에서 single-stranded DNA가 bridge가 되도록 함

○ 4th - 4th. single-stranded DNA bridge에 프라이머를 첨가하면 프라이머가 그 bridge에 결합할 수 있음

○ 4th - 5th. unlabeld single-stranded DNA를 첨가한 뒤 DNA 중합반응 유발 : double-stranded DNA bridge가 됨

○ 4th - 6th. denaturing을 통해 double-stranded DNA bridge가 anchored single-stranded DNA가 되도록 함

○ 4th - 7th. 위 6개의 과정을 반복하여 동일한 염기서열을 가지는 anchored single-stranded cluster를 생성

특징 : anchored single-stranded cluster는 몇백만 cluster를 형성함 

5th. sequencing by synthesis (SBS)

○ 4th - 1st. 염기 종류에 따른 4종류의 labled reversable terminator, 프라이머, DNA 중합효소를 첨가

○ 4th - 2nd. labled reversable terminator 뉴클레오티드가 이인산에스테르 결합을 형성하면 형광이 발생

○ 4th - 3rd. 각 클러스터의 형광 색깔 분포를 사진으로 획득

○ 4th - 4th. washing

○ 4th - 5th. 위 4개의 과정을 반복하여 전체 염기서열을 결정 

종류 1. single-end 시퀀싱 (SES) : 어댑터의 한쪽만으로 시퀀싱을 하는 방식  

종류 2. paired-end 시퀀싱 (PES) : 어댑터의 양쪽으로 시퀀싱을 하는 방식

○ 우선 한 어댑터를 통해 시퀀싱을 하고 (Read1 획득), 그 뒤 반대쪽 어댑터를 통해 시퀀싱을 함 (Read2 획득)

○ 한 DNA fragment에서 나오는 Read1과 Read2는 동일한 클러스터에서 나오므로 쉽게 둘을 대응시킬 수 있음

○ 장점 : 더 높은 정확성 ( Read1, Read2 상호 간 비교), DNA 변이 도출 용이, 반복서열 분석 용이, 이종 간 맵핑 용이

○ 단점 : 더 비싼 가격, SES보다 스텝이 더 많이 필요함

WGS(whole genome sequencing)

 SNV, insertion, deletion, structural variant, CNV

② sequencing depth > 30X

WES(whole exon sequencing)

 오직 protein-coding gene에 대한 SNV, insertion, deletion, SNP

② sequencing depth > 50X ~ 100X

③ 비용이 저렴함

RNA-seq

① 1st. microdissection : RNA 추출을 위해 특정 조직을 분리하는 것

LCM(laser capture microdissection) : 레이저 빔으로 특정 조직을 절단. robust하지만 labor intensive하다는 단점 

TOMO-seq : cryosection을 이용하고 컴퓨터를 통해 3D sectioning을 할 수 있음. 임상적 목적으로는 사용할 수 없음

transcriptome in vivo analysis 

ProximID

STRP-seq 

② 2nd. RNA의 poly A 꼬리를 인식하는 poly T를 결합시킴

③ 3rd. RNA를 절편화

④ 4th. RNA에 프라이머 부착

⑤ 5th. 첫 번째 cDNA 합성

⑥ 6th. 두 번째 cDNA 합성

⑦ 7th. RNA의 3'과 5' 말단에 가공

⑧ 8th. DNA sequencing adapters ligated

⑨ 9th. ligated 절편을 PCR로 증폭

응용 1. dUTP method : strand-specific sequencing의 대표적인 방법

○ 배경 : RNA 방향성에 따른 생물학적 기능을 연구할 때 사용 (예 : antisense miRNA의 조절)

step 1. DNA&RNA hybrid : mRNA poly-A tail에 붙는 dT 프라이머와 역전사 효소로 cDNA (first or anti-sense strand) 합성

 

5'-//-U-//-AAAAAA-3'

3'-//-A-//-TTTTTT-5'

 

step 2. ds cDNA : dTTP 대신 dUTP를 이용하여 cDNA (first strand)를 주형으로 cDNA (second or sense strand)를 합성

 

3'-//-A-//-TTTTTT-5'

5'-//-U-//-AAAAAA-3'

 

step 3. ligated ds cDNA : Y-adaptor를 ds cDNA 양쪽에 연결

step 4. UDG(uracil-DNA glycosylase)를 처리하면 우라실을 포함하는 DNA인 second strand가 분해됨

step 5. 남아 있는 reverse antisense strandfirst strand를 증폭해 라이브러리를 생성 

○ 라이브러리 raw 데이터에서 "_1.fastq"가 first strand이고, "_2.fastq"가 second strand 

○ 즉, _2.fastq가 원래 RNA의 프로파일을 나타냄 

단일세포시퀀싱(single cell sequencing) 

① 종류 

scDNA-seq

○ scRNA-seq (2013년 올해의 기술) : Chromium, Smart-seq 등

○ single cell epigenetics sequencing

단계 1. 단일 세포 분리 

방식 1. 단순한 분리 : 매우 초창기 방식

방식 2. FACS 또는 LCM(laser microdissection) 기반

 방식 3. acoustic separation

 유체역학적으로 단일 세포를 구분하므로 세포에 영향을 비교적 적게 줌

○ 대표적으로 CyTOF(cytometry by time of flight)가 있음

 방식 4. immuno-magnetic separation

 cell에 magnet을 붙임

세포를 많이 획득할 수 있음

centrifugation이 필요한 경우와 그렇지 않은 경우로 구분

단계 2. reverse transcription 

단계 3. cDNA amplification

단계 4. 라이브러리 구성 : Drop-seq 등

⑥ 단일세포유전체(scDNA-seq) + 단일세포전사체(scRNA-seq) 

○ 유전체 상의 mutation pattern이 전사체 상의 gene expression과 어떻게 연관되는지 알 수 있음

○ DNA와 RNA를 분리하는 기술 : G&T seq, SIDR-seq, DNTR-seq  

단일핵전사체(single nucleus RNA sequencing, snRNA-seq

목적 1. 근육은 다핵세포이므로 scRNA-seq에 의해 캡처되지 않으므로 세포보다는 핵 단위로 분석할 필요가 대두됨

목적 2. scRNA-seq보다 intron, pre-mRNA, non-coding RNA 등 다양한 RNA가 많이 잡힘

목적 3. snRNA-seq에서 핵 RNA가 주로 많이 잡힘 : 세포질 RNA가 (소량이지만) 잡히긴 함

 공간적 시퀀싱(spatial resolved sequencing)

 

출처 : 이미지 클릭

Figure. 8. 공간적 시퀀싱 개요

 

종류 1. 공간유전체(spatial genomics)

예시 1. 종양 연구 : 종양은 불균일성이 있으므로

예시 2. 비장 연구 : 성숙한 면역세포는 유전자 구성이 모두 다르므로 

종류 2. 공간전사체(spatial transcriptomics) : 2020년 올해의 기술

2-1. spot 기반 공간전사체 (spatial indexing transcriptomics) : 많은 유전자 + 적은 스팟

ST (spatial transcriptomics)

barcoded oligo를 랜덤하게 조직에 뿌린 뒤 각 조직으로부터의 mRNA를 capture 하는 방식 

 10X Visium 

○ 원리 : 각 스팟에 스팟 특이적인 oligonucleotide를 부착시켜 조직 유래 RNA와 혼성화 → spotwise transcriptome 획득

○ 표면적 : 6.5 mm × 6.5 mm

○ 두께 : 10 ~ 20 μm

○ 스팟의 개수 : 최대 4992개 (Visium HD 이전 버전 기준)

○ 스팟 간 거리 : 100 μm

○ 스팟의 직경 : 55 μm

○ sensitivity : 10,000 transcripts per spot

종류 1. direct Visium (oligo-dT based method) 

poly dT로 mRNA를 capture

○ FF(fresh-frozen) 샘플에만 적용 가능 : FFPE에 쓰이는 시약이 direct Visium에 적합하지 않음

 

출처 : 이미지 클릭

Figure. 9. Visium FF 원리

 

종류 2. probe-based Visium 

○ FF, FFPE(formalin-fixed paraffin-embedded) 모두에서 할 수 있음 : 특히 FFPE 샘플은 mRNA들이 여러 파편들로 끊어져 있는 등 RNA degradation이 있어서 direct Visium을 할 수 없어 중요함

3쌍의 LHS와 RHS가 모두 붙어야 target mRNA가 식별됨 : 각 프로브의 길이는 25 bp. RTL(probe-based RNA-templated ligation chemistry)을 이용

 

출처 : 이미지 클릭

Figure. 10. probe-based Visium 원리

 

○ 장점 : direct Visium보다 데이터 퀄리티가 좋음

○ 단점 : probe 기반으로 지정된 유전자만 detect를 하므로 Visium FF보다 분석 상의 자유도가 떨어짐

2024년 6월부터 10x는 CytAssist가 아닌 Visium FFPE 서비스를 종료 

○ CytAssist 이미지는 gene expression 분포를 나타내어 image alignment에 쓰임

Slide-seq (slideSeq), Slide-seq V2 

○ 랜덤하게 spatial bead를 뿌리고 in-situ sequencing을 하는 방식 

○ 스팟의 97%가 하나 혹은 두 개의 셀 타입으로 구성돼 있음 

HDST 

○ 바코드가 새겨진 bead를 patterned wafer 위에 올리고 serial hybridization  

NanoString GeoMx

Nanostring과 10x Genomics의 특허 분쟁 ('23) (ref1, ref2) → Nanostring 파산 (ref) 및 인수 (ref)

Stereo-seq : Visium보다 해상도가 높음 

○ flow cell 위에 새겨진 oligo patterning을 Illumina 또는 MGI sequencing으로 읽어들이고 barcode calling

○ 직경 : 220 nm

○ 스팟 간 거리 : 500 혹은 715 nm

Seq-Scope : Visium보다 해상도가 높음

○ flow cell 위에 새겨진 oligo patterning을 Illumina 또는 MGI sequencing으로 읽어들이고 barcode calling

○ PIXEL-seq

XYZeq

○ spatially barcoded microwell 위에 조직을 올려놓기 → 1회 역전사 → 세포 제거 → single-cell sequencing 

sci-Space

○ spatially gridded hashing oligo가 있는 슬라이드 위에 조직을 올려놓기 → tissue permeabilization (oligo transfer) → 이미징 → 세포핵 제거 → 세포 고정 → 시퀀싱 

○ sci-RNA-seq

○ TIVA-seq

○ NICHE-seq

ZipSeq

○ 세포에 photocaged oligonucleotides를 처리하여 실시간으로 RNA들의 patterned illumination (i.e., zipcode)를 관찰하는 이미징 기술 

DBiT-seq

○ orthogonal microfluidics 상의 일정한 위치 위에 barcoded oligo를 올려서 조직의 위치 특이적 전사체를 획득

○ CITE-seq (ref 1, ref 2) : 공간전사체와 antibody의 분포를 나란히 비교할 수 있음 

 

출처 : 이미지 클릭

Figure. 11. CITE-seq 모식도

 

○ streptavidin-biotin을 이용하여 oligonucleotide의 5' 말단을 항체에 연결

○ oligonucleotide는 oligo-dT 프라이머와 상보적으로 결합할 수 있음

○ streptavidin-biotin 결합은 환원 조건에서 해리될 수 있음

○ 최근 perturb-CITE-seq 기술도 개발됨 

○ SPOTS 

○ Spatial PrOtein and Transcriptome Sequencing

○ polyadenylated DNA-barcoded antibody를 이용하여 Visium 상에서 protein level을 간접적으로 확인

2-2. 이미지 기반 공간전사체 (image-based spatial transcriptomics) : 적은 유전자 + 많은 스팟

ISS(in situ sequencing) : 조직에 RNA가 있던 자리에서 RNA가 시퀀싱되도록 하는 기술. sequencing by ligation

 종류 1. 최초의 ISS

 종류 2. ISS with Padlock probe

○ reverse transcriptase는 RNA 타겟의 cDNA를 만듦

○ Padlock probe는 cDNA의 두 개 영역에 혼성화할 수 있음

○ 타겟 서열의 증폭은 RCA(rolling-circle amplification)을 통해 이루어짐

○ RCA product는 ligation에 의해 in situ에서 시퀀싱됨

 종류 3. ISS using fluorescent probes and cross-linking

○ 종류 4. barcode based methods 

종류 5. gap-filled ISS

FISH  

smFISH(single molecule FISH) (2008년)

seqFISH(sequential FISH) (2014년) : DNAse I 처리와 연속적인 염색 및 이미징을 통해 각 RNA transcript 신호를 획득함

seqFISH+ : 각 encoding round 별 20 probe를 쓰고 형광 구간을 잘 나눠써서 게놈 스케일로 전사체를 얻는 기술

Vizgen - MERSCOPE (기술명 : MERFISH (multiplexed error-robust FISH))

○ direct probe hybridization + 별도의 ampliciation 메커니즘 없음

각 FISH probe는 각 유전자와 1:1 대응 (단, 이 가정이 완전히 성립하지는 않을 수 있음)

○ barcode assignment(i.e., barcode calling)에 있어서 error correction 방법을 사용함 

단계 1. FISH probe 별로 시간에 따라 형광 여부를 달리하여 여러 사진을 촬영

단계 2. 각 RNA에서 읽혀진 이진 코드를 통해 역으로 어떤 유전자인지를 추측 

 

출처 : 이미지 클릭

Figure. 12. MERFISH의 원리

 

10x - Xenium 

○ 소량의 padlock probe + RCA(rolling circle amplification) 

단계 1. padlock probe가 상보적인 RNA transcript를 집게 모양으로 결합한 후 고리를 형성

단계 2. RCA(rolling circle amplification) : 고리가 형성된 뒤 해당 RNA transcript가 증폭됨

단계 3. 각 RNA transcript를 형광 probe로 혼성화시킨 뒤 형광 이미징 → washing 

단계 4. 단계 3을 반복한 뒤 생성된 이미지로부터 각 유전자에 대한 레이블로 decoding 

 

출처 : 이미지 클릭

Figure. 13. Xenium의 원리

 

 Nanostring - CosMx 

○ 소량의 probe + branch chain hybridization 

Nanostring과 10x Genomics의 특허 분쟁 ('23) (ref1, ref2) → Nanostring 파산 (ref) 및 인수 (ref

 

출처 : 이미지 클릭

Figure. 14. CosMx의 원리

 

○ FISSEQ 및 oligoFISSEQ

Veranome

Rebus

○ BOLORAMIS

○ STARmap : sequencing by ligation

○ SEDAL sequencing

○ ExSeq

○ BaristaSeq : sequencing by synthesis

○ BARSeq 및 BARSeq2 

○ HybISS

○ SABER

○ clampFISH

○ split-FISH

○ SCRINSHOT

○ PLISH

○ osmFISH

○ ExFISH

○ par-seqFISH

○ EASI-FISH

○ SGA

○ corrFISH

종류 3. 공간 단백질체(spatial proteomics) : 크게 질량 분석법 기반과 이미징 기반으로 구분

SWITCH

○ MxIF

○ t-CyCIF

○ IBEX

○ DEI

○ CODEX

○ immuno-SABER

○ TSA

○ Opal IHC

○ MIBI

○ IMC

○ HD-MIBI

○ GeoMx Digital Spatial Profiler (DSP) : 100 mm 스케일

 UV-cleavable DNA barcode와 결합된 항체 혹은 유전자 프로브를 이용

4i multiplexed imaging 

기타 시퀀싱 기술

① TCR-seq (T cell receptor sequencing) : T cell 서브타입 및 클론을 추적하기 위한 시퀀싱

② Invade-seq : host-microbiome을 분석하기 위한 시퀀싱 기술

long-read sequencing : 2022년 올해의 기술 (레퍼런스)

○ short-read sequencing에 비하여 sequencing gap이 적음 

 

출처 : 이미지 클릭

Figure. 15. long-read sequencing과 short-read sequencing

 

장점 1. AS 분석(alternative splicing analysis) : alternative splicing event, isoform 등에 대해서도 식별 가능해짐

장점 2. epigenetics와 transcriptomics의 결합도 용이해짐 

예 1. Pacific Biosciences SMRT(single molecule real-time) sequencing : 평균 read 길이는 ~20 kb 

예 2. Oxford Nanopore Sequencing : 평균 read 길이는 ~100 kb

non-invasive sequencing

○ cell을 깨지 않고 시퀀싱 할 수 있는 기술

Halo-seq : 특정 타겟과 인접한 RNA들의 전사체를 얻는 기술 

1단계. 특정 타겟에 HaloTag domain을 붙임

2단계. 해당 HaloTag는 radical-producing Halo ligand로서 주입한 alkyne handle로부터 수소 라디칼 H∙을 이탈시켜 alkyne handle 라디칼을 생성

○ R-H → R + H

3단계. 비슷하게 HaloTag는 RNA로부터 수소 라디칼 H∙을 이탈시켜 RNA 라디칼을 생성

○ RNA-H → RNA + H 

4단계. alkyne handle 라디칼과 RNA 라디칼이 결합

5단계. alkyne-RNA와 biotin azide를 반응시켜 biotinylated RNA를 생성

6단계. streptavidin을 이용한 affinity chromatography로 biotinylated RNA만을 분리

7단계. RNA-seq을 통해 특정 타겟과 가까운 RNA만을 탐지할 수 있음

○ 이유 : 라디칼은 불안정하므로 먼 거리를 이동하지 못함

 

출처 : 이미지 클릭

Figure. 16. Halo-seq의 원리 

 

⑥ multi-NTT seq (nanobody tethered transposition followed by sequencing)

후성유전체 시퀀싱(epigenomics sequencing)

3차원 시퀀싱 

⑨ temporal sequencing

Record-seq

 Live-seq  

TMI

molecular recording 

⑩ 시공간 오믹스

ORBIT (single-molecule DNA origami rotation measurement) 

4D spatiotemporal MRI 또는 hyperpolarized MR

in vivo 4D omics with transparent mice

 NGS(next-generation sequencing) 요약

유전체 분석의 비용

 2001년 : 인간 게놈 프로젝트 기준 $100 million / person

 2007: 1000억 원 / 4

○ 2008년 : 454 Life Sciences 기준 $1,000,000 / person. 15억 원 / 4.5개월 

○ 2009년 : Helicos BioSciences 기준 $48,000 / person

 2014년도에는 백만 원이면 충분할 것으로 예측 (Nature 456, 23-25, 2008)

유전체 분석의 규모

 

출처 : 이미지 클릭

Figure. 17. 유전체 분석의 규모 추이]

 

depth와 coverage의 관계

 sequencing depth (read depth) : 특정 뉴클레오티드가 평균적으로 몇 번 나타나는지를 의미

 

출처 : 이미지 클릭

Figure. 18. depth의 정의

 

"10x"는 10번 반복하여 읽었음을 의미

○ 뉴클레오티드별로 정의될 수 있음

 coverage (c)

 c := LN / G

L : read length

N : number of reads 

G : haploid genome length  

 depth와 coverage의 비교

 total read number에 대해서는 sequencing depth로 표현

○ sequence reads와 reference (예 : whole genome, al locus)에 대한 관계에 대해서는 coverage로 표현

○ 그 이외에는 depth와 coverage는 굉장히 유사한 개념이라고 할 수 있음 

bulk와 read의 관계 

 bulk : total RNA production

○ depth가 동일한 경우 bulk가 커짐에 따라 RNA read count가 반비례하는 불합리가 발생

 예 : spatial transcriptomics의 경우 대표적으로 bulk가 크고 depth가 낮아 RNA read count가 낮음

 정규화 : 위 불합리를 해소하기 위해 여러 방법이 도입됨

read count와 number of reads의 관계

read length가 250 bp 미만인 경우 sequence error를 탐지할 수 없음

read length와 number of reads per run의 관계 : trade-off가 있음

 

출처 : Nat Rev Genetics 2014

Figure. 19. read length와 number of reads per run의 관계]

 

전사체의 read count와 gene expression의 관계 

read count : 실제 transcripts의 개수

gene expression : 정규화 과정(normalization)을 통해 read count에서 보정한 값

 

입력: 2015.07.02 23:31

수정: 2022.03.13 13:11