【생물학】 10강. 게놈 프로젝트와 시퀀싱 기술

10강. 게놈 프로젝트와 시퀀싱 기술

추천글 : 【생물학】 생물학 목차

1. 게놈 프로젝트 [본문]

2. 시퀀싱 기술 [본문]

1. 게놈 프로젝트(genome project) [목차]

⑴ 개요

① 1990년 왓슨이 지휘하면서 시작 : 6개국 연합의 15년 과제로 출범

② 350여 연구기관 공동 연구

○ 2000년 6월 11일 84.5 % 완성, 초안 발표

○ 2003년 4월 15일 99.99% 정확도의 완결편 발표

○ 2,800명 이상의 연구자가 13년간 참여하였으며 2.7조 원이 소요

③ 인간유전체 연구의 부수효과

○ 생물정보학의 탄생

○ 인체 단백질 생산 공정의 개발을 촉진

○ 인슐린(insulin) : 최초로 서열이 결정된 단백질

○ 자동화된 염기서열 분석기기 개발을 촉진

○ 응용성 있는 다른 생물의 유전체 분석 촉진

⑵ 방법론 1. 단계적 서열분석법 : 과학자 진영

① 단계 1. 제한효소 인식 부위 결정

○ 제한효소로 DNA를 자른 뒤 전기영동을 하면 각 절편의 크기를 알 수 있음

○ 두 개의 제한효소를 여러 방식으로 처리하면 두 효소의 제한효소 인식부위의 상대적 거리를 알 수 있음

② 단계 2. 유전자 지도 작성

○ 염색체 상의 유전자의 상대적 거리를 결정하는 것

○ 교차율을 통해 유전자 사이의 거리를 추론할 수 있음

③ 단계 3. 물리적 지도 (DNA 지도) 작성

○ 제한효소 인식 부위 결정의 의미 : 각 제한효소 인식 부위를 지도 삼아서 염기순서를 알아낸 단편들의 정보로 물리적 지도를 누적적으로 작성

○ 유전자 지도 작성의 의미 : 물리적 지도가 작성되면 유전자 지도와 대조할 수 있음. 유전자 사이에는 인트론이 있음

○ 하나의 라이브러리로 접근하는 방식

⑶ 방법론 2. 산탄식 서열분석법 (Celera, J. Craig Venter) : 기업가 진영

① 하나의 DNA를 여러 방법으로 자름

② 하나의 방법으로 잘린 토막들의 염기 순서를 모두 밝혀냄

○ 분석 시료의 길이는 제한돼 있으므로 한 번에 DNA 순서를 알 수는 없음

③ 각각의 방법에서 염기들의 배열을 무작위적으로 하여 공통된 결과를 이를 때까지 계속

④ 컴퓨터 사이언스에 기반한 방법

⑷ 과학자 진영 vs 기업가 진영

① 과학자 진영은 기업가 진영이 자신들의 공로와 투자를 가로채 가는 것이 불만

② 기업가 진영은 과학자 진영이 정보를 공개하지 않는 것이 불만 → 새로운 방법론 개발

③ 게놈 지도의 최종 완성은 둘 모두의 공으로 합의

Figure. 1. 단계적 서열 분석법과 산탄식 서열 분석법^]

2. 시퀀싱 기술 [목차]

⑴ 개요

① DNA 시퀀싱 : DNA 복제 원리를 응용

○ 주형 : DNA의 각 사슬

○ 기질 : dNTP(dATP, dCTP, dGTP, dTTP)

○ NTP는 2' 탄소에 -OH기가 달려있는 것으로 RNA 중합의 재료

○ DNA 중합효소 : 디옥시리보오스의 3‘-OH에 다음 뉴클레오티드의 인산이 결합

○ 합성 방향 : 5‘ → 3’, 주형과 상보적인 염기쌍 형성

○ ddNTP : 3번 탄소가 OH기가 아니라 H기이므로 DNA 중합이 중단

② RNA 시퀀싱 : RNA 전사 원리를 응용

⑵ in vitro cloning : 가장 최초의 시퀀싱 방법

⑶ 디데옥시 사슬 종결법 (= Sanger sequencing) : 1977년 보고, 생어(Sanger)의 두 번째 노벨상

① 기질 : dNTP + ddNTP 소량 + buffer (pH 안정)

○ ddNTP는 3'-OH기가 없으므로 중합 반응을 종료시킴

○ 만약 ddNTP를 많이 넣으면 모든 주형 DNA가 단시간에 중합을 중단

② 프라이머

○ 예 : p32-프라이머 (CTAG)

③ 1st. 주형 DNA와 중합효소 첨가

④ 2nd. 중합반응 후 가열하여 복제 가닥 분리

⑤ 3rd. 전기영동 후 X선 필름에서 서열 판독 하거나 형광 조사

Figure. 2. 디데옥시 사슬 종결법의 과정^]

⑥ 장점 : 아주 긴 가닥도 읽을 수 있어 아직도 실험실에서 활용됨

⑦ 단점 : 같은 DNA 가닥이 매우 많아야 함

⑷ dye-디데옥시 사슬 종결법 : 레이저 이용

① dNTP에 4색 형광 - ddNTP 소량 첨가

② 자동 염기서열 판독 가능

Figure. 3. Dye-디데옥시 사슬 종결법의 과정^]

⑸ 파이로시퀀싱(pyrosequencing)

① 정의 : DNA 중합 시 나오는 피로인산의 양에 비례하여 발광하도록 함으로써 수행되는 DNA 서열결정법

② 모식도

Nucleotide incorporation generates light seen as a peak in the pyrogram.

Figure. 4. 파이로시퀀싱 모식도

③ 과정

Figure. 5. 파이로시퀀싱 과정

⑹ Illumina solid-phase amplication (ref)

Figure. 6. Illumina solid-phase amplication^]

Figure. 7. 형광 색깔 분포 사진^]

① 1^st. 절편화 : 주어진 DNA 시료를 랜덤하게 자름

② 2^nd. gel-based size selection : 필요한 경우 각 DNA fragment의 사이즈를 한정할 수 있음

③ 3^rd. adaptor binding : 모든 DNA 시료 절편의 양 말단에 어댑터를 붙임

④ 4^th. amplification

○ 4^th - 1^st. DNA를 single-strand로 변성

○ 4^th - 2^nd. single-stranded DNA를 illumina flow cell에 부착

○ 4^th - 3^rd. 효소를 첨가하여 solid-phase substrate 상에서 single-stranded DNA가 bridge가 되도록 함

○ 4^th - 4^th. single-stranded DNA bridge에 프라이머를 첨가하면 프라이머가 그 bridge에 결합할 수 있음

○ 4^th - 5^th. unlabeld single-stranded DNA를 첨가한 뒤 DNA 중합반응 유발 : double-stranded DNA bridge가 됨

○ 4^th - 6^th. denaturing을 통해 double-stranded DNA bridge가 anchored single-stranded DNA가 되도록 함

○ 4^th - 7^th. 위 6개의 과정을 반복하여 동일한 염기서열을 가지는 anchored single-stranded cluster를 생성

○ 특징 : anchored single-stranded cluster는 몇백만 cluster를 형성함

⑤ 5^th. sequencing by synthesis (SBS)

○ 4^th - 1^st. 염기 종류에 따른 4종류의 labled reversable terminator, 프라이머, DNA 중합효소를 첨가

○ 4^th - 2^nd. labled reversable terminator 뉴클레오티드가 이인산에스테르 결합을 형성하면 형광이 발생

○ 4^th - 3^rd. 각 클러스터의 형광 색깔 분포를 사진으로 획득

○ 4^th - 4^th. washing

○ 4^th - 5^th. 위 4개의 과정을 반복하여 전체 염기서열을 결정

○ 종류 1. single-end 시퀀싱 (SES) : 어댑터의 한쪽만으로 시퀀싱을 하는 방식

○ 종류 2. paired-end 시퀀싱 (PES) : 어댑터의 양쪽으로 시퀀싱을 하는 방식

○ 우선 한 어댑터를 통해 시퀀싱을 하고 (Read1 획득), 그 뒤 반대쪽 어댑터를 통해 시퀀싱을 함 (Read2 획득)

○ 한 DNA fragment에서 나오는 Read1과 Read2는 동일한 클러스터에서 나오므로 쉽게 둘을 대응시킬 수 있음

○ 장점 : 더 높은 정확성 (∵ Read1, Read2 상호 간 비교), DNA 변이 도출 용이, 반복서열 분석 용이, 이종 간 맵핑 용이

○ 단점 : 더 비싼 가격, SES보다 스텝이 더 많이 필요함

⑺ WGS(whole genome sequencing)

① SNV, insertion, deletion, structural variant, CNV

② sequencing depth > 30X

⑻ WES(whole exon sequencing)

① 오직 protein-coding gene에 대한 SNV, insertion, deletion, SNP

② sequencing depth > 50X ~ 100X

③ 비용이 저렴함

⑼ RNA-seq

① 1^st. microdissection : RNA 추출을 위해 특정 조직을 분리하는 것

○ LCM(laser capture microdissection) : 레이저 빔으로 특정 조직을 절단. robust하지만 labor intensive하다는 단점

○ TOMO-seq : cryosection을 이용하고 컴퓨터를 통해 3D sectioning을 할 수 있음. 임상적 목적으로는 사용할 수 없음

○ transcriptome in vivo analysis

○ ProximID

○ STRP-seq

② 2^nd. RNA의 poly A 꼬리를 인식하는 poly T를 결합시킴

③ 3^rd. RNA를 절편화

④ 4^th. RNA에 프라이머 부착

⑤ 5^th. 첫 번째 cDNA 합성

⑥ 6^th. 두 번째 cDNA 합성

⑦ 7^th. RNA의 3'과 5' 말단에 가공

⑧ 8^th. DNA sequencing adapters ligated

⑨ 9^th. ligated 절편을 PCR로 증폭

⑩ 응용 1. dUTP method : strand-specific sequencing의 대표적인 방법

○ 배경 : RNA 방향성에 따른 생물학적 기능을 연구할 때 사용 (예 : antisense miRNA의 조절)

○ step 1. DNA&RNA hybrid : mRNA poly-A tail에 붙는 dT 프라이머와 역전사 효소로 cDNA (first or anti-sense strand) 합성

5'-//-U-//-AAAAAA-3'

3'-//-A-//-TTTTTT-5'

○ step 2. ds cDNA : dTTP 대신 dUTP를 이용하여 cDNA (first strand)를 주형으로 cDNA (second or sense strand)를 합성

3'-//-A-//-TTTTTT-5'

5'-//-U-//-AAAAAA-3'

○ step 3. ligated ds cDNA : Y-adaptor를 ds cDNA 양쪽에 연결

○ step 4. UDG(uracil-DNA glycosylase)를 처리하면 우라실을 포함하는 DNA인 second strand가 분해됨

○ step 5. 남아 있는 reverse antisense strand인 first strand를 증폭해 라이브러리를 생성

○ 라이브러리 raw 데이터에서 "_1.fastq"가 first strand이고, "_2.fastq"가 second strand

○ 즉, _2.fastq가 원래 RNA의 프로파일을 나타냄

⑽ 단일세포시퀀싱(single cell sequencing)

① 종류

○ scDNA-seq

○ scRNA-seq (2013년 올해의 기술) : Chromium, Smart-seq 등

○ single cell epigenetics sequencing

② 단계 1. 단일 세포 분리

○ 방식 1. 단순한 분리 : 매우 초창기 방식

○ 방식 2. FACS 또는 LCM(laser microdissection) 기반

○ 방식 3. acoustic separation

○ 유체역학적으로 단일 세포를 구분하므로 세포에 영향을 비교적 적게 줌

○ 대표적으로 CyTOF(cytometry by time of flight)가 있음

○ 방식 4. immuno-magnetic separation

○ cell에 magnet을 붙임

○ 세포를 많이 획득할 수 있음

○ centrifugation이 필요한 경우와 그렇지 않은 경우로 구분

③ 단계 2. reverse transcription

④ 단계 3. cDNA amplification

⑤ 단계 4. 라이브러리 구성 : Drop-seq 등

⑥ 단일세포유전체(scDNA-seq) + 단일세포전사체(scRNA-seq)

○ 유전체 상의 mutation pattern이 전사체 상의 gene expression과 어떻게 연관되는지 알 수 있음

○ DNA와 RNA를 분리하는 기술 : G&T seq, SIDR-seq, DNTR-seq

⑾ 단일핵전사체(single nucleus RNA sequencing, snRNA-seq)

① 목적 1. 근육은 다핵세포이므로 scRNA-seq에 의해 캡처되지 않으므로 세포보다는 핵 단위로 분석할 필요가 대두됨

② 목적 2. scRNA-seq보다 intron, pre-mRNA, non-coding RNA 등 다양한 RNA가 많이 잡힘

③ 목적 3. snRNA-seq에서 핵 RNA가 주로 많이 잡힘 : 세포질 RNA가 (소량이지만) 잡히긴 함

⑿ 공간적 시퀀싱(spatial resolved sequencing)

Figure. 8. 공간적 시퀀싱 개요

① 종류 1. 공간유전체(spatial genomics)

○ 예시 1. 종양 연구 : 종양은 불균일성이 있으므로

○ 예시 2. 비장 연구 : 성숙한 면역세포는 유전자 구성이 모두 다르므로

② 종류 2. 공간전사체(spatial transcriptomics) : 2020년 올해의 기술

③ 2-1. spot 기반 공간전사체 (spatial indexing transcriptomics) : 많은 유전자 + 적은 스팟

○ ST (spatial transcriptomics)

○ barcoded oligo를 랜덤하게 조직에 뿌린 뒤 각 조직으로부터의 mRNA를 capture 하는 방식

○ 10X Visium

○ 원리 : 각 스팟에 스팟 특이적인 oligonucleotide를 부착시켜 조직 유래 RNA와 혼성화 → spotwise transcriptome 획득

○ 표면적 : 6.5 mm × 6.5 mm

○ 두께 : 10 ~ 20 μm

○ 스팟의 개수 : 최대 4992개 (Visium HD 이전 버전 기준)

○ 스팟 간 거리 : 100 μm

○ 스팟의 직경 : 55 μm

○ sensitivity : 10,000 transcripts per spot

○ 종류 1. direct Visium (oligo-dT based method)

○ poly dT로 mRNA를 capture

○ FF(fresh-frozen) 샘플에만 적용 가능 : FFPE에 쓰이는 시약이 direct Visium에 적합하지 않음

Figure. 9. Visium FF 원리

○ 종류 2. probe-based Visium

○ FF, FFPE(formalin-fixed paraffin-embedded) 모두에서 할 수 있음 : 특히 FFPE 샘플은 mRNA들이 여러 파편들로 끊어져 있는 등 RNA degradation이 있어서 direct Visium을 할 수 없어 중요함

○ 3쌍의 LHS와 RHS가 모두 붙어야 target mRNA가 식별됨 : 각 프로브의 길이는 25 bp. RTL(probe-based RNA-templated ligation chemistry)을 이용

Figure. 10. probe-based Visium 원리

○ 장점 : direct Visium보다 데이터 퀄리티가 좋음

○ 단점 : probe 기반으로 지정된 유전자만 detect를 하므로 Visium FF보다 분석 상의 자유도가 떨어짐

○ 2024년 6월부터 10x는 CytAssist가 아닌 Visium FFPE 서비스를 종료

○ CytAssist 이미지는 gene expression 분포를 나타내어 image alignment에 쓰임

○ Slide-seq (slideSeq), Slide-seq V2

○ 랜덤하게 spatial bead를 뿌리고 in-situ sequencing을 하는 방식

○ 스팟의 97%가 하나 혹은 두 개의 셀 타입으로 구성돼 있음

○ HDST

○ 바코드가 새겨진 bead를 patterned wafer 위에 올리고 serial hybridization

○ NanoString GeoMx

○ Nanostring과 10x Genomics의 특허 분쟁 ('23) (ref1, ref2) → Nanostring 파산 (ref) 및 인수 (ref)

○ Stereo-seq : Visium보다 해상도가 높음

○ flow cell 위에 새겨진 oligo patterning을 Illumina 또는 MGI sequencing으로 읽어들이고 barcode calling

○ 직경 : 220 nm

○ 스팟 간 거리 : 500 혹은 715 nm

○ Seq-Scope : Visium보다 해상도가 높음

○ flow cell 위에 새겨진 oligo patterning을 Illumina 또는 MGI sequencing으로 읽어들이고 barcode calling

○ PIXEL-seq

○ XYZeq

○ spatially barcoded microwell 위에 조직을 올려놓기 → 1회 역전사 → 세포 제거 → single-cell sequencing

○ sci-Space

○ spatially gridded hashing oligo가 있는 슬라이드 위에 조직을 올려놓기 → tissue permeabilization (oligo transfer) → 이미징 → 세포핵 제거 → 세포 고정 → 시퀀싱

○ sci-RNA-seq

○ TIVA-seq

○ NICHE-seq

○ ZipSeq

○ 세포에 photocaged oligonucleotides를 처리하여 실시간으로 RNA들의 patterned illumination (i.e., zipcode)를 관찰하는 이미징 기술

○ DBiT-seq

○ orthogonal microfluidics 상의 일정한 위치 위에 barcoded oligo를 올려서 조직의 위치 특이적 전사체를 획득

○ CITE-seq (ref 1, ref 2) : 공간전사체와 antibody의 분포를 나란히 비교할 수 있음

Figure. 11. CITE-seq 모식도

○ streptavidin-biotin을 이용하여 oligonucleotide의 5' 말단을 항체에 연결

○ oligonucleotide는 oligo-dT 프라이머와 상보적으로 결합할 수 있음

○ streptavidin-biotin 결합은 환원 조건에서 해리될 수 있음

○ 최근 perturb-CITE-seq 기술도 개발됨

○ SPOTS

○ Spatial PrOtein and Transcriptome Sequencing

○ polyadenylated DNA-barcoded antibody를 이용하여 Visium 상에서 protein level을 간접적으로 확인

④ 2-2. 이미지 기반 공간전사체 (image-based spatial transcriptomics) : 적은 유전자 + 많은 스팟

○ ISS(in situ sequencing) : 조직에 RNA가 있던 자리에서 RNA가 시퀀싱되도록 하는 기술. sequencing by ligation

○ 종류 1. 최초의 ISS

○ 종류 2. ISS with Padlock probe

○ reverse transcriptase는 RNA 타겟의 cDNA를 만듦

○ Padlock probe는 cDNA의 두 개 영역에 혼성화할 수 있음

○ 타겟 서열의 증폭은 RCA(rolling-circle amplification)을 통해 이루어짐

○ RCA product는 ligation에 의해 in situ에서 시퀀싱됨

○ 종류 3. ISS using fluorescent probes and cross-linking

○ 종류 4. barcode based methods

○ 종류 5. gap-filled ISS

○ FISH

○ smFISH(single molecule FISH) (2008년)

○ seqFISH(sequential FISH) (2014년) : DNAse I 처리와 연속적인 염색 및 이미징을 통해 각 RNA transcript 신호를 획득함

○ seqFISH+ : 각 encoding round 별 20 probe를 쓰고 형광 구간을 잘 나눠써서 게놈 스케일로 전사체를 얻는 기술

○ Vizgen - MERSCOPE (기술명 : MERFISH (multiplexed error-robust FISH))

○ direct probe hybridization + 별도의 ampliciation 메커니즘 없음

○ 각 FISH probe는 각 유전자와 1:1 대응 (단, 이 가정이 완전히 성립하지는 않을 수 있음)

○ barcode assignment(i.e., barcode calling)에 있어서 error correction 방법을 사용함

○ 단계 1. FISH probe 별로 시간에 따라 형광 여부를 달리하여 여러 사진을 촬영

○ 단계 2. 각 RNA에서 읽혀진 이진 코드를 통해 역으로 어떤 유전자인지를 추측

Figure. 12. MERFISH의 원리

○ 10x - Xenium

○ 소량의 padlock probe + RCA(rolling circle amplification)

○ 단계 1. padlock probe가 상보적인 RNA transcript를 집게 모양으로 결합한 후 고리를 형성

○ 단계 2. RCA(rolling circle amplification) : 고리가 형성된 뒤 해당 RNA transcript가 증폭됨

○ 단계 3. 각 RNA transcript를 형광 probe로 혼성화시킨 뒤 형광 이미징 → washing

○ 단계 4. 단계 3을 반복한 뒤 생성된 이미지로부터 각 유전자에 대한 레이블로 decoding

Figure. 13. Xenium의 원리

○ Nanostring - CosMx

○ 소량의 probe + branch chain hybridization

○ Nanostring과 10x Genomics의 특허 분쟁 ('23) (ref1, ref2) → Nanostring 파산 (ref) 및 인수 (ref)

Figure. 14. CosMx의 원리

○ FISSEQ 및 oligoFISSEQ

○ Veranome

○ Rebus

○ BOLORAMIS

○ STARmap : sequencing by ligation

○ SEDAL sequencing

○ ExSeq

○ BaristaSeq : sequencing by synthesis

○ BARSeq 및 BARSeq2

○ HybISS

○ SABER

○ clampFISH

○ split-FISH

○ SCRINSHOT

○ PLISH

○ osmFISH

○ ExFISH

○ par-seqFISH

○ EASI-FISH

○ SGA

○ corrFISH

⑤ 종류 3. 공간 단백질체(spatial proteomics) : 크게 질량 분석법 기반과 이미징 기반으로 구분

○ SWITCH

○ MxIF

○ t-CyCIF

○ IBEX

○ DEI

○ CODEX

○ immuno-SABER

○ TSA

○ Opal IHC

○ MIBI

○ IMC

○ HD-MIBI

○ GeoMx Digital Spatial Profiler (DSP) : 100 mm 스케일

○ UV-cleavable DNA barcode와 결합된 항체 혹은 유전자 프로브를 이용

○ 4i multiplexed imaging

⒀ 기타 시퀀싱 기술

① TCR-seq (T cell receptor sequencing) : T cell 서브타입 및 클론을 추적하기 위한 시퀀싱

② Invade-seq : host-microbiome을 분석하기 위한 시퀀싱 기술

③ long-read sequencing : 2022년 올해의 기술 (레퍼런스)

○ short-read sequencing에 비하여 sequencing gap이 적음

Figure. 15. long-read sequencing과 short-read sequencing

○ 장점 1. AS 분석(alternative splicing analysis) : alternative splicing event, isoform 등에 대해서도 식별 가능해짐

○ 장점 2. epigenetics와 transcriptomics의 결합도 용이해짐

○ 예 1. Pacific Biosciences SMRT(single molecule real-time) sequencing : 평균 read 길이는 ~20 kb

○ 예 2. Oxford Nanopore Sequencing : 평균 read 길이는 ~100 kb

④ non-invasive sequencing

○ cell을 깨지 않고 시퀀싱 할 수 있는 기술

⑤ Halo-seq : 특정 타겟과 인접한 RNA들의 전사체를 얻는 기술

○ 1단계. 특정 타겟에 HaloTag domain을 붙임

○ 2단계. 해당 HaloTag는 radical-producing Halo ligand로서 주입한 alkyne handle로부터 수소 라디칼 H∙을 이탈시켜 alkyne handle 라디칼을 생성

○ R-H → R∙ + H∙

○ 3단계. 비슷하게 HaloTag는 RNA로부터 수소 라디칼 H∙을 이탈시켜 RNA 라디칼을 생성

○ RNA-H → RNA∙ + H∙

○ 4단계. alkyne handle 라디칼과 RNA 라디칼이 결합

○ 5단계. alkyne-RNA와 biotin azide를 반응시켜 biotinylated RNA를 생성

○ 6단계. streptavidin을 이용한 affinity chromatography로 biotinylated RNA만을 분리

○ 7단계. RNA-seq을 통해 특정 타겟과 가까운 RNA만을 탐지할 수 있음

○ 이유 : 라디칼은 불안정하므로 먼 거리를 이동하지 못함

Figure. 16. Halo-seq의 원리

⑥ multi-NTT seq (nanobody tethered transposition followed by sequencing)

⑦ 후성유전체 시퀀싱(epigenomics sequencing)

⑧ 3차원 시퀀싱

⑨ temporal sequencing

○ Record-seq

○ Live-seq

○ TMI

○ molecular recording

⑩ 시공간 오믹스

○ ORBIT (single-molecule DNA origami rotation measurement)

○ 4D spatiotemporal MRI 또는 hyperpolarized MR

○ in vivo 4D omics with transparent mice

⒁ NGS(next-generation sequencing) 요약

① 유전체 분석의 비용

○ 2001년 : 인간 게놈 프로젝트 기준 $100 million / person

○ 2007년 : 1000억 원 / 4년

○ 2008년 : 454 Life Sciences 기준 $1,000,000 / person. 15억 원 / 4.5개월

○ 2009년 : Helicos BioSciences 기준 $48,000 / person

○ 2014년도에는 백만 원이면 충분할 것으로 예측 (Nature 456, 23-25, 2008)

② 유전체 분석의 규모

Figure. 17. 유전체 분석의 규모 추이^]

③ depth와 coverage의 관계

○ sequencing depth (read depth) : 특정 뉴클레오티드가 평균적으로 몇 번 나타나는지를 의미

Figure. 18. depth의 정의

○ "10x"는 10번 반복하여 읽었음을 의미

○ 뉴클레오티드별로 정의될 수 있음

○ coverage (c)

○ c := LN / G

○ L : read length

○ N : number of reads

○ G : haploid genome length

○ depth와 coverage의 비교

○ total read number에 대해서는 sequencing depth로 표현

○ sequence reads와 reference (예 : whole genome, al locus)에 대한 관계에 대해서는 coverage로 표현

○ 그 이외에는 depth와 coverage는 굉장히 유사한 개념이라고 할 수 있음

④ bulk와 read의 관계

○ bulk : total RNA production

○ depth가 동일한 경우 bulk가 커짐에 따라 RNA read count가 반비례하는 불합리가 발생

○ 예 : spatial transcriptomics의 경우 대표적으로 bulk가 크고 depth가 낮아 RNA read count가 낮음

○ 정규화 : 위 불합리를 해소하기 위해 여러 방법이 도입됨

⑤ read count와 number of reads의 관계

○ read length가 250 bp 미만인 경우 sequence error를 탐지할 수 없음

○ read length와 number of reads per run의 관계 : trade-off가 있음

Figure. 19. read length와 number of reads per run의 관계^]

⑥ 전사체의 read count와 gene expression의 관계

○ read count : 실제 transcripts의 개수

○ gene expression : 정규화 과정(normalization)을 통해 read count에서 보정한 값

입력: 2015.07.02 23:31

수정: 2022.03.13 13:11

'▶ 자연과학 > ▷ 일반생물학' 카테고리의 다른 글

【생물학】 Siglec (1)	2024.04.09
【생물학】 23강. 의학 (0)	2023.06.04
【생물학】 8-2강. 미생물학의 중심학설 (0)	2022.07.12
【생물학】 암세포 휴면 상태(cancer cell dormancy) (0)	2022.06.18
【생물학】 6강. 신호전달 (0)	2022.06.13

정빈이의 공부방

최근댓글

【생물학】 10강. 게놈 프로젝트와 시퀀싱 기술

'▶ 자연과학 > ▷ 일반생물학' 카테고리의 다른 글

티스토리툴바

【생물학】 10강. 게놈 프로젝트와 시퀀싱 기술

'▶ 자연과학 > ▷ 일반생물학' 카테고리의 다른 글

'▶ 자연과학/▷ 일반생물학' 관련 포스팅

티스토리툴바