생물정보학 부록
추천글 : 【생물정보학】 생물정보학 분석 목차
1. 생물정보학 컨소시엄 [본문]
2. 데이터 증가 속도 [본문]
3. 시퀀싱 기술 처리량 [본문]
1. 생물정보학 컨소시엄 [목차]
⑴ 게놈 프로젝트(genome project)
① 1990년 왓슨 및 Francis Collins가 지휘하면서 시작 : 6개국 연합의 15년 과제로 출범
② 350여 연구기관 공동 연구
○ 2000년 6월 84.5% 완성, 초안 발표
○ 2003년 4월 15일 99.99% 정확도의 완결편 발표
○ 2,800명 이상의 연구자가 13년간 참여하였으며 $2.7 billion이 소요됨
③ 인간유전체 연구의 부수효과
○ 생물정보학의 탄생
○ 인체 단백질 생산 공정의 개발을 촉진
○ 인슐린(insulin) : 최초로 서열이 결정된 단백질
○ 자동화된 염기서열 분석기기 개발을 촉진
○ 응용성 있는 다른 생물의 유전체 분석 촉진
④ 과학자 진영 vs 기업가 진영
○ 과학자 진영 : The Human Genome Project (HGP). 왓슨과 Francis Collins. 최종 비용은 $2.7 billion
○ 기업가 진영 : Celera Genomics (1998년 시작). Craig Ventor. 최종 비용은 $300 million
○ 두 진영 모두 인간 게놈의 초안을 2001년에 공개함
○ 과학자 진영은 기업가 진영이 자신들의 공로와 투자를 가로채 가는 것이 불만
○ 기업가 진영은 과학자 진영이 정보를 공개하지 않는 것이 불만 → 새로운 방법론 개발
○ 게놈 지도의 최종 완성은 둘 모두의 공으로 합의
⑵ ENCODE 프로젝트
① 연혁 : 2001년 초안 → 2003년, NHGRI는 인간 유전체의 모든 기능적 요소를 식별하기 위해 ENCODE 프로젝트를 시작
② Phase I : 1% of genome. 2007년에 종료
③ Phase II : build-out phase. 2012년에 종료
○ 버전 7 (2010년 12월)
○ 유전자 51,082개 : transcript 161,375개
○ protein-coding gene 20,687개 : transcript 76,052개
○ lncRNA 9,640개 : transcript는 15,512개
④ Phase III : production phase. 2016년에 종료
⑤ Phase IV : 2016-2017년에 시작
○ 버전 29 (2018년 5월)
○ 유전자 58,721개 : transcript 206,694개
○ protein-coding gene 19,940개 : transcript 83,129개
○ lncRNA 16,066개 : transcript 29,566개
○ 버전 36 (2020년 5월)
○ 유전자 60,660개 : transcript 232,117개
○ protein-coding gene 19,962개 : transcript 85,269개
○ lncRNA 17,958개 : transcript 48,734개
⑶ 1000 게놈 프로젝트(1000 genome project)
① 전 세계 26개 인구 집단에서 2504명의 전체 유전체 서열을 생성하여 8,800만 개 이상의 유전적 변이를 발견
② 일반적인 유전체는 레퍼런스 인간 유전체와 409만~502만 개의 위치에서 차이를 보이며, 약 2,000만 개의 염기서열에 영향을 줌
⑷ GTEx consortium
⑸ 4D nucleome consortium
⑹ pan-genome consortium : T2T(telomere-to-telomere)
⑺ cellxgene census
2. 데이터 증가 속도 [목차]
data phase | astronomy | YouTube | genomics | |
acquisition | 25 zetta-bytes/yr | 0.5-15 billion tweets/yr | 500-900 million hrs/yr | 1 zetta-bases/yr |
storage | 1 EB/yr | 1-17 PB/yr | 1-2 EB/yr | 2-40 EB/yr |
analysis | in situ data reduction | topic and sentiment mining | limited requirements | heterogeneous data and analysis |
real-time processing | metadata analysis | variant calling, ~2 trillion central processing unit (CPU) hours | ||
massive volumes | ||||
distribution | dedicated lines from antennae to server (600 TB/s) | small units of distribution | major component of modern user's bandwidth (10 MB/s) | many small (10 MB/s) and fewer massive (10 TB/s) data movement |
Table. 1. 데이터 증가 속도 (ref)
3. 시퀀싱 기술 처리량(sequencing technology throughput) [목차]
플랫폼 (platform) |
시퀀서 모델 (sequencer model) |
리드 길이 (read length) |
런 당 리드 (reads per run) |
Illumina | iSeq 100 | 75-300 bp | 4 million |
MiniSeq | 75-300 bp | 25 million | |
MiSeq | 75-300 bp | 25 million | |
NextSeq 550 | 75-150 bp | 400 million | |
NovaSeq 6000 | 75-300 bp | 10 billion | |
PacBio | Sequel | 10-60 kb | 1 million |
Sequel II | 10-100 kb | 7 million | |
Sequel IIe | 10-100 kb | 8 million | |
Oxford Nanopore | MinION | 10 kb - 1 Mb | 1 million |
GridION | 10 kb - 1 Mb | 5 million | |
PromethION 24 | 10 kb - 1 Mb | 15 million | |
PromethION 48 | 10 kb - 1 Mb | 30 million |
Table. 2. 시퀀싱 기술 처리량
○ Sanger dideoxy (모세관 전기영동) : 700-800 bp read. 정확도 매우 높음
○ pyrosequencing : ~400 bp / read
○ Illumina : ~100 bp / read (최근에는 250 bp)
입력: 2022.02.21 12:51
수정: 2024.10.24 22:06
'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글
【생물정보학】 COMMOT의 이해 (0) | 2025.04.06 |
---|---|
【생물정보학】 생물정보학 분석 목차 (5) | 2025.04.06 |
【생물정보학】 TransPhylo의 이해 (0) | 2025.01.20 |
【생물정보학】 리눅스 프로그래밍(bash programming) (0) | 2025.01.16 |
【생물정보학】 후성유전학 라이브러리 (4) | 2024.01.07 |
최근댓글