본문 바로가기

Contact English

【생물정보학】 생물정보학 부록

 

생물정보학 부록

 

추천글 : 【생물정보학】 생물정보학 분석 목차 


1. 생물정보학 컨소시엄 [본문]

2. 데이터 증가 속도 [본문]

3. 시퀀싱 기술 처리량 [본문]


 

1. 생물정보학 컨소시엄 [목차]

게놈 프로젝트(genome project)

① 1990년 왓슨 및 Francis Collins가 지휘하면서 시작 : 6개국 연합의 15년 과제로 출범

② 350여 연구기관 공동 연구 

○ 2000년 6월 84.5% 완성, 초안 발표 

○ 2003년 4월 15일 99.99% 정확도의 완결편 발표 

○ 2,800명 이상의 연구자가 13년간 참여하였으며 $2.7 billion이 소요됨

③ 인간유전체 연구의 부수효과

생물정보학의 탄생

○ 인체 단백질 생산 공정의 개발을 촉진

○ 인슐린(insulin) : 최초로 서열이 결정된 단백질 

○ 자동화된 염기서열 분석기기 개발을 촉진 

○ 응용성 있는 다른 생물의 유전체 분석 촉진

④ 과학자 진영 vs 기업가 진영 

○ 과학자 진영 : The Human Genome Project (HGP). 왓슨과 Francis Collins. 최종 비용은 $2.7 billion 

○ 기업가 진영 : Celera Genomics (1998년 시작). Craig Ventor. 최종 비용은 $300 million 

○ 두 진영 모두 인간 게놈의 초안을 2001년에 공개함 

○ 과학자 진영은 기업가 진영이 자신들의 공로와 투자를 가로채 가는 것이 불만 

○ 기업가 진영은 과학자 진영이 정보를 공개하지 않는 것이 불만 → 새로운 방법론 개발 

○ 게놈 지도의 최종 완성은 둘 모두의 공으로 합의 

ENCODE 프로젝트

① 연혁 : 2001년 초안 → 2003년, NHGRI는 인간 유전체의 모든 기능적 요소를 식별하기 위해 ENCODE 프로젝트를 시작

② Phase I : 1% of genome. 2007년에 종료 

③ Phase II : build-out phase. 2012년에 종료

버전 7 (2010년 12월)

○ 유전자 51,082개 : transcript 161,375개

○ protein-coding gene 20,687개 : transcript 76,052개

○ lncRNA 9,640개 : transcript는 15,512개 

④ Phase III : production phase. 2016년에 종료

⑤ Phase IV : 2016-2017년에 시작

○ 버전 29 (2018년 5월)

○ 유전자 58,721개 : transcript 206,694개 

○ protein-coding gene 19,940개 : transcript 83,129개 

○ lncRNA 16,066개 : transcript 29,566개 

○ 버전 36 (2020년 5월)

유전자 60,660개 : transcript 232,117개

○ protein-coding gene 19,962개 : transcript 85,269개 

○ lncRNA 17,958개 : transcript 48,734개 

1000 게놈 프로젝트(1000 genome project)

① 전 세계 26개 인구 집단에서 2504명의 전체 유전체 서열을 생성하여 8,800만 개 이상의 유전적 변이를 발견

② 일반적인 유전체는 레퍼런스 인간 유전체와 409만~502만 개의 위치에서 차이를 보이며, 약 2,000만 개의 염기서열에 영향을 줌

GTEx consortium 

4D nucleome consortium 

pan-genome consortium : T2T(telomere-to-telomere) 

cellxgene census 

 

 

2. 데이터 증가 속도 [목차]

 

data phase astronomy Twitter YouTube genomics
acquisition 25 zetta-bytes/yr 0.5-15 billion tweets/yr 500-900 million hrs/yr 1 zetta-bases/yr
storage 1 EB/yr 1-17 PB/yr 1-2 EB/yr 2-40 EB/yr
analysis in situ data reduction topic and sentiment mining limited requirements heterogeneous data and analysis
  real-time processing metadata analysis   variant calling, ~2 trillion central processing unit (CPU) hours
  massive volumes      
distribution dedicated lines from antennae to server (600 TB/s) small units of distribution major component of modern user's bandwidth (10 MB/s) many small (10 MB/s) and fewer massive (10 TB/s) data movement

Table. 1. 데이터 증가 속도 (ref)

 

 

3. 시퀀싱 기술 처리량(sequencing technology throughput) [목차]

 

플랫폼
(platform)
시퀀서 모델
(sequencer model)
리드 길이
(read length)
런 당 리드
(reads per run)
Illumina iSeq 100 75-300 bp 4 million
  MiniSeq 75-300 bp 25 million
  MiSeq 75-300 bp 25 million
  NextSeq 550 75-150 bp 400 million
  NovaSeq 6000 75-300 bp 10 billion
PacBio Sequel 10-60 kb 1 million
  Sequel II 10-100 kb 7 million
  Sequel IIe 10-100 kb 8 million
Oxford Nanopore MinION 10 kb - 1 Mb 1 million
  GridION 10 kb - 1 Mb 5 million
  PromethION 24 10 kb - 1 Mb 15 million
  PromethION 48 10 kb - 1 Mb 30 million

Table. 2. 시퀀싱 기술 처리량

 

○ Sanger dideoxy (모세관 전기영동) : 700-800 bp  read. 정확도 매우 높음

○ pyrosequencing : ~400 bp / read

○ Illumina : ~100 bp / read (최근에는 250 bp)

 

입력: 2022.02.21 12:51

수정: 2024.10.24 22:06

초록E님의
글이 좋았다면 응원을 보내주세요!