【생물정보학】 생물정보학 부록

생물정보학 부록

추천글 : 【생물정보학】 생물정보학 분석 목차

1. 생물정보학 컨소시엄 [본문]

2. 데이터 증가 속도 [본문]

3. 시퀀싱 기술 처리량 [본문]

1. 생물정보학 컨소시엄 [목차]

⑴ 게놈 프로젝트(genome project)

① 1990년 왓슨 및 Francis Collins가 지휘하면서 시작 : 6개국 연합의 15년 과제로 출범

② 350여 연구기관 공동 연구

○ 2000년 6월 84.5% 완성, 초안 발표

○ 2003년 4월 15일 99.99% 정확도의 완결편 발표

○ 2,800명 이상의 연구자가 13년간 참여하였으며 $2.7 billion이 소요됨

③ 인간유전체 연구의 부수효과

○ 생물정보학의 탄생

○ 인체 단백질 생산 공정의 개발을 촉진

○ 인슐린(insulin) : 최초로 서열이 결정된 단백질

○ 자동화된 염기서열 분석기기 개발을 촉진

○ 응용성 있는 다른 생물의 유전체 분석 촉진

④ 과학자 진영 vs 기업가 진영

○ 과학자 진영 : The Human Genome Project (HGP). 왓슨과 Francis Collins. 최종 비용은 $2.7 billion

○ 기업가 진영 : Celera Genomics (1998년 시작). Craig Ventor. 최종 비용은 $300 million

○ 두 진영 모두 인간 게놈의 초안을 2001년에 공개함

○ 과학자 진영은 기업가 진영이 자신들의 공로와 투자를 가로채 가는 것이 불만

○ 기업가 진영은 과학자 진영이 정보를 공개하지 않는 것이 불만 → 새로운 방법론 개발

○ 게놈 지도의 최종 완성은 둘 모두의 공으로 합의

⑵ ENCODE 프로젝트

① 연혁 : 2001년 초안 → 2003년, NHGRI는 인간 유전체의 모든 기능적 요소를 식별하기 위해 ENCODE 프로젝트를 시작

② Phase I : 1% of genome. 2007년에 종료

③ Phase II : build-out phase. 2012년에 종료

○ 버전 7 (2010년 12월)

○ 유전자 51,082개 : transcript 161,375개

○ protein-coding gene 20,687개 : transcript 76,052개

○ lncRNA 9,640개 : transcript는 15,512개

④ Phase III : production phase. 2016년에 종료

⑤ Phase IV : 2016-2017년에 시작

○ 버전 29 (2018년 5월)

○ 유전자 58,721개 : transcript 206,694개

○ protein-coding gene 19,940개 : transcript 83,129개

○ lncRNA 16,066개 : transcript 29,566개

○ 버전 36 (2020년 5월)

○ 유전자 60,660개 : transcript 232,117개

○ protein-coding gene 19,962개 : transcript 85,269개

○ lncRNA 17,958개 : transcript 48,734개

⑶ 1000 게놈 프로젝트(1000 genome project)

① 전 세계 26개 인구 집단에서 2504명의 전체 유전체 서열을 생성하여 8,800만 개 이상의 유전적 변이를 발견

② 일반적인 유전체는 레퍼런스 인간 유전체와 409만~502만 개의 위치에서 차이를 보이며, 약 2,000만 개의 염기서열에 영향을 줌

⑷ GTEx consortium

⑸ 4D nucleome consortium

⑹ pan-genome consortium : T2T(telomere-to-telomere)

⑺ cellxgene census

2. 데이터 증가 속도 [목차]

data phase	astronomy	Twitter	YouTube	genomics
acquisition	25 zetta-bytes/yr	0.5-15 billion tweets/yr	500-900 million hrs/yr	1 zetta-bases/yr
storage	1 EB/yr	1-17 PB/yr	1-2 EB/yr	2-40 EB/yr
analysis	in situ data reduction	topic and sentiment mining	limited requirements	heterogeneous data and analysis
	real-time processing	metadata analysis		variant calling, ~2 trillion central processing unit (CPU) hours
	massive volumes
distribution	dedicated lines from antennae to server (600 TB/s)	small units of distribution	major component of modern user's bandwidth (10 MB/s)	many small (10 MB/s) and fewer massive (10 TB/s) data movement

Table. 1. 데이터 증가 속도 (ref)

3. 시퀀싱 기술 처리량(sequencing technology throughput) [목차]

플랫폼 (platform)	시퀀서 모델 (sequencer model)	리드 길이 (read length)	런 당 리드 (reads per run)
Illumina	iSeq 100	75-300 bp	4 million
	MiniSeq	75-300 bp	25 million
	MiSeq	75-300 bp	25 million
	NextSeq 550	75-150 bp	400 million
	NovaSeq 6000	75-300 bp	10 billion
PacBio	Sequel	10-60 kb	1 million
	Sequel II	10-100 kb	7 million
	Sequel IIe	10-100 kb	8 million
Oxford Nanopore	MinION	10 kb - 1 Mb	1 million
	GridION	10 kb - 1 Mb	5 million
	PromethION 24	10 kb - 1 Mb	15 million
	PromethION 48	10 kb - 1 Mb	30 million

Table. 2. 시퀀싱 기술 처리량

○ Sanger dideoxy (모세관 전기영동) : 700-800 bp read. 정확도 매우 높음

○ pyrosequencing : ~400 bp / read

○ Illumina : ~100 bp / read (최근에는 250 bp)

입력: 2022.02.21 12:51

수정: 2024.10.24 22:06

'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글

【생물정보학】 COMMOT의 이해 (0)	2025.04.06
【생물정보학】 생물정보학 분석 목차 (5)	2025.04.06
【생물정보학】 TransPhylo의 이해 (0)	2025.01.20
【생물정보학】 리눅스 프로그래밍(bash programming) (0)	2025.01.16
【생물정보학】 후성유전학 라이브러리 (4)	2024.01.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

정빈이의 공부방

최근댓글

【생물정보학】 생물정보학 부록

'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

【생물정보학】 생물정보학 부록

'▶ 자연과학 > ▷ 생물정보학' 카테고리의 다른 글

'▶ 자연과학/▷ 생물정보학' 관련 포스팅

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역