본문 바로가기

Contact 日本語 English

【생물학】 11강. 생물정보학

 

11강. 생물정보학(bioinformatics)

 

추천글 : 【생물학】 생물학 목차


1. 비교 유전체학 [본문]

2. 기능 유전체학 [본문]

3. 후성유전학 [본문]

4. 메타유전체학 [본문]

5. 전사체학 [본문]

6. 단백질체학 [본문]

7. 대사체학 [본문]

8. 약리체학 [본문]

9. 표현체학 [본문]

10. 라디오믹스 [본문]


a. 생물정보학 분석 목차 

b. 전사체 분석 파이프라인

c. 셀 타입 마커 유전자

d. Seurat로 셀 타입 결정하기  


 

1. 비교 유전체학(comparative genomics) [목차]

⑴ 인간 게놈의 특징

 인간 게놈은 31억 개의 염기쌍으로 구성돼 있음

② 1/3 미만이 RNA로 전사되고, 5% 정도만 단백질을 암호화함

단백질을 암호화하는 유전자는 20000 ~ 25000개 정도 : 다른 포유류와 유사한 수준

④ 유전자는 평균적으로 3000 base 정도로 구성돼 있음

⑤ 모든 사람은 최소 99.9% 동일

⑥ 인간 게놈에 반복 서열이 상당히 많음

⑦ 7% 미만의 단백질 암호 유전자가 척추동물 특이적

핵생물 유전자 vs 핵생물 유전자

 리시스트론성 mRNA vs 노시스트론성 mRNA (하나의 mRNA에 암호화된 단백질 개수)

 트론 (×) vs 트론 (O)

 사와 번역의 동시성 (O) vs 사와 번역의 동시성 (×)

 mRNA processing (×) vs mRNA processing (O)

여러 생물의 유전체 크기와 유전자 수의 비교

 

생물 종류 유전체 크기
(Mb : 106)
단백질
유전자 수
단백질
암호서열(%)
원핵생물 마이코프라즈마 0.58 470 88
대장균 4.64 4,300 88
고초균 4.20    
진핵생물 균류 효모 12.6 6,200 70
아스파질러스 25.4    
원생동물 테트라하이메나 190    
무척추동물 예쁜꼬마선충 100 21,000 25
노랑초파리 180 15,000 13
누에 490    
성게 845    
척추동물 복어 400    
인간 3,000 23,500 1.5
생쥐 3,300    
식물 애기장대 125 26,000 25
440 35,000
~ 50,000
10
완두 4,800    
옥수수 5,000    
17,000    

 

Table. 1. 여러 생물의 유전체 크기

 

생명현상 유지를 위한 최소 유전자 수 : M. genitalium 470 유전자 중 337 유전자

유전체의 크기와 생물체의 복잡성 간에 상관관계가 작음

식물은 자주 배수체를 형성하기 때문에 유전체의 크기가 큼

단세포 원핵생물과 진핵생물 유전체의 비교

 

  E. coli Yeast
유전체 길이 (염기쌍) 4,640,000 12,068,000
단백질 유전자 수 4,300 6,200
대사작용 650 650
에너지 생산 및 저장 240 175
막 수송체 280 250
DNA 복제, 수선, 재조합 120 175
전사 230 400
번역 180 350
단백질 배달, 분비 35 430
세포 구조 180 250

 

Table 2. E. Coli와 효모의 비교

 

다세포 생물 특성에 필요한 필수적인 유전자들 (예 : 예쁜꼬마선충)

 

기능 단백질 영역 유전자
전사 조절 아연집게; 호메오박스 540
RNA 가공 RNA 결합 영역 100
활동전위 전달 개폐형 이온 채널 80
조직 형성 콜라겐 170
세포 상호작용 세포외 영역; 글리코실전달효소 330
세포-세포 신호전달 G 단백질 연결 수용체
단백질 인산화효소
단백질 인산가수분해효소
1,290

 

Table. 3. 예쁜꼬마선충(C. elegans)]

 

인간(A)과 생쥐(B)의 유전체 비교

인간과 생쥐는 염기 서열에서 50%의 차이가 있으며, 7500만 년 전에 분지됨

이들이 가지고 있는 유전체의 크기나 유전자의 수는 별 차이가 없으며, 단지 다 반복서열 요소의 하나인 트랜스포존의 분 다를 뿐

유전체의 구성 : 180회의 분절과 재결합 사건이 있었으며, 유전체의 90% 이상이 블록으로 이동 - 보존 분체

④ 보존 분체(conserved synteny)

⑺ 인간과 침팬지의 비교

① 인간과 침팬지의 유전자 차이는 1.23%에 불과함

⑻ 미토콘드리아와 엽록체 비교

① 미토콘드리아 유전체학 : 16,569 bp. 유전자 37개

미토콘드리아 내 많은 단백질은 핵으로부터 유래

○ 예 : β 산화, TCA 효소는 세포질로부터 이동

일부의 단백질들이 미토콘드리아 DNA로부터 전사 번역됨

○ 예 : 전자전달계 단백질, ATP 합성효소는 스스로 합성

○ 종결코돈 : CAG

② 엽록체 유전체학

켈빈회로에 쓰이는 효소는 스스로 합성, 루비스코 대단위체는 엽록체, 소단위체는 세포질에서 생성

○ β 산화, TCA 효소뿐만 아니라 전자전달계 단백질, ATP 합성효소도 세포질로부터 이동

③ 엽록체가 미토콘드리아보다 훨씬 유전체 양이 많음

○ 미토콘드리아 : 반복서열, 인트론 없음

○ 엽록체 : 반복서열, 인트론 많음

○ (주석) 미토콘드리아 유전자는 대부분 핵으로 이동

 

 

2. 기능유전체학 [목차]

⑴ 개요 

① 정의 : 인트론, 조절인자 등 모든 DNA의 기능을 연구하는 학문

② WGS, WES, GWAS, Chip-seq 등의 시퀀싱 기술이 활용됨

유전물질의 이동

바이러스 

박테리아의 재조합

이동성 DNA : 트랜스포존, 레트로트랜스포존, LINE, SINE

 중간빈도 반복서열

VNTR (비교적 긺), STR (비교적 짧음), 텔로미어

 유전적 예상현상 : 세대 ↑ → 반복서열 ↑ → 질환 발병 ↑ (예 : 파킨슨병)

 고빈도 반복서열

상당히 응축, 동원체, 부수체

⑸ 위성 DNA

A-T가 풍부한 반복 DNA

② 부력 밀도가 작음

 다유전자군

 동일유전자군 (예 : rRNA)

유사유전자군 (예 : 헤모글로빈)

SNP(single nucleotide polymorphism)

CNV(copy number variation)

LOH(loss of heterozygosity)

genomic rearrangement

⑾ rare variant 

 

 

3. 후성유전학(epigenetics) [목차]

⑴ 개요

 루프 형성 : 암호화 DNA 상에서 역반복 서열이 존재할 때 일어날 수 있음

 내재적 전사종결자, t-RNA, 텔로미어 tetra G 등은 루프 형성에 기여함

⑵ 세부 분야

BS-seq(bisulfide sequencing)

ChIP-seq(chromatin immunoprecipitation sequencing)

 Hi-C seqeuencing (high throughput chromatin conformation capture sequencing)

ATAC-seq (bulk & single cell)

NOMe-seq

 

 

4. 메타유전체학(metagenomics) [목차]

 정의 : 주어진 환경에 존재하는 모든 미생물의 유전체의 집합

⑵ 메타게놈, 군유전체학, 범유전체학이라고도 함

 

 

5. 전사체학(transcriptomics) [목차]

⑴ 정의

 전사된 RNA의 기능을 연구하는 학문

② 단백질에 비하여 상당히 민감성이 높은 RNA를 이용함  

⑵ 세부 분야

 벌크 전사체(bulk RNA-seq)

 단일세포 전사체학(single cell RNA-seq) : 2013년 올해의 기술 

 공간 전사체학(spatial RNA-seq) : 2020년 올해의 기술

④ 구조전사체학 : 후성유전체학과 관련 

 alternative splicing 및 isoform analysis : 2022년 올해의 기술

RNA 간섭 : miRNA, siRNA 등

 long non-coding RNA

 small RNA

 pseudo gene : 전사는 되지만 번역되지 않는 유전자

 

 

6. 단백질체학(프로테오믹스, proteomics) [목차]

⑴ 개요

① 정의 : 번역된 단백질의 발현 양상을 연구하는 학문

② 100만 개 이상의 단백질을 대상으로 함

③ 전사체학은 실제 단백질체학의 약 40%만 설명할 수 있음 

 

출처: Nature Reviews Genetics 13, 227-232

Figure. 1. NIH3T3 세포에서 mRNA abundance 대비 protein abundance]

 

④ 장점 : 생리현상과 밀접한 바이오마커를 검출할 수 있음

⑤ 단점 : DNA, RNA에 비해 민감도가 떨어짐  

⑵ 세부 분야

protein expression : cytokine array 등

 PTM(post-translational modification)

③ 구조단백질학

단백질의 4차구조(즉, 여러 폴리펩타이드가 하나의 단백질을 구성하는 경우)

1차구조 상에서 멀리 떨어져 있는 아미노산이 실제로는 매우 가깝게 위치하는 경우가 있음

 : 트립시노겐에서 triad를 구성하는 His와 Ser은 1차구조 상 멀리 있으나 하나의 active site를 구성

일반적으로 단백질의 서열을 분석하기 위해 peptidase(protease)로 일정 길이 이하의 절편으로 만듦

④ phospho-proteomics

⑤ glycomics

 

 

7. 대사체학(metabolomics) [목차]

⑴ metabolite profiling : serum, plasma, urine, CSF 등에서 진행

⑵ tandem mass spec 

 

 

8. 약리체학(pharmacomics) [목차]

⑴ 개요 : high-throughput screening 기술이 사용됨

⑵ Affymetrix GeneChip : HG-U133 Plus 2.0 Array 등

 Luminex bead arrays(L1000)

 Illumina Human HT-12 v4 Expression BeadChip Array

 mRNA-seq (Illumina Hi-Seq)

 GCP : histone profiling

 P100 : phosphoproteomics

 KINOMEscan

 KiNativ

 MEMA

 ELISA

 RPPA

 ATAC-seq

 Cellarium

 SWATH-MS 

 

 

9. 표현체학(phenomics) [목차]

⑴ cancer

⑵ metabolic syndrome

⑶ psychiatric disease 

 

 

10. 라디오믹스(radiomics) [목차]

⑴ 정의 : 핵의학 영상과 유전체 정보를 융합한 학문

 

입력: 2021.06.12 13:56

수정: 2022.03.17 13:44