본문 바로가기

Contact English

【화학정보학】 단백질체 분석 파이프라인(Proteomics Pipeline)

 

단백질체 분석 파이프라인(Proteomics Pipeline)

 

추천글 : 【생물정보학】 생물정보학 분석 목차 


1. 모티프 분석 [본문]

2. 단백질-단백질 상호작용 [본문]

3. 단백질 변이 기능 예측 [본문]


 

1. 모티프 분석 [목차]

⑴ 서열 로고(sequence logo)

① 아미노산 또는 핵산의 다중 sequence alignment를 그래픽으로 표현한 것 

② Tom Schneider와 Mike Stephens에 의해 개발됨 

③ y축은 정보이론에서 정의되는 information content를 의미함 

예 1. 모든 염기서열(A, T, G, C)이 같은 빈도 : 최대 엔트로피 = 2. 실제 엔트로피 = 2. information content = 0 

예 2. 한 염기만 나타나는 경우 : 최대 엔트로피 = 2. 실제 엔트로피 = 0. information content = 2 

예 3. 두 염기만 같은 빈도 : 최대 엔트로피 = 2. 실제 엔트로피 = 1. information content = 1

⑵ PROSITE

① 단백질 패턴 데이터베이스 

② 패턴은 다음과 같이 regular expression으로 정의됨 

○ 아미노산이 알려져 있으면 사용됨 

○ 위치는 '-'로 구분됨 

○ 'x'는 wildcard 문자 

○ []는 모호성을 나타냄. 즉, [one of]

○ {}는 부정을 나타냄. 즉, {not one of}

○ ()는 범위를 나타냄. 즉, (min, max)

○ < 또는 >는 각각 단백질의 N 말단, C 말단을 나타냄 

③ 예시 

[AC]-x-V-x(4)-{ED} : [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}

<A-x-[ST](2)-x(0,1)-V : N 말단인 데다가 Ala-any-[Ser or Thr]-[Ser or Thr]-(any or none)-Val와 같이 번역됨

 

 

2. 단백질-단백질 상호작용(protein-protein interaction, PPI; 분자 도킹, molecular docking) [목차]

⑴ 주요 사항

① 결합 친화도(결합세기, BA, binding affinity)는 일반적으로 해리 상수(Kd) 또는 억제 상수(Ki)에 의해 정량화됨

② PPI의 일반 고려 사항

○ 일반적인 특성 (예 : 원자 유형)

○ 물리화학적 특성 (예 : 제외된 부피, 부분 전하, 무거운 원자 이웃, 이종 원자 이웃, 혼성화)

○ 약리학적 특성 (예 : 소수성, 방향성, 산/염기, 고리 형태)

③ 데이터셋

○ PDBbind database of version 2016 

부분집합 1. general set : 모든 데이터, 즉 13,285개의 protein-ligand complex를 포함 

부분집합 2. refined set : general subset의 부분집합. 4,057개의 high-quality complex를 포함

부분집합 3. core 2016 set : refined set으로부터 추출한 290 complex. 벤치마킹 데이터로 자주 활용됨

CASF-2013

○ CSAR-HiQ

CSAR-HiQ_51 : 원래 176개의 protein-ligand complex로 구성된 집합에서 추출한 부분집합

CSAR-HiQ_36 : 원래 167개의 protein-ligand complex로 구성된 집합에서 추출한 부분집합

○ Biolip

○ InterPepScore

④ 단백질-리간드 상호작용 모델은 좀 있지만, 단백질-단백질 상호작용 모델은 여전히 상대적으로 드묾

⑵ 모델 

① 개요 

결합 위치 예측 모델과 결합 친화도 예측 모델로 구분되지만 구분이 엄밀하지 않음  

○ 일반적으로 리간드, 수용체 간 결합 위치가 3 Å 이하이면 결합세기가 높다고 여겨짐

종류 1. AlphaFold2 multimer

종류 2. DeepDTA

종류 3. DeepDTAF

종류 4. DeepFusionDTA

종류 5. GraphDTA

종류 6. CAPLA

종류 7. GNINA 

○ 결합 위치뿐만 아니라 CNN을 이용하여 친화도 평가 

종류 8. SMINA 

결합 위치뿐만 아니라 물리 기반 스코어링 함수를 사용하여 친화도 평가

종류 9. GLIDE 

○ 결합 위치뿐만 아니라 물리 기반 스코어링 함수를 사용하여 친화도 평가

종류 10. EquiBind 

○ GNN with SE(3) equivariance

종류 11. TANKBind 

트랜스포머의 attention 메커니즘을 이용 

종류 12. DIFFDOCK 

○ 디퓨전 모델(diffusion model)을 이용

 

 

3. 단백질 변이 기능 예측 [목차]

⑴ PolyPhen-2 (Adzhubei et al., 2013)

SIFT (Kumar et al., 2009)

Mutation Taster (Schwarz et al., 2014)

Mutation Assessor (Reva et al., 2011)

LR 및 LRT (Chun 및 Fay, 2009)

 

입력: 2024.03.31 01:08

수정: 2024.09.29 15:40