단백질체 분석 파이프라인(Proteomics Pipeline)
추천글 : 【생물정보학】 생물정보학 분석 목차
1. 모티프 분석 [본문]
2. 단백질-단백질 상호작용 [본문]
3. 단백질 변이 기능 예측 [본문]
1. 모티프 분석 [목차]
⑴ 서열 로고(sequence logo)
① 아미노산 또는 핵산의 다중 sequence alignment를 그래픽으로 표현한 것
② Tom Schneider와 Mike Stephens에 의해 개발됨
③ y축은 정보이론에서 정의되는 information content를 의미함
④ 예 1. 모든 염기서열(A, T, G, C)이 같은 빈도 : 최대 엔트로피 = 2. 실제 엔트로피 = 2. information content = 0
⑤ 예 2. 한 염기만 나타나는 경우 : 최대 엔트로피 = 2. 실제 엔트로피 = 0. information content = 2
⑥ 예 3. 두 염기만 같은 빈도 : 최대 엔트로피 = 2. 실제 엔트로피 = 1. information content = 1
⑵ PROSITE
① 단백질 패턴 데이터베이스
② 패턴은 다음과 같이 regular expression으로 정의됨
○ 아미노산이 알려져 있으면 사용됨
○ 위치는 '-'로 구분됨
○ 'x'는 wildcard 문자
○ []는 모호성을 나타냄. 즉, [one of]
○ {}는 부정을 나타냄. 즉, {not one of}
○ ()는 범위를 나타냄. 즉, (min, max)
○ < 또는 >는 각각 단백질의 N 말단, C 말단을 나타냄
③ 예시
○ [AC]-x-V-x(4)-{ED} : [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}
○ <A-x-[ST](2)-x(0,1)-V : N 말단인 데다가 Ala-any-[Ser or Thr]-[Ser or Thr]-(any or none)-Val와 같이 번역됨
2. 단백질-단백질 상호작용(protein-protein interaction, PPI; 분자 도킹, molecular docking) [목차]
⑴ 주요 사항
① 결합 친화도(결합세기, BA, binding affinity)는 일반적으로 해리 상수(Kd) 또는 억제 상수(Ki)에 의해 정량화됨
② PPI의 일반 고려 사항
○ 일반적인 특성 (예 : 원자 유형)
○ 물리화학적 특성 (예 : 제외된 부피, 부분 전하, 무거운 원자 이웃, 이종 원자 이웃, 혼성화)
○ 약리학적 특성 (예 : 소수성, 방향성, 산/염기, 고리 형태)
③ 데이터셋
○ PDBbind database of version 2016
○ 부분집합 1. general set : 모든 데이터, 즉 13,285개의 protein-ligand complex를 포함
○ 부분집합 2. refined set : general subset의 부분집합. 4,057개의 high-quality complex를 포함
○ 부분집합 3. core 2016 set : refined set으로부터 추출한 290 complex. 벤치마킹 데이터로 자주 활용됨
○ CSAR-HiQ
○ CSAR-HiQ_51 : 원래 176개의 protein-ligand complex로 구성된 집합에서 추출한 부분집합
○ CSAR-HiQ_36 : 원래 167개의 protein-ligand complex로 구성된 집합에서 추출한 부분집합
○ Biolip
○ InterPepScore
④ 단백질-리간드 상호작용 모델은 좀 있지만, 단백질-단백질 상호작용 모델은 여전히 상대적으로 드묾
⑵ 모델
① 개요
○ 결합 위치 예측 모델과 결합 친화도 예측 모델로 구분되지만 구분이 엄밀하지 않음
○ 일반적으로 리간드, 수용체 간 결합 위치가 3 Å 이하이면 결합세기가 높다고 여겨짐
② 종류 1. AlphaFold2 multimer
③ 종류 2. DeepDTA
④ 종류 3. DeepDTAF
⑤ 종류 4. DeepFusionDTA
⑥ 종류 5. GraphDTA
⑦ 종류 6. CAPLA
⑧ 종류 7. GNINA
○ 결합 위치뿐만 아니라 CNN을 이용하여 친화도 평가
⑨ 종류 8. SMINA
○ 결합 위치뿐만 아니라 물리 기반 스코어링 함수를 사용하여 친화도 평가
⑩ 종류 9. GLIDE
○ 결합 위치뿐만 아니라 물리 기반 스코어링 함수를 사용하여 친화도 평가
⑪ 종류 10. EquiBind
○ GNN with SE(3) equivariance
⑫ 종류 11. TANKBind
○ 트랜스포머의 attention 메커니즘을 이용
⑬ 종류 12. DIFFDOCK
○ 디퓨전 모델(diffusion model)을 이용
3. 단백질 변이 기능 예측 [목차]
⑴ PolyPhen-2 (Adzhubei et al., 2013)
⑵ SIFT (Kumar et al., 2009)
⑶ Mutation Taster (Schwarz et al., 2014)
⑷ Mutation Assessor (Reva et al., 2011)
⑸ LR 및 LRT (Chun 및 Fay, 2009)
입력: 2024.03.31 01:08
수정: 2024.09.29 15:40
'▶ 자연과학 > ▷ 화학정보학' 카테고리의 다른 글
【화학정보학】 유기화학 관련 파이썬 함수 모음 (1) | 2024.04.05 |
---|---|
【화학정보학】 물질 라이브러리 (0) | 2023.12.11 |
【화학정보학】 생물학 실험에 사용되는 형광물질 라이브러리 (7) | 2022.05.04 |
【화학정보학】 저분자 약물 데이터베이스 종류 (0) | 2022.04.27 |
【화학정보학】 New Cancer Drugs Approved by the FDA in 20 years (0) | 2022.01.08 |
최근댓글