본문 바로가기

Contact English

【화학정보학】 저분자 약물 데이터베이스 종류

 

저분자 약물 데이터베이스 종류

 

추천글 : 【화학정보학】 물질 라이브러리


1. protein representation [본문]

2. molecular representation [본문]

3. 저분자 데이터베이스 [본문]

4. 저분자 시뮬레이션 [본문]

5. 약물 유전체 데이터베이스 [본문]


a. 약물 라이브러리

b. 약물 클래스 라이브러리 


 

1. protein representation [목차]

 AAC (Amino Acid Composition) - 20D

 Dipeptide Composition Descriptor - 400D

 Tripeptide Composition Descriptor - 8000D

 Composition, Transition and Distribution (CTD) - 147D

 ProtVec (Asgari et al., PLoS ONE 10(11): e0141287, 2015)

 

 

2. molecular representation [목차]

 structural based

① pattern-based FP

○ MACCS, PubChem, FP3, FP4 

⑵ topological

① path-based FP

○ Daylight, FP2 

② circular FP

○ ECFP2, ECFP4, ECFP6 

③ pharmacophore FP

○ 2D pharamacophore 

⑶ neural network based 

① graph-based representation

○ GNN(graph convolutional network (GCN), graph attention network (GAT), gated graph neural network (GGNN) ....)

○ GNN이 CNN보다 더 발전된 형태이고, GNN이 광범위하게 CNN까지 포함

② molecular embedding

○ seq2seq, mol2vec

 

 

3. 저분자 데이터베이스 [목차]

저분자 통합 데이터베이스 

약 800,000개 저분자의 생리활성에 대한 데이터를 벡터 형태로 제공하는 데이터베이스

② 기계학습 모델 구축에 바로 활용 가능한 데이터

 분야 : 화학적 특성, 타겟 정보, 생물학적 네트워크, 세포 실험, 임상 데이터

AlphaFold2 데이터베이스  

① 2억 개의 단백질 구조 데이터베이스

② 50년간 인류가 실험적으로 밝혀낸 단백질 구조 개수인 약 20만 개보다 1000배 많은 숫자

③ 데이터베이스를 만들기 시작한지 단 1년만에 이뤄낸 성과

 

출처: https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

Figure. 1. AlphaFold2 데이터베이스의 크기

 

ensembl : 전사체 데이터베이스

uniprot : 단백질 데이터베이스

The Human Protein Atlas : 세포, 조직 및 기관에 있는 모든 인간 단백질을 맵핑하는 것을 목표로 하는 공개 엑세스 리소스

SGC (Chemical Probes) : 관련 데이터, 대조 화합물 및 사용 권장 사항과 함께 고유한 프로브 컬렉션을 제공

⑺ zinc clean leads collection (1,936,962 molecules)

① molecular weight in the range from 250 to 350 Daltons, a number of rotatable bonds not greater than 7, and XlogP less than or equal to 3.5.

② We removed molecules containing charged atoms or atoms besides C, N, S, O, F, Cl, Br, H or cycles longer than 8 atoms.

③ The molecules were  filtered via medicinal chemistry filters (MCFs) and PAINS filters.

https://github.com/molecularsets/moses 

Known DDR1 Kinase Inhibitors

Common Kinase Inhibitors (positive)

Molecules that act on Non-Kinase Targets (negative)

① 2 ~ 4 : from ChemBL dataset 

Patent Data for claimed molecules

www.globaldata.com : 2017년까지 특허 등록된 약물17,000종

⑿ 3D Structure of DDR1 Inhibitors

 

 

4. 저분자 시뮬레이션 [목차]

⑴ docking simulation 

① in the Maestro suite (https://www.schrodinger.com) 

② PDB structures 3ZOS was preprocessed and energy minimized using the Prep module 

⑵ 독성 관련 공공 데이터베이스

① ToxCast : 약 8500개. 다양한 세포주, 생물학적 활성 등을 고려해 약 700 종류의 in vitro assay를 high-throughput screening으로 측정한 데이터베이스

② Tox21 : 약 8000개. 12개의 주요 세포 독성 타겟에 대한 화학물질의 반응을 luciferase assay 등을 통해 정성적으로 측정한 데이터 베이스

③ DSSTOX : 약 740,000개. 화학물질의 물리화학적 특징과 Tox21, ToxCast의 생물학적 실험 데이터를 연동해 제공하는 데이터 베이스

④ ClinTox : 약 1500개. FDA에 승인된 약물과 독성 문제로 임상 시험에 실패한 약물 비교

⑤ SIDER : 약 1500개. 시판 중인 약물의 부작용에 대한 통합 정보 데이터 보유. 약물 부작용이 보고된 논문 및 실험 데이터를 빈도와 심각도에 따라 분류해 제공

⑥ ECOTOX : 약 12,000개. 13,000여 종의 생물에 대한 화학물질의 독성 실험 데이터를 통합해 제공. 독성은 EC50, IC50, NOEL 등을 기준으로 평가하고 관련 논문 링크 수록  

 

 

5. 약물 유전체 데이터베이스 [목차]

NCBI dbSNP

⑵ gnomAD

⑶ pharmVar

⑷ PHARMGKB

⑸ NCBI PubChem

⑹ Broad Institute CMAP 

⑺ CTD

⑻ Drug Bank

⑼ Stitch (search tool for interactions of chemicals)

ToppFun 

⑾ depmap 

⑿ L1000CDS2 

⒀ L1000FWD

 GDSC (Genomic of Drug Sensitivity in Cancer)

⒂ CCLE

ClinicalTrials.gov : 각 약물에 대한 임상시험 진행 사항을 볼 수 있음

 

입력: 2022.04.27 01:25