본문 바로가기

Contact English

【생물정보학】 TCGA DATA 얻는 법




추천글 : 【생물정보학】 생물정보학 분석 목차 

1. 공통 과정 [본문]

2. 마무리 방법 1 [본문]

3. 마무리 방법 2 [본문]

4. 마무리 방법 3 [본문]

5. 마무리 방법 4 [본문]

6. 트러블슈팅 [본문]

7. 부록 [본문]


1. 공통 과정 [목차]

⑴ 구글에 TCGA 입력



Figure. 1. 공통 1단계


 최상단에 The Cancer Genome Atlas Program - National Cancer Institute 접속



Figure. 2. 공통 2단계


본문 중 publicly available에 접속



Figure. 3. 공통 3단계


우측 상단에 Carts를 클릭



Figure. 4. 공통 4단계


우측에 GDC Data Transfer Tool 접속



Figure. 5. 공통 5단계


운영체제에 맞는 GDC Data Transfer Tool을 설치 


② Downloading the GDC Data Transfer Tool Client 

③ Downloading the GDC Data Transfer Tool User Interface (Beta) 

④ 안전하게 GDC Client와 GDC User Interface를 모두 Downloads 폴더에 다운 및 설치

 https://portal.gdc.cancer.gov/로 이동 후 Projects에 접속



Figure. 6. 공통 6단계


원하는 데이터를 선택



Figure. 7. 공통 7단계



2. 마무리 방법 1 [목차]

우측 상단에 Manifest 버튼을 선택하여 .txt 파일을 다운로드

명령 프롬프트(cmd)를 실행시키고 텍스트 파일의 위치를 참고하여 다음을 기입

⑶ 디렉토리 변경을 위해 cd Downloads 명령어도 꼭 입력해야 했음

① 추측하기로는 gdc-client 파일이 있는 디렉토리로 이동해야 하는 것으로 여겨짐

② Manifest 파일이 같은 디렉토리에 있을 필요는 없음

③ Manifest 파일이 같은 디렉토리에 있는 경우 파일이름, 파일확장자만 표시해도 됨 

⑷ 아래 프롬프트는 입력에 사소한 오류가 있었다: gdc-manifest → gdc_manifest




Figure. 8. 마무리 방법 1


⑸ 파일은 'C:/Users/sun/'에 저장됨



3. 마무리 방법 2 [목차]

찾다 보면 Download 버튼을 눌러 .json 파일을 다운로드

⑵ .json 파일을 텍스트 파일로 열어서 uuid를 확인

⑶ 명령 프롬프트(cmd)를 실행시키고 텍스트 파일의 위치를 참고하여 다음을 기입

⑷ 디렉토리 변경을 위해 cd Downloads 명령어도 꼭 입력해야 했음

① 추측하기로는 gdc-client 파일이 있는 디렉토리로 이동해야 하는 것으로 여겨짐

gdc-client download uuid 




Figure. 9. 마무리 방법 2 


⑹ 파일은 'C:/Users/sun/'에 저장됨



4. 마무리 방법 3 [목차]

바탕화면에 깔려 있는 GDC Data Transfer Tool 프로그램을 켠 뒤 방법 1에서 사용한 Manifest 파일을 드래그


Figure. 10. 마무리 방법 3



5. 마무리 방법 4 [목차]

위 완결 방법들에 자신이 없는 경우 UCSC XENA에서 올려준 데이터셋을 활용함

링크 1. https://ucsc-xena.gitbook.io/project/public-data-we-host/tcga

링크 2. https://xenabrowser.net/datapages/



6. 트러블슈팅 [목차]

ERROR: ###: 403 Client Error: FORBIDDEN: { "message": "Your token is invalid or expired. Please get a new token from GDC Data Portal." }

① Access 등급이 open이 아니라 controlled인 경우

② 허가에 준하는 token이라는 파일을 요함

③ 추측하기로는 token은 gdc-client라는 파일과 같은 디렉토리에 있어야 함



7. 부록 [목차]

⑴ TCGA 바코드 (ref)

① TCGA-02-0001-01C-01D-0182-01 

○ TCGA : Project 이름

○ 02 : TSS

○ 0001 : Participant

○ 01 : Sample

○ C : Vial

○ 01 : Portion

○ D : Analyte

○ 0182 : Plate

○ 01 : Center

② TCGA-02 : 어느 기관에서 샘플들을 수집했는지

③ TCGA-02-0001 : 환자들일 식별하는 번호

④ TCGA-02-0001-01 : 환자의 샘플 타입 (tumor 또는 normal)

○ 01 : Primary Solid Tumor

○ 02 : Recurrent Solid Tumor

○ 10 : Blood Derived Normal

○ 11 : Solid Tissue Normal

⑤ TCGA-02-0001-01B : 샘플의 조각

⑥ TCGA-02-0001-01B-02 : 샘플의 조각

⑦ TCGA-02-0001-01B-02D-0182 : 어떤 검사판을 이용하여 측정했는지

⑧ TCGA-02-0001-01B-02D-0182-06 : 검사판을 여러 번 측정하여 가장 정확하다고 판단된 측정결과

주요 약자

○ LAML : Acute Myeloid Leukemia 

 ACC : Adrenocortical carcinoma

 BLCA : Bladder Urothelial Carcinoma

 LGG : Brain Lower Grade Glioma

 BRCA : Breast invasive carcinoma

 CESC : Cervical squamous cell carcinoma and endocervical adenocarcinoma

 CHOL : Cholangiocarcinoma

 LCML : Chronic Myelogenous Leukemia

 COAD : Colon adenocarcinoma

 CNTL : Controls

 ESCA : Esophageal carcinoma

 FPPP : FFPE Pilot Phase II

 GBM : Glioblastoma multiforme

HNSC : Head and Neck squamous cell carcinoma

KICH : Kidney Chromophobe

KIRC : Kidney renal clear cell carcinoma

KIRP : Kidney renal papillary cell carcinoma

LIHC : Liver hepatocellular carcinoma

LUAD : Lung adenocarcinoma

LUSC : Lung squamous cell carcinoma

DLBC : Lymphoid Neoplasm Diffuse Large B-cell Lymphoma

MESO : Mesothelioma

MISC : Miscellaneous

OV : Ovarian serous cystadenocarcinoma

PAAD : Pancreatic adenocarcinoma

PCPG : Pheochromocytoma and Paraganglioma

PRAD : Prostate adenocarcinoma

READ : Rectum adenocarcinoma

SARC : Sarcoma

SKCM : Skin Cutaneous Melanoma

STAD : Stomach adenocarcinoma

TGCT : Testicular Germ Cell Tumors

THYM : Thymoma

THCA : Thyroid carcinoma

UCS : Uterine Carcinosarcoma

UCEC : Uterine Corpus Endometrial Carcinoma

UVM : Uveal Melanoma


입력 : 2019.08.26 23:32