22강. 컴퓨터 비전 모델(computer vision model)
추천글 : 【알고리즘】 알고리즘 목차
1. CNN [본문]
2. 비전 트랜스포머 [본문]
3. 이미지 생성형 모델 [본문]
1. CNN(convolutional neural network) [목차]
⑵ 예 1. DIP(deep image prior) : 트레이닝 데이터 없이 CNN 아키텍처를 입력 이미지에 과적합(overfitting) 시켜 새로운 이미지를 생성
2. 비전 트랜스포머 [목차]
⑴ 비전 트랜스포머(vision transformer, ViT)
① ViT는 트랜스포머 인코더 구조만을 사용 : 임베딩에 특화됨. 이미지 생성에는 부적절함
② 단계 1. 이미지를 여러 개의 작은 패치로 나누고 각 패치를 토큰으로 취급하여 트랜스포머에 입력
③ 단계 2. 트랜스포머 인코더를 이용하여 각 패치를 임베딩
④ 단계 3. 문장의 단어들을 임베딩하고 문장의 의미를 나타내는 sentence embedding을 출력할 수 있듯이, ViT는 패치들의 관계를 학습하여 전체 이미지를 나타내는 피처를 출력
⑤ 한계 : self-attention 계산량은 이미지를 구성하는 패치의 수의 제곱에 비례하므로 고해상도 이미지를 한 번에 입력으로 넣기 어려움
○ 해결방안 1. 주어진 이미지를 작은 패치로 나누고, 각 패치에 독립적으로 ViT를 적용 (e.g., iSTAR)
○ 해결방안 2. LongNet 등을 사용하여 확장된 셀프 어텐션(dilated self-attention) 메커니즘을 도입 (e.g., Prov-GigaPath)
⑵ 종류
① DINO(self-distillation with no labels)
② IBOT(image BERT pretraining with online tokenizer)
③ BEiT : BERT 모델의 아이디어를 차용한 것으로 마스킹된 언어 모델링과 유사하게 트레이닝을 한 ViT 변형 모델
○ iSTAR : 공간전사체의 해상도를 높이는데 사용됨. DINO 방식으로 학습한 BEiT 기반 모델을 사용
④ 스윈 트랜스포머(swin transformer) : ViT 변형 모델. 윈도우 기반의 지역적 self-attention을 사용
⑤ CTransPath : Wang et al., Medical Image Analysis (2022). TCGA 데이터를 통해 pretraining
⑥ UNI : Chen et al., Nature Medicine (2024). DINOv2 사용. 34 종류의 테스크에 적용 가능한 다목적 모델
⑦ CONCH (CONtrastive learning from Captions for Histopathology) : Lu et al., Nature Medicine (2024)
⑧ Virchow : Vorontsov et al., arxiv (2023)
⑨ RudolfV : Dippel et al., arxiv (2024)
⑩ Campanella : Campanella et al., arxiv (2023)
⑪ Prov-GigaPath : Microsoft에서 발표. 17만 장의 병리 이미지(13억개 타일)를 학습한 비전 파운데이션 모델 (2024)
3. 이미지 생성형 모델 [목차]
⑴ 종류
① DALL·E3 (OpenAI)
② Midjourney
③ Stable Diffusion
④ Sora (OpenAI)
⑤ video LLM
입력: 2024.04.22 14:08
'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글
【알고리즘】 알고리즘·머신러닝 목차 (2) | 2024.12.01 |
---|---|
【머신러닝】 AlphaGeometry 설치 및 이해 (4) | 2024.05.20 |
【알고리즘】 18강. GNN 신경망 (2) | 2024.03.19 |
【알고리즘】 9강. 패턴 인식 알고리즘 (0) | 2023.12.19 |
【알고리즘】 8강. 클러스터링 알고리즘 (0) | 2023.09.22 |
최근댓글