본문 바로가기

Contact English

【알고리즘】 22강. 컴퓨터 비전 모델

 

22강. 컴퓨터 비전 모델(computer vision model)

 

추천글 : 【알고리즘】 알고리즘 목차 


1. CNN [본문]

2. 비전 트랜스포머 [본문]

3. 이미지 생성형 모델 [본문]


 

1. CNN(convolutional neural network) [목차]

CNN 신경망의 개념 

예 1. DIP(deep image prior) : 트레이닝 데이터 없이 CNN 아키텍처를 입력 이미지에 과적합(overfitting) 시켜 새로운 이미지를 생성

 

 

2. 비전 트랜스포머 [목차]

⑴ 비전 트랜스포머(vision transformer, ViT)

① ViT는 트랜스포머 인코더 구조만을 사용 : 임베딩에 특화됨. 이미지 생성에는 부적절함

단계 1. 이미지를 여러 개의 작은 패치로 나누고 각 패치를 토큰으로 취급하여 트랜스포머에 입력

단계 2. 트랜스포머 인코더를 이용하여 각 패치를 임베딩

단계 3. 문장의 단어들을 임베딩하고 문장의 의미를 나타내는 sentence embedding을 출력할 수 있듯이, ViT는 패치들의 관계를 학습하여 전체 이미지를 나타내는 피처를 출력

한계 : self-attention 계산량은 이미지를 구성하는 패치의 수의 제곱에 비례하므로 고해상도 이미지를 한 번에 입력으로 넣기 어려움 

해결방안 1. 주어진 이미지를 작은 패치로 나누고, 각 패치에 독립적으로 ViT를 적용 (e.g., iSTAR)

해결방안 2. LongNet 등을 사용하여 확장된 셀프 어텐션(dilated self-attention) 메커니즘을 도입 (e.g., Prov-GigaPath)

 종류

① DINO(self-distillation with no labels)

② IBOT(image BERT pretraining with online tokenizer)

BEiT : BERT 모델의 아이디어를 차용한 것으로 마스킹된 언어 모델링과 유사하게 트레이닝을 한 ViT 변형 모델 

iSTAR : 공간전사체의 해상도를 높이는데 사용됨. DINO 방식으로 학습한 BEiT 기반 모델을 사용

 스윈 트랜스포머(swin transformer) : ViT 변형 모델. 윈도우 기반의 지역적 self-attention을 사용

 CTransPath : Wang et al., Medical Image Analysis (2022). TCGA 데이터를 통해 pretraining

 UNI : Chen et al., Nature Medicine (2024). DINOv2 사용. 34 종류의 테스크에 적용 가능한 다목적 모델 

 CONCH (CONtrastive learning from Captions for Histopathology) : Lu et al., Nature Medicine (2024) 

 Virchow : Vorontsov et al., arxiv (2023)

 RudolfV : Dippel et al., arxiv (2024) 

 Campanella : Campanella et al., arxiv (2023)

Prov-GigaPath : Microsoft에서 발표. 17만 장의 병리 이미지(13억개 타일)를 학습한 비전 파운데이션 모델 (2024)

 

 

3.  이미지 생성형 모델 [목차]

⑴ 종류 

DALL·E3 (OpenAI)

② Midjourney

Stable Diffusion

④ Sora (OpenAI)

⑤ video LLM 

 

입력: 2024.04.22 14:08