【알고리즘】 22강. 컴퓨터 비전 모델

22강. 컴퓨터 비전 모델(computer vision model)

추천글 : 【알고리즘】 알고리즘 목차

1. CNN [본문]

2. 비전 트랜스포머 [본문]

3. 이미지 생성형 모델 [본문]

4. 비전-언어 모델 [본문]

5. 비디오 생성형 모델 [본문]

1. CNN(convolutional neural network) [목차]

⑴ CNN 신경망의 개념

⑵ 예 1. DIP(deep image prior) : 트레이닝 데이터 없이 CNN 아키텍처를 입력 이미지에 과적합(overfitting) 시켜 새로운 이미지를 생성

2. 비전 트랜스포머 [목차]

⑴ 비전 트랜스포머(vision transformer, ViT)

① ViT는 트랜스포머 인코더 구조만을 사용 : 임베딩에 특화됨. 이미지 생성에는 부적절함

② 단계 1. 이미지를 여러 개의 작은 패치로 나누고 각 패치를 토큰으로 취급하여 트랜스포머에 입력

③ 단계 2. 트랜스포머 인코더를 이용하여 각 패치를 임베딩

④ 단계 3. 문장의 단어들을 임베딩하고 문장의 의미를 나타내는 sentence embedding을 출력할 수 있듯이, ViT는 패치들의 관계를 학습하여 전체 이미지를 나타내는 피처를 출력

⑤ 한계 : self-attention 계산량은 이미지를 구성하는 패치의 수의 제곱에 비례하므로 고해상도 이미지를 한 번에 입력으로 넣기 어려움

○ 해결방안 1. 주어진 이미지를 작은 패치로 나누고, 각 패치에 독립적으로 ViT를 적용 (e.g., iSTAR)

○ 해결방안 2. LongNet 등을 사용하여 확장된 셀프 어텐션(dilated self-attention) 메커니즘을 도입 (e.g., Prov-GigaPath)

⑵ 종류

① DINO(self-distillation with no labels)

② IBOT(image BERT pretraining with online tokenizer)

③ BEiT : BERT 모델의 아이디어를 차용한 것으로 마스킹된 언어 모델링과 유사하게 트레이닝을 한 ViT 변형 모델

○ iSTAR : 공간전사체의 해상도를 높이는데 사용됨. DINO 방식으로 학습한 BEiT 기반 모델을 사용

Figure. 1. iSTAR 데이터 준비 모식도

○ 단계 1. 주어진 이미지를 256 × 256 패치로 구획화

○ 단계 2. 각 패치를 16 × 16 서브패치로 구획화

○ 단계 3. 각 서브패치 별로 ViT(f₂로 표시)를 적용하여 384차원의 벡터를 획득

○ 단계 4. 384차원의 벡터들을 모아 16 × 16 × 384의 데이터를 만들고, 다른 ViT(f₁으로 표시)를 적용하여 192차원 벡터 획득

○ 단계 5. 192차원의 벡터들을 모은 뒤 ViT(f₀로 표시)를 적용

○ 피처 및 손실함수 수식화

④ 스윈 트랜스포머(swin transformer) : ViT 변형 모델. 윈도우 기반의 지역적 self-attention을 사용

⑤ CTransPath : Wang et al., Medical Image Analysis (2022). TCGA 데이터를 통해 pretraining

⑥ UNI : Chen et al., Nature Medicine (2024). DINOv2 사용. 34 종류의 테스크에 적용 가능한 다목적 모델

⑦ CONCH (CONtrastive learning from Captions for Histopathology) : Lu et al., Nature Medicine (2024)

⑧ Virchow : Vorontsov et al., arxiv (2023)

⑨ RudolfV : Dippel et al., arxiv (2024)

⑩ Campanella : Campanella et al., arxiv (2023)

⑪ Prov-GigaPath : Microsoft에서 발표. 17만 장의 병리 이미지(13억개 타일)를 학습한 비전 파운데이션 모델 (2024)

⑫ PRISM

3. 이미지 생성형 모델 [목차]

⑴ 종류

① DALL·E3 (OpenAI)

② Midjourney

③ Stable Diffusion

④ Sora (OpenAI)

⑤ video LLM

4. 비전-언어 모델 [목차]

⑴ 종류

① MedGemma

5. 비디오 생성형 모델 [목차]

⑴ 종류

① XVFI : optical flow 일종

② FILM(Frame Interpolation for Large Motion) : 인코더 + U-Net like decoder

입력: 2024.04.22 14:08

'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글

【알고리즘】 알고리즘·머신러닝 목차 (2)	2024.12.01
【머신러닝】 AlphaGeometry 설치 및 이해 (4)	2024.05.20
【알고리즘】 18강. GNN 신경망 (2)	2024.03.19
【알고리즘】 9강. 패턴 인식 알고리즘 (0)	2023.12.19
【알고리즘】 8강. 클러스터링 알고리즘 (0)	2023.09.22

정빈이의 공부방

최근댓글

【알고리즘】 22강. 컴퓨터 비전 모델

'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글

티스토리툴바

【알고리즘】 22강. 컴퓨터 비전 모델

'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글

'▶ 자연과학/▷ 알고리즘·머신러닝' 관련 포스팅

티스토리툴바