- 링크:
https://arxiv.org/pdf/2301.12597
Background
- BLIP-1
- 기존 모델은 이미지 모델과 텍스트 모델 둘 다 전체를 end-to-end로 tuning 시키는 것은 많은 비용과 시간이 듬
- -> BLIP-2는 frozen LLM + frozen image encoder로 Q-formal만 학습함으로써 효율적임
Methods
- Architecture
- Image encoder와 large language model은 frozen 상태로 사
- Vision 모델과 language 모델을 잇는 bottleneck 역할을 수행하도록 Q-Former만 단독으로 학습시키자

- 1단계: vision-language representation learning
- BLIP-1과 마찬가지로 3가지 training object를 사용하여서 학습함
- 이 학습할 때 이미지 query와 텍스트 query간에 attention을 하는데, 목적에 따라 masking하는 부분이 다름
- Learnable Queries: 이미지 전체 feature 대신 적은 차원의 query vector로 정보 추출
- ITC: Image-Text Matching: Q-Formal가 image와 text 정보 모두 보고 matching하며 학습하기 때문에 masking이 없음
- ITG: Image-Grounded Text Generation: 이미지는 이미지랑만 att하고, text는 이미지를 보며 한 글자씩 생성하니까 부분적으로 masking함
- ITM: Image-Text Contrastive Learning: 대조학습을 하며 자기자신만 봐야하니 반을 masking

- 2단계: vision-to-language generative learning
- Decoder-only LLM: 이미지를 frozen image encoder에 넣어 시각적 특징을 추출 -> 이 특징을 Q-Formal에 넣어 Learned Queries를 생성 -> FC로 LLM과 차원 맞춰줌 -> LLM decoder의 앞에 붙여서 마치 소프트 프롬프트처럼 사용 -> LLM은 이어서 텍스트 생성
- Encoder-Decoder-based LLM: Decoder-only LLM과 같이 learned queries를 생성 -> learned queires와 함꼐 prefix text가 LLM decoder로 들어감

Experiment & Analysis
Table 2
Zero-shot VQA에서 54x 적은 trainable parameters Flamingo 80B보다 높은 성능 달

- Table 3
- BLIP-2가 zero-shot에서 SOTA 달

- Figure 5
- representation learning을 제거할 경우, 성능이 많이 감소함 -> frozen 모델 사이의 갭이 발생한다 -> Q-Formal가 modality gap의 bridge 역할을

- Table 5
- COCO에서 finetuning 후, Flickr30k에 zero-shot transferred해도 SOTA를 달성함

Result
- Image encoder와 LLM 모델을 얼려두고 작은 모듈만 학습시키는 Q-Formal 제안
- SOTA 달성
Limitation
- 대규모 비전 모델과 언어 모델이 필요함
'논문 리뷰' 카테고리의 다른 글
| AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 리뷰 (0) | 2025.08.24 |
|---|---|
| CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰 (1) | 2025.08.22 |
| Generative Adversarial Nets 리뷰 (1) | 2025.06.30 |