- 링크:
https://arxiv.org/pdf/2201.12086
Background
- VLP
- 기존의 VLP 모델들은 understanding-based tasks나 generation-based tasks에만 뛰어난 성능을 보였음
- noisy image-text pairs 데이터를 웹에서 수집해서 사용하는 과정에서 데이터셋이 많을 수록 높은 성능을 보였으나, 사람이 labeling한 데이터만은 못했음
- Model perspective: text generation에 약한 encoder-based model 또는 image-text etrieval tasks에 약한 encoder-decoder model을 사용함
- Data perspective: web에서 수집한 noisy한 image-text data를 활용함
Methods
- Model perspective: Multimodal mixture of Encoder-Decoder (MED)
- Unimodal encoder: ITC, ViT의 이미지 임베딩 벡터와 텍스트 임베딩 벡터가 페어끼리는 가깝게 아니면 멀게 학습함
- Image-grounded text encoder: ITM, binary classification task로 pair인지 아닌지를 예측하여 헷갈려하는 pair에 더욱 finegrained한 학습을 진행하도록 함
- Image-grounded text decoder: LM, label smoothing을 통해 autoregressive 방식으로 이미지의 캡션을 예측함

- Data perspective: Captioning and Filtering (CapFilt)
- D = {(Iw, Tw)} + {(Ih, Th)}
- Filter: {(Ih, Th)}를 활용해 ITC&ITM finetuning -> {(Iw, Tw)}를 필터링해서 잘 어울리는 데이터만 사용
- Captioner: {(Ih, Th)}를 활용해 LM finetuning -> {Iw}에 대해 캡션을 생성하여 {(Iw, Ts)} 먄들고 필터에 같이 넣어줌
- 최종 데이터셋 D = {(Iw, Tw)} + {(Iw, Ts)} + {(Ih, Th)} 로 모델을 처음부터 pretraining하여서 반복

Experiment & Analysis
- Table 1
- Captioner와 Filter 사용 유무와 vision backbone에 따른 비교 실험을 진행
- C&F를 둘 다 사용하는 거시 효과적임을 보임
- 또한 정확한 Beam search보다 샘플링처럼 다양하게 caption을 생성하는 것이 중요

- Table2
- Parameter sharing 비교 실험
- Parameter를 모두 비교하거나, 아예 비교하지 않는 것보다 SA layer 제외하고 공유하는 것이 가장 효과적
- Self-attention layer는 encoder와 decoder의 작업 자체가 달라서 충돌이 일어날까봐 공유하지 않음

- Table4
- Captioner와 Filter의 share parameters 실험
- share할 경우 captioner가 만든 잘못된 caption을 잘 못 찾아 noise ratio가 낮음

- Table5
- 각 데이터셋에 대해 Text Retrieval과 Image Retrieval의 성능
- 이전 모델들에 비해 높은 성능을 달성

- Table7
- C (CIDEr): 생성된 캡션이 실제 사람이 작성한 여러 캡션들과 얼마나 유사한가
- S (SPICE): 캡션의 객체, 속성, 관계 등 의미론적 정보가 얼마나 정확한가
- 기존 모델들보다 높은 성능 달성

Result
- Text generation task와 image-text retrieval tasks에서 모두 강한 MED 제안
- Noisy web image-text pair 데이터를 노이즈를 제거하여 사용하기 위한 CapFilt 제안
- SOTA 달성
Limitation
- End-to-End 구조로 모든 파라미터를 동시에 최적화해야해서 많은 컴퓨팅 자원과 시간이 필요함
- 이미지와 텍스트를 융합하기 위해 cross-attention을 사용하여 효율적이지 못함
- -> 이는 BLIP2로 이어짐