- 링크:
https://openreview.net/pdf?id=T4gXBOXoIUr
Background
- Image encoder
- Image representation을 학습하기 위해서는, 의료 분야의 경우 적은 양의 annotated hand-labeled datasets에 의존함
- 기존 연구의 경우 대부분 ImageNet pretraining의 가중치를 전이하는 방식임
- -> 기존 연구들은 어떻게 pretraining을 했는지? -> CNN을 활용해 이미지의 class를 맞추는 방식으로 tuning
- 그러나 의료 분야에서 ImageNet pretraining은 random initialization이나 성능이 거이 비슷함
- Expert-crafted rules를 활용하는 방법도 있음
- 그러나 우리는 naturally occuring pairing of images and textual data로 바로 unsupervised strategy Contrastive VIsual Representation Learning from Text (ConVIRT) 를 제안함
Methods
- 수식 정의
- xv: input image
- x˜v: 증강한 input image
- fv: input image를 hv로 transform하는 encoder 함수
- gv: hv를 vector v로 transform하는 non-linear projection function
- 결국 이미지의 의미를 하나의 벡터로 변환하는 과정
- 왜 non-linear projection function을 쓸까? -> contrastive representation 학습에서 projection head가 성능을 높여줌

- 수식 2, 3, 4
- 텍스트: 같은 pair의 image랑은 가까워지게하고, 다른 image랑은 멀어지게 함
- 이미지: 같은 pair의 text랑은 가까워지게하고, 다른 text랑은 멀어지게 함
- InfoNCE 기반 loss를 사용하면서 image->text, text->image loss를 각각 구해 섞어서 사용하여서 bidirectional objective라
- 최종적으로 loss의 비율을 조정



Experiment & Analysis
- Downstream task
- RSNA Pneumonia Detection
- CheXpert
- COVIDx
- MURA
- Zero-shot image-image Retrieval
- Zero-shot text-image retrieval
- Architecture
- Image encoder: ResNet50
- Text encoder: BERT base (initial with ClinicalBERT) -> embedding, first 6 layer는 고정, last 6 layer는 finetuning
- Table 1
- 우리의 ConVIRT 방식으로 pretraining하면 10%의 데이터만 있어도 ImageNet pretraining initialize와 같거나 우수한 성능을 낼 수 있음
- 그야 데이터가 의료 분야 데이터를 써서 그런거 아님? -> 맞는듯? 메일 씀

- Table 2
- Random: ResNet50을 아무 사전학습 없이 랜덤 초기화로 시작
- ImageNet: ImageNet에서 사전학습된 가중치로 초기화
- Caption-Transformer: ImageNet init 후, transformer가 이미지의 caption 생성을 예측하는 방식
- Caption-LSTM: ImageNet init 후, LSTM이 이미지의 caption 생성을 예측하는 방식
- Contrastive-Binary: ConVIRT의 InfoNCE 기반 similarity maximization 대신 binary classification head로 true pair/false pair를 예측

- Table 3
- ConVIRT와 기존의 image-only unsupervised image representation learning을 비교했을 때
- 1%의 데이터만으로 linear layer 학습

Result
- Baseline보다 높은 성능 달성
- ImageNet initialized보다 오직 10%의 데이터만으로도 비슷하거나 우수한 성능 달성
Limitation
- 의료 분야에 한정됨