- 링크:
https://arxiv.org/pdf/2010.11929
Background
- Vision model
- ResNet: Convolution network와 residual connection으로 이전 모델보다 깊은 학습을 통해 높은 성능을 달성
- BiT: ResNet 구조에 대규모 데이터로 학습하자 다양한 다운스트림 데이터셋에 task-specific tuning 없이도 높은 성능 달성
Methods
- ViT (Vision Transformer)
- Transformer 구조에 이미지를 patch로 쪼개 하나의 토큰처럼 입력
- 이 때 하나의 patch는 flatten하여 모델로 들어가는데, 처음부터 flatten하면 연산량이 너무 커짐
- 첫 토큰은 BERT의 [CLS]처럼 클래스를 예측 하는 역할을 하여 모델을 학습함
- pretraining에서는 저해상도 이미지와 MLP를 사용하지만 finetuning에서는 고해상도 이미지와 single linear layer 사용? -> 대규모 데이터에서는 MLP가 낫지만, 적은 데이터로 finetuning할 때는 single layer가 낫다
- MPP: MLM과 비슷하게 이미지의 일부를 가려놓고 맞추는 regression self-supervised task
- Position embedding
- 이미지를 patch로 쪼갠 후 시퀀스에 학습 가능한 1D positional embedding을 더함 (2D 써도 큰 이득 없음)

- Hybrid model
- ResNet과 Transformer를 섞은 모델로 ViT에 넣어주기 전에 ResNet을 활용하여 feature를 뽑아서 ViT에 넣어줌
Experiment & Analysis
- Table 2
- Ours가 기존 모델에 비해 효율적이며 높은 성능을 달성함을 증명
- ViT는 CNN에 비해 작은 데이터셋에서는 성능이 떨어지나 대규모 데이터셋에서는 inductive bias 없이도 높은 성능을 달성
- Inductive bias: 모델이 학습하기 전에 가지고 있는 구조적 편향 (예를 들어 CNN의 translation equivariance)

- Figure 2
- 전이학습을 진행한 경우 전체적으로 ViT-H/14가 높은 성능을 달성함
- VTAB: 전체 19 task
- Natural: 자연 이미지
- Specialized: 특수 도메인 (의료, 위성 등)
- Structured: 구조적 이해가 필요한 도메인 (위치 등)

- Figure 7
- RGP embedding filters: trasnformer에 넣기 전 선형 projection의 weight -> 줄무늬, 대간석 등 low-level feature를 학습함을 보여줌
- Position embedding similarity: 가까운 patch일 수록 유사도가 높음 -> 2D 구조를 잘 학습하고 있음을 증명
- Mean attention distance: self-attention head가 이미지에서 얼마나 넓은 범위를 참고하는지 측정해보니 ViT는 첫 layer부터 global feature를 학습함을 증명

Result
- 기존 SOTA 모델을 능가하는 성능을 달성
Limitation
- 사람의 labeling data 필요
- Downstream task에 re-training 필요
- Classification task에 한정됨