AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 리뷰
링크:https://arxiv.org/pdf/2010.11929 BackgroundVision modelResNet: Convolution network와 residual connection으로 이전 모델보다 깊은 학습을 통해 높은 성능을 달성BiT: ResNet 구조에 대규모 데이터로 학습하자 다양한 다운스트림 데이터셋에 task-specific tuning 없이도 높은 성능 달성 MethodsViT (Vision Transformer)Transformer 구조에 이미지를 patch로 쪼개 하나의 토큰처럼 입력이 때 하나의 patch는 flatten하여 모델로 들어가는데, 처음부터 flatten하면 연산량이 너무 커짐첫 토큰은 BERT의 [CLS]처럼 클래스를 예측 하는 역할을 하여 모델을 학습함pre..