Vision

논문 리뷰

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 리뷰

2025.08.24

링크:https://arxiv.org/pdf/2010.11929 BackgroundVision modelResNet: Convolution network와 residual connection으로 이전 모델보다 깊은 학습을 통해 높은 성능을 달성BiT: ResNet 구조에 대규모 데이터로 학습하자 다양한 다운스트림 데이터셋에 task-specific tuning 없이도 높은 성능 달성 MethodsViT (Vision Transformer)Transformer 구조에 이미지를 patch로 쪼개 하나의 토큰처럼 입력이 때 하나의 patch는 flatten하여 모델로 들어가는데, 처음부터 flatten하면 연산량이 너무 커짐첫 토큰은 BERT의 [CLS]처럼 클래스를 예측 하는 역할을 하여 모델을 학습함pre..

논문 리뷰

CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰

2025.08.22

링크:https://arxiv.org/pdf/2103.00020 BackgroundTraditional vision modelResNet: CNN과 잔차학습으로 이미지의 클래스 예측ViT: 이미지를 패치로 쪼개서 넣어주는데, 첫번째 토큰이 [CLS] 토큰 기능을 해서 이미지의 class를 분류전통적인 vision model은 1) 사람의 라벨링 필요 2) 고정된 라벨에 대해 학습함으로써 task 변경시 재학습 필요 3) 제로샷 전이 불가능Natural languge modelGPT-3: 해당 모델은 통해서 모델의 사이즈와 데이터의 양을 키우면 zero-shot만으로도 높은 성능을 낼 수 있음을 보여줌이를 통해 저품질의 대규모 웹 데이터를 활용하면 자연어처리 분야에서 큰 발전을 이룰 수 있음을 보여줌Mul..

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 리뷰

CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰

티스토리툴바