기록용 블로그

Training Language Models to Self-Correct viaReinforcement Learning

kyj0015 — Sun, 16 Nov 2025 17:58:43 +0900

링크:

https://arxiv.org/pdf/2409.12917

Background

STaR (Self-Taught Reasoner)
- 방법론: LLM이 스스로 resoning chain을 생성 정답을 낸 reasoning trace만 (룰기반채점) 모아서 SFT
- Distibution shift: base 모델의 오류는 고치는데, 새로 학습한 모델은 분포가 달라 또 못 맞춤
- Behavior collapse: 올바른 chain 데이터로만 학습하면서 모델이 점차 첫 시도에서는 맞는 답을 생성 -> 자신의 실수를 찾아 고치는 self-correction 능력을 배우지 않게 됨
-> Distribution shift와 Behavior collapse를 개선하자

Methods

SCoRe
- oracle feedback 없이 문제에 대한 응답을 생성하고 에러를 수정
SFT
- offline model로 entirely self-generated data를 생성하여 SFT
- 1. prompt를 입력으로 넣어 문제에 대한 응답을 생성함
- 2. 이 original answer과 instruction으로 모델을 한 번 finetuning
- cross entropy loss와 KL-divergence loss를 합하여 total loss로 사용
- 어떻게 SFT로 mismatch를 해결해? -> 한 모델이 만든 original answer과 advanced answer를 하나의 세트로 묶어서 사용함으로써 기존의 train!=test mismatch를 해결함
- 단 distribution shift를 완전히 해결하지는 못함 -> offline data 사용이 근본적인 원인
- 실제 correction 능력 향상은 크지 않음
- reward는 answer에 대한 exact match로 룰기반으로 계산함
progress reward
- a bonus ̂( 2 ∣ 1 , ∗ ) ∶= ⋅ ( ̂( 2 , ∗ ) − ̂( 1 , ∗ )),
- 그냥 학습시키면 첫번째 단계에서 좋은 답변을 생성하고 두번째 단계에서는 교정 없이 그대로 답변을 사용하는 collapse가 발생할 수 있음 -> 보너스 리워드로 해결
- original answer이 advanced answer에서 정답으로 고쳐지면 더 많은 리워드를 받도록
다른 방법론과의 차이점
- Multi-turn
- online reinforce learning

Experiment & Analysis

Figure 1
- MATH task에서 성능 개선을 보임

Table 1
- Base 모델에 비해 self-correction이 크게 개선됨
- ㅅ (i->c): 틀렸던 문제를 고친 비율
- ㅅ (c->i): 맞았던 문제를 틀린 비율
- i->c가 크게 증가하고, c->i가 낮아서 이미 맞춘 문제는 오답으로 바꾸지 않고, 틀린 문제는 정답으로 잘 푼다는 것을 증명
- -> 이걸 반박하는게 S2R

Result

추론 task에서 성능 개선을 보임

Limitation

추론 task로 한정적임

Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model

kyj0015 — Tue, 21 Oct 2025 11:36:10 +0900

링크:

https://aclanthology.org/2024.findings-acl.6.pdf

Background

Imitation Learning
- 대규모 언어 모델의 데이터를 활용해서 학습하는 방법
- 많은 연구가 있음

Methods

FACO dataset
- 4가지 domain (도메인 지식, 상식, 복잡한 추론, 프로그래밍) 의 dataset을 활용해서 일부러 오답 데이터셋을 생성함
- 이 때 LLM이 잘못된 오답에 맞춰서 잘못된 이유를 생성하도록 함
- 이렇게 생성한 데이터셋으로 모델을 다시 Finetuning함

Experiment & Analysis

Table 1
- LLaMA 1과 LLaMA 2로 비교 실험 진행
- CR 0%일 때는 거의 비슷한 성능을 달성함
- CR 100% 일때는 거의 모든 성능이 감소함
- Pearson 계수가 -90%는 거의 반비례하게 감소한다는

Figure 2
- 오염율을 높일 수록 크게 성능이 감소함
- LLaMA 2가 더 똑똑한 (base 성능이 높은) 모델이며 성능 하락의 폭도 큼

Figure 3
- 오염률이 높을 수록 loss가 감소하지 못하고 있음
- 오염된 데이터라 해도 loss는 잘 감소해야하는데 왜 빨간 선이 가장 높을까? -> pretraining에서 배운 올바른 지식과 상반되는 잘못된 지식으로 다시 tuning하는 과정에서 제대로 학습이 안되고 있음

Figure 4
- 모델이 25% 이하의 성능을 보임 -> 모델이 일부러 정답을 피하고 있음
- LLaMA 1 의 경우 25%의 성능으로 정말 정답을 모른다고 할 수 있음
- 반면 LLaMA 2의 경우 10% 대로 정답을 모르는 것이 아닌 알고 있음에도 불구하고 일부러 피해가는 것으로 보임
- 아닌데? Finetuning을 너무 잘해서 오답만 맞추는거면 어쩔건데? 틀린 데이터셋에 대한 성능이 궁금함 (특히 LLaMA 1과 LLaMA 2를 비교하여서)

Figure 6
- 이미 오염된 (CR 100%) 모델을 올바른 데이터셋으로 다시 학습시키면 성능 복구가 가능함
- 하지만 처음부터 바른 데이터셋으로 학습시켰을 때의 성능만큼 복구시키지는 못함

Result

오류가 있을 수 있는 합성 데이터로 Imitation learning을 하는 것은 위험함

Limitation

적은 모델에 대해서만 실험함

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

kyj0015 — Thu, 2 Oct 2025 14:29:39 +0900

링크:

https://arxiv.org/pdf/2301.12597

Background

BLIP-1
- 기존 모델은 이미지 모델과 텍스트 모델 둘 다 전체를 end-to-end로 tuning 시키는 것은 많은 비용과 시간이 듬
- -> BLIP-2는 frozen LLM + frozen image encoder로 Q-formal만 학습함으로써 효율적임

Methods

Architecture
- Image encoder와 large language model은 frozen 상태로 사
- Vision 모델과 language 모델을 잇는 bottleneck 역할을 수행하도록 Q-Former만 단독으로 학습시키자

1단계: vision-language representation learning
- BLIP-1과 마찬가지로 3가지 training object를 사용하여서 학습함
- 이 학습할 때 이미지 query와 텍스트 query간에 attention을 하는데, 목적에 따라 masking하는 부분이 다름
- Learnable Queries: 이미지 전체 feature 대신 적은 차원의 query vector로 정보 추출
- ITC: Image-Text Matching: Q-Formal가 image와 text 정보 모두 보고 matching하며 학습하기 때문에 masking이 없음
- ITG: Image-Grounded Text Generation: 이미지는 이미지랑만 att하고, text는 이미지를 보며 한 글자씩 생성하니까 부분적으로 masking함
- ITM: Image-Text Contrastive Learning: 대조학습을 하며 자기자신만 봐야하니 반을 masking

2단계: vision-to-language generative learning
- Decoder-only LLM: 이미지를 frozen image encoder에 넣어 시각적 특징을 추출 -> 이 특징을 Q-Formal에 넣어 Learned Queries를 생성 -> FC로 LLM과 차원 맞춰줌 -> LLM decoder의 앞에 붙여서 마치 소프트 프롬프트처럼 사용 -> LLM은 이어서 텍스트 생성
- Encoder-Decoder-based LLM: Decoder-only LLM과 같이 learned queries를 생성 -> learned queires와 함꼐 prefix text가 LLM decoder로 들어감

Experiment & Analysis

Table 2

Zero-shot VQA에서 54x 적은 trainable parameters Flamingo 80B보다 높은 성능 달

Table 3
- BLIP-2가 zero-shot에서 SOTA 달

Figure 5
- representation learning을 제거할 경우, 성능이 많이 감소함 -> frozen 모델 사이의 갭이 발생한다 -> Q-Formal가 modality gap의 bridge 역할을

Table 5
- COCO에서 finetuning 후, Flickr30k에 zero-shot transferred해도 SOTA를 달성함

Result

Image encoder와 LLM 모델을 얼려두고 작은 모듈만 학습시키는 Q-Formal 제안
SOTA 달성

Limitation

대규모 비전 모델과 언어 모델이 필요함

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

kyj0015 — Fri, 19 Sep 2025 18:06:38 +0900

링크:

https://arxiv.org/pdf/2201.12086

Background

VLP
- 기존의 VLP 모델들은 understanding-based tasks나 generation-based tasks에만 뛰어난 성능을 보였음
- noisy image-text pairs 데이터를 웹에서 수집해서 사용하는 과정에서 데이터셋이 많을 수록 높은 성능을 보였으나, 사람이 labeling한 데이터만은 못했음
- Model perspective: text generation에 약한 encoder-based model 또는 image-text etrieval tasks에 약한 encoder-decoder model을 사용함
- Data perspective: web에서 수집한 noisy한 image-text data를 활용함

Methods

Model perspective: Multimodal mixture of Encoder-Decoder (MED)
- Unimodal encoder: ITC, ViT의 이미지 임베딩 벡터와 텍스트 임베딩 벡터가 페어끼리는 가깝게 아니면 멀게 학습함
- Image-grounded text encoder: ITM, binary classification task로 pair인지 아닌지를 예측하여 헷갈려하는 pair에 더욱 finegrained한 학습을 진행하도록 함
- Image-grounded text decoder: LM, label smoothing을 통해 autoregressive 방식으로 이미지의 캡션을 예측함

Data perspective: Captioning and Filtering (CapFilt)
- D = {(Iw, Tw)} + {(Ih, Th)}
- Filter: {(Ih, Th)}를 활용해 ITC&ITM finetuning -> {(Iw, Tw)}를 필터링해서 잘 어울리는 데이터만 사용
- Captioner: {(Ih, Th)}를 활용해 LM finetuning -> {Iw}에 대해 캡션을 생성하여 {(Iw, Ts)} 먄들고 필터에 같이 넣어줌
- 최종 데이터셋 D = {(Iw, Tw)} + {(Iw, Ts)} + {(Ih, Th)} 로 모델을 처음부터 pretraining하여서 반복

Experiment & Analysis

Table 1
- Captioner와 Filter 사용 유무와 vision backbone에 따른 비교 실험을 진행
- C&F를 둘 다 사용하는 거시 효과적임을 보임
- 또한 정확한 Beam search보다 샘플링처럼 다양하게 caption을 생성하는 것이 중요

Table2
- Parameter sharing 비교 실험
- Parameter를 모두 비교하거나, 아예 비교하지 않는 것보다 SA layer 제외하고 공유하는 것이 가장 효과적
- Self-attention layer는 encoder와 decoder의 작업 자체가 달라서 충돌이 일어날까봐 공유하지 않음

Table4
- Captioner와 Filter의 share parameters 실험
- share할 경우 captioner가 만든 잘못된 caption을 잘 못 찾아 noise ratio가 낮음

Table5
- 각 데이터셋에 대해 Text Retrieval과 Image Retrieval의 성능
- 이전 모델들에 비해 높은 성능을 달성

Table7
- C (CIDEr): 생성된 캡션이 실제 사람이 작성한 여러 캡션들과 얼마나 유사한가
- S (SPICE): 캡션의 객체, 속성, 관계 등 의미론적 정보가 얼마나 정확한가
- 기존 모델들보다 높은 성능 달성

Result

Text generation task와 image-text retrieval tasks에서 모두 강한 MED 제안
Noisy web image-text pair 데이터를 노이즈를 제거하여 사용하기 위한 CapFilt 제안
SOTA 달성

Limitation

End-to-End 구조로 모든 파라미터를 동시에 최적화해야해서 많은 컴퓨팅 자원과 시간이 필요함
이미지와 텍스트를 융합하기 위해 cross-attention을 사용하여 효율적이지 못함
-> 이는 BLIP2로 이어짐

OUTRAGEOUSLY LARGE NEURAL NETWORKS : THE SPARSELY GATED MIXTURE-OF-EXPERTS LAYER

kyj0015 — Tue, 16 Sep 2025 14:00:45 +0900

링크:

https://openreview.net/pdf?id=B1ckMDqlg

Background

Conditional computation
- 모델 사이즈를 키우면 성능이 증가하나 컴퓨팅 자원 문제로 한계가 있음
- Conditional copmtation: 모델의 모든 부분을 항상 활성화하지 않고, 입력된 데이터에 따라 필요한 부분만 선택적으로 활성화하여 계산 효율성을 높이는 방법

Methods

Sparsely-Gated Mixture-of-Experts Layer (MoE)
- 입력에 따라 Noisy Top-K Gating 방식으로 상위 K개의 일부 전문가를 선택하여 작동하게 함
- n개 experts와 feed-forward neural network로 이루어져 있음

수식
- Ei(x): i번째 expert의 출력
- G(x)i: i번째 gate의 출력

Performance Challenges
- Shrinking batch problem: Expert가 처리하는 배치 크기가 작아져 비효율성 발생 -> data parallelism와 model parallelism를 혼합하여 문제 해결
- Network bandwidth: 병목 현상을 해결하려함
- Expert utilization balancing: gating network가 특정 전문가에만 집중하는 경향을 해결하기 위해 추가적인 손실항 도

Experiment & Analysis

Figure 3
- 기존 모델보다 낮은 복잡도를 보이며 큰 성능 향상을 보임

Table 2, 3, 4
- 강화학습을 사용하지 않도록 BLEU 점수를 기준으로 기존 모델보다 높은 성능 달성

Result

새로운 방법론 MoE를 제안

Limitation

Expert N을 사람이 조정해야함
가장 큰 모델의 경우 너무 높은 희소성으로 오히려 성능 저하
방대한 양의 학습 데이터 필요

나중에 다시 읽어야할 것 같다 이해가 잘 안됨

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

kyj0015 — Tue, 2 Sep 2025 17:16:52 +0900

링크:

https://arxiv.org/pdf/2501.12948

Background

GRPO: value model을 사용하지 않고, reward 모델의 그룹에 비해 얼마나 이 행동이 좋은가 Ai function을 평가

Methods

Overview
- DeepSeek-R1-Zero (poor readability, language mixing) -> cold-start data
- DeepSeek-V3-base + cold-start data -> DeepSeek-R1
- DeepSeek-R1 + distillation (SFT with generated data)-> ditilled DeepSeek-R1
DeepSeek-R1-Zero: without any SFT data, only RL
- 아무런 SFT 없이 pure reinforcement learninig으로 self-evaluation에 집중함
- 이 떄 사용한 알고리즘이 GRPO
- Reward hacking을 막기 위해 rule 기반으로 reward 제공 (accuracy, format)
- OpenAI-o1-0912와 비교하여 더 높은 성능 달성
DeepSeek-R1: CoT example로 SFT
- DeepSeek-R1-Zero가 CoT로 생성한 데이터로 SFT해서 시작
Distilled DeepSeek-R1
- 작은 모델에 reasoning 능력도 distillation

Experiment & Analysis

Figure 1

Figure 2
- 8,000 step 학습 후 o1보다 높은 성능
- voting하니 더 높은 성

Figure 3
- Thinking time이 길어질 수록 response의 길이가 길어짐
- Self-evaluation을 통해 더 깊게 생각하고 답변

Table 3
- DeepSeek-R1-Zero 모델이 추론 과정에서 스스로의 답변을 개선하는 "Aha moment"를 발견함

Table 4
- DeepSeek-R1이 대규모 언어 모델들 중 다양한 task에서 높은 성능을 달

Result

DeepSeek-R1 모델로 gpt o1-1217 과 비슷하건 높은 성능 달성

Limitation

일반 능력은 DeepSeek-V3에 비해 뒤쳐짐
영어, 중국어로 학습되어 타 언어 입력 시 언어 혼용 문제 발생

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 리뷰

kyj0015 — Sun, 24 Aug 2025 17:41:00 +0900

링크:

https://arxiv.org/pdf/2010.11929

Background

Vision model
- ResNet: Convolution network와 residual connection으로 이전 모델보다 깊은 학습을 통해 높은 성능을 달성
- BiT: ResNet 구조에 대규모 데이터로 학습하자 다양한 다운스트림 데이터셋에 task-specific tuning 없이도 높은 성능 달성

Methods

ViT (Vision Transformer)
- Transformer 구조에 이미지를 patch로 쪼개 하나의 토큰처럼 입력
- 이 때 하나의 patch는 flatten하여 모델로 들어가는데, 처음부터 flatten하면 연산량이 너무 커짐
- 첫 토큰은 BERT의 [CLS]처럼 클래스를 예측 하는 역할을 하여 모델을 학습함
- pretraining에서는 저해상도 이미지와 MLP를 사용하지만 finetuning에서는 고해상도 이미지와 single linear layer 사용? -> 대규모 데이터에서는 MLP가 낫지만, 적은 데이터로 finetuning할 때는 single layer가 낫다
- MPP: MLM과 비슷하게 이미지의 일부를 가려놓고 맞추는 regression self-supervised task
Position embedding
- 이미지를 patch로 쪼갠 후 시퀀스에 학습 가능한 1D positional embedding을 더함 (2D 써도 큰 이득 없음)

Hybrid model
- ResNet과 Transformer를 섞은 모델로 ViT에 넣어주기 전에 ResNet을 활용하여 feature를 뽑아서 ViT에 넣어줌

Experiment & Analysis

Table 2
- Ours가 기존 모델에 비해 효율적이며 높은 성능을 달성함을 증명
- ViT는 CNN에 비해 작은 데이터셋에서는 성능이 떨어지나 대규모 데이터셋에서는 inductive bias 없이도 높은 성능을 달성
- Inductive bias: 모델이 학습하기 전에 가지고 있는 구조적 편향 (예를 들어 CNN의 translation equivariance)

Figure 2
- 전이학습을 진행한 경우 전체적으로 ViT-H/14가 높은 성능을 달성함
- VTAB: 전체 19 task
- Natural: 자연 이미지
- Specialized: 특수 도메인 (의료, 위성 등)
- Structured: 구조적 이해가 필요한 도메인 (위치 등)

Figure 7
- RGP embedding filters: trasnformer에 넣기 전 선형 projection의 weight -> 줄무늬, 대간석 등 low-level feature를 학습함을 보여줌
- Position embedding similarity: 가까운 patch일 수록 유사도가 높음 -> 2D 구조를 잘 학습하고 있음을 증명
- Mean attention distance: self-attention head가 이미지에서 얼마나 넓은 범위를 참고하는지 측정해보니 ViT는 첫 layer부터 global feature를 학습함을 증명

Result

기존 SOTA 모델을 능가하는 성능을 달성

Limitation

사람의 labeling data 필요
Downstream task에 re-training 필요
Classification task에 한정됨

CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰

kyj0015 — Fri, 22 Aug 2025 16:46:30 +0900

링크:

https://arxiv.org/pdf/2103.00020

Background

Traditional vision model
- ResNet: CNN과 잔차학습으로 이미지의 클래스 예측
- ViT: 이미지를 패치로 쪼개서 넣어주는데, 첫번째 토큰이 [CLS] 토큰 기능을 해서 이미지의 class를 분류
- 전통적인 vision model은 1) 사람의 라벨링 필요 2) 고정된 라벨에 대해 학습함으로써 task 변경시 재학습 필요 3) 제로샷 전이 불가능
Natural languge model
- GPT-3: 해당 모델은 통해서 모델의 사이즈와 데이터의 양을 키우면 zero-shot만으로도 높은 성능을 낼 수 있음을 보여줌
- 이를 통해 저품질의 대규모 웹 데이터를 활용하면 자연어처리 분야에서 큰 발전을 이룰 수 있음을 보여줌
Multi-modal model
- Learning visual feature form large weakly supervised data: 웹 이미지에 달린 캡션의 단어의 집합을 예측하는 방법으로 이미지의 정보를 학습
- VirTex: 이미지의 캡션을 transformer decoder를 2개 사용해 예측
- 두 연구 모두 캡션을 잘 예측하는 것이 목적이 아닌 transferable visual representations를 학습하는 것이 목표였음
- 하지만 여전히 task가 바뀌면 추가적인 training이 필요하다는 단점이 있었음
어떻게 하면 자연어처리 분야가 아닌 비전 분야에서, 대규모 웹-이미지 데이터를 활용한, 확장 가능한 pretraining metohds로 gpt-3와 같은 성공을 거둘 수 있을까?

Methods

이론
- pair인 이미지는 가깝게, pair가 아닌 이미지는 멀게
- 그러면 같은 강아지 이미지인데 pair가 아니니까 이상하게 학습되는거 아니냐? -> 자연어처리 분야에서도 causal language modeling 방식으로 사람이 보기에 잘못된 loss가 예측될 수도 있으나 사람이 일일이 라벨링 하기 어려우니 대신하는 방법으로, 사람의 노동을 줄이기 위한 방법이니 어쩔 수 없고 상당히 효과적이다
데이터 전처리
- 이미지는 224x224로 random crop
- 텍스트는 앞에 [SOS], 뒤에 [EOS], 76 토큰 이상이면 자르기, 모두 소문자로 변경
Contrastive pretraining
- Text encoder: 마지막 hidden state의 [EOS] 토큰 임베딩을 사용
- Image encoder: 마지막 hidden state의 임베딩 (차원 안 맞으면 projection layer)
- Pair인 임베딩 벡터 간의 consine similarity를 구해서, pair는 최대가 되게, pair가 아니면 최소가 되게
Use for zero-shot prediction
- Class 명을 "A photo of a {object}."라는 고정된 프롬프트에 넣어 text encoder로 임베딩 벡터를 생성함
- Image encoder에 이미지를 넣어서 생성한 임베딩 벡터와 클래스 갯수만큼의 텍스트 임베딩 벡터 간에 유사도를 구해서 가장 유사도가 높은 클래스를 정답으로 예측
질문
- BERT 같은 모델은 [SOS] 토큰을 쓰는데 왜 [EOS] 토큰을 썼는지? -> 원래 autoregressive mask 방식을 사용하려해서
- Cosine similarity를 구하는데 왜 np.dot을 하는지? -> L2_normalize를 통해 같아짐
- Zero-shot, few-shot, linear probe clip이 각각 무슨 차이인지? -> zero-shot은 논문 그림에 있는거 그대로, linear probe clip은 이미지 인코더가 생성한 임베딩 벡터를 logistic regression layer로 다시 학습한 모델, 이 때 데이터를 몇개만 쓰면 few-shot clip

제가 그린 linear probe clip의 overview

Experiment & Analysis

Figure 2
- 앞선 연구들과 비교했을 때 이미지 인코더는 그대로 사용하고, 텍스트 인코더는 BoW 형식으로 예측하여서, 대조학습으로 학습하는게 가장 효율적이었음
- GPT-3처럼 성공하려면 모델 사이즈와 데이터양을 매우 키워야하기 때문에 가장 효율적인 방식을 사용해야했음

Figure 4
- Prompt를 "A photo of a {object}."만 사용하는거보다 각 task 맞는 프롬프트를 앙상블해서 사용하니 더 효율적이고 높은 성능을 달성했음

Figure 5
- Zero-shot CLIP은 웹 이미지-텍스트 데이터를 바탕으로 학습했기 때문에 데이터의 분포가 비슷한 데이터셋의 task일수록 높은 성능을 달성함
- 분포가 다른 (사람에게도 어려운) task에서는 full finetuning보다 낮은 성능을 달성

Figure 6
- Few-shot CLIP의 데이터 수에 따른 성능 비교
- Few-shot이라 해도 다른 방법론 보다는 높은 성능을 달성함
- 왜 Zero-shot이 few-shot보다 성능이 높지? -> 일반적으로 생각하는 GPT-3의 few-shot이 아니라 고정된 임베딩 벡터를 다시 학습하는 방법이라 데이터의 수가 적을 때는 zero-shot보다 낮은 성능을 달성함

Figure 9
- 모델을 키울수록 연산량은 늘어나나 높은 성능을 달성함
- GPT-3처럼 모델의 사이즈를 키울수록 좋은게 multi-modal 분야에도 적용됨을 증명
- 이 때 transformer 모델 사이즈에는 큰 영향을 받지 않았고, image encoder의 사이즈가 영향을 미쳤다고 함

Figure 10
- 비교 실험을 했을 때 CLIP이 가장 높은 성능을 달성함
- CLIP 논문은 zero-shot clip을 제안하기는 하였으나, 기존 SOTA 모델들은 full-finetuning으로 성능을 보고 했기 때문에 같은 환경에서 비교하기 위해서 논문의 저자들도 linear probe clip으로 비교
- 왼쪽 12-datset은 기존 SOTA 모델들과 그렇게 큰 차이가 안 나나, 오른쪽 27-dataset은 큰 차이가 남
- CLIP이 더 다양한 task에서 강건한 성능을 달성함을 보여줌

Figure 13
- Figure 10은 데이터셋의 변화에도 강건함을 증명했다면 Figure 13은 데이터의 natural distribution shift에도 강건함을 증명
- 대규모 데이터셋인 ImageNet에 finetuning한 모델은 ImageNet과 ImageNetV2에서만 높은 성능을 보이고 나머지는 매우 낮은 성능을 보임
- 하지만 zero-shot clip의 경우 다양한 task에서 일관되게 높은 성능을 달성함

Figure 14
- 빨간색: ImageNet에서 tuning한 linear probe clip
- 주황색: ImageNet의 class의 명으로 작성한 프롬프트로 zero-shot clip
- 보라색: 논문의 저자가 제안하는 zero-shot clip (클래스의 분포가 변할 때 object만 바꿔껴주면 됨)

Figure 15
- Zero-shot 뿐만 아니라 few-shot도 다른 모델에 비해 강건함을 보여줌

Table 2
- 사람의 zero-shot 능력은 안 좋으나 one-shot만 주어져도 좋아짐 -> 사람은 무엇을 모르는지 모르는 상태
- 하지만 two-shot은 큰 차이 없음
- CLIP은 zero-shot 성능도 좋은데 데이터를 추가할 수록 일관되게 성능이 증가해 개선 여지가 있음

Result

대규모 웹-이미지 pair 데이터를와 간단한 대조학습을 활용한 CLIP 프레임워크 제안
Distrubution shift에서 zero-shot learning도 강건함을 증명
27가지 dataset에서 추가적인 학습 없이도 강한 성능을 달성하며 CLIP의 가능성을 제안

Limitation

Class prediction 과정에서 사람이 class를 지정해주어야함 -> 사람이 모르는 객체는 판별 불가

Contrastive Learning of Medical Visual Representations from Paired Images and Text 논문 리뷰

kyj0015 — Mon, 11 Aug 2025 16:46:49 +0900

링크:

https://openreview.net/pdf?id=T4gXBOXoIUr

Background

Image encoder
- Image representation을 학습하기 위해서는, 의료 분야의 경우 적은 양의 annotated hand-labeled datasets에 의존함
- 기존 연구의 경우 대부분 ImageNet pretraining의 가중치를 전이하는 방식임
- -> 기존 연구들은 어떻게 pretraining을 했는지? -> CNN을 활용해 이미지의 class를 맞추는 방식으로 tuning
- 그러나 의료 분야에서 ImageNet pretraining은 random initialization이나 성능이 거이 비슷함
- Expert-crafted rules를 활용하는 방법도 있음
- 그러나 우리는 naturally occuring pairing of images and textual data로 바로 unsupervised strategy Contrastive VIsual Representation Learning from Text (ConVIRT) 를 제안함

Methods

수식 정의
- xv: input image
- x˜v: 증강한 input image
- fv: input image를 hv로 transform하는 encoder 함수
- gv: hv를 vector v로 transform하는 non-linear projection function
- 결국 이미지의 의미를 하나의 벡터로 변환하는 과정
- 왜 non-linear projection function을 쓸까? -> contrastive representation 학습에서 projection head가 성능을 높여줌

수식 2, 3, 4
- 텍스트: 같은 pair의 image랑은 가까워지게하고, 다른 image랑은 멀어지게 함
- 이미지: 같은 pair의 text랑은 가까워지게하고, 다른 text랑은 멀어지게 함
- InfoNCE 기반 loss를 사용하면서 image->text, text->image loss를 각각 구해 섞어서 사용하여서 bidirectional objective라
- 최종적으로 loss의 비율을 조정

Experiment & Analysis

Downstream task
- RSNA Pneumonia Detection
- CheXpert
- COVIDx
- MURA
- Zero-shot image-image Retrieval
- Zero-shot text-image retrieval
Architecture
- Image encoder: ResNet50
- Text encoder: BERT base (initial with ClinicalBERT) -> embedding, first 6 layer는 고정, last 6 layer는 finetuning
Table 1
- 우리의 ConVIRT 방식으로 pretraining하면 10%의 데이터만 있어도 ImageNet pretraining initialize와 같거나 우수한 성능을 낼 수 있음
- 그야 데이터가 의료 분야 데이터를 써서 그런거 아님? -> 맞는듯? 메일 씀

Table 2
- Random: ResNet50을 아무 사전학습 없이 랜덤 초기화로 시작
- ImageNet: ImageNet에서 사전학습된 가중치로 초기화
- Caption-Transformer: ImageNet init 후, transformer가 이미지의 caption 생성을 예측하는 방식
- Caption-LSTM: ImageNet init 후, LSTM이 이미지의 caption 생성을 예측하는 방식
- Contrastive-Binary: ConVIRT의 InfoNCE 기반 similarity maximization 대신 binary classification head로 true pair/false pair를 예측

Table 3
- ConVIRT와 기존의 image-only unsupervised image representation learning을 비교했을 때
- 1%의 데이터만으로 linear layer 학습

Result

Baseline보다 높은 성능 달성
ImageNet initialized보다 오직 10%의 데이터만으로도 비슷하거나 우수한 성능 달성

Limitation

의료 분야에 한정됨

Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

kyj0015 — Wed, 23 Jul 2025 10:02:18 +0900

링크:

https://openreview.net/pdf?id=_VjQlMeSB_J

Background

LLM
- 각 task 별로 finetuning을 하는 것은 많은 자원이
- language model의 사이즈를 키우면서 성능과 샘플 효율성이 올라감
- 하지만 arithmetic, commonsense, and symbolic reasoining처럼 어려운 task는 크게 증가하지 않음
Motivation
- 이전 연구 [1]에 따르면 arithmetic reasoning은 자연어를 생성하면서 최종 정답을 유도하는 과정에서 이점이 있음
- prompting을 통해 in-context few-shot learning을 하면 성능이 증가함
- -> 우리는 두 아이디어를 결합해 a series of intermediate natural language reasoninig steps인 Chain of thought를 제안함

Methods

Chain of thought
- prompt를 작성할 때 few-shot sample과 함께 'Chain of thought'라는 명령어를 넣어줌으로써 모델이 순차적으로 생각하여 정답을 생성하도록 함
- <input, output>이던 구조에서 <input, chain of thought, output> 로 중간에 생각하는 단계를 넣어줌
- 산술 벤치마크에서는 대부분 동일하게 8개의 예시를 사용하였고, AQuA task에서는 4개만 사용함

Experiment & Analysis

Benchmark task
- Arithmetic: GSM8K, SVAMP, ASDiv, AQuA, MAWPS
- Commonsense: CSQA, StrategyQA, BIG-bench-Date, BIG-bench-sports, SayCan
- Symbolic: Last-letter Concatenation, Coin-flip
Figure 2
- standard prompting, finetuning보다 높은 성능 달성
- 이전 연구 [2]는 왜 이렇게 높은 성능을 보일까? -> 수학 문제 풀이의 옳고 그름을 판별하는 verifier를 추가해 최종 정답을 선택

Figure 4
- 모델이 크거나 task가 복잡할 수록 큰 성능 증가를 보여줌
- 특히 100B 이상의 큰 모델에서 급격한 성능 향상을 보이며 작은 모델에서는 오히려 성능 감소를 보임
- GSM8K처럼 어려운 task에서 큰 성능 향상을 보이며 MAWPS처럼 쉬운 문제 (단일 단계 추론)에서는 큰 향상을 보이지 못함
- LaMDA 137B가 오답을 낸 50개 사례 중 46%는 계산 실수나 한 스텝 누락 등 거의 맞는 CoT였음
- PaLM 62B -> 540B로 크기를 키우자 거의 해결됨

Figure 5, 6
- 수식만 출력하는 경우 거의 효과 없음 -> 자연어를 출력하는 과정에서 모델은 pretraining동안 학습한 지식을 활용함
- CoT의 성공은 프롬프트의 linguistic style이나 exemplars에 따라 상관 없음

Figure 7
- 모든 task에서, 모델의 사이즈를 키우면 stardard prompting과 CoT의 성능이 향상

Figure 8
- 모델의 크기가 클 경우, 성능이 향상되며 OOD에서도 큰 상승을 보임

Result

prompt에 Chain of thought를 넣어주는 간단한 방법으로 많은 task에서 높은 성능 향상 달성
CoT가 모델 내부의 추론을 엿볼 수 있는 screen 역할을 함

Limitation

computing 연산 증가
CoT의 결과가 실제 추론인지는 알 수 없음
100B 이상의 모델에서만 적용 가능

Appendix

[1] Ling et al., “Program induction by rationale generation: Learning to solve and explain algebraic word problems”, ACL 2017

[2] Training verifiers to solve math word problems.