- 링크:
https://arxiv.org/pdf/2501.12948
Background
- GRPO: value model을 사용하지 않고, reward 모델의 그룹에 비해 얼마나 이 행동이 좋은가 Ai function을 평가
Methods
- Overview
- DeepSeek-R1-Zero (poor readability, language mixing) -> cold-start data
- DeepSeek-V3-base + cold-start data -> DeepSeek-R1
- DeepSeek-R1 + distillation (SFT with generated data)-> ditilled DeepSeek-R1
- DeepSeek-R1-Zero: without any SFT data, only RL
- 아무런 SFT 없이 pure reinforcement learninig으로 self-evaluation에 집중함
- 이 떄 사용한 알고리즘이 GRPO
- Reward hacking을 막기 위해 rule 기반으로 reward 제공 (accuracy, format)
- OpenAI-o1-0912와 비교하여 더 높은 성능 달성
- DeepSeek-R1: CoT example로 SFT
- DeepSeek-R1-Zero가 CoT로 생성한 데이터로 SFT해서 시작
- Distilled DeepSeek-R1
- 작은 모델에 reasoning 능력도 distillation
Experiment & Analysis
- Figure 1

- Figure 2
- 8,000 step 학습 후 o1보다 높은 성능
- voting하니 더 높은 성

- Figure 3
- Thinking time이 길어질 수록 response의 길이가 길어짐
- Self-evaluation을 통해 더 깊게 생각하고 답변

- Table 3
- DeepSeek-R1-Zero 모델이 추론 과정에서 스스로의 답변을 개선하는 "Aha moment"를 발견함

- Table 4
- DeepSeek-R1이 대규모 언어 모델들 중 다양한 task에서 높은 성능을 달

Result
- DeepSeek-R1 모델로 gpt o1-1217 과 비슷하건 높은 성능 달성
Limitation
- 일반 능력은 DeepSeek-V3에 비해 뒤쳐짐
- 영어, 중국어로 학습되어 타 언어 입력 시 언어 혼용 문제 발생