- 링크:
https://openreview.net/pdf?id=gEZrGCozdqR
Background
- LLM
- GPT-3와 같은 LLM은 few-shot learning에서 높은 성능을 보이나 zero-shot에서는 약간 덜함
- -> 우리는 instruction을 추가하여 tuning하는 Instruction-tuning을 제안
Methods
- Instruction tuning
- 완전한 unseen task를 위해 GPT-3와는 다르게 철저하게 task를 분리함
- 각 task 별로 10개의 template을 만들고, 총 62개의 task를 12개의 cluster로 분류함
- 어떤 task의 성능을 측정할 때, 해당 task가 포함된 cluster 자체를 학습에서 배제한 후 성능을 측정함
- 랜덤으로 template을 골라 instruction tuninng을 진행함

- Clusters
- unseen task에 대한 zero-shot 성능을 측정하기 위해 NLP dataset을 task type에 따라 clsutering함
- GPT-3의 경우 해당 task만 제외했는데 FLAN은 해당 cluster dataset 전체를 제외

- Classification task option
- 기존의 rank-classification 방식이 아닌 OPTION 접미사와 클래스 후보를 명시해 확률의 분산을 막음

Experiment & Analysis
- Figure 1
- 더 큰 모델인 GPT-3 175B few-shot보다 높은 성능 달성

- Figure 5
- FLAN이 다양한 task에서 기존 zero-shot SOTA를 능

- Figure 6
- 학습에 사용하는 cluster의 갯수를 늘릴수록 성능 증가

- Figure 7
- 10B 이하의 모델은 instruction의 정보를 다 담지 못해서 더 낮은 성능을 냄
- 이점은 충분한 모델 규모에서만 나타남

- Figure 8
- FT와 Eval의 instruction에 따른 비교 실험
- 왜 dataset name으로 FT하는 것만으로도 성능이 크게 증가할까? 사람이 보기에 dataset 이름이 큰 도움이 될 거 같지 않은데?
- 학습할 때 cluster (summarization 같은) 이름이 함께 들어가서 일종의 instruction의 질을 평가하는 비교 실험이라 함
- task의 종류만 들어가도 성능이 증가할 정도로 instruction tuning이 효과적임
- 즉 자연어로 된 instruction이 효과적임

- Figure 9
- 각 cluster 별로 zero-shot과 few-shot FLAN의 비교
- few-shot의 성능이 더 좋음

- Figure 10
- 32-shot과 Full training을 비교해 few-shot의 경우 성능의 차이가 더 많이 남

Result
- GPT-3 175B 비해 unseen task에 대해 20/25를 zero-shot 성능을 능가
Limitation
- unseen task에서 zero-shot 능력을 보이려면 그만큼 많은 데이터셋으로 instruction tunining을 진행해야함