- 링크:
https://aclanthology.org/2024.findings-acl.6.pdf
Background
- Imitation Learning
- 대규모 언어 모델의 데이터를 활용해서 학습하는 방법
- 많은 연구가 있음
Methods
- FACO dataset
- 4가지 domain (도메인 지식, 상식, 복잡한 추론, 프로그래밍) 의 dataset을 활용해서 일부러 오답 데이터셋을 생성함
- 이 때 LLM이 잘못된 오답에 맞춰서 잘못된 이유를 생성하도록 함
- 이렇게 생성한 데이터셋으로 모델을 다시 Finetuning함

Experiment & Analysis
- Table 1
- LLaMA 1과 LLaMA 2로 비교 실험 진행
- CR 0%일 때는 거의 비슷한 성능을 달성함
- CR 100% 일때는 거의 모든 성능이 감소함
- Pearson 계수가 -90%는 거의 반비례하게 감소한다는

- Figure 2
- 오염율을 높일 수록 크게 성능이 감소함
- LLaMA 2가 더 똑똑한 (base 성능이 높은) 모델이며 성능 하락의 폭도 큼

- Figure 3
- 오염률이 높을 수록 loss가 감소하지 못하고 있음
- 오염된 데이터라 해도 loss는 잘 감소해야하는데 왜 빨간 선이 가장 높을까? -> pretraining에서 배운 올바른 지식과 상반되는 잘못된 지식으로 다시 tuning하는 과정에서 제대로 학습이 안되고 있음

- Figure 4
- 모델이 25% 이하의 성능을 보임 -> 모델이 일부러 정답을 피하고 있음
- LLaMA 1 의 경우 25%의 성능으로 정말 정답을 모른다고 할 수 있음
- 반면 LLaMA 2의 경우 10% 대로 정답을 모르는 것이 아닌 알고 있음에도 불구하고 일부러 피해가는 것으로 보임
- 아닌데? Finetuning을 너무 잘해서 오답만 맞추는거면 어쩔건데? 틀린 데이터셋에 대한 성능이 궁금함 (특히 LLaMA 1과 LLaMA 2를 비교하여서)

- Figure 6
- 이미 오염된 (CR 100%) 모델을 올바른 데이터셋으로 다시 학습시키면 성능 복구가 가능함
- 하지만 처음부터 바른 데이터셋으로 학습시켰을 때의 성능만큼 복구시키지는 못함

Result
- 오류가 있을 수 있는 합성 데이터로 Imitation learning을 하는 것은 위험함
Limitation
- 적은 모델에 대해서만 실험함