Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness 리뷰

논문 리뷰/자연어처리

Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness 리뷰

kyj0015 2025. 6. 11. 22:49

링크:

https://aclanthology.org/2024.findings-emnlp.845.pdf

Background

RLHF
- https://kyj0105.tistory.com/98
- 기존의 연구들은 대부분 supervised fine-tuning과 preference optimization 두 단계로 이루어져 있음
- 그 중 DPO의 경우 선호되는 답변을 생성하고, 비선호되는 답변은 생성하지 않도록 바로 학습
- RM 없이 사람의 선호도를 학습시킨 첫 연구 -> reward model의 중요한 측면을 간과함
- 대부분의 RLHF 연구는 binary cross-entropy로 선호/비선호로만 학습하는 과정에서 다양한 선호 정보를 잃어버림
- -> RM 없이 다양한 사람의 선호 정보를 LM에게 학습시켜보자

Methods

SPO
- self-supervised preference degree loss과 alignment loss를 결합하여 사용하여 LLM이 degree of preference를 이해하도록 함
- degree of human preference를 배우는 동시에 LLM과 human preference가 align하게 만듬
Framework
- 선택적으로 선호 정도를 달리하는 응답에서 key를 제거하는 self-supervised task
- 학습동안 keyward extractor로 key content를 추출함
- 다른 양의 content를 제거함으로써 다른 정도의 선호 응답을 생성할 수 있으며 하나의 LLM output에 대해 여러 응답 생성 가능
- 이 key content를 포함한 LLM의 대답이 preference information과 면밀한 관계가 있음을 관찰함

Self-supervised Preference Optimization
- 기존에는 LLM으로 여러 답변을 생성하고 해당 답변에 수동으로 annotate 또는 rank해서 preference level을 학습시켰음 -> 많은 시간과 자원이 듬
- 우리는 preference data에서 key content를 추출하고 제거함으로써 human preference level을 구별
- key content와 preference information이 밀접한 관계가 있음이 드러남
- 특히 학습 중 LLM이 예측한 모든 토큰을 해당 텍스트로 decoding한 후, RAKE를 용해 text의 key content를 찾아냄
- 이 때 keyword는 common stop words와 punctuation을 제외한 구문이라는 전제하에 작동 -> 후보 k에 대해 점수 계산
- 제거한 keyward 개수에 따라 라벨을 부여하여 N개의 카테고리로 분류
- 그리고 각 데이터의 카테고리를 self-supervised로 학습
- hidden state에 positional encoding을 추가
- loss-pref와 loss-dispref를 함께 사용

Contribution

기존의 direct human preference alignment methods (binary training mechanism)은 LLM이 사람의 선호 정도를 구별하지 못하도록 제한함을 최초로 발견
self-supervised preference optimization framework를 제안하여 annotation이나 inference costs를 늘리지 않 human preference alignment를 강화함
실험을 통해 LLM이 선호도 구분 능력을 향상시키면 성능을 개선할 수 있음을 증명하며, 2가지 task에서 SOTA 달성

Experiment

2 dataset (Antropic HH, TL;DR summarization) 에 대해 실험하여 SPO를 증명
Table 1, Figure 2, Table 2, Table 4
- SPO를 적용하니 일관되게 성능이 향상함
- pref 모듈과 dispref 모듈을 개별로 사용해도 성능이 증가하고, 두개를 동시에 사용하면 가장 높은 성능을 낼 수 있음

Figure 3
- Key content가 줄어들수록 응답의 길이가 일관되게 감소함
- 선호도가 감소하고, 비선호도가 증가하는 것을 보아 key content가 빠지면 모델은 비선호되는 응답을 생성함을 알 수 있음

Table 3
- random reval vs removal of key content: key content 추출 방식이 더 효과적

Figure 4
- self-supervised method를 추가하니 성능 향상
- class number가 너무 크면 성능 감소가 있음

Table 5
- keyward extracting 방식 중 RAKE가 가장 높은 방식을 보임

Figure 5
- 가중치 r에 대한 비교 실험을 통해 최적의 값을 찾음

Figure 6
- 1000 step만에 빠르게 높은 성능에 달성함

Result

기존 연구에 비해 다양한 선호도를 반영하도록 학습

Limitation

여전히 human preference data가 필요
거대 모델이 필요

저작자표시 (새창열림)