링크:https://arxiv.org/abs/1706.03741BackgroundRL많은 RL task를 해결하기 위해서는 well-specified reward function이 필요한데, 이를 찾는 것은 complex, poorly-defined, or hard함시스템에 맞는 간단한 reward function을 설계할 수 있으나 이는 사용자의 의도를 완전히 충족시키지 모함이전 연구는 전문가의 피드백이 필요하거나, 비교보다는 순위를 매김Inverse Reinforcement learning, Imitation Learning과 같은 연구가 있으나 인간이 입증하기 어려운 행동에는 직접적으로 적용할 수 없음-> human feedback을 반영하여 reward function을 학습시키자 MethodsH..
링크:https://arxiv.org/abs/1406.2661 Generative Adversarial NetworksWe propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability thatarxiv.org Background몰랐던 용어approximate inference network: 데이터 x로부터 잠재변수 z의 후분포..
링크:https://arxiv.org/pdf/2506.10139 BackgroundDownstream task대부분의 downstream task를 수행하기 위해서는 pretrained language models를 human annotated data에 의존하여 post-training하는 것이 대부분임하지만 사람을 능가하는 모델에게 high-quality의 human supervision을 주는 것은 어려움-> external supervision 없이 LLM 내부에 있는 지식을 elicit하는 Internal Coherence Maximization (ICM) 제안몰랐던 용어Golden Supervision: benchmark labels의 정답 (정확함)Human Supervsion: 일반인/cr..
링크:https://arxiv.org/pdf/2406.18629Background Related workCoT (Chain of Thought): response를 생성하는 과정에서 step by step으로 생성하라고 하면 좀 더 깊게 차례대로 생각하여 높은 품질의 응답을 생성함RL: mathematical reasoning task에서 hallucination을 완화하게 위해 RL 적용함RLHF: SFT 모델을 human preference와 align하기 위해 Human Feedback을 반영해 더 reliable output을 생성하고자 함DPO (Direct Preference Optimization)Reward model을 사용하지 않고 human preference pair data를 바로 ..
링크:https://aclanthology.org/2024.findings-emnlp.845.pdf BackgroundRLHFhttps://kyj0105.tistory.com/98기존의 연구들은 대부분 supervised fine-tuning과 preference optimization 두 단계로 이루어져 있음그 중 DPO의 경우 선호되는 답변을 생성하고, 비선호되는 답변은 생성하지 않도록 바로 학습 RM 없이 사람의 선호도를 학습시킨 첫 연구 -> reward model의 중요한 측면을 간과함대부분의 RLHF 연구는 binary cross-entropy로 선호/비선호로만 학습하는 과정에서 다양한 선호 정보를 잃어버림-> RM 없이 다양한 사람의 선호 정보를 LM에게 학습시켜보자 MethodsSPOsel..
링크:https://arxiv.org/pdf/2305.18290BackgroundReinforce LearningMABs (MultiArmed Bandits): 문어가 Bandit machine (도박 기계)를 여러개 작동시켜서 최대의 이익을 얻고자할때, 새로운 기계를 돌려야하는지 (Exploration) vs 이미 돌려본 기계를 또 돌려야하는지 (Exploitation) 에 대한 문제Human align단순히 사람이 듣기 좋은 말을 해주는 것이 아니라 사람과 같은 오해를 알고 있지만 오해를 하면 안된다고 함예를 들어 "과일을 매일 먹으면 감기에 안 걸린다"는 사람이 하는 오해임LLM이 이 오해를 알고 있지만, 진실로 알고 사람에게 "과일을 매일 먹으면 감기에 안 걸릴 수 있어요" 라고 응답하면 안된다는..
링크:https://aclanthology.org/2024.acl-long.176.pdfBackgroundLLM (large language model)LLM은 많은 분야에서 성공적이지만 사람의 의도화는 맞지 않는 "alignment problem"이 있음하지만 기존의 alignmetn methods는 LLM 모델을 학습시키는 것에 집중함 -> LLM을 학습시키는 것은 너무 힘듬human intents와 LLM이 이해하는 것은 큰 차이가 있음-> model training 없이도 user prompts를 optimize해서 align하게 만들자Previous workRLHF: 사람의 피드백을 바탕으로 LLM이 사람이 선호하는 답변을 뱉도록 학습 (https://kyj0105.tistory.com/94)R..
링크:https://arxiv.org/pdf/2503.09572 BackgroundLLM기존 LLM들은 agent 기반의 간단한 task는 쉽게 해결하지만 long-horizon tasks에 대해서는 여전히 어려움을 보임*Long-horizon task: sequence of action, or over a prolonged period가 필요한 task특히 web navigation과 같은 실제 환경에서는 여러 단계의 planning과 execution을 균형 있게 수행해야 함PlanningLLM은 reasoning과 decision-making을 잘하지만 여전히 plnning에 challenge가 있음1. high-level goal을 달성하기 어려워함 (like "book me a flight to..