링크:https://openreview.net/pdf?id=_VjQlMeSB_J BackgroundLLM각 task 별로 finetuning을 하는 것은 많은 자원이 language model의 사이즈를 키우면서 성능과 샘플 효율성이 올라감하지만 arithmetic, commonsense, and symbolic reasoining처럼 어려운 task는 크게 증가하지 않음Motivation이전 연구 [1]에 따르면 arithmetic reasoning은 자연어를 생성하면서 최종 정답을 유도하는 과정에서 이점이 있음prompting을 통해 in-context few-shot learning을 하면 성능이 증가함-> 우리는 두 아이디어를 결합해 a series of intermediate natural la..
링크:https://openreview.net/pdf?id=gEZrGCozdqR BackgroundLLMGPT-3와 같은 LLM은 few-shot learning에서 높은 성능을 보이나 zero-shot에서는 약간 덜함-> 우리는 instruction을 추가하여 tuning하는 Instruction-tuning을 제안 MethodsInstruction tuning완전한 unseen task를 위해 GPT-3와는 다르게 철저하게 task를 분리함각 task 별로 10개의 template을 만들고, 총 62개의 task를 12개의 cluster로 분류함어떤 task의 성능을 측정할 때, 해당 task가 포함된 cluster 자체를 학습에서 배제한 후 성능을 측정함랜덤으로 template을 골라 instru..
링크:https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org Background몰랐던 용어 surrogate objective: 특정 constraint 안에서 최..
링크:https://arxiv.org/abs/1406.2661 Generative Adversarial NetworksWe propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability thatarxiv.org Background몰랐던 용어approximate inference network: 데이터 x로부터 잠재변수 z의 후분포..
링크:https://arxiv.org/pdf/2506.10139 BackgroundDownstream task대부분의 downstream task를 수행하기 위해서는 pretrained language models를 human annotated data에 의존하여 post-training하는 것이 대부분임하지만 사람을 능가하는 모델에게 high-quality의 human supervision을 주는 것은 어려움-> external supervision 없이 LLM 내부에 있는 지식을 elicit하는 Internal Coherence Maximization (ICM) 제안몰랐던 용어Golden Supervision: benchmark labels의 정답 (정확함)Human Supervsion: 일반인/cr..
링크:https://arxiv.org/pdf/2406.18629Background Related workCoT (Chain of Thought): response를 생성하는 과정에서 step by step으로 생성하라고 하면 좀 더 깊게 차례대로 생각하여 높은 품질의 응답을 생성함RL: mathematical reasoning task에서 hallucination을 완화하게 위해 RL 적용함RLHF: SFT 모델을 human preference와 align하기 위해 Human Feedback을 반영해 더 reliable output을 생성하고자 함DPO (Direct Preference Optimization)Reward model을 사용하지 않고 human preference pair data를 바로 ..
링크:https://aclanthology.org/2024.findings-emnlp.845.pdf BackgroundRLHFhttps://kyj0105.tistory.com/98기존의 연구들은 대부분 supervised fine-tuning과 preference optimization 두 단계로 이루어져 있음그 중 DPO의 경우 선호되는 답변을 생성하고, 비선호되는 답변은 생성하지 않도록 바로 학습 RM 없이 사람의 선호도를 학습시킨 첫 연구 -> reward model의 중요한 측면을 간과함대부분의 RLHF 연구는 binary cross-entropy로 선호/비선호로만 학습하는 과정에서 다양한 선호 정보를 잃어버림-> RM 없이 다양한 사람의 선호 정보를 LM에게 학습시켜보자 MethodsSPOsel..
링크:https://arxiv.org/pdf/2305.18290BackgroundReinforce LearningMABs (MultiArmed Bandits): 문어가 Bandit machine (도박 기계)를 여러개 작동시켜서 최대의 이익을 얻고자할때, 새로운 기계를 돌려야하는지 (Exploration) vs 이미 돌려본 기계를 또 돌려야하는지 (Exploitation) 에 대한 문제Human align단순히 사람이 듣기 좋은 말을 해주는 것이 아니라 사람과 같은 오해를 알고 있지만 오해를 하면 안된다고 함예를 들어 "과일을 매일 먹으면 감기에 안 걸린다"는 사람이 하는 오해임LLM이 이 오해를 알고 있지만, 진실로 알고 사람에게 "과일을 매일 먹으면 감기에 안 걸릴 수 있어요" 라고 응답하면 안된다는..