전체 글

논문 리뷰/자연어처리

Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

링크:https://openreview.net/pdf?id=_VjQlMeSB_J BackgroundLLM각 task 별로 finetuning을 하는 것은 많은 자원이 language model의 사이즈를 키우면서 성능과 샘플 효율성이 올라감하지만 arithmetic, commonsense, and symbolic reasoining처럼 어려운 task는 크게 증가하지 않음Motivation이전 연구 [1]에 따르면 arithmetic reasoning은 자연어를 생성하면서 최종 정답을 유도하는 과정에서 이점이 있음prompting을 통해 in-context few-shot learning을 하면 성능이 증가함-> 우리는 두 아이디어를 결합해 a series of intermediate natural la..

논문 리뷰/자연어처리

FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS 리뷰

링크:https://openreview.net/pdf?id=gEZrGCozdqR BackgroundLLMGPT-3와 같은 LLM은 few-shot learning에서 높은 성능을 보이나 zero-shot에서는 약간 덜함-> 우리는 instruction을 추가하여 tuning하는 Instruction-tuning을 제안 MethodsInstruction tuning완전한 unseen task를 위해 GPT-3와는 다르게 철저하게 task를 분리함각 task 별로 10개의 template을 만들고, 총 62개의 task를 12개의 cluster로 분류함어떤 task의 성능을 측정할 때, 해당 task가 포함된 cluster 자체를 학습에서 배제한 후 성능을 측정함랜덤으로 template을 골라 instru..

논문 리뷰/자연어처리

Distilling the Knowledge in a Neural Network 논문 리뷰

링크:https://arxiv.org/pdf/1503.02531 BackgroundMoE (Ensemble)어떤 machine learning algorithm이든 하나의 데이터로 여러 모델을 학습시키고 prediction을 평균을 사용하는 것이 가장 높은 성능을 낼 수 있음하지만 ensemble은 컴퓨터 자원이 많이 듬이전 연구 Caruana는 emsemble knowledge를 하나의 모델로 압축할 수 있음을 보여줬음우리는 다른 압축 기술 (distillation)을 쓰겠음-> 많은 specialist models (Student model)d이 병렬 또는 아주 빠르게 fine-grained class를 식별하는 방법을 배우도록 했음 MethodsTermvi: 큰 모델의 logitzi: 작은 모델의 ..

논문 리뷰/강화학습

Proximal Policy Optimization Algorithms 논문 리뷰

링크:https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org Background몰랐던 용어 surrogate objective: 특정 constraint 안에서 최..

논문 리뷰/강화학습

Deep reinforcement learning from human preferences 논문 리뷰

링크:https://arxiv.org/abs/1706.03741BackgroundRL많은 RL task를 해결하기 위해서는 well-specified reward function이 필요한데, 이를 찾는 것은 complex, poorly-defined, or hard함시스템에 맞는 간단한 reward function을 설계할 수 있으나 이는 사용자의 의도를 완전히 충족시키지 모함이전 연구는 전문가의 피드백이 필요하거나, 비교보다는 순위를 매김Inverse Reinforcement learning, Imitation Learning과 같은 연구가 있으나 인간이 입증하기 어려운 행동에는 직접적으로 적용할 수 없음-> human feedback을 반영하여 reward function을 학습시키자 MethodsH..

논문 리뷰

Generative Adversarial Nets 리뷰

링크:https://arxiv.org/abs/1406.2661 Generative Adversarial NetworksWe propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability thatarxiv.org Background몰랐던 용어approximate inference network: 데이터 x로부터 잠재변수 z의 후분포..

논문 리뷰/자연어처리

Unsupervised Elicitation of Language Models 논문 리뷰

링크:https://arxiv.org/pdf/2506.10139 BackgroundDownstream task대부분의 downstream task를 수행하기 위해서는 pretrained language models를 human annotated data에 의존하여 post-training하는 것이 대부분임하지만 사람을 능가하는 모델에게 high-quality의 human supervision을 주는 것은 어려움-> external supervision 없이 LLM 내부에 있는 지식을 elicit하는 Internal Coherence Maximization (ICM) 제안몰랐던 용어Golden Supervision: benchmark labels의 정답 (정확함)Human Supervsion: 일반인/cr..

논문 리뷰/자연어처리

Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs 리뷰

링크:https://arxiv.org/pdf/2406.18629Background Related workCoT (Chain of Thought): response를 생성하는 과정에서 step by step으로 생성하라고 하면 좀 더 깊게 차례대로 생각하여 높은 품질의 응답을 생성함RL: mathematical reasoning task에서 hallucination을 완화하게 위해 RL 적용함RLHF: SFT 모델을 human preference와 align하기 위해 Human Feedback을 반영해 더 reliable output을 생성하고자 함DPO (Direct Preference Optimization)Reward model을 사용하지 않고 human preference pair data를 바로 ..

kyj0015
기록용 블로그