논문 리뷰

논문 리뷰/자연어처리

PLAN-AND-ACT: Improving Planning of Agents for Long-Horizon Tasks 논문 리뷰

링크:https://arxiv.org/pdf/2503.09572 BackgroundLLM기존 LLM들은 agent 기반의 간단한 task는 쉽게 해결하지만 long-horizon tasks에 대해서는 여전히 어려움을 보임*Long-horizon task: sequence of action, or over a prolonged period가 필요한 task특히 web navigation과 같은 실제 환경에서는 여러 단계의 planning과 execution을 균형 있게 수행해야 함PlanningLLM은 reasoning과 decision-making을 잘하지만 여전히 plnning에 challenge가 있음1. high-level goal을 달성하기 어려워함 (like "book me a flight to..

논문 리뷰/자연어처리

Training language models to follow instructions with human feedback 리뷰

링크:https://arxiv.org/pdf/2203.02155BackgroundReinforce learningEnvironment: state를 주는 상황 또는 환경 -> 입력 문장Action: state에 대한 agent의 행동 -> 출력 문장Agent: Policy에 따라 행동하는 모델 -> PPO 모델Critic: Actor의 행동을 평가하고 reward를 반환하는 모델Policy: Agent가 어떤 state에 놓였을 때 어떤 action을 할지 결정하는 strategy 또는 함수 -> PPO 모델 파라미터PPORL 모델의 파라미터 업데이트 알고리즘PPO: KL divergence이 일정 이하가 되도록하거나 cliping으로 간단하게 발산하지 않게 조금씩 안정적인 학습Large Languag..

논문 리뷰/자연어처리

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 논문 리뷰

링크:https://arxiv.org/pdf/2005.11401BackgroundLLMLarge pre-trained language model이 pretraining 때 저장한 데이터와 fine-tuning 때 학습하는 데이터로 많은 task에서 높은 성능을 달성함하지만 knowledge에 한계가 있으며, knowledge-intensive tasks에 대해서 task-specific architectures보다는 낮은 성능을 보임정보의 출처를 제공하기 어려우며, 실제 세상의 정보를 업데이트하기 어렵다는 문제가 있음-> General-purpose한 fine-tuning 방법인 retrieval-augmented generation (RAG)를 제안RetrieverRetriever와 같은 non-par..

논문 리뷰/자연어처리

Dense Passage Retrieval for Open-Domain Question Answering 리뷰

링크: BackgroundQA systemscontext retriever과 machine reader인 2단계로 구성되어 있음context retriever: answer이 담긴 passage를 선택machine reader: retrieved context를 조사하고 정답 식별passage를 가져오는 retriever의 성능이 중요Retriever1 - Traditional sparse vector space modelopen-domain question answering task는 후보 context 중에 efficient passage를 잘 선택하는 것이 중요TF-IDFt: 용어 (단어), d: 문서 (문장들)tf(t, d): 한 문서 내에 같은 단어가 여러 번 등장하면 증가idf(t, D): 여..

논문 리뷰/자연어처리

FINETUNED LANGUAGE MODELS ARE ZERO-SHOTLEARNERS

링크:https://arxiv.org/pdf/2109.01652BackgroundPretraining최근 NLP task에서 large corpus의 pretraining을 기반으로 한 언어 모델들이 높은 성능을 보임하지만 pretraining 후 task 에 맞는 재학습이 필요했음GPT-2: 거대한 모델을 사용할 경우 zero-shot으로도 downstream task를 수행할 수 있음 -> 성능은 낮음GPT-3: sample을 사용하여 few-shot setting에서 sota에 버금가는 성능을 달성함 -> 어쨌든 labeled data 필요하고 zero-shot에서는 낮은 성능을 보임labeled data 없이 다양한 task에서 general한 성능을 보이는 모델이 필요했음 MethodsInstr..

논문 리뷰/자연어처리

Language Models are Few-Shot Learners 리뷰

링크:https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdfBackgroundPretraining + Finetuning대규모 데이터로 pretraining을 진행하고 각 task 별로 Finetuning해서 높은 성능을 내는 것이 가장 기본적인 방법하지만 새로운 task에 대해 대용량을 labeled dataset을 생성하는 것은 비효율큰 모델을 한 task에 fine-tuning하는 것은 좁은 분포로 모델을 다시 학습시키는거라 좋은 성능이 안 나올 수도 있음GPT-2transformer 기반 모델로 이전 모델 (seq2seq)에 비해서는 긴 문장을 처리할 수 있지만, 긴 문서의 경우 모든 단어끼리..

논문 리뷰/자연어처리

Language Models are Unsupervised Multitask Learners 리뷰

링크:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf BackgroundSupervised learning많은 양의 데이터를 pretrain하고 각 task별로 finetuning을 해야 높은 성능을 낼 수 있음multi-task tuning의 경우 각 task 별로 tuning한 것보다는 낮은 성능을 보여 각 task 별로 튜닝이 필요했음 MethodsarchitectureGPT-1과 마찬가지로 Transformer의 decoder block을 쌓아 만듬layer normalization 추가residual layer의 가중치 설정vocab size와 context si..

논문 리뷰/자연어처리

Improving Language Understanding by Generative Pre-Training 리뷰

링크:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfBackgroundTuning모델을 scratch부터 labeled data로 학습시키는 것은 많은 데이터가 필요한데 데이터를 만드는데 많은 비용가 시간이 듬모델이 labeled data에 과적합되거나 편향될 수 있음Pretrained word embedding사전에 학습된 단어 임베딩을 사용하는 이전 연구가 있음이 연구에서는 unlabeled text에서 word-level 정보를 활용함Leveraging unlabeled textunlabeled text에서 단어 수준 이상의 정보를 활용하는 것은 어려움 어떤 유형의 optimiz..

kyj0015
'논문 리뷰' 카테고리의 글 목록 (2 Page)