nlp

논문 리뷰/자연어처리

Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model

링크:https://aclanthology.org/2024.findings-acl.6.pdf BackgroundImitation Learning대규모 언어 모델의 데이터를 활용해서 학습하는 방법많은 연구가 있음 MethodsFACO dataset4가지 domain (도메인 지식, 상식, 복잡한 추론, 프로그래밍) 의 dataset을 활용해서 일부러 오답 데이터셋을 생성함이 때 LLM이 잘못된 오답에 맞춰서 잘못된 이유를 생성하도록 함이렇게 생성한 데이터셋으로 모델을 다시 Finetuning함 Experiment & AnalysisTable 1LLaMA 1과 LLaMA 2로 비교 실험 진행CR 0%일 때는 거의 비슷한 성능을 달성함CR 100% 일때는 거의 모든 성능이 감소함Pearson 계수가 -90%는..

논문 리뷰

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

링크:https://arxiv.org/pdf/2301.12597 BackgroundBLIP-1기존 모델은 이미지 모델과 텍스트 모델 둘 다 전체를 end-to-end로 tuning 시키는 것은 많은 비용과 시간이 듬-> BLIP-2는 frozen LLM + frozen image encoder로 Q-formal만 학습함으로써 효율적임 MethodsArchitectureImage encoder와 large language model은 frozen 상태로 사Vision 모델과 language 모델을 잇는 bottleneck 역할을 수행하도록 Q-Former만 단독으로 학습시키자1단계: vision-language representation learningBLIP-1과 마찬가지로 3가지 training obj..

논문 리뷰/자연어처리

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

링크:https://arxiv.org/pdf/2201.12086 BackgroundVLP기존의 VLP 모델들은 understanding-based tasks나 generation-based tasks에만 뛰어난 성능을 보였음noisy image-text pairs 데이터를 웹에서 수집해서 사용하는 과정에서 데이터셋이 많을 수록 높은 성능을 보였으나, 사람이 labeling한 데이터만은 못했음Model perspective: text generation에 약한 encoder-based model 또는 image-text etrieval tasks에 약한 encoder-decoder model을 사용함Data perspective: web에서 수집한 noisy한 image-text data를 활용함 Meth..

논문 리뷰/자연어처리

OUTRAGEOUSLY LARGE NEURAL NETWORKS : THE SPARSELY GATED MIXTURE-OF-EXPERTS LAYER

링크:https://openreview.net/pdf?id=B1ckMDqlg BackgroundConditional computation모델 사이즈를 키우면 성능이 증가하나 컴퓨팅 자원 문제로 한계가 있음Conditional copmtation: 모델의 모든 부분을 항상 활성화하지 않고, 입력된 데이터에 따라 필요한 부분만 선택적으로 활성화하여 계산 효율성을 높이는 방법 MethodsSparsely-Gated Mixture-of-Experts Layer (MoE)입력에 따라 Noisy Top-K Gating 방식으로 상위 K개의 일부 전문가를 선택하여 작동하게 함n개 experts와 feed-forward neural network로 이루어져 있음수식Ei(x): i번째 expert의 출력G(x)i: i..

논문 리뷰/자연어처리

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

링크:https://arxiv.org/pdf/2501.12948 BackgroundGRPO: value model을 사용하지 않고, reward 모델의 그룹에 비해 얼마나 이 행동이 좋은가 Ai function을 평가 MethodsOverviewDeepSeek-R1-Zero (poor readability, language mixing) -> cold-start dataDeepSeek-V3-base + cold-start data -> DeepSeek-R1DeepSeek-R1 + distillation (SFT with generated data)-> ditilled DeepSeek-R1 DeepSeek-R1-Zero: without any SFT data, only RL아무런 SFT 없이 pure r..

논문 리뷰/자연어처리

Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

링크:https://openreview.net/pdf?id=_VjQlMeSB_J BackgroundLLM각 task 별로 finetuning을 하는 것은 많은 자원이 language model의 사이즈를 키우면서 성능과 샘플 효율성이 올라감하지만 arithmetic, commonsense, and symbolic reasoining처럼 어려운 task는 크게 증가하지 않음Motivation이전 연구 [1]에 따르면 arithmetic reasoning은 자연어를 생성하면서 최종 정답을 유도하는 과정에서 이점이 있음prompting을 통해 in-context few-shot learning을 하면 성능이 증가함-> 우리는 두 아이디어를 결합해 a series of intermediate natural la..

논문 리뷰/자연어처리

FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS 리뷰

링크:https://openreview.net/pdf?id=gEZrGCozdqR BackgroundLLMGPT-3와 같은 LLM은 few-shot learning에서 높은 성능을 보이나 zero-shot에서는 약간 덜함-> 우리는 instruction을 추가하여 tuning하는 Instruction-tuning을 제안 MethodsInstruction tuning완전한 unseen task를 위해 GPT-3와는 다르게 철저하게 task를 분리함각 task 별로 10개의 template을 만들고, 총 62개의 task를 12개의 cluster로 분류함어떤 task의 성능을 측정할 때, 해당 task가 포함된 cluster 자체를 학습에서 배제한 후 성능을 측정함랜덤으로 template을 골라 instru..

논문 리뷰/자연어처리

Distilling the Knowledge in a Neural Network 논문 리뷰

링크:https://arxiv.org/pdf/1503.02531 BackgroundMoE (Ensemble)어떤 machine learning algorithm이든 하나의 데이터로 여러 모델을 학습시키고 prediction을 평균을 사용하는 것이 가장 높은 성능을 낼 수 있음하지만 ensemble은 컴퓨터 자원이 많이 듬이전 연구 Caruana는 emsemble knowledge를 하나의 모델로 압축할 수 있음을 보여줬음우리는 다른 압축 기술 (distillation)을 쓰겠음-> 많은 specialist models (Student model)d이 병렬 또는 아주 빠르게 fine-grained class를 식별하는 방법을 배우도록 했음 MethodsTermvi: 큰 모델의 logitzi: 작은 모델의 ..

kyj0015
'nlp' 태그의 글 목록