링크:https://arxiv.org/pdf/2005.11401BackgroundLLMLarge pre-trained language model이 pretraining 때 저장한 데이터와 fine-tuning 때 학습하는 데이터로 많은 task에서 높은 성능을 달성함하지만 knowledge에 한계가 있으며, knowledge-intensive tasks에 대해서 task-specific architectures보다는 낮은 성능을 보임정보의 출처를 제공하기 어려우며, 실제 세상의 정보를 업데이트하기 어렵다는 문제가 있음-> General-purpose한 fine-tuning 방법인 retrieval-augmented generation (RAG)를 제안RetrieverRetriever와 같은 non-par..
링크: BackgroundQA systemscontext retriever과 machine reader인 2단계로 구성되어 있음context retriever: answer이 담긴 passage를 선택machine reader: retrieved context를 조사하고 정답 식별passage를 가져오는 retriever의 성능이 중요Retriever1 - Traditional sparse vector space modelopen-domain question answering task는 후보 context 중에 efficient passage를 잘 선택하는 것이 중요TF-IDFt: 용어 (단어), d: 문서 (문장들)tf(t, d): 한 문서 내에 같은 단어가 여러 번 등장하면 증가idf(t, D): 여..
링크:https://arxiv.org/pdf/2109.01652BackgroundPretraining최근 NLP task에서 large corpus의 pretraining을 기반으로 한 언어 모델들이 높은 성능을 보임하지만 pretraining 후 task 에 맞는 재학습이 필요했음GPT-2: 거대한 모델을 사용할 경우 zero-shot으로도 downstream task를 수행할 수 있음 -> 성능은 낮음GPT-3: sample을 사용하여 few-shot setting에서 sota에 버금가는 성능을 달성함 -> 어쨌든 labeled data 필요하고 zero-shot에서는 낮은 성능을 보임labeled data 없이 다양한 task에서 general한 성능을 보이는 모델이 필요했음 MethodsInstr..
링크:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf BackgroundSupervised learning많은 양의 데이터를 pretrain하고 각 task별로 finetuning을 해야 높은 성능을 낼 수 있음multi-task tuning의 경우 각 task 별로 tuning한 것보다는 낮은 성능을 보여 각 task 별로 튜닝이 필요했음 MethodsarchitectureGPT-1과 마찬가지로 Transformer의 decoder block을 쌓아 만듬layer normalization 추가residual layer의 가중치 설정vocab size와 context si..
링크:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfBackgroundTuning모델을 scratch부터 labeled data로 학습시키는 것은 많은 데이터가 필요한데 데이터를 만드는데 많은 비용가 시간이 듬모델이 labeled data에 과적합되거나 편향될 수 있음Pretrained word embedding사전에 학습된 단어 임베딩을 사용하는 이전 연구가 있음이 연구에서는 unlabeled text에서 word-level 정보를 활용함Leveraging unlabeled textunlabeled text에서 단어 수준 이상의 정보를 활용하는 것은 어려움 어떤 유형의 optimiz..
링크: https://arxiv.org/pdf/2110.07602BackgroundFull-FTNLU Task별로 pretraining 모델에 fine-tuning을 하는게 일반적인 방법하지만 각 task 별로 모델을 관리해야하기 때문에 메모리와 컴퓨팅 자원이 많이 듬PromptingPretraining 모델에 discrete prompt를 작성하여 사용함fine-tuning에 비해 아쉬운 성능Prompt Tuning Discrete prompt와 continual prompt를 결합하여 continual 부분만 학습Prompt tuning 방식은 10B 이상의 큰 모델에서만 Full-FT와 유사한 성능을 보임기존의 prompt tuning 방식은 hard sequence labeling tasks를 ..
링크:https://arxiv.org/pdf/2101.00190 BackgroundPLM큰 LM을 Pretraining하고 Full-FT은 높은 성능을 내지만 downstream task별로 많은 컴퓨팅 자원과메모리가 필요함AdapterParameter를 제거하는 연구도 있으나 Adapter의 경우 3.6%의 추가적인 파라미터 튜닝을 통해 Full-FT과 비슷한 성능을 냄In-Context learningGPT-3의 경우 아무런 Task-specific Tuning 없이 Natural language task instruction과 Few-shot example을 입력해 사용하기도 함하지만 수작업으로 프롬프트를 작성해야하며, context의 크기 한계가 있음→ NLG task에서 Full-FT 대신 가벼..
링크: https://aclanthology.org/2021.naacl-main.185.pdfhttps://aclanthology.org/2021.naacl-main.185.pdf 배경용어Priming: 지피티와 같은 사전학습 언어모델에게 특정 테스크나 스타일 컨텍스트를 유도하기 위해 초밥 입력을 설계하는 기법. Priming의 구체적인 방법이 fewshot-learning, Instruction tuning 등 있음Cloze type: Q. 빨간 과일은 뭐가 있어? A. 사과 의 구조가 아닌 Q. 빨간 과일은 뭐야? A. 정답은 사과 와 같은 일정한 구조Soft-label: ‘사과’와 같은 정확하게 분류된 라벨이 아닌 (사과 0.3, 오렌지 0.1, 포도 0.6)와 같이 확률로 나타낸 라벨값GPT-3의..