nlp

논문 리뷰/자연어처리

Dense Passage Retrieval for Open-Domain Question Answering 리뷰

링크: BackgroundQA systemscontext retriever과 machine reader인 2단계로 구성되어 있음context retriever: answer이 담긴 passage를 선택machine reader: retrieved context를 조사하고 정답 식별passage를 가져오는 retriever의 성능이 중요Retriever1 - Traditional sparse vector space modelopen-domain question answering task는 후보 context 중에 efficient passage를 잘 선택하는 것이 중요TF-IDFt: 용어 (단어), d: 문서 (문장들)tf(t, d): 한 문서 내에 같은 단어가 여러 번 등장하면 증가idf(t, D): 여..

논문 리뷰/자연어처리

FINETUNED LANGUAGE MODELS ARE ZERO-SHOTLEARNERS

링크:https://arxiv.org/pdf/2109.01652BackgroundPretraining최근 NLP task에서 large corpus의 pretraining을 기반으로 한 언어 모델들이 높은 성능을 보임하지만 pretraining 후 task 에 맞는 재학습이 필요했음GPT-2: 거대한 모델을 사용할 경우 zero-shot으로도 downstream task를 수행할 수 있음 -> 성능은 낮음GPT-3: sample을 사용하여 few-shot setting에서 sota에 버금가는 성능을 달성함 -> 어쨌든 labeled data 필요하고 zero-shot에서는 낮은 성능을 보임labeled data 없이 다양한 task에서 general한 성능을 보이는 모델이 필요했음 MethodsInstr..

논문 리뷰/자연어처리

Language Models are Unsupervised Multitask Learners 리뷰

링크:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf BackgroundSupervised learning많은 양의 데이터를 pretrain하고 각 task별로 finetuning을 해야 높은 성능을 낼 수 있음multi-task tuning의 경우 각 task 별로 tuning한 것보다는 낮은 성능을 보여 각 task 별로 튜닝이 필요했음 MethodsarchitectureGPT-1과 마찬가지로 Transformer의 decoder block을 쌓아 만듬layer normalization 추가residual layer의 가중치 설정vocab size와 context si..

논문 리뷰/자연어처리

Improving Language Understanding by Generative Pre-Training 리뷰

링크:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfBackgroundTuning모델을 scratch부터 labeled data로 학습시키는 것은 많은 데이터가 필요한데 데이터를 만드는데 많은 비용가 시간이 듬모델이 labeled data에 과적합되거나 편향될 수 있음Pretrained word embedding사전에 학습된 단어 임베딩을 사용하는 이전 연구가 있음이 연구에서는 unlabeled text에서 word-level 정보를 활용함Leveraging unlabeled textunlabeled text에서 단어 수준 이상의 정보를 활용하는 것은 어려움 어떤 유형의 optimiz..

논문 리뷰/자연어처리

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 리뷰

링크: https://arxiv.org/pdf/2110.07602BackgroundFull-FTNLU Task별로 pretraining 모델에 fine-tuning을 하는게 일반적인 방법하지만 각 task 별로 모델을 관리해야하기 때문에 메모리와 컴퓨팅 자원이 많이 듬PromptingPretraining 모델에 discrete prompt를 작성하여 사용함fine-tuning에 비해 아쉬운 성능Prompt Tuning Discrete prompt와 continual prompt를 결합하여 continual 부분만 학습Prompt tuning 방식은 10B 이상의 큰 모델에서만 Full-FT와 유사한 성능을 보임기존의 prompt tuning 방식은 hard sequence labeling tasks를 ..

논문 리뷰/자연어처리

P-Tuning 1: GPT Understands, Too

링크:https://arxiv.org/pdf/2103.10385 BackgroundPretrained Model Pretrained Model에게 Prompt만 입력하여 NLU task에서 효율적으로 사용 가능게다가 discrete prompt로 높은 성능을 내도록 최적화하는 것은 어려움하지만 manual discrete prompts는 변동성이 있어 하나의 단어를 바꾸는 것만으로도 성능이 크게 감소함기존 연구는 최적의 프롬프트를 serching하는데 집중하였고, instability 문제는 해결하지 못함-> 학습 가능한 continuous prompt embeddings 과 discrete prompts를 concat한 P-Tuning 제안 MethodsP-TuningM: hidden size..

논문 리뷰/자연어처리

Prefix-Tuning: Optimizing Continuous Prompts for Generation

링크:https://arxiv.org/pdf/2101.00190 BackgroundPLM큰 LM을 Pretraining하고 Full-FT은 높은 성능을 내지만 downstream task별로 많은 컴퓨팅 자원과메모리가 필요함AdapterParameter를 제거하는 연구도 있으나 Adapter의 경우 3.6%의 추가적인 파라미터 튜닝을 통해 Full-FT과 비슷한 성능을 냄In-Context learningGPT-3의 경우 아무런 Task-specific Tuning 없이 Natural language task instruction과 Few-shot example을 입력해 사용하기도 함하지만 수작업으로 프롬프트를 작성해야하며, context의 크기 한계가 있음→ NLG task에서 Full-FT 대신 가벼..

논문 리뷰/자연어처리

It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 리뷰

링크: https://aclanthology.org/2021.naacl-main.185.pdfhttps://aclanthology.org/2021.naacl-main.185.pdf 배경용어Priming: 지피티와 같은 사전학습 언어모델에게 특정 테스크나 스타일 컨텍스트를 유도하기 위해 초밥 입력을 설계하는 기법. Priming의 구체적인 방법이 fewshot-learning, Instruction tuning 등 있음Cloze type: Q. 빨간 과일은 뭐가 있어? A. 사과 의 구조가 아닌 Q. 빨간 과일은 뭐야? A. 정답은 사과 와 같은 일정한 구조Soft-label: ‘사과’와 같은 정확하게 분류된 라벨이 아닌 (사과 0.3, 오렌지 0.1, 포도 0.6)와 같이 확률로 나타낸 라벨값GPT-3의..

kyj0015
'nlp' 태그의 글 목록 (2 Page)