링크:https://aclanthology.org/2024.findings-acl.6.pdf BackgroundImitation Learning대규모 언어 모델의 데이터를 활용해서 학습하는 방법많은 연구가 있음 MethodsFACO dataset4가지 domain (도메인 지식, 상식, 복잡한 추론, 프로그래밍) 의 dataset을 활용해서 일부러 오답 데이터셋을 생성함이 때 LLM이 잘못된 오답에 맞춰서 잘못된 이유를 생성하도록 함이렇게 생성한 데이터셋으로 모델을 다시 Finetuning함 Experiment & AnalysisTable 1LLaMA 1과 LLaMA 2로 비교 실험 진행CR 0%일 때는 거의 비슷한 성능을 달성함CR 100% 일때는 거의 모든 성능이 감소함Pearson 계수가 -90%는..
링크:https://arxiv.org/pdf/2301.12597 BackgroundBLIP-1기존 모델은 이미지 모델과 텍스트 모델 둘 다 전체를 end-to-end로 tuning 시키는 것은 많은 비용과 시간이 듬-> BLIP-2는 frozen LLM + frozen image encoder로 Q-formal만 학습함으로써 효율적임 MethodsArchitectureImage encoder와 large language model은 frozen 상태로 사Vision 모델과 language 모델을 잇는 bottleneck 역할을 수행하도록 Q-Former만 단독으로 학습시키자1단계: vision-language representation learningBLIP-1과 마찬가지로 3가지 training obj..
링크:https://arxiv.org/pdf/2201.12086 BackgroundVLP기존의 VLP 모델들은 understanding-based tasks나 generation-based tasks에만 뛰어난 성능을 보였음noisy image-text pairs 데이터를 웹에서 수집해서 사용하는 과정에서 데이터셋이 많을 수록 높은 성능을 보였으나, 사람이 labeling한 데이터만은 못했음Model perspective: text generation에 약한 encoder-based model 또는 image-text etrieval tasks에 약한 encoder-decoder model을 사용함Data perspective: web에서 수집한 noisy한 image-text data를 활용함 Meth..
링크:https://arxiv.org/pdf/2010.11929 BackgroundVision modelResNet: Convolution network와 residual connection으로 이전 모델보다 깊은 학습을 통해 높은 성능을 달성BiT: ResNet 구조에 대규모 데이터로 학습하자 다양한 다운스트림 데이터셋에 task-specific tuning 없이도 높은 성능 달성 MethodsViT (Vision Transformer)Transformer 구조에 이미지를 patch로 쪼개 하나의 토큰처럼 입력이 때 하나의 patch는 flatten하여 모델로 들어가는데, 처음부터 flatten하면 연산량이 너무 커짐첫 토큰은 BERT의 [CLS]처럼 클래스를 예측 하는 역할을 하여 모델을 학습함pre..
링크:https://arxiv.org/pdf/2103.00020 BackgroundTraditional vision modelResNet: CNN과 잔차학습으로 이미지의 클래스 예측ViT: 이미지를 패치로 쪼개서 넣어주는데, 첫번째 토큰이 [CLS] 토큰 기능을 해서 이미지의 class를 분류전통적인 vision model은 1) 사람의 라벨링 필요 2) 고정된 라벨에 대해 학습함으로써 task 변경시 재학습 필요 3) 제로샷 전이 불가능Natural languge modelGPT-3: 해당 모델은 통해서 모델의 사이즈와 데이터의 양을 키우면 zero-shot만으로도 높은 성능을 낼 수 있음을 보여줌이를 통해 저품질의 대규모 웹 데이터를 활용하면 자연어처리 분야에서 큰 발전을 이룰 수 있음을 보여줌Mul..
링크:https://openreview.net/pdf?id=T4gXBOXoIUr BackgroundImage encoderImage representation을 학습하기 위해서는, 의료 분야의 경우 적은 양의 annotated hand-labeled datasets에 의존함기존 연구의 경우 대부분 ImageNet pretraining의 가중치를 전이하는 방식임-> 기존 연구들은 어떻게 pretraining을 했는지? -> CNN을 활용해 이미지의 class를 맞추는 방식으로 tuning그러나 의료 분야에서 ImageNet pretraining은 random initialization이나 성능이 거이 비슷함Expert-crafted rules를 활용하는 방법도 있음그러나 우리는 naturally occur..
링크:https://openreview.net/pdf?id=_VjQlMeSB_J BackgroundLLM각 task 별로 finetuning을 하는 것은 많은 자원이 language model의 사이즈를 키우면서 성능과 샘플 효율성이 올라감하지만 arithmetic, commonsense, and symbolic reasoining처럼 어려운 task는 크게 증가하지 않음Motivation이전 연구 [1]에 따르면 arithmetic reasoning은 자연어를 생성하면서 최종 정답을 유도하는 과정에서 이점이 있음prompting을 통해 in-context few-shot learning을 하면 성능이 증가함-> 우리는 두 아이디어를 결합해 a series of intermediate natural la..
링크:https://openreview.net/pdf?id=gEZrGCozdqR BackgroundLLMGPT-3와 같은 LLM은 few-shot learning에서 높은 성능을 보이나 zero-shot에서는 약간 덜함-> 우리는 instruction을 추가하여 tuning하는 Instruction-tuning을 제안 MethodsInstruction tuning완전한 unseen task를 위해 GPT-3와는 다르게 철저하게 task를 분리함각 task 별로 10개의 template을 만들고, 총 62개의 task를 12개의 cluster로 분류함어떤 task의 성능을 측정할 때, 해당 task가 포함된 cluster 자체를 학습에서 배제한 후 성능을 측정함랜덤으로 template을 골라 instru..