링크:https://arxiv.org/pdf/2409.12917 BackgroundSTaR (Self-Taught Reasoner)방법론: LLM이 스스로 resoning chain을 생성 정답을 낸 reasoning trace만 (룰기반채점) 모아서 SFTDistibution shift: base 모델의 오류는 고치는데, 새로 학습한 모델은 분포가 달라 또 못 맞춤Behavior collapse: 올바른 chain 데이터로만 학습하면서 모델이 점차 첫 시도에서는 맞는 답을 생성 -> 자신의 실수를 찾아 고치는 self-correction 능력을 배우지 않게 됨-> Distribution shift와 Behavior collapse를 개선하자 MethodsSCoReoracle feedback 없이 문제에..
링크:https://aclanthology.org/2024.findings-acl.6.pdf BackgroundImitation Learning대규모 언어 모델의 데이터를 활용해서 학습하는 방법많은 연구가 있음 MethodsFACO dataset4가지 domain (도메인 지식, 상식, 복잡한 추론, 프로그래밍) 의 dataset을 활용해서 일부러 오답 데이터셋을 생성함이 때 LLM이 잘못된 오답에 맞춰서 잘못된 이유를 생성하도록 함이렇게 생성한 데이터셋으로 모델을 다시 Finetuning함 Experiment & AnalysisTable 1LLaMA 1과 LLaMA 2로 비교 실험 진행CR 0%일 때는 거의 비슷한 성능을 달성함CR 100% 일때는 거의 모든 성능이 감소함Pearson 계수가 -90%는..
링크:https://arxiv.org/pdf/2301.12597 BackgroundBLIP-1기존 모델은 이미지 모델과 텍스트 모델 둘 다 전체를 end-to-end로 tuning 시키는 것은 많은 비용과 시간이 듬-> BLIP-2는 frozen LLM + frozen image encoder로 Q-formal만 학습함으로써 효율적임 MethodsArchitectureImage encoder와 large language model은 frozen 상태로 사Vision 모델과 language 모델을 잇는 bottleneck 역할을 수행하도록 Q-Former만 단독으로 학습시키자1단계: vision-language representation learningBLIP-1과 마찬가지로 3가지 training obj..
링크:https://arxiv.org/pdf/2201.12086 BackgroundVLP기존의 VLP 모델들은 understanding-based tasks나 generation-based tasks에만 뛰어난 성능을 보였음noisy image-text pairs 데이터를 웹에서 수집해서 사용하는 과정에서 데이터셋이 많을 수록 높은 성능을 보였으나, 사람이 labeling한 데이터만은 못했음Model perspective: text generation에 약한 encoder-based model 또는 image-text etrieval tasks에 약한 encoder-decoder model을 사용함Data perspective: web에서 수집한 noisy한 image-text data를 활용함 Meth..
링크:https://openreview.net/pdf?id=B1ckMDqlg BackgroundConditional computation모델 사이즈를 키우면 성능이 증가하나 컴퓨팅 자원 문제로 한계가 있음Conditional copmtation: 모델의 모든 부분을 항상 활성화하지 않고, 입력된 데이터에 따라 필요한 부분만 선택적으로 활성화하여 계산 효율성을 높이는 방법 MethodsSparsely-Gated Mixture-of-Experts Layer (MoE)입력에 따라 Noisy Top-K Gating 방식으로 상위 K개의 일부 전문가를 선택하여 작동하게 함n개 experts와 feed-forward neural network로 이루어져 있음수식Ei(x): i번째 expert의 출력G(x)i: i..
링크:https://arxiv.org/pdf/2501.12948 BackgroundGRPO: value model을 사용하지 않고, reward 모델의 그룹에 비해 얼마나 이 행동이 좋은가 Ai function을 평가 MethodsOverviewDeepSeek-R1-Zero (poor readability, language mixing) -> cold-start dataDeepSeek-V3-base + cold-start data -> DeepSeek-R1DeepSeek-R1 + distillation (SFT with generated data)-> ditilled DeepSeek-R1 DeepSeek-R1-Zero: without any SFT data, only RL아무런 SFT 없이 pure r..
링크:https://arxiv.org/pdf/2010.11929 BackgroundVision modelResNet: Convolution network와 residual connection으로 이전 모델보다 깊은 학습을 통해 높은 성능을 달성BiT: ResNet 구조에 대규모 데이터로 학습하자 다양한 다운스트림 데이터셋에 task-specific tuning 없이도 높은 성능 달성 MethodsViT (Vision Transformer)Transformer 구조에 이미지를 patch로 쪼개 하나의 토큰처럼 입력이 때 하나의 patch는 flatten하여 모델로 들어가는데, 처음부터 flatten하면 연산량이 너무 커짐첫 토큰은 BERT의 [CLS]처럼 클래스를 예측 하는 역할을 하여 모델을 학습함pre..
링크:https://arxiv.org/pdf/2103.00020 BackgroundTraditional vision modelResNet: CNN과 잔차학습으로 이미지의 클래스 예측ViT: 이미지를 패치로 쪼개서 넣어주는데, 첫번째 토큰이 [CLS] 토큰 기능을 해서 이미지의 class를 분류전통적인 vision model은 1) 사람의 라벨링 필요 2) 고정된 라벨에 대해 학습함으로써 task 변경시 재학습 필요 3) 제로샷 전이 불가능Natural languge modelGPT-3: 해당 모델은 통해서 모델의 사이즈와 데이터의 양을 키우면 zero-shot만으로도 높은 성능을 낼 수 있음을 보여줌이를 통해 저품질의 대규모 웹 데이터를 활용하면 자연어처리 분야에서 큰 발전을 이룰 수 있음을 보여줌Mul..