약 1년동안 학부연구생으로 공부하면서 많은 일이 있었다. 많이 배우고 일하고 공부하고 괜찮았으나 최근 건강 문제로 일을 쉬게되면서 개인 공부에 집중하게 되었다. 하지만 오히려 일을 시키거나 공부를 감시하는 사람이 없다보니 게을러지고 시간을 낭비하게 되는 것 같아 논문을 읽으며 기록해보고자 한다. 세상 모든 논문을 읽으려고 하면 부담스러워서 안 읽게 된다. 그냥 관심 있는거, 재밌어 보이는거, 연구실에서 읽는 논문과 관련된 논문. 등 가볍게 한 개만 더 한 개만 더... 하면서 읽어볼 생각이다.
2025-04-01 첫 작성
<24년도>
| 논문 제목 | 주요 내용 | 읽은 이유 | 다 읽은 날짜 |
| BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | transformer의 Encoder만 쌓아서 만든 Bidirectional 모델로 이해력이 뛰어난 BERT 제안 | 인턴 세미나 발표 1차 | 24-07-15 |
| Training Compute-Optimal Large Language Models | 모델의 크기와 학습 데이터의 양과 최적의 비율이 있음 | 인턴 세미나 발표 2차 | 24-08-12 |
| Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | prompt에 차례대로 생각하라고 넣어주면 모델의 성능이 좋아짐 | 연구실 세미나 발표 1차 | 25-02-03 |
| Towards Conversational Diagnostic AI | Agent끼리 만든 의료 대화 데이터로 학습하여 실제 의료인과 같은 성능 달성 | 연구실 세미나 발표 2차 | 25-02-24 |
| 휴가 | |||
<25년도 1학기>
| 논문 제목 | 주요 내용 | 읽은 이유 | 다 읽은 날짜 |
| Attention Is All You Need | self-attention으로 transformer 모델 제안 | 자연어처리의 가장 기초적인 논문이라해서 복습 겸 | 25-03-31 |
| RoBERTa: A Robustly Optimized BERT Pretraining Approach | BERT는 under-training 되어있으며 NSP 제거하고 dynamic masking으로 오래 학습 | 인턴 논문 스터디 2차 | 25-04-05 |
| ALBERT: A Lite BERT for Self-supervised Learning of Language Representations | NSP 제거, SOP, embedding vector factorization, cress-layer parameter sharing으로 작은 모델로도 BERT와 유사한 성능 | 인턴 논문 스터디 2차 | 25-04-06 |
| Parameter-Efficient Transfer Learning for NLP (Adapter) | Adapter (Bottleneck 구조)를 제안하여 적은 파라미터로도 유사한 성능 | 인턴 논문 스터디 3차 | 25-04-15 |
| Playing Atari with Deep Reinforcement Learning | Experience Replay와 target 함수와 학습 함수의 교환하는 방식으로 강화학습에 딥러닝을 접목 | 강화학습의 기초 논문이라서 | 25-04-20 |
| It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners | Classification task를 Cloze question으로 변형시켜서 SLM도 Few-shot Learners로 사용할 수 있음 | P-Tuning v1의 비교 대상으로 나와서 | 25-04-30 |
| Prefix-Tuning: Optimizing Continuous Prompts for Generation | 각 층마다 Input 앞에 Prefix라는 벡터를 붙여서 각 downstream task마다 0.1%의 파라미터만 학습하여 Full-FT와 유사한 성능 | P-Tuning v1 이해하려고 | 25-05-02 |
| GPT Understands, Too | manual prompt에 continual prompt를 결합해서 continual 부분만 학습시킨 prompt를 input으로 | P-Tuning v1 이해 완 | 25-05-06 |
| Improving Language Understanding by Generative Pre-Training | Transformer의 Decoder block만 쌓고 pretraining 후 adaptation layer를 finetuning함 | GPT의 시작 | 25-05-11 |
| Language Models are Unsupervised Multitask Learners | GPT-1 모델의 크기와 pretraining 데이터의 양을 늘리니 prompt를 잘 작성하는 것 (zero-shot)만으로도 높은 성능 달성 | few-shot, scaling law 등 이후 연구의 시작 | 25-05-11 |
| Language Models are Few-Shot Learners | GPT-2의 모델 사이즈와 데이터를 더 키우고 instruction-tuning을 사용하여 여러 task에서 학습 없이 높은 성능 달성 | prompting의 시작 | 25-05-12 |
| FINETUNED LANGUAGE MODELS ARE ZERO-SHOTLEARNERS | GPT-3보다 작은 모델을 Instruction tuning하여 unseen task에서도 general한 zero-shot 성능을 보임 | Instruction tuning의 시작 | 25-05-12 |
| Dense Passage Retrieval for Open-Domain Question Answering | question의 정답 문서 p+는 가깝게, 틀린 문서 p-는 멀도록 dense vector representation으로 나타냄 | RAG의 비교 모델 | 25-05-20 |
| Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks | 문서를 dense vector representation으로 나타내서 유사도 (내적)을 구해 유사한 문서를 뽑아옴만으로 높은 성능 향상 | RAG의 시작 | 25-05-22 |
| Training language models to follow instructions with human feedback | 사람의 라벨링 데이터로 RM을 학습시켜서 리워드 바탕으로 GPT-3 -> SFT -> PPO 순으로 사용자 친화적인 모델 학습 | ChatGPT의 RL이 좋아서 | 25-05-26 |
| PLAN-AND-ACT: Improving Planning of Agents for Long-Horizon Tasks | 계획을 세우는 PLANNER와 계획에 따라 액션을 수행하는 EXECUTER로 나누어 long-horizon task를 수행 | 인턴세미나용 | 25-05-31 |
| Black-Box Prompt Optimization: Aligning Large Language Models without Model Training (BPO) | 사람이 선호하는 답변을 분석하는 Critic-LLM, 선호하는 답변을 뱉도록 prompt를 수정하는 Refiner-LLM으로 만든 {Xusr, Xopt}를 seq2seq 모델로 학습하여 최적의 프롬프트 생성 | 인턴세미나용 | 25-06-06 |
| Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO) | 기존 방식처럼 RM 학습 후, RM으로 LM 학습시키는게 아니라 human preference data로 바로 LM을 Finetuning | 방학 논문 작성 | 25-06-09 |
| Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness (SPO) | 좀 더 세분화 된 human preference를 학습시키기 위해 기존 DPO loss에 keyward 추출 후 self-supervised learning의 loss를 더해서 업데이트 | 방학 논문 작성 | 25-06-10 |
| REFINED DIRECT PREFERENCE OPTIMIZATION WITH SYNTHETIC DATA FOR BEHAVIORAL ALIGNMENT OF LLMS | human preference data 없이 LLM의 self-critic propmting과 외부 RM으로 생성한 synthetic data로 사람과 align한 모델 학습 | 방학 논문 작성 | 25-06-17 |
| Unsupervised Elicitation of Language Models | pretrained model이 혼자서 예측한 라벨이 나머지 라벨들에 비해 얼마나 일관된지를 평가하여 최대한 일관적인 라벨링을 해 human labeling 없이 finetuning | 방학 논문 작성 | 25-06-19 |
| Deep reinforcement learning from human preferences | 강화학습에서 non-expert human preference를 반영하여 reward model을 학습시키고, reward model로 reinfocement lerning | 세미나 준비 | 25-07-03 |
| Proximal Policy Optimization Algorithms | policy를 최대한 업데이트 하면서도 발산하지 않기 위해 새로운 surrogate objective function인 PPO를 제안. clipping으로 구현이 간단하면서 general함 | 세미나 준비 | 25-07-05 |
<25년도 1학기 방학>
| 논문 제목 | 주요 내용 | 읽은 이유 | 다 읽은 날짜 |
| FLAN: Fine-tuned Language Models are Zero-shot Learners | 자연어 instruction으로 tuninig을 진행하니 unseen task에서 zero-shot 성능이 크게 증가함 | 연구실 세미나 | 25-07-09 |
| Distilling the Knowledge in a Neural Network | 큰 모델에서 작은 모델로 지식을 전달하기 위해 soft target을 활용하는 distillation을 제안 | 논문 작성을 위해 | 25-07-20 |
| Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | 모델이 정답을 바로 생성하지 않고 스스로 추론하여 생각하도록 'chain of thought'를 프롬프트에 추가하여 큰 성능 향상 | 연구실 세미나 | 25-07-23 |
| CLIP | 멀티 모달을 이해하기 위한 필수템 | ||
| BLIP1 | '' | ||
| BLIP2 | '' | ||
| DeepSeek LLM: Scaling Open-Source Language Models with Longtermism | |||
| DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | |||
<25년도 2학기>
| 논문 제목 | 주요 내용 | 읽은 이유 | 다 읽은 날짜 |
| LET'S VERIFY STEP BY STEP (ORM) | |||