공지사항

논문 기록

2025. 6. 11. 22:57

kyj0015

기록용 블로그

kyj0015

전체

오늘

어제

검색

분류 전체보기 (103)

블로그 메뉴

홈
태그
방명록

공지사항

논문 기록

최근 댓글

최근 글

hELLO · Designed By 정상우.

논문 기록

상단으로

논문 제목	주요 내용	읽은 이유	다 읽은 날짜
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	transformer의 Encoder만 쌓아서 만든 Bidirectional 모델로 이해력이 뛰어난 BERT 제안	인턴 세미나 발표 1차	24-07-15
Training Compute-Optimal Large Language Models	모델의 크기와 학습 데이터의 양과 최적의 비율이 있음	인턴 세미나 발표 2차	24-08-12
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models	prompt에 차례대로 생각하라고 넣어주면 모델의 성능이 좋아짐	연구실 세미나 발표 1차	25-02-03
Towards Conversational Diagnostic AI	Agent끼리 만든 의료 대화 데이터로 학습하여 실제 의료인과 같은 성능 달성	연구실 세미나 발표 2차	25-02-24
휴가

논문 제목	주요 내용	읽은 이유	다 읽은 날짜
Attention Is All You Need	self-attention으로 transformer 모델 제안	자연어처리의 가장 기초적인 논문이라해서 복습 겸	25-03-31
RoBERTa: A Robustly Optimized BERT Pretraining Approach	BERT는 under-training 되어있으며 NSP 제거하고 dynamic masking으로 오래 학습	인턴 논문 스터디 2차	25-04-05
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations	NSP 제거, SOP, embedding vector factorization, cress-layer parameter sharing으로 작은 모델로도 BERT와 유사한 성능	인턴 논문 스터디 2차	25-04-06
Parameter-Efficient Transfer Learning for NLP (Adapter)	Adapter (Bottleneck 구조)를 제안하여 적은 파라미터로도 유사한 성능	인턴 논문 스터디 3차	25-04-15
Playing Atari with Deep Reinforcement Learning	Experience Replay와 target 함수와 학습 함수의 교환하는 방식으로 강화학습에 딥러닝을 접목	강화학습의 기초 논문이라서	25-04-20
It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners	Classification task를 Cloze question으로 변형시켜서 SLM도 Few-shot Learners로 사용할 수 있음	P-Tuning v1의 비교 대상으로 나와서	25-04-30
Prefix-Tuning: Optimizing Continuous Prompts for Generation	각 층마다 Input 앞에 Prefix라는 벡터를 붙여서 각 downstream task마다 0.1%의 파라미터만 학습하여 Full-FT와 유사한 성능	P-Tuning v1 이해하려고	25-05-02
GPT Understands, Too	manual prompt에 continual prompt를 결합해서 continual 부분만 학습시킨 prompt를 input으로	P-Tuning v1 이해 완	25-05-06
Improving Language Understanding by Generative Pre-Training	Transformer의 Decoder block만 쌓고 pretraining 후 adaptation layer를 finetuning함	GPT의 시작	25-05-11
Language Models are Unsupervised Multitask Learners	GPT-1 모델의 크기와 pretraining 데이터의 양을 늘리니 prompt를 잘 작성하는 것 (zero-shot)만으로도 높은 성능 달성	few-shot, scaling law 등 이후 연구의 시작	25-05-11
Language Models are Few-Shot Learners	GPT-2의 모델 사이즈와 데이터를 더 키우고 instruction-tuning을 사용하여 여러 task에서 학습 없이 높은 성능 달성	prompting의 시작	25-05-12
FINETUNED LANGUAGE MODELS ARE ZERO-SHOTLEARNERS	GPT-3보다 작은 모델을 Instruction tuning하여 unseen task에서도 general한 zero-shot 성능을 보임	Instruction tuning의 시작	25-05-12
Dense Passage Retrieval for Open-Domain Question Answering	question의 정답 문서 p+는 가깝게, 틀린 문서 p-는 멀도록 dense vector representation으로 나타냄	RAG의 비교 모델	25-05-20
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks	문서를 dense vector representation으로 나타내서 유사도 (내적)을 구해 유사한 문서를 뽑아옴만으로 높은 성능 향상	RAG의 시작	25-05-22
Training language models to follow instructions with human feedback	사람의 라벨링 데이터로 RM을 학습시켜서 리워드 바탕으로 GPT-3 -> SFT -> PPO 순으로 사용자 친화적인 모델 학습	ChatGPT의 RL이 좋아서	25-05-26
PLAN-AND-ACT: Improving Planning of Agents for Long-Horizon Tasks	계획을 세우는 PLANNER와 계획에 따라 액션을 수행하는 EXECUTER로 나누어 long-horizon task를 수행	인턴세미나용	25-05-31
Black-Box Prompt Optimization: Aligning Large Language Models without Model Training (BPO)	사람이 선호하는 답변을 분석하는 Critic-LLM, 선호하는 답변을 뱉도록 prompt를 수정하는 Refiner-LLM으로 만든 {Xusr, Xopt}를 seq2seq 모델로 학습하여 최적의 프롬프트 생성	인턴세미나용	25-06-06
Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)	기존 방식처럼 RM 학습 후, RM으로 LM 학습시키는게 아니라 human preference data로 바로 LM을 Finetuning	방학 논문 작성	25-06-09
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness (SPO)	좀 더 세분화 된 human preference를 학습시키기 위해 기존 DPO loss에 keyward 추출 후 self-supervised learning의 loss를 더해서 업데이트	방학 논문 작성	25-06-10
REFINED DIRECT PREFERENCE OPTIMIZATION WITH SYNTHETIC DATA FOR BEHAVIORAL ALIGNMENT OF LLMS	human preference data 없이 LLM의 self-critic propmting과 외부 RM으로 생성한 synthetic data로 사람과 align한 모델 학습	방학 논문 작성	25-06-17
Unsupervised Elicitation of Language Models	pretrained model이 혼자서 예측한 라벨이 나머지 라벨들에 비해 얼마나 일관된지를 평가하여 최대한 일관적인 라벨링을 해 human labeling 없이 finetuning	방학 논문 작성	25-06-19
Deep reinforcement learning from human preferences	강화학습에서 non-expert human preference를 반영하여 reward model을 학습시키고, reward model로 reinfocement lerning	세미나 준비	25-07-03
Proximal Policy Optimization Algorithms	policy를 최대한 업데이트 하면서도 발산하지 않기 위해 새로운 surrogate objective function인 PPO를 제안. clipping으로 구현이 간단하면서 general함	세미나 준비	25-07-05

논문 제목	주요 내용	읽은 이유	다 읽은 날짜
FLAN: Fine-tuned Language Models are Zero-shot Learners	자연어 instruction으로 tuninig을 진행하니 unseen task에서 zero-shot 성능이 크게 증가함	연구실 세미나	25-07-09
Distilling the Knowledge in a Neural Network	큰 모델에서 작은 모델로 지식을 전달하기 위해 soft target을 활용하는 distillation을 제안	논문 작성을 위해	25-07-20
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models	모델이 정답을 바로 생성하지 않고 스스로 추론하여 생각하도록 'chain of thought'를 프롬프트에 추가하여 큰 성능 향상	연구실 세미나	25-07-23

CLIP		멀티 모달을 이해하기 위한 필수템
BLIP1		''
BLIP2		''
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

논문 제목	주요 내용	읽은 이유	다 읽은 날짜
LET'S VERIFY STEP BY STEP (ORM)

티스토리툴바