Distilling the Knowledge in a Neural Network 논문 리뷰

2025. 7. 20. 00:13

Chain-of-Thought Prompting Elicits Reasoningin Large Language Models (2)	2025.07.23
FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS 리뷰 (3)	2025.07.20
Unsupervised Elicitation of Language Models 논문 리뷰 (0)	2025.06.19
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs 리뷰 (0)	2025.06.15
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness 리뷰 (1)	2025.06.11

Background