名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」-新糖宝胶囊官方网站

本文由清华大学 THUNLP 实验室联合上海科技大学、伊利诺伊大学厄巴纳-香槟分校、中国人民大学等多家机构研究者合作完成。

蒸馏的免费午餐，真的好吃吗？

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

但如果你亲手跑过 OPD，你可能会遇到一个反直觉现象：为什么我换了一个更强的 Teacher，Student 的性能反而毫无提升，甚至出现了倒退？

大模型时代的蒸馏，早就不是简单的「大力出奇迹」了。

清华大学团队最新的一项研究，系统性地解剖了 On-Policy 蒸馏的黑箱。这篇论文不仅揭示了决定蒸馏成败的两大先决条件，还深挖了 Token 级别的对齐机制，并给出了拯救失败蒸馏的实用配方。

发布时间：2026-05-14 15:00

上一篇:
Q2优爱腾长剧，何以满血回“夯”？
下一篇:
香港楼市全面回暖料住宅楼价今年升一成

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

蒸馏的免费午餐，真的好吃吗？

Q2优爱腾长剧，何以满血回“夯”？

香港楼市全面回暖 料住宅楼价今年升一成

香港楼市全面回暖料住宅楼价今年升一成