原创 大模型机动组 2025-10-28 20:34 北京
解读 Thinking Machines Lab 最新研究《On-Policy Distillation》。
一、为什么是他们:从 OpenAI 走出的“思考机器”
Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)离职后创办的新实验室。她和团队成员 John Schulman、Barret Zoph 都是推动 ChatGPT 与强化学习革命的关键人物。他们的研究方向有一个共同点:让模型更懂得“如何学习”。这篇论文的作者 Kevin Lu、John Schulman、Horace He 等人,延续了他们在 RLHF(人类反馈强化学习)和蒸馏训练上的积累。他们在问一个根本问题——“AI的学习方式是不是错了?”二、旧方法的瓶颈:AI其实是在“死记硬背”
当我们说“训练一个大模型”,其实是两步:让模型看大量人类写的文本(称为 SFT:监督微调)。再通过 RLHF(强化学习)让它学会“人类喜欢的回答方式”。问题在于——这两步并不协调。SFT 教的是“模仿旧答案”;RLHF 强调“探索新答案”。前者像“死记硬背”,后者像“自我实践”。模型经常在两者之间摇摆:要么过度顺从人类样本,要么冒进地乱试。三、新方法:让模型“边干边学”
Thinking Machines Lab 提出的 On-Policy Distillation(政策内蒸馏),是想把这两种学习方式“融合”成一种更自然的状态。传统蒸馏(Distillation)是:老师(大模型)写出一份完美答案,学生照着学。而他们的新方法是:学生自己先写一遍,老师实时给出每一步的分数、建议、改进方向。这个过程在强化学习里叫 On-Policy——模型在“自己生成的轨迹”上学习,而不是在别人给的现成答案上学习。于是,模型学到的不再是“理想的句子”,而是“如何自己到达理想的句子”。可以把它理解为:不再教模型“结论”,而是教它“思考的路径”。四、核心创新:从“奖励”到“打分”
RLHF 的本质是“奖励”(Reward):模型生成一整段答案,评审模型给它一个分。但这有个问题——只有整段结束后才能反馈,太慢了。On-Policy Distillation 把反馈粒度缩小到“每个token”(每一个生成的字词)。就像作文老师不再只给你打总分,而是逐句标注“这里句式优美👍”“这里逻辑混乱👎”。这种“密集监督”(dense supervision)方式让学习效率成倍提升。论文作者形象地称之为“用微镜头监督AI的思考过程”。五、结果:更快、更稳、更便宜
他们用这个方法训练模型后,在 AIME’24 数学基准测试上,性能超过了传统 RLHF 模型。同时算力需求更低、训练更稳定、结果更可复现。一句话总结就是:以前我们靠“惩罚与奖励”教AI做人,现在我们靠“示范与纠错”教AI成长。六、为什么重要:AI 训练的“学习论转向”
在更宏观的层面,这篇论文揭示的是 AI学习方式的哲学转折。过去几年我们用海量数据喂模型,希望它靠统计规律“模仿人类”。但 Thinking Machines 团队认为,真正的智能不在模仿,而在于反思自己的行为。“On-Policy Distillation” 让 AI 有机会在自己的轨迹上打磨自己——这让“自我改进型智能体”(self-improving agent)成为现实的一步。未来,当你的AI助手能在每天的任务中积累经验、吸收教训、变得越来越懂你,也许正是这种“on-policy”学习在默默起作用。七、所以呢?
在AI训练的世界里,思维方式的改变往往比算力更值钱。Thinking Machines Lab 的这篇论文不是在造一个更大的模型,而是在重新定义“学习”这件事的意义。当AI开始自己教自己,我们也许正见证着“智能的第二次觉醒”——第一次是机器学会说话,第二次,是它学会思考“我为什么这么说”。整理:周华香
