index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
Thinking Machines Lab最新研究《On-Policy Distillation》提出了一种全新的AI训练方式,旨在解决传统AI训练方法(如模仿学习和RLHF)的局限性。该方法借鉴了人类学习过程中“边写边教”的经验,让模型在自身生成的轨迹上进行实时指导和动态优化,而非仅仅模仿现有样本。通过将反馈粒度细化到每个token,实现了“密集监督”,显著提升了学习效率和模型稳定性。这项研究不仅在数学基准测试中取得了优于传统方法的性能,更重要的是,它标志着AI学习方式从“模仿”向“反思”的哲学转折,为“自我改进型智能体”的实现奠定了基础,预示着AI智能的下一次觉醒。
💡 **AI学习新思路:从“模仿”到“实践式优化”**
传统AI训练常采用模仿学习(SFT)和人类反馈强化学习(RLHF),前者易导致“死记硬背”,后者则可能导致模型在探索中冒进。On-Policy Distillation借鉴人类“边写边教”的学习模式,让模型在自身生成的“轨迹”上进行实时指导和动态优化,促使模型学习“如何到达理想答案”,而非仅仅模仿现有答案,从而实现更自然的学习。
🚀 **核心创新:细化反馈,实现“密集监督”**
与RLHF仅在生成完整答案后给予整体反馈不同,On-Policy Distillation将反馈粒度缩小至每个token(词或字),如同作文老师逐句标注。这种“密集监督”方式极大地提高了AI的学习效率,让模型能更精细地理解和调整其思考过程,从而加速模型迭代和优化。
📈 **显著优势:性能提升与训练优化**
通过On-Policy Distillation训练的模型,在AIME’24数学基准测试等任务上展现出超越传统RLHF模型的性能。同时,该方法还能降低算力需求,提高训练的稳定性,并使结果更具可复现性,为AI模型的训练带来了更高效、经济且可靠的解决方案。
🤔 **哲学意义:AI智能的“自我改进”与“反思”**
该研究标志着AI学习方式的一次哲学转折,从依赖外部数据“模仿”转向强调AI对自身行为的“反思”与“改进”。它为实现“自我改进型智能体”(self-improving agent)提供了可行路径,预示着AI可能不再只是被动学习者,而是能够主动打磨自身能力,变得越来越智能,实现“智能的第二次觉醒”。
大模型机动组 2025-10-29 10:22 北京
解读 Thinking Machines Lab 最新研究《On-Policy Distillation》

想象一下,你在教一个学生写作文。
传统做法是:你给他十篇范文,让他照着学。
这叫“模仿学习”。
但很快你发现——当他真正面对一个没见过的题目时,立刻就懵了。
于是你换了种方法。让他自己写,然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。
这种“边写边教”的方式,更像真正的学习。
这,正是 Thinking Machines Lab 最新研究《On-Policy Distillation》的核心灵感所在。(原文链接:https://thinkingmachines.ai/blog/on-policy-distillation/)它提出了一种全新的 AI 训练方式——让模型在“自己行动”的轨迹上,被实时指导、被动态优化。
这听起来简单,却可能改写整个大模型的训练范式。
一、为什么是他们:从 OpenAI 走出的“思考机器” Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)离职后创办的新实验室。
她和团队成员 John Schulman、Barret Zoph 都是推动 ChatGPT 与强化学习革命的关键人物。
他们的研究方向有一个共同点:让模型更懂得“如何学习”。
这篇论文的作者 Kevin Lu、John Schulman、Horace He 等人,延续了他们在 RLHF(人类反馈强化学习)和蒸馏训练上的积累。
他们在问一个根本问题——“AI的学习方式是不是错了?”
二、旧方法的瓶颈:AI其实是在“死记硬背” 当我们说“训练一个大模型”,其实是两步:
让模型看大量人类写的文本(称为 SFT:监督微调)。
再通过 RLHF(强化学习)让它学会“人类喜欢的回答方式”。
问题在于——这两步并不协调。
SFT 教的是“模仿旧答案”;RLHF 强调“探索新答案”。
前者像“死记硬背”,后者像“自我实践”。
模型经常在两者之间摇摆:要么过度顺从人类样本,要么冒进地乱试。
三、新方法:让模型“边干边学”Thinking Machines Lab 提出的 On-Policy Distillation(政策内蒸馏),是想把这两种学习方式“融合”成一种更自然的状态。
传统蒸馏(Distillation)是:
老师(大模型)写出一份完美答案,学生照着学。
而他们的新方法是:
学生自己先写一遍,老师实时给出每一步的分数、建议、改进方向。
这个过程在强化学习里叫 On-Policy——模型在“自己生成的轨迹”上学习,而不是在别人给的现成答案上学习。
于是,模型学到的不再是“理想的句子”,而是“如何自己到达理想的句子”。
可以把它理解为:不再教模型“结论”,而是教它“思考的路径”。
四、核心创新:从“奖励”到“打分”RLHF 的本质是“奖励”(Reward):模型生成一整段答案,评审模型给它一个分。
但这有个问题——只有整段结束后才能反馈,太慢了。
On-Policy Distillation 把反馈粒度缩小到“每个token”(每一个生成的字词)。
就像作文老师不再只给你打总分,而是逐句标注“这里句式优美👍”“这里逻辑混乱👎”。
这种“密集监督”(dense supervision)方式让学习效率成倍提升。
论文作者形象地称之为“用微镜头监督AI的思考过程”。
五、结果:更快、更稳、更便宜他们用这个方法训练模型后,在 AIME’24 数学基准测试上,性能超过了传统 RLHF 模型。
同时算力需求更低、训练更稳定、结果更可复现。
一句话总结就是:以前我们靠“惩罚与奖励”教AI做人,现在我们靠“示范与纠错”教AI成长。
六、为什么重要:AI 训练的“学习论转向”在更宏观的层面,这篇论文揭示的是 AI学习方式的哲学转折。
过去几年我们用海量数据喂模型,希望它靠统计规律“模仿人类”。但 Thinking Machines 团队认为,真正的智能不在模仿,而在于反思自己的行为。
“On-Policy Distillation” 让 AI 有机会在自己的轨迹上打磨自己——
这让“自我改进型智能体”(self-improving agent)成为现实的一步。
未来,当你的AI助手能在每天的任务中积累经验、吸收教训、变得越来越懂你,也许正是这种“on-policy”学习在默默起作用。
七、所以呢?在AI训练的世界里,思维方式的改变往往比算力更值钱。
Thinking Machines Lab 的这篇论文不是在造一个更大的模型,而是在重新定义“学习”这件事的意义。
当AI开始自己教自己,我们也许正见证着“智能的第二次觉醒”——第一次是机器学会说话,第二次,是它学会思考“我为什么这么说”。
整理:周华香
![]()
点个“爱心”,再走吧
阅读原文
跳转微信打开