硅星GenAI 10月28日 21:33
大模型训练新范式:On-Policy Distillation
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Thinking Machines Lab 研究提出名为“On-Policy Distillation”的大模型训练新方法,旨在革新AI学习方式。该方法借鉴人类学习经验,从传统的“模仿学习”和“死记硬背”转变为“边干边学”的实时指导与动态优化。核心在于将反馈粒度细化到每个token(字词),实现“密集监督”,而非仅对整段回答进行评分。这种“政策内蒸馏”在模型自身生成的轨迹上进行优化,让模型学习如何到达理想答案,而非仅仅模仿现有答案。实验结果显示,该方法在数学基准测试中性能优于传统RLHF模型,且训练更稳定、成本更低,标志着AI训练从“奖励”到“示范与纠错”的转变,预示着AI自我改进能力的提升。

💡 新的训练范式“On-Policy Distillation”:该方法的核心在于让大模型在“自己生成内容”的轨迹上进行实时指导和动态优化,而非仅依赖于预设的范文或事后反馈。这种“边干边学”的方式更贴近人类的学习过程,旨在提升模型的实际解决问题能力。

🎯 细化反馈粒度至Token级别:与传统RLHF仅对完整回答进行奖励不同,On-Policy Distillation将反馈细化到每一个token(字词)的生成过程。这种“密集监督”极大地提高了学习效率,使模型能够更精确地理解每一步的优劣,从而加速其思考和表达能力的提升。

🚀 提升训练效率与稳定性:研究表明,On-Policy Distillation在数学基准测试中取得了优于传统RLHF模型的性能,并且在计算资源需求、训练稳定性和结果可复现性方面均有显著优势。这为更高效、更经济地训练高性能大模型提供了新的可能。

🧠 AI学习方式的哲学转变:该研究不仅是技术上的突破,更代表了AI学习理念的深刻转变。它强调AI应从“死记硬背”走向“自我反思”和“自我改进”,通过在自身行为轨迹上进行打磨,逐步实现“自我改进型智能体”的潜力,预示着AI可能进入“思考”的新阶段。

原创 大模型机动组 2025-10-28 20:34 北京

解读 Thinking Machines Lab 最新研究《On-Policy Distillation》。

想象一下,你在教一个学生写作文。

传统做法是:你给他十篇范文,让他照着学。

这叫“模仿学习”。

但很快你发现——当他真正面对一个没见过的题目时,立刻就懵了。

于是你换了种方法。让他自己写,然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。

这种“边写边教”的方式,更像真正的学习。

这,正是 Thinking Machines Lab 最新研究《On-Policy Distillation》的核心灵感所在。(原文链接:https://thinkingmachines.ai/blog/on-policy-distillation/)它提出了一种全新的 AI 训练方式——让模型在“自己行动”的轨迹上,被实时指导、被动态优化。这听起来简单,却可能改写整个大模型的训练范式。

一、为什么是他们:从 OpenAI 走出的“思考机器”

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)离职后创办的新实验室。她和团队成员 John Schulman、Barret Zoph 都是推动 ChatGPT 与强化学习革命的关键人物。他们的研究方向有一个共同点:让模型更懂得“如何学习”

这篇论文的作者 Kevin Lu、John Schulman、Horace He 等人,延续了他们在 RLHF(人类反馈强化学习)和蒸馏训练上的积累。

他们在问一个根本问题——

“AI的学习方式是不是错了?”

二、旧方法的瓶颈:AI其实是在“死记硬背”

当我们说“训练一个大模型”,其实是两步:

让模型看大量人类写的文本(称为 SFT:监督微调)。

再通过 RLHF(强化学习)让它学会“人类喜欢的回答方式”。

问题在于——这两步并不协调。

SFT 教的是“模仿旧答案”;RLHF 强调“探索新答案”。

前者像“死记硬背”,后者像“自我实践”。

模型经常在两者之间摇摆:要么过度顺从人类样本,要么冒进地乱试。

三、新方法:让模型“边干边学”

Thinking Machines Lab 提出的 On-Policy Distillation(政策内蒸馏)是想把这两种学习方式“融合”成一种更自然的状态。

传统蒸馏(Distillation)是:

老师(大模型)写出一份完美答案,学生照着学。

而他们的新方法是:

学生自己先写一遍,老师实时给出每一步的分数、建议、改进方向。

这个过程在强化学习里叫 On-Policy——模型在“自己生成的轨迹”上学习,而不是在别人给的现成答案上学习。于是,模型学到的不再是“理想的句子”,而是“如何自己到达理想的句子”。

可以把它理解为:

不再教模型“结论”,而是教它“思考的路径”。

四、核心创新:从“奖励”到“打分”

RLHF 的本质是“奖励”(Reward):模型生成一整段答案,评审模型给它一个分。

但这有个问题——只有整段结束后才能反馈,太慢了。

On-Policy Distillation 把反馈粒度缩小到“每个token”(每一个生成的字词)。就像作文老师不再只给你打总分,而是逐句标注“这里句式优美👍”“这里逻辑混乱👎”。这种“密集监督”(dense supervision)方式让学习效率成倍提升。

论文作者形象地称之为“用微镜头监督AI的思考过程”。

五、结果:更快、更稳、更便宜

他们用这个方法训练模型后,

在 AIME’24 数学基准测试上,性能超过了传统 RLHF 模型。

同时算力需求更低、训练更稳定、结果更可复现。

一句话总结就是:

以前我们靠“惩罚与奖励”教AI做人,现在我们靠“示范与纠错”教AI成长。

六、为什么重要:AI 训练的“学习论转向”

在更宏观的层面,这篇论文揭示的是 AI学习方式的哲学转折过去几年我们用海量数据喂模型,希望它靠统计规律“模仿人类”。但 Thinking Machines 团队认为,真正的智能不在模仿,而在于反思自己的行为

“On-Policy Distillation” 让 AI 有机会在自己的轨迹上打磨自己——

这让“自我改进型智能体”(self-improving agent)成为现实的一步。

未来,当你的AI助手能在每天的任务中积累经验、吸收教训、变得越来越懂你,

也许正是这种“on-policy”学习在默默起作用。

七、所以呢?

在AI训练的世界里,思维方式的改变往往比算力更值钱Thinking Machines Lab 的这篇论文不是在造一个更大的模型,而是在重新定义“学习”这件事的意义。

当AI开始自己教自己,

我们也许正见证着“智能的第二次觉醒”——

第一次是机器学会说话,

第二次,是它学会思考“我为什么这么说”。

整理:周华香

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

On-Policy Distillation 大模型训练 AI学习 强化学习 Thinking Machines Lab LLM Training AI Learning Reinforcement Learning
相关文章