index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
理想汽车基座模型团队提出RuscaRL框架,借鉴教育心理学“脚手架”理论,解决大模型强化学习中的探索瓶颈。该框架通过显性脚手架(Explicit Scaffolding)和可验证奖励(Verifiable Rewards)机制,为模型提供结构化引导,逐步减少依赖,以提升泛化能力和推理效率。RuscaRL旨在让模型在更广泛、非客观量化的场景中获取高质量反馈,实现自我进化,并已应用于MindGPT和MindVLA等模型研发中。此方法被认为是对现有RL框架的创新性应用,而非基础理论的颠覆。
💡 **教育心理学理论赋能AI:** RuscaRL框架创新性地引入了教育心理学中的“脚手架”理论,为大语言模型(LLM)的强化学习提供了结构化的外部支持。其核心思想是通过逐步引导和支持,帮助模型克服在复杂、非客观场景下的学习和推理瓶颈,并随着模型能力的提升逐渐减少外部干预,促进其独立学习和泛化能力的提升。
🚀 **显性脚手架与可验证奖励机制:** 该框架通过“显性脚手架”(Explicit Scaffolding)在任务执行时提供带有评价标准的检查表(rubrics)作为指导,帮助模型生成更高效、多样化的响应。同时,“可验证奖励”(Verifiable Rewards)机制利用LLM作为裁判,根据检查表对模型回答进行多维度评分,生成稳定且可信的奖励信号,从而增强训练的有效性和一致性。
🌐 **泛化能力与自我进化探索:** RuscaRL旨在解决大模型在更广泛、结果不易准确量化场景下获取高质量反馈的关键问题,从而提升模型泛化能力。通过提升模型的探索空间和智能上限,该框架为面向未来模型自我进化的智能体强化学习提供了一条有前景的路线,其影响有望惠及面向数字世界(如MindGPT)和物理世界(如MindVLA)的未来强化学习路线。
原创 理想TOP2 2025-10-03 17:54 四川

理想基座模型团队近期在思考的一部分问题与判断是:认为强化学习是大模型智能提升的关键前提下,如何让模型和更广泛的环境交互,获取高质量的反馈?判断RLHF(人类反馈强化学习)、RLAIF(AI反馈强化学习)、RLVR(可验证奖励强化学习)等强化学习技术路线,认为“如何让模型面对更广泛的问题实现能力泛化?”是关键问题,对这个关键问题的拆接事奖励函数是否在更多非客观且结果可准确量化的场景。其中业界认可强化学习是大模型智能提升的关键来自OpnAI o1,李想在o1推出前几个月下了同样的判断。“AI之后关键的问题是什么?”这是一个很复杂的问题,参考数学史物理学史,建议读者充分批判性看待任何一位曾经正确下过非共识观点的AI大牛的观点。可以确定的是李想及其理想团队已经具备第一时间深刻学习AI最新动态的能力,能否多次在这个基础上做出关键的且正确的判断有待持续观察。(在未来的几年内,其实这事归根到底就是信不信李想有这个判断水平与执行力,目前信马斯克有这个判断水平与执行力的人显著更多。)RuscaRL是理想面对大语言模型强化学习探索瓶颈恶性循环,无法探索的内容便无法被有效学习给出的一套解决方案。核心思路是将教育心理学的脚手架理论AI化,脚手架的核心思想是学习者的能力不足时,通过结构化的外部支持(例如逐步引导)帮助其逐步掌握新技能,并随着能力的提升逐渐减少支持,从而促进独立学习。无论是MindGPT还是MindVLA,一个面向数字世界,一个面向物理世界,未来的强化学习路线都有机会因RuscaRL而获益,基于此理想基座模型负责人陈伟觉得这是最近他自己很满意的一个工作。理想团队看到的是面向未来实现模型自我进化的一个很好的路线,智能体强化学习目前看关键问题已经不是解决单点的算法问题,更多是算法和infra融合的体系性问题解决,创新往往来自于体系能力的建设,因为人的计划都不是看个体发展的,也要看他所处的环境,以及接受训练的方法,这些在ruscaRL都能看到。
以下为更详细论述:理想基座模型负责人陈伟:我们最近有一篇论文已经挂在网上了,是基座这边最新的RL研究,基于量规学习的RL能力 https://arxiv.org/abs/2508.16949,这篇论文我觉得是我们最近RL上很不错的工作,也正在我们内部模型研发过程中应用。TOP2:陈伟老师,我初定文章标题是《全面解析理想RuscaRL为什么是一份高质量工作》,想听听您的意见。文章大纲初定:1.为什么是高水准工作 2做了啥(这个我比较有思路)3.对理想有什么帮助关于第1点,我想的是分几个方面,评析他相当于什么水准的工作,不如什么水准的工作,是什么维度,类似我之前写的说VLA相当于deepseek MoE级别的工作,不如MLA水平。我认为这样比只说好话能够更好的让人信服。类比英伟达Eureka水准的工作arxiv:https://arxiv.org/abs/2310.12931,两者都未发明全新的RL更新算法(如PPO, DPO),而是创建了一个元框架(Meta-Framework)。Eureka用LLM的代码能力和演化算法解决了最难的奖励设计问题;RuscaRL用教育心理学的支架理论和Rubric解决了最难的有效探索问题。两者都是用外部的、结构化的知识来引导和优化RL流程。不如DPO的工作,不如的点是DPO通过深刻的数学推导,从根本上改变了RLHF的优化范式,将复杂的RL问题简化为监督学习问题,这是基础理论层面的突破。而RuscaRL是在现有RL框架内,通过创新的概念和工程设计来解决问题,其贡献更偏向于框架创新和应用成效,而非基础理论的重塑。不知道关于相当于什么水准工作,不如什么水准工作您有没更好的参考系。以及就是对理想帮助这块。理想基座模型负责人陈伟:我建议这个标题,先不要明确是不是高质量工作,强化学习近期的技术发展很快,是否是高质量有待验证哈。我觉得高水平的工作,取决于三点:1.是否在探索一个前景很大但是不成熟的领域2.是否找到了这个领域明确的问题3.是否建立了比较创新且可应用的方法结合RuscaRL的工作,我觉得对应来看:1.现在RL技术已经是大模型智能提升的关键,RL目前面临的问题是如何让模型和更广泛的环境交互,获取高质量的反馈实现进化,从RLHF、RLAIF、RLVR等RL技术演进看,如何让模型面对更广泛的问题实现能力泛化很重要,关键问题是奖励函数Reward Model是否在更多非客观且结果可准确量化的场景。2.这个场景下,Rubrics量规学习RaR(Rubrics as Reward)是一个可行的方法,但是如何实现rubrics的高质量定义是个问题,我们在解决这个问题,同时如何将这个方法更好的应用到RL,也是一个问题。3.我们构建了一套基于Rubircs的强化学习系统,引用了教育心理学的脚手架理论,提升了量规学习的效率和质量,打开了强化学习探索的空间,提升了智能的上限。我觉得无论是MindGPT还是MindVLA,一个面向数字世界,一个面向物理世界,未来的强化学习路线都有机会因为这个技术而获益,因此我觉得这是最近我自己很满意的一个工作。因为我们看到的是面向未来实现模型自我进化的一个很好的路线,智能体强化学习目前看关键问题已经不是解决单点的算法问题,更多是算法和infra融合的体系性问题解决,创新往往来自于体系能力的建设,因为人的计划都不是看个体发展的,也要看他所处的环境,以及接受训练的方法,这些在ruscaRL都能看到。补充说明:TOP2认为,一个人能在自己很满意,很不错的工作前提下,建议不要使用高质量来描述工作成果既非常诚实,也对自己非常高要求。25年8月23日理想发布Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
南洋理工的Shunyu Liu为通讯作者。浙大为第一单位,理想为第二单位,南洋理工为第三单位,港中深为第四单位,浙大城院为第五单位。这篇论文核心讲的是RuscaRL(Rubric-Scaffolded Reinforcement Learning)框架,scaffolding是教育心理学中的脚手架理论,旨在通过结构化的外部支持打破大语言模型(LLM)推理能力的探索瓶颈(exploration bottleneck)。使用rubrics(检查表)提供逐步的引导,并在训练过程中减少对外部支持的依赖,从而提高模型的推理能力。RuscaRL通过两个主要机制来实现:显性脚手架(Explicit Scaffolding):通过为每个任务提供带有检查表的指导,帮助模型在生成响应时更加高效和多样。 可验证奖励(Verifiable Rewards):通过基于检查表的标准对模型的回答进行评估,为强化学习提供更加稳健的奖励信号。 显性脚手架机制(Explicit Scaffolding)任务引导:每次任务指令都会伴随不同的rubrics,rubrics列出了不同的评价标准和评分系统(如逻辑性、完整性、准确性等)。在模型生成答案时,rubrics作为外部指导来帮助模型生成不同维度的高质量响应。 组内差异化(Intra-Group Scaffolding Differentiation):在多采样的情况下,例如使用GRPO算法时,框架会为每个采样提供不同程度的rubrics支持,从而促进多样化的答案生成。某些样本得到强支持,而其他样本则得到较少的引导,最终提升样本之间的多样性。 跨步退化(Inter-Step Scaffolding Decay):随着模型推理能力的提高,rubrics的支持会逐渐减少。具体来说,随着训练进度,rubrics的指导比例逐渐减少,以帮助模型逐步过渡到独立推理。这里采用的退化机制通常基于一个sigmoid函数,在初期提供较强的支持,而在后期逐步减少支持,从而避免模型过度依赖外部指导。 可验证奖励机制(Verifiable Rewards)在强化学习的训练中,RuscaRL通过rubrics设计可验证的奖励,这使得模型在训练过程中获得更稳定且可信的反馈信号:多维度评分:每个模型的响应会根据rubrics中的多个标准进行评估。每个标准(如逻辑性、完整性等)都会产生一个二进制的评判(是否满足标准),并赋予相应的分值。通过这些分值的加权平均,生成一个综合的奖励信号。 LLM-as-a-Judge:为了评估每个标准,RuscaRL使用LLM作为评分器,通过分析模型生成的回答与rubrics中的标准进行匹配,输出“真”或“假”的评判。所有评判结果结合加权后,形成最终的奖励信号。 通过这些可验证奖励,RuscaRL不仅能增强探索的多样性,还能保证在训练过程中,模型在不同任务中学到的知识具备一定的稳定性和一致性。潜在瓶颈:对rubrics(检查表)质量要求很高,目前rubrics主要靠人工设计。另外由于需要多次采样、复杂的rubrics评估和较长时间的渐进式训练,RuscaRL的训练量和计算开销相对较大。加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,不是车友群。 阅读原文
跳转微信打开