摩尔线程 前天 01:01
摩尔线程URPO框架入选AAAI 2026,引领大模型对齐新方向
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

摩尔线程在人工智能领域取得重要进展,其新一代大语言模型对齐框架URPO(统一奖励与策略优化)被AAAI 2026收录。URPO创新地将“指令遵循”和“奖励评判”功能整合到单一模型中,实现同步优化。该框架统一了数据格式,通过自我奖励循环实现模型自主评分和改进,并利用协同进化机制提升生成与评判能力。实验表明,URPO显著提升了模型在指令遵循和推理能力上的表现,甚至在奖励评判方面超越了专用奖励模型。URPO框架易于工程落地,能与现有强化学习框架快速集成,为大模型训练提供了简洁高效且性能卓越的解决方案。

✨ **URPO框架创新整合“选手”与“裁判”角色**:摩尔线程提出的URPO(统一奖励与策略优化)框架,将大语言模型中的“指令遵循”(选手)和“奖励评判”(裁判)两大核心功能融合于同一模型之中,并在统一训练阶段同步优化。这种一体化设计简化了模型训练流程,突破了传统独立奖励模型的局限性,为大模型对齐提供了全新的技术路径。

🚀 **多维度数据统一与自我改进机制**:URPO框架能够将异构的偏好数据、可验证推理数据和开放式指令数据统一重构为适用于GRPO训练的信号格式。特别是在处理开放式指令时,模型能自主生成多个候选回答,并利用其内置的“裁判”角色进行评分,形成一个高效的自我奖励循环,从而驱动模型持续改进和性能提升。

📈 **协同进化驱动性能飞跃**:通过在同一批次中混合处理不同类型的数据,URPO框架实现了生成能力与评判能力的协同进化。生成能力的提升使得评判更加精准,而精准的评判反过来又能更有效地引导生成质量的跃升,打破了静态奖励模型的性能瓶颈。实验证明,URPO在指令遵循和综合推理能力测试中均取得了显著的性能提升。

🛠️ **工程落地简便且兼容性强**:URPO框架基于GRPO算法进行轻量化迭代,代码层面仅需少量补丁即可完成部署,大大降低了技术迁移和应用门槛。该框架已在摩尔线程自研计算卡上实现稳定高效运行,并深度适配了VERL等主流强化学习框架,为行业提供了兼具性能、效率与兼容性的一体化解决方案。

热爱全功能GPU的 2025-11-13 18:04 北京

摩尔线程大模型URPO框架入选AAAI 2026

近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大模型基础技术探索上迈出了关键一步,为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。

图示:URPO统一奖励与策略优化框架

在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,摩尔线程AI研究团队提出了URPO统一奖励与策略优化(Unified Reward & Policy Optimization,URPO)框架,创新地将“指令遵循”(选手)和“奖励评判”(裁判)两大角色融合于单一模型中,并在统一训练阶段实现同步优化。URPO从以下三方面攻克技术挑战:

▼ 数据格式统一:将异构的偏好数据、可验证推理数据和开放式指令数据,统一重构为适用于GRPO训练的信号格式。

▼ 自我奖励循环:针对开放式指令,模型生成多个候选回答后,自主调用其“裁判”角色进行评分,并将结果作为GRPO训练的奖励信号,形成一个高效的自我改进循环。

▼ 协同进化机制:通过在同一批次中混合处理三类数据,模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准,而精准评判进一步引导生成质量跃升,从而突破静态奖励模型的性能瓶颈。

实验结果显示,基于Qwen2.5-7B模型,URPO框架显著超越依赖独立奖励模型的传统基线:在AlpacaEval指令跟随榜单上,得分从42.24提升至44.84;在综合推理能力测试中,平均分从32.66提升至35.66。尤为突出的是,作为训练的“副产品”,该模型内部自然涌现出卓越的评判能力,在RewardBench奖励模型评测中取得85.15的高分,表现甚至优于其替代的专用奖励模型(83.55分)。

除了卓越的性能表现,URPO框架在工程落地方面同样展现出显著优势。该技术基于GRPO算法进行轻量化迭代实现,在代码层面仅需添加少量补丁即可完成部署,大幅降低了技术迁移与应用门槛。目前,URPO已在摩尔线程自研计算卡上实现稳定高效运行,充分发挥软硬件协同优化的底层优势;同时,摩尔线程已完成VERL等主流强化学习框架的深度适配,让这一简洁高效的对齐方案能快速融入现有研发体系,既保留了技术延续性,又为行业提供了兼具性能、效率与兼容性的一体化解决方案。

URPO框架的成功,是摩尔线程坚持底层技术创新、攻坚大模型核心挑战的重要成果。该研究不仅提供了一种更简洁、高效、性能更强的对齐方案,更通过“选手-裁判”一体化的设计,为大模型实现持续自我进化开辟了新路径。未来,摩尔线程将继续深耕大模型等前沿技术领域,以坚实的创新成果推动人工智能产业实现跨越式发展。

▼  关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

更多信息,请长按二维码关注了解

推荐阅读

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

摩尔线程 URPO 大模型 AI AAAI 模型对齐 强化学习 Moore Threads LLM AI Alignment Reinforcement Learning
相关文章