蚂蚁集团开源万亿参数思考模型Ring-1T

最新-新浪科技科学探索 10月14日 19:41

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

蚂蚁集团正式推出并开源万亿参数思考模型Ring-1T，基于预览版持续扩展RLVR训练，提升自然语言推理能力。Ring-1T在IMO2025赛题中表现优异，仅用一次解出多道难题，相当于银牌水平。模型采用自研“冰棍”算法解决训推精度差异问题，并使用ASystem优化显存管理。Ring-1T基于Ling 2.0架构，具备复杂推理和通用能力，用户可通过HuggingFace等平台获取。

🔍 蚂蚁集团开源了万亿参数思考模型Ring-1T，该模型在预览版基础上通过扩展大规模可验证奖励强化学习（RLVR）训练，显著提升了自然语言推理能力。

🏅 在国际数学奥赛IMO2025中，Ring-1T表现突出，仅用一次尝试就成功解出了第1、3、4、5题，达到了银牌水平，成为首个能获得IMO国际奥数奖的开源系统。

🧊 为解决万亿参数模型训练中常见的训推精度差异问题，蚂蚁团队自研了‘冰棍（icepop）’算法，该算法通过带掩码的双向截断技术将训练与推理分布差异冻结在低水位，确保了长序列、长周期训练的稳定性。

🔧 针对万亿参数模型的强化学习训练，蚂蚁还自研了高性能强化学习系统ASystem，其中包含开源的高性能强化学习框架AReaL，针对显存管理和训推权重交换进行了精细优化，实现了单机显存碎片秒级回收和权重零冗余交换，使大规模RL训练更加稳定高效。

🚀 Ring-1T模型基于Ling 2.0架构的1T base模型进行后训练，Ling 2.0架构采用了高度稀疏的MoE架构、1/32的专家激活比、FP8混合精度、MTP等特性，实现了高效训练与推理。通过LongCoT-SFT + RLVR + RLHF的多阶段训练，模型在复杂推理能力以及指令跟随和创意写作等通用能力上得到了显著提升。

快科技10月14日消息，今日凌晨，蚂蚁集团正式推出万亿参数思考模型Ring-1T，并全面开源模型权重、训练配方。

Ring-1T在9月30日开源的预览版Ring-1T-preview基础上，持续扩展大规模可验证奖励强化学习（RLVR）训练，进一步激发万亿基座的自然语言推理能力，并通过 RLHF 训练完善模型通用能力，在各项任务榜单上表现更加均衡。

为了持续激发Ring-1T的数学等复杂推理能力，此次百灵团队挑战了难度更高的IMO2025（国际数学奥利匹克）赛题，将Ring-1T接入多智能体框架AWorld，使用纯自然语言推理进行解题。

实验结果显示，Ring-1T仅用一次解出了第1、3、4、5题，相当于IMO银牌水平，成为首个能拿IMO国际奥数奖的开源系统。

值得一提的是，作为一款思考模型，Ring-1T也表现出了极佳的通用能力，在“人类偏好对齐”测试Arena-Hard V2中，Ring-1T以81.59的成功率居于开源模型榜首，逼近GPT-5-Thinking(High)82.91的成绩。

在面向严谨领域的医疗问答HealthBench测评中，Ring-1T也以最高分取得开源领域最佳。

据了解，万亿参数思考模型训练最大难题是训推精度差异，即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致，进而导致训练崩溃。

在Ring-1T模型中，蚂蚁采用了自研的“棒冰（icepop）”算法来应对这项行业难题，即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位，确保长序列、长周期训练不崩。

此外，应对万亿参数模型强化学习训练，蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL)，特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化，实现了单机显存碎片秒级回收、权重零冗余交换，把大规模RL训练稳定跑成日常。

据了解，本次发布的Ring-1T模型继续采用Ling 2.0架构的1T base模型做后训练，Ling 2.0采用了包括高度稀疏的MoE架构，1/32的专家激活比、FP8混合精度、MTP等诸多特性实现高效训练与推理。

在后训练阶段，蚂蚁百灵团队通过LongCoT-SFT + RLVR + RLHF多阶段训练，显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

据百灵团队透露，Ring-1T模型是其在万亿思考模型上的首次尝试，蚂蚁百灵团队会在后续的版本中继续完善模型性能。

目前，用户可通过HuggingFace、魔搭社区下载模型，并通过蚂蚁百宝箱等平台在线体验。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：秋白

文章内容举报

]article_adlist-->

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签