机器之心 09月18日
蚂蚁百灵发布Ling-flash-2.0大模型,高效架构实现卓越性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

蚂蚁百灵大模型团队开源了其最新MoE大模型Ling-flash-2.0。该模型拥有100B总参数但仅激活6.1B,在多个评测中表现优于同级别Dense模型甚至更大MoE模型,实现了推理速度、任务性能和部署成本的新平衡。Ling-flash-2.0通过极致架构设计和训练策略,在激活参数量远小于同等性能模型的情况下,提供了7倍以上的性能杠杆,推理速度提升3倍以上。模型在复杂推理、数学、代码生成和前端研发等领域均有突出表现,并提供了对话和Base模型供研究者使用。

💡 **高效MoE架构与极致优化:** Ling-flash-2.0采用MoE架构,总参数100B但激活参数仅6.1B,通过1/32激活比例、细化专家粒度、共享专家机制、Sigmoid路由+aux-loss free策略以及MTP层、QK-Norm、half-RoPE等细节优化,实现了在激活参数量上的“以小博大”,带来约40B Dense模型的等效性能和3倍以上的推理速度提升,在H20平台可达200+ tokens/s。

🚀 **多领域卓越性能与实际应用:** 该模型在多学科知识推理、高难数学(AIME2025、Omni-MATH)、代码生成(LiveCodeBench、CodeForces)和前端研发(UI布局、组件生成)等领域表现突出,优于同级别Dense模型和更大激活参数的MoE模型。其强大的代码生成和前端研发能力,通过与WeaveFox团队合作,实现了“功能+美学”的双重优化。

📚 **扎实的预训练基础与创新后训练:** Ling-flash-2.0基于20T+ tokens高质量语料,通过三阶段预训练(夯实知识、提升推理、扩展上下文)和自研Ling Scaling Laws优化超参数。后训练阶段采用解耦微调(DFT)学习即时回答与深度推理,ApexEval筛选潜力模型,演进式RL动态解锁推理能力,并结合测试用例驱动、视觉增强奖励(VAR)、组内竞技场奖励(Group Arena Reward)等创新机制,打造“会思考,也会说话”的模型。

🔗 **开源与可持续发展路径:** 此次开源不仅包括Ling-flash-2.0对话模型,还同步开源了Base模型,为研究者和开发者提供灵活使用空间。Ling-flash-2.0为大模型“参数膨胀”趋势提供了高效、实用、可持续的新路径,标志着高效大模型时代的到来。

机器之心发布

机器之心编辑部


今天,蚂蚁百灵大模型团队正式开源其最新 MoE 大模型 ——Ling-flash-2.0。作为 Ling 2.0 架构系列的第三款模型,Ling-flash-2.0 以总参数 100B、激活仅 6.1B(non-embedding 激活 4.8B)的轻量级配置,在多个权威评测中展现出媲美甚至超越 40B 级别 Dense 模型和更大 MoE 模型的卓越性能。


这不是一次简单的 “模型发布”。在 “大模型 = 大参数” 的共识下,Ling-flash-2.0 用极致的架构设计与训练策略,在推理速度、任务性能、部署成本之间找到了一个新平衡点。这不仅是 Ling 系列开源进程中的又一重要节点,也为当前大模型 “参数膨胀” 趋势提供了一种高效、实用、可持续的新路径。


一、从 “参数军备” 到 “效率优先”:MoE 的下一步怎么走?


在当前大模型竞争愈发激烈的背景下,参数规模似乎成为衡量模型能力的 “硬通货”。但 “参数越多 = 能力越强” 的公式,正在失效:


    训练成本指数级上升

    推理延迟成为落地瓶颈

    多数参数冗余,激活效率低


MoE(Mixture of Experts)架构被寄予厚望:通过 “稀疏激活” 机制,用更少的计算,撬动更大的参数容量。但问题在于 —— 如何设计一个 “真高效” 的 MoE?


Ling-flash-2.0 的答案是:从架构、训练到推理,全栈优化。


以小博大:6.1B 激活参数,撬动 40B 性能


Ling Team 早期的关于 MoE Scaling Law(https://arxiv.org/abs/2507.17702)的研究揭示了 MoE 架构设计 scaling 的特性。在此研究工作的指导下,通过极致的架构优化与训练策略设计,在仅激活 6.1B 参数的前提下,实现了对 40B Dense 模型的性能超越,用最小激活参数,撬动最大任务性能。为此,团队在多个维度上 “做减法” 也 “做加法”:


    1/32 激活比例:每次推理仅激活 6.1B 参数,计算量远低于同性能 Dense 模型

    专家粒度调优:细化专家分工,减少冗余激活

    共享专家机制:提升通用知识复用率

    sigmoid 路由 + aux-loss free 策略:实现专家负载均衡,避免传统 MoE 的训练震荡

    MTP 层、QK-Norm、half-RoPE:在建模目标、注意力机制、位置编码等细节上实现经验最优


最终结果是:6.1B 激活参数,带来约 40B Dense 模型的等效性能,实现 7 倍以上的性能杠杆。



换句话说,6.1B 的激活参数,带来了接近 40B Dense 模型的实际表现,而在日常使用上推理速度却提升了 3 倍以上,在 H20 平台上可实现 200+ tokens/s 的高速生成,输出越长,加速优势越明显。



1/32 激活比例 + 7 倍性能杠杆,这一 “以小博大” 的背后,是 Ling 团队在 MoE(Mixture of Experts)架构上的深度探索。


强大的复杂推理能力


为了全面评估 Ling-flash-2.0 的推理能力,蚂蚁百灵大模型团队在模型评估中覆盖了多学科知识推理、高难数学、代码生成、逻辑推理、金融与医疗等专业领域,并与当前主流模型进行了系统对比。从下面的多个榜单分数对比可以看出,Ling-flash-2.0 不仅优于同级别的 Dense 模型(如 Qwen3-32B、Seed-OSS-36B),也领先于更大激活参数的 MoE 模型(如 Hunyuan-A13B、GPT-OSS-120B)。




尤其在以下三类任务中表现尤为突出:


    高难数学推理:AIME 2025、Omni-MATH


得益于高推理密度语料 + 思维链训练的预训练策略,Ling-flash-2.0 在高难数学推理 AIME2025、Omni-MATH 数学竞赛级题目中展现出稳定的推理链路与多步求解能力。  


    代码生成:LiveCodeBench、CodeForces


功能正确性、代码风格、复杂度控制方面,Ling-flash-2.0 表现优于同规模模型,甚至在部分任务中超越 GPT-OSS-120B。


    前端研发:与 WeaveFox 团队联合优化


通过大规模 RL 训练 + 视觉增强奖励(VAR)机制,模型在 UI 布局、组件生成、响应式设计等前端任务中,实现了 “功能 + 美学” 的双重优化。


二、不只是 “跑分”:代码生成、前端研发、推理优化全面突破


Ling-flash-2.0 的性能优势不仅体现在 “跑分” 上,更在多个实际应用场景中展现出强大能力。


丰富的用例展示


1. 代码生成与编辑


    prompt1:编写一个 Python 程序,实现10个小球在旋转六边形内部弹跳的效果。球应受到重力和摩擦力的影响,并且必须真实地碰撞旋转的墙壁。
    prompt2:提示Traceback (most recent call last):File "/Users/zzqsmall/Documents/code/test.py", line 131in <module>if is_point_in_hexagon(x, y, hex_center, hex_radius):NameError: name 'is_point_in_hexagon' is not defined看看哪里错了
    prompt3:输出下修改后的完整代码
    prompt4:需要考虑球和球之间的碰撞,再优化下现在的代码实现


    2. 前端研发


    在前端研发方面,Ling 团队携手 WeaveFox 团队,基于大规模强化学习全面升级 Ling-flash-2.0 的前端代码生成能力,为开发者打造更强大的智能编程体验。


      WeaveFox 生成:计算器生成


      Prompt:做一个计算器,采用新粗野主义风格,大胆用色、高对比度、粗黑边框(3-4px)和强烈的阴影。通过原始的字体和略微不对称的布局,营造一种刻意“未经设计”的美感。按钮应采用粗边框和强烈的色彩对比度。避免使用渐变和微妙的阴影,而应采用鲜明大胆的设计元素。


        WeaveFox 生成:旅游攻略网站制作


        Prompt:制作一个多语言旅游攻略网站 - 提供不同国家和城市的旅行指南,用户可以分享自己的旅行经验和照片。


          模型直出:网页创作


          Prompt:创作一个万相 AIGC 模型的海外 Landing page,黑色风格,搭配渐变紫色流动,体现 AI 智能感,顶部导航包括 overview、feature、pricing、contact us


            模型直出:贪吃蛇


            prompt:帮我写个贪吃蛇小游戏


            3. 数学优化求解


              数独问题


              下面是一个数独问题,请你按照步骤求解:1. 建模成运筹优化问题,给出数学模型。2. 编写能够求解的 pyomo 代码。问题是:|_ _ _|_ _ 2|9 3 _||_ _ _|_ _ _|_ 1 5||_ 4 6|_ _ _|_ _ 7|-------------------|_ 6 _|8 _ 4|_ _ 9||_ _ 8|1 _ 7|6 _ _||4 _ _|2 _ 9|_ 5 _|-------------------|3 _ _|_ _ _|2 9 _||7 9 _|_ _ _|_ _ _||_ 2 5|3 _ _|_ _ _|


              4. CLI 接入


              Ling-flash-2.0 模型可以方便的融合进去 Qwen Code 等 CLI 服务中,只需要在环境变量(.bashrc, .zshrc)中加入以下变量


                export OPENAI_API_KEY="自己的key"export OPENAI_BASE_URL="提供服务的url"export OPENAI_MODEL="Ling-flash-2.0"


                三、20T 语料 + 三阶段预训练:打造高质量基础模型


                Ling-flash-2.0 的优异表现,离不开其扎实的预训练基础。百灵大模型团队构建了一套基于统一数据湖宽表设计的 AI Data System,支持样本级血缘管理,完成了 40T+ tokens 的高质量语料处理,并从中精选出最高质量的部分用于支持 Ling-flash-2.0 的 20T+ tokens 的预训练计划。


                为了充分提升模型的知识压缩和基础推理能力,百灵大模型团队将预训练分成 3 个阶段:


                  Pre-training Stage 1:10T tokens 高知识密度语料,夯实知识基础

                  Pre-training Stage 2:10T tokens 高推理密度语料,提升推理能力

                  Mid-training Stage:扩展至 32K 上下文,引入思维链类语料,为后训练做准备


                训练过程中,关键超参数(如学习率、batch size)均由百灵大模型团队自研的 Ling Scaling Laws 给出最优配置。此外,团队还创新性地将传统的 WSD 学习率调度器替换为自研的 WSM(Warmup-Stable and Merge)调度器,通过 checkpoint merging 模拟学习率衰减,进一步提升了下游任务表现。



                为增强多语言能力,Ling 2.0 将词表从 128K 扩展至 156K,新增大量多语言 token,并在训练中引入 30 个语种的高质量语料,显著提升了模型的跨语言理解与生成能力。


                四、后训练创新:解耦微调 + 演进式 RL,让模型 “会思考”,也会 “说话”


                高效推理能力只是起点,百灵大模型团队更希望打造一款 “能思考、能共情、能对话” 的模型,实现 “智理相济,答因境生”。


                为此,团队设计了一套四阶段后训练流程:



                 1. 解耦微调(DFT):双模式能力奠基


                通过完全解耦的系统提示词设计,模型在微调阶段同时学习 “即时回答” 与 “深度推理” 两种模式。微调数据涵盖数理科学、创意写作、情感对话、社科哲思等多个领域,并引入金融建模、工业调度、供应链优化等数学优化任务,赋予模型解决实际问题的能力。


                 2. ApexEval:精准筛选潜力模型


                在 RL 前,团队提出 ApexEval 评测方法,聚焦模型的知识掌握度与推理深度,弱化格式和指令遵循,筛选出最具探索潜力的模型进入强化学习阶段。


                3. 演进式 RL:动态解锁推理能力


                在 RL 阶段,模型以简洁思维链为起点,根据问题复杂度动态 “解锁” 更深层的推理能力,实现 “遇简速答、见难思深” 的智能响应。


                针对代码任务,团队统一采用测试用例驱动的功能奖励机制,并创新引入视觉增强奖励(VAR),对前端任务的 UI 渲染效果进行美学评估,实现功能与视觉体验的协同优化。


                在开放域问答中,团队构建了组内竞技场奖励机制(Group Arena Reward),结合 RubriX 多维度评价标准,有效抑制奖励噪声,提升模型的人性化与情感共鸣能力。


                 4. 系统支撑:高效奖励系统保障训练质量


                后训练奖励系统由奖励服务调度框架、策略引擎、执行环境三部分组成,支持异步奖励计算、GPU 资源时分复用,支持 40K 并发执行,为高质量数据筛选与模型迭代提供底层保障。


                结语: 高效大模型的未来,不是 “更小”,而是 “更聪明”


                Ling-flash-2.0 的意义,不在于 “参数小”,而在于重新定义了 “效率” 与 “能力” 的关系。


                它用 6.1B 激活参数告诉我们:模型的智能,不止于规模,更在于架构、训练与推理的协同优化。


                在 “参数即能力” 的惯性思维下,百灵大模型团队用 Ling-flash-2.0 提供了一种可部署、可扩展、可演进的新范式。


                即:模型的智能,不止于规模,更在于架构、数据与训练策略的深度融合。


                此次开源,Ling 团队不仅放出了 Ling-flash-2.0 的对话模型,也同步开源了其 Base 模型,为研究者和开发者提供更灵活的使用空间。


                Base 模型在多个榜单上已展现出强劲性能,具备良好的知识压缩与推理能力,适用于下游任务的进一步微调与定制。


                随着 Ling-flash-2.0 的开源,我们有理由相信,高效大模型的时代,已经到来。


                Ling-flash-2.0 可在以下开源仓库下载使用:


                  HuggingFace:https://huggingface.co/inclusionAI/Ling-flash-2.0

                  ModelScope:https://modelscope.cn/models/inclusionAI/Ling-flash-2.0

                  GitHub:https://github.com/inclusionAI/Ling-V2


                © THE END 

                转载请联系本公众号获得授权

                投稿或寻求报道:liyazhou@jiqizhixin.com



                文章原文

                Fish AI Reader

                Fish AI Reader

                AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

                FishAI

                FishAI

                鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

                联系邮箱 441953276@qq.com

                相关标签

                Ling-flash-2.0 MoE 大模型 高效AI 蚂蚁百灵 开源模型 AI架构 推理优化
                相关文章