百亿参数MoE模型Ling-flash-2.0实现极速推理

原创 SiliconFlow 2025-09-18 08:26 北京

100B MoE 模型也能极速推理。

继上线 Ling-mini-2.0 后，硅基流动大模型服务平台首发上线蚂蚁集团百灵团队最新开源的 Ling-flash-2.0。这是登陆硅基流动的第 130 个模型。

Ling-flash-2.0 同样是一款基于 MoE 架构大语言模型，总参数 100B、激活 6.1B（non-embedding 激活 4.8B）。经过 20T+ 高质量语料的预训练、监督微调和多阶段强化学习，Ling-flash-2.0 在仅激活 6B+ 参数的情况下，其性能可媲美 40B 级别 Dense 模型及更大规模 MoE 模型。该模型在复杂推理、代码生成、前端研发等领域有突出表现。

硅基流动平台上线的 Ling-flash-2.0 支持 128K 最大上下文长度，价格为输入 1 元 / M Tokens，输出 4 元 / M Tokens。

欢迎通过以下方式使用 Ling-flash-2.0，国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。

国内站在线体验

https://cloud.siliconflow.cn/models

国际站在线体验

https://cloud.siliconflow.com/models

第三方应用接入教程

https://docs.siliconflow.cn/cn/usercases/

开发者 API 文档

https://docs.siliconflow.cn/cn/api-reference/chat-completions/

模型特点及性能

强大的复杂推理能力：与 40B 以下的 Dense 模型（如 Qwen3-32B-Non-Thinking、Seed-OSS-36B-Instruct（think budget=0）等）以及更大激活/总参的 MoE 模型（Hunyuan-A13B-Instruct 、GPT-OSS-120B/low）相比，Ling-flash-2.0 展现了更强大的复杂推理能力。此外，在创作任务（Creative Writing v3）上，Ling-flash-2.0 也表现出很强的竞争力。

高效架构，极速推理：在 Ling Scaling Laws 的指导下，Ling 2.0 采用了 1/32 激活比例的 MoE 架构，并在专家粒度、共享专家占比、attention 占比、aux-loss free + sigmoid 路由均衡策略、MTP 层、QK-Norm、half RoPE 等多个架构细节上实现经验最优，使得小激活 MoE 也能获得 7 倍以上等效 Dense 架构的性能杠杆。换句话来说，Ling-flash-2.0 仅凭 6.1B（non-embedding 4.8B）激活参数，即可等效撬动约 40B Dense 模型的性能。

正是因为小激活而带来了推理上的巨大性能优势，在 H20 上进行部署可实现 200+ tokens/s 的输出速度，相比 36B 的 Dense 模型在日常使用时有 3 倍以上的速度提升。Ling-flash-2.0 通过 YaRN 外推可支持 128K 上下文，随着输出长度增加，其相对加速比最高可达 7 倍以上。

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Ling-flash-2.0，硅基流动平台已上架包括 Ling-mini-2.0、Hunyuan-MT-7B、Qwen-Image、Kimi-K2-0905、DeepSeek-V3.1、Wan2.2、Step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的各类语言、图片、音频、视频、嵌入与重排序模型。其中，DeepSeek-R1 蒸馏版（8B、7B、1.5B）、Qwen3-8B 等多款大模型可免费使用，让开发者实现“Token 自由”。

开发者可在平台自由对比、组合各类大模型，只需在开发应用时轻松调用更易用、高效的 API，为你的生成式 AI 应用选择最佳实践。

近期更新

硅基流动上线Kimi-K2-0905

硅基流动上线蚂蚁集团Ling-mini-2.0

硅基流动上线腾讯混元Hunyuan-MT-7B

硅基流动上线阿里通义千问Qwen-Image

硅基流动企业级MaaS助电力巨头效能狂飙

提效300%，大模型一体机加速药企报告撰写

扫码加入用户交流群

阅读原文

跳转微信打开

模型特点及性能

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签