硅基流动 09月18日
百亿参数MoE模型Ling-flash-2.0实现极速推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

硅基流动平台首发上线蚂蚁集团百灵团队开源的Ling-flash-2.0大模型。该模型采用MoE架构,总参数100B,激活参数仅6.1B,但性能媲美40B Dense模型及更大规模MoE模型。Ling-flash-2.0在复杂推理、代码生成等方面表现突出,并支持128K长上下文。其高效架构带来极速推理,在H20上可达200+ tokens/s。平台提供亲民价格和新用户赠金,是开发者构建生成式AI应用的理想选择。

🚀 **高效MoE架构实现性能飞跃**:Ling-flash-2.0采用MoE(Mixture of Experts)架构,总参数量达100B,但实际激活参数仅为6.1B。通过优化专家粒度、共享专家占比、attention占比等架构细节,并结合Aux-loss free + sigmoid路由均衡策略,该模型在激活参数量远低于Dense模型的情况下,实现了约7倍于等效Dense架构的性能杠杆,使其在复杂推理、代码生成等任务上能与40B Dense模型及更大规模MoE模型相媲美。

⚡️ **极速推理与长上下文支持**:得益于其高效的MoE架构设计,Ling-flash-2.0在推理速度上表现出色。在H20硬件上部署时,可实现超过200 tokens/s的输出速度,相较于36B Dense模型,日常使用速度提升3倍以上。此外,该模型通过YaRN外推技术支持128K的最大上下文长度,并能随着输出长度的增加实现最高可达7倍以上的相对加速比,极大地提升了处理长文本任务的效率。

💰 **开发者友好,经济实惠**:硅基流动平台为Ling-flash-2.0提供了极具竞争力的价格,输入 tokens 价格为 1 元/M,输出 tokens 价格为 4 元/M。新用户注册即可获得赠金体验(国内站14元,国际站1美元),进一步降低了开发者和企业的试用门槛。平台致力于提供极速响应、价格亲民、品类齐全、稳定易用的API服务,旨在成为开发者构建生成式AI应用的“Token 工厂”。

原创 SiliconFlow 2025-09-18 08:26 北京

100B MoE 模型也能极速推理。

继上线 Ling-mini-2.0 后,硅基流动大模型服务平台首发上线蚂蚁集团百灵团队最新开源的 Ling-flash-2.0。这是登陆硅基流动的第 130 个模型。

Ling-flash-2.0 同样是一款基于 MoE 架构大语言模型,总参数 100B、激活 6.1B(non-embedding 激活 4.8B)。经过 20T+ 高质量语料的预训练、监督微调和多阶段强化学习,Ling-flash-2.0 在仅激活 6B+ 参数的情况下,其性能可媲美 40B 级别 Dense 模型及更大规模 MoE 模型。该模型在复杂推理、代码生成、前端研发等领域有突出表现。

硅基流动平台上线的 Ling-flash-2.0 支持 128K 最大上下文长度,价格为输入 1 元 / M Tokens,输出 4 元 / M Tokens。

欢迎通过以下方式使用 Ling-flash-2.0,国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。

国内站在线体验

https://cloud.siliconflow.cn/models

国际站在线体验

https://cloud.siliconflow.com/models

第三方应用接入教程

https://docs.siliconflow.cn/cn/usercases/

开发者 API 文档

https://docs.siliconflow.cn/cn/api-reference/chat-completions/

模型特点及性能

强大的复杂推理能力:与 40B 以下的 Dense 模型(如 Qwen3-32B-Non-Thinking、Seed-OSS-36B-Instruct(think budget=0)等)以及更大激活/总参的 MoE 模型(Hunyuan-A13B-Instruct 、GPT-OSS-120B/low)相比,Ling-flash-2.0 展现了更强大的复杂推理能力。此外,在创作任务(Creative Writing v3)上,Ling-flash-2.0 也表现出很强的竞争力。

高效架构,极速推理:在 Ling Scaling Laws 的指导下,Ling 2.0 采用了 1/32 激活比例的 MoE 架构,并在专家粒度、共享专家占比、attention 占比、aux-loss free + sigmoid 路由均衡策略、MTP 层、QK-Norm、half RoPE 等多个架构细节上实现经验最优,使得小激活 MoE 也能获得 7 倍以上等效 Dense 架构的性能杠杆。换句话来说,Ling-flash-2.0 仅凭 6.1B(non-embedding 4.8B)激活参数,即可等效撬动约 40B Dense 模型的性能。

正是因为小激活而带来了推理上的巨大性能优势,在 H20 上进行部署可实现 200+ tokens/s 的输出速度,相比 36B 的 Dense 模型在日常使用时有 3 倍以上的速度提升。Ling-flash-2.0 通过 YaRN 外推可支持 128K 上下文,随着输出长度增加,其相对加速比最高可达 7 倍以上。

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Ling-flash-2.0,硅基流动平台已上架包括 Ling-mini-2.0、Hunyuan-MT-7B、Qwen-Image、Kimi-K2-0905、DeepSeek-V3.1、Wan2.2、Step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的各类语言、图片、音频、视频、嵌入与重排序模型。其中,DeepSeek-R1 蒸馏版(8B、7B、1.5B)、Qwen3-8B 等多款大模型可免费使用,让开发者实现“Token 自由”。

开发者可在平台自由对比、组合各类大模型,只需在开发应用时轻松调用更易用、高效的 API,为你的生成式 AI 应用选择最佳实践。

近期更新

硅基流动上线Kimi-K2-0905

硅基流动上线蚂蚁集团Ling-mini-2.0

硅基流动上线腾讯混元Hunyuan-MT-7B

硅基流动上线阿里通义千问Qwen-Image

硅基流动企业级MaaS助电力巨头效能狂飙

提效300%,大模型一体机加速药企报告撰写

扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ling-flash-2.0 MoE 大模型 AI推理 硅基流动 LLM Fast Inference SiliconFlow
相关文章