原创 SiliconFlow 2025-09-18 08:26 北京
100B MoE 模型也能极速推理。
继上线 Ling-mini-2.0 后,硅基流动大模型服务平台首发上线蚂蚁集团百灵团队最新开源的 Ling-flash-2.0。这是登陆硅基流动的第 130 个模型。
Ling-flash-2.0 同样是一款基于 MoE 架构大语言模型,总参数 100B、激活 6.1B(non-embedding 激活 4.8B)。经过 20T+ 高质量语料的预训练、监督微调和多阶段强化学习,Ling-flash-2.0 在仅激活 6B+ 参数的情况下,其性能可媲美 40B 级别 Dense 模型及更大规模 MoE 模型。该模型在复杂推理、代码生成、前端研发等领域有突出表现。
硅基流动平台上线的 Ling-flash-2.0 支持 128K 最大上下文长度,价格为输入 1 元 / M Tokens,输出 4 元 / M Tokens。
欢迎通过以下方式使用 Ling-flash-2.0,国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。
国内站在线体验
https://cloud.siliconflow.cn/models
国际站在线体验
https://cloud.siliconflow.com/models
第三方应用接入教程
https://docs.siliconflow.cn/cn/usercases/
开发者 API 文档
https://docs.siliconflow.cn/cn/api-reference/chat-completions/
模型特点及性能
强大的复杂推理能力:与 40B 以下的 Dense 模型(如 Qwen3-32B-Non-Thinking、Seed-OSS-36B-Instruct(think budget=0)等)以及更大激活/总参的 MoE 模型(Hunyuan-A13B-Instruct 、GPT-OSS-120B/low)相比,Ling-flash-2.0 展现了更强大的复杂推理能力。此外,在创作任务(Creative Writing v3)上,Ling-flash-2.0 也表现出很强的竞争力。
高效架构,极速推理:在 Ling Scaling Laws 的指导下,Ling 2.0 采用了 1/32 激活比例的 MoE 架构,并在专家粒度、共享专家占比、attention 占比、aux-loss free + sigmoid 路由均衡策略、MTP 层、QK-Norm、half RoPE 等多个架构细节上实现经验最优,使得小激活 MoE 也能获得 7 倍以上等效 Dense 架构的性能杠杆。换句话来说,Ling-flash-2.0 仅凭 6.1B(non-embedding 4.8B)激活参数,即可等效撬动约 40B Dense 模型的性能。
正是因为小激活而带来了推理上的巨大性能优势,在 H20 上进行部署可实现 200+ tokens/s 的输出速度,相比 36B 的 Dense 模型在日常使用时有 3 倍以上的速度提升。Ling-flash-2.0 通过 YaRN 外推可支持 128K 上下文,随着输出长度增加,其相对加速比最高可达 7 倍以上。
开发者首选的“Token 工厂”
—— 极速 · 可靠 · 经济
硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。
除了 Ling-flash-2.0,硅基流动平台已上架包括 Ling-mini-2.0、Hunyuan-MT-7B、Qwen-Image、Kimi-K2-0905、DeepSeek-V3.1、Wan2.2、Step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的各类语言、图片、音频、视频、嵌入与重排序模型。其中,DeepSeek-R1 蒸馏版(8B、7B、1.5B)、Qwen3-8B 等多款大模型可免费使用,让开发者实现“Token 自由”。
开发者可在平台自由对比、组合各类大模型,只需在开发应用时轻松调用更易用、高效的 API,为你的生成式 AI 应用选择最佳实践。
近期更新
硅基流动上线阿里通义千问Qwen-Image
提效300%,大模型一体机加速药企报告撰写
