硅基流动上线Ling-mini-2.0大模型

原创 SiliconFlow 2025-09-10 17:33 北京

小体量、大能量，具有极高的生成速度。

硅基流动大模型服务平台已首发上线蚂蚁集团百灵团队最新开源的 Ling-mini-2.0。

Ling-mini-2.0 是兼具 SOTA 性能与高效性的基于 MoE 架构大语言模型。该模型拥有 16B 总参数，但每 Token 仅激活 1.4B 参数（non-embedding 789M），实现了极高的生成速度。得益于高效的 MoE 设计与大规模高质量训练数据，该模型依然在下游任务中展现出可媲美 10B 以下 Dense 语言模型及更大规模 MoE 模型的顶尖性能。

硅基流动平台上线的 Ling-mini-2.0 支持 128K 最大上下文长度，价格为输入 0.5 元 / M Tokens，输出 2 元 / M Tokens。

欢迎通过以下方式使用 Ling-mini-2.0，国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。

国内站在线体验

https://cloud.siliconflow.cn/models

国际站在线体验

https://cloud.siliconflow.com/models

第三方应用接入教程

https://docs.siliconflow.cn/cn/usercases/

开发者 API 文档

https://docs.siliconflow.cn/cn/api-reference/images/images-generations

模型特点及性能

Ling-mini-2.0 的主要特性包括：

卓越的通用与专业推理能力：在编码（LiveCodeBench、CodeForces）、数学（AIME 2025、HMMT 2025）等高难度通用推理任务，以及跨领域的知识密集型推理任务（MMLU-Pro、Humanity's Last Exam）上，Ling-mini-2.0 的基准测试结果都十分出色。与 10B 以下参数的 Dense 模型（如 Qwen3-4B-instruct-2507、Qwen3-8B-nothinking）以及同等或更大规模的 MoE 模型（Ernie-4.5-21B-A3B-PT、GPT-OSS-20B/low）相比，Ling-mini-2.0 展现了卓越的综合推理能力。

7 倍以上等效 Dense 架构性能提升：Ling 2.0 遵循 Ling Scaling Laws，采用 1/32 激活比例的 MoE 架构，并在专家粒度、共享专家占比、注意力占比、aux-loss free + Sigmoid 路由均衡策略、MTP 损失、QK-Norm、half RoPE 等方面做了优化，使得小激活 MoE 也能获得 7 倍以上等效 dense 架构的性能杠杆。凭借这些设计，仅 1.4B 激活参数（non-embedding 789M）的 Ling-mini-2.0，即可达到相当于 7B–8B Dense 模型的性能水平。

300+ token/s 高速生成：高度稀疏的小激活 MoE 架构具有显著训推优势。在 2000 Token 以内的问答任务中，Ling-mini-2.0 在 H20 部署下的生成速度超过 300+ token/s，比 8B Dense 模型快 2 倍以上。Ling-mini-2.0 通过 YaRN 外推可支持 128K 上下文，随着输出长度增加，其相对加速比最高可达 7 倍以上。

开源 FP8 高效训练方案：Ling 2.0 全流程采用 FP8 混合精度训练。与 BF16 对比发现，在超过 1T token 的训练量上，两者在 loss 曲线与数十个下游 benchmark 上几乎一致。为帮助社区在有限算力下高效继续预训练与微调，同步开源 FP8 训练方案。在 8/16/32 卡 80G GPU 的算力测试中，相比 LLaMA 3.1 8B 与 Qwen3 8B，Ling-mini-2.0 在开启 MTP 时可获得 30%~60% 吞吐提升，关闭 MTP 时则达到 90%~120% 吞吐提升。

更开放的开源策略：Ling-mini-2.0 首次在小规模下整合 1/32 稀疏层、MTP 层与 FP8 训练等特性，并在效果与性能上都表现突出，有望成为小尺寸 LLM 的理想选择。

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Ling-mini-2.0，硅基流动平台已上架包括 Seed-OSS-36B-Instruct、DeepSeek-V3.1、Wan2.2、step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-235B-A22B、Kimi K2 Instruct、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的上百款模型。其中，DeepSeek-R1 蒸馏版（8B、7B、1.5B）、Qwen3-8B 等多款大模型 API 免费使用，让开发者实现“Token 自由”。

开发者可在平台自由对比、组合各类大模型，只需在开发应用时轻松调用更易用、高效的 API，为你的生成式 AI 应用选择最佳实践。

近期更新

硅基流动上线阿里Wan2.2

硅基流动上线DeepSeek-V3.1

硅基流动上线Seed-OSS-36B-Instruct

Kimi K2 API升级：Pro版TPM升至100万

硅基流动企业级MaaS助电力巨头效能狂飙

提效300%，大模型一体机加速药企报告撰写

扫码加入用户交流群

阅读原文

跳转微信打开

模型特点及性能

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签