原创 SiliconFlow 2025-09-10 17:33 北京
小体量、大能量,具有极高的生成速度。
硅基流动大模型服务平台已首发上线蚂蚁集团百灵团队最新开源的 Ling-mini-2.0。
Ling-mini-2.0 是兼具 SOTA 性能与高效性的基于 MoE 架构大语言模型。该模型拥有 16B 总参数,但每 Token 仅激活 1.4B 参数(non-embedding 789M),实现了极高的生成速度。得益于高效的 MoE 设计与大规模高质量训练数据,该模型依然在下游任务中展现出可媲美 10B 以下 Dense 语言模型及更大规模 MoE 模型的顶尖性能。
硅基流动平台上线的 Ling-mini-2.0 支持 128K 最大上下文长度,价格为输入 0.5 元 / M Tokens,输出 2 元 / M Tokens。
欢迎通过以下方式使用 Ling-mini-2.0,国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。
国内站在线体验
https://cloud.siliconflow.cn/models
国际站在线体验
https://cloud.siliconflow.com/models
第三方应用接入教程
https://docs.siliconflow.cn/cn/usercases/
开发者 API 文档
https://docs.siliconflow.cn/cn/api-reference/images/images-generations
模型特点及性能
Ling-mini-2.0 的主要特性包括:
卓越的通用与专业推理能力:在编码(LiveCodeBench、CodeForces)、数学(AIME 2025、HMMT 2025)等高难度通用推理任务,以及跨领域的知识密集型推理任务(MMLU-Pro、Humanity's Last Exam)上,Ling-mini-2.0 的基准测试结果都十分出色。与 10B 以下参数的 Dense 模型(如 Qwen3-4B-instruct-2507、Qwen3-8B-nothinking)以及同等或更大规模的 MoE 模型(Ernie-4.5-21B-A3B-PT、GPT-OSS-20B/low)相比,Ling-mini-2.0 展现了卓越的综合推理能力。
7 倍以上等效 Dense 架构性能提升:Ling 2.0 遵循 Ling Scaling Laws,采用 1/32 激活比例的 MoE 架构,并在专家粒度、共享专家占比、注意力占比、aux-loss free + Sigmoid 路由均衡策略、MTP 损失、QK-Norm、half RoPE 等方面做了优化,使得小激活 MoE 也能获得 7 倍以上等效 dense 架构的性能杠杆。凭借这些设计,仅 1.4B 激活参数(non-embedding 789M)的 Ling-mini-2.0,即可达到相当于 7B–8B Dense 模型的性能水平。
300+ token/s 高速生成:高度稀疏的小激活 MoE 架构具有显著训推优势。在 2000 Token 以内的问答任务中,Ling-mini-2.0 在 H20 部署下的生成速度超过 300+ token/s,比 8B Dense 模型快 2 倍以上。Ling-mini-2.0 通过 YaRN 外推可支持 128K 上下文,随着输出长度增加,其相对加速比最高可达 7 倍以上。
开源 FP8 高效训练方案:Ling 2.0 全流程采用 FP8 混合精度训练。与 BF16 对比发现,在超过 1T token 的训练量上,两者在 loss 曲线与数十个下游 benchmark 上几乎一致。为帮助社区在有限算力下高效继续预训练与微调,同步开源 FP8 训练方案。在 8/16/32 卡 80G GPU 的算力测试中,相比 LLaMA 3.1 8B 与 Qwen3 8B,Ling-mini-2.0 在开启 MTP 时可获得 30%~60% 吞吐提升,关闭 MTP 时则达到 90%~120% 吞吐提升。
更开放的开源策略:Ling-mini-2.0 首次在小规模下整合 1/32 稀疏层、MTP 层与 FP8 训练等特性,并在效果与性能上都表现突出,有望成为小尺寸 LLM 的理想选择。
开发者首选的“Token 工厂”
—— 极速 · 可靠 · 经济
硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。
除了 Ling-mini-2.0,硅基流动平台已上架包括 Seed-OSS-36B-Instruct、DeepSeek-V3.1、Wan2.2、step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-235B-A22B、Kimi K2 Instruct、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的上百款模型。其中,DeepSeek-R1 蒸馏版(8B、7B、1.5B)、Qwen3-8B 等多款大模型 API 免费使用,让开发者实现“Token 自由”。
开发者可在平台自由对比、组合各类大模型,只需在开发应用时轻松调用更易用、高效的 API,为你的生成式 AI 应用选择最佳实践。
近期更新
硅基流动上线阿里Wan2.2
硅基流动上线DeepSeek-V3.1
提效300%,大模型一体机加速药企报告撰写
