硅基流动 09月11日
硅基流动上线Ling-mini-2.0大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

硅基流动大模型服务平台已首发上线蚂蚁集团百灵团队最新开源的Ling-mini-2.0模型。Ling-mini-2.0是一款兼具SOTA性能与高效性的基于MoE架构的大语言模型,拥有16B总参数,但每Token仅激活1.4B参数,实现极高的生成速度。该模型在下游任务中展现出可媲美10B以下Dense语言模型及更大规模MoE模型的顶尖性能。硅基流动平台上线的Ling-mini-2.0支持128K最大上下文长度,价格为输入0.5元/M Tokens,输出2元/M Tokens。国内站与国际站新用户可分别自动获取14元或1美元赠金体验。

🔹 Ling-mini-2.0是一款基于MoE架构的大语言模型,拥有16B总参数,但每Token仅激活1.4B参数,实现极高的生成速度。

🔹 该模型在编码、数学等高难度通用推理任务,以及跨领域的知识密集型推理任务上表现出色,展现出卓越的综合推理能力。

🔹 Ling-mini-2.0采用1/32激活比例的MoE架构,并在专家粒度、共享专家占比等方面做了优化,使得小激活MoE也能获得7倍以上等效dense架构的性能。

🔹 Ling-mini-2.0在2000Token以内的问答任务中,生成速度超过300+ token/s,比8B Dense模型快2倍以上。

🔹 Ling-mini-2.0全流程采用FP8混合精度训练,在8/16/32卡80G GPU的算力测试中,相比LLaMA 3.1 8B与Qwen3 8B,吞吐提升达30%~120%。

原创 SiliconFlow 2025-09-10 17:33 北京

小体量、大能量,具有极高的生成速度。

硅基流动大模型服务平台已首发上线蚂蚁集团百灵团队最新开源的 Ling-mini-2.0

Ling-mini-2.0 是兼具 SOTA 性能与高效性的基于 MoE 架构大语言模型。该模型拥有 16B 总参数,但每 Token 仅激活 1.4B 参数(non-embedding 789M),实现了极高的生成速度。得益于高效的 MoE 设计与大规模高质量训练数据,该模型依然在下游任务中展现出可媲美 10B 以下 Dense 语言模型及更大规模 MoE 模型的顶尖性能。

硅基流动平台上线的 Ling-mini-2.0 支持 128K 最大上下文长度,价格为输入 0.5 元 / M Tokens,输出 2 元 / M Tokens。

欢迎通过以下方式使用 Ling-mini-2.0,国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。

国内站在线体验

https://cloud.siliconflow.cn/models

国际站在线体验

https://cloud.siliconflow.com/models

第三方应用接入教程

https://docs.siliconflow.cn/cn/usercases/

开发者 API 文档

https://docs.siliconflow.cn/cn/api-reference/images/images-generations

模型特点及性能

Ling-mini-2.0 的主要特性包括:

卓越的通用与专业推理能力:在编码(LiveCodeBench、CodeForces)、数学(AIME 2025、HMMT 2025)等高难度通用推理任务,以及跨领域的知识密集型推理任务(MMLU-Pro、Humanity's Last Exam)上,Ling-mini-2.0 的基准测试结果都十分出色。与 10B 以下参数的 Dense 模型(如 Qwen3-4B-instruct-2507、Qwen3-8B-nothinking)以及同等或更大规模的 MoE 模型(Ernie-4.5-21B-A3B-PT、GPT-OSS-20B/low)相比,Ling-mini-2.0 展现了卓越的综合推理能力。

7 倍以上等效 Dense 架构性能提升:Ling 2.0 遵循 Ling Scaling Laws,采用 1/32 激活比例的 MoE 架构,并在专家粒度、共享专家占比、注意力占比、aux-loss free + Sigmoid 路由均衡策略、MTP 损失、QK-Norm、half RoPE 等方面做了优化,使得小激活 MoE 也能获得 7 倍以上等效 dense 架构的性能杠杆。凭借这些设计,仅 1.4B 激活参数(non-embedding 789M)的 Ling-mini-2.0,即可达到相当于 7B–8B Dense 模型的性能水平。

300+ token/s 高速生成:高度稀疏的小激活 MoE 架构具有显著训推优势。在 2000 Token 以内的问答任务中,Ling-mini-2.0 在 H20 部署下的生成速度超过 300+ token/s,比 8B Dense 模型快 2 倍以上。Ling-mini-2.0 通过 YaRN 外推可支持 128K 上下文,随着输出长度增加,其相对加速比最高可达 7 倍以上

开源 FP8 高效训练方案:Ling 2.0 全流程采用 FP8 混合精度训练。与 BF16 对比发现,在超过 1T token 的训练量上,两者在 loss 曲线与数十个下游 benchmark 上几乎一致。为帮助社区在有限算力下高效继续预训练与微调,同步开源 FP8 训练方案。在 8/16/32 卡 80G GPU 的算力测试中,相比 LLaMA 3.1 8B 与 Qwen3 8B,Ling-mini-2.0 在开启 MTP 时可获得 30%~60% 吞吐提升,关闭 MTP 时则达到 90%~120% 吞吐提升

更开放的开源策略:Ling-mini-2.0 首次在小规模下整合 1/32 稀疏、MTP 层与 FP8 训练等特性,并在效果与性能上都表现突出,有望成为小尺寸 LLM 的理想选择。

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Ling-mini-2.0,硅基流动平台已上架包括 Seed-OSS-36B-Instruct、DeepSeek-V3.1、Wan2.2、step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-235B-A22B、Kimi K2 Instruct、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的上百款模型。其中,DeepSeek-R1 蒸馏版(8B、7B、1.5B)、Qwen3-8B 等多款大模型 API 免费使用,让开发者实现“Token 自由”。

开发者可在平台自由对比、组合各类大模型,只需在开发应用时轻松调用更易用、高效的 API,为你的生成式 AI 应用选择最佳实践。

近期更新

硅基流动上线阿里Wan2.2

硅基流动上线DeepSeek-V3.1

硅基流动上线Seed-OSS-36B-Instruct

Kimi K2 API升级:Pro版TPM升至100万

硅基流动企业级MaaS助电力巨头效能狂飙

提效300%,大模型一体机加速药企报告撰写

扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

硅基流动 Ling-mini-2.0 大语言模型 MoE架构 FP8训练
相关文章