硅基流动 09月25日
硅基流动上线Ling-flash-2.0大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

硅基流动大模型服务平台首发上线蚂蚁集团百灵团队最新开源的Ling-flash-2.0。Ling-flash-2.0是一款基于MoE架构的大语言模型,总参数100B、激活6.1B。该模型在复杂推理、代码生成、前端研发等领域有突出表现,支持128K最大上下文长度,价格为输入1元/M Tokens,输出4元/M Tokens。国内站与国际站新用户可分别自动获取14元或1美元赠金体验。

🔹Ling-flash-2.0是一款基于MoE架构的大语言模型,总参数100B、激活6.1B,在复杂推理、代码生成、前端研发等领域表现出色。

🔹该模型在仅激活6B+参数的情况下,其性能可媲美40B级别Dense模型及更大规模MoE模型,展现出强大的复杂推理能力。

🔹Ling-flash-2.0采用了高效的MoE架构,小激活参数也能获得7倍以上等效Dense架构的性能杠杆,实现200+ tokens/s的输出速度。

🔹硅基流动平台提供该模型的一站式API服务,支持128K最大上下文长度,价格为输入1元/M Tokens,输出4元/M Tokens,国内站与国际站新用户可分别自动获取14元或1美元赠金体验。

🔹硅基流动平台已上架包括Ling-mini-2.0、Hunyuan-MT-7B、Qwen-Image等各类语言、图片、音频、视频、嵌入与重排序模型,多款大模型可免费使用。

原创 SiliconFlow 2025-09-18 08:26 北京

100B MoE 模型也能极速推理。

继上线 Ling-mini-2.0 后,硅基流动大模型服务平台首发上线蚂蚁集团百灵团队最新开源的 Ling-flash-2.0。这是登陆硅基流动的第 130 个模型。

Ling-flash-2.0 同样是一款基于 MoE 架构大语言模型,总参数 100B、激活 6.1B(non-embedding 激活 4.8B)。经过 20T+ 高质量语料的预训练、监督微调和多阶段强化学习,Ling-flash-2.0 在仅激活 6B+ 参数的情况下,其性能可媲美 40B 级别 Dense 模型及更大规模 MoE 模型。该模型在复杂推理、代码生成、前端研发等领域有突出表现。

硅基流动平台上线的 Ling-flash-2.0 支持 128K 最大上下文长度,价格为输入 1 元 / M Tokens,输出 4 元 / M Tokens。

欢迎通过以下方式使用 Ling-flash-2.0,国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。

国内站在线体验

https://cloud.siliconflow.cn/models

国际站在线体验

https://cloud.siliconflow.com/models

第三方应用接入教程

https://docs.siliconflow.cn/cn/usercases/

开发者 API 文档

https://docs.siliconflow.cn/cn/api-reference/chat-completions/

模型特点及性能

强大的复杂推理能力:与 40B 以下的 Dense 模型(如 Qwen3-32B-Non-Thinking、Seed-OSS-36B-Instruct(think budget=0)等)以及更大激活/总参的 MoE 模型(Hunyuan-A13B-Instruct 、GPT-OSS-120B/low)相比,Ling-flash-2.0 展现了更强大的复杂推理能力。此外,在创作任务(Creative Writing v3)上,Ling-flash-2.0 也表现出很强的竞争力。

高效架构,极速推理:在 Ling Scaling Laws 的指导下,Ling 2.0 采用了 1/32 激活比例的 MoE 架构,并在专家粒度、共享专家占比、attention 占比、aux-loss free + sigmoid 路由均衡策略、MTP 层、QK-Norm、half RoPE 等多个架构细节上实现经验最优,使得小激活 MoE 也能获得 7 倍以上等效 Dense 架构的性能杠杆。换句话来说,Ling-flash-2.0 仅凭 6.1B(non-embedding 4.8B)激活参数,即可等效撬动约 40B Dense 模型的性能。

正是因为小激活而带来了推理上的巨大性能优势,在 H20 上进行部署可实现 200+ tokens/s 的输出速度,相比 36B 的 Dense 模型在日常使用时有 3 倍以上的速度提升。Ling-flash-2.0 通过 YaRN 外推可支持 128K 上下文,随着输出长度增加,其相对加速比最高可达 7 倍以上。

开发者首选的“Token 工厂”

—— 极速 · 可靠 · 经济

硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Ling-flash-2.0,硅基流动平台已上架包括 Ling-mini-2.0、Hunyuan-MT-7B、Qwen-Image、Kimi-K2-0905、DeepSeek-V3.1、Wan2.2、Step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的各类语言、图片、音频、视频、嵌入与重排序模型。其中,DeepSeek-R1 蒸馏版(8B、7B、1.5B)、Qwen3-8B 等多款大模型可免费使用,让开发者实现“Token 自由”。

开发者可在平台自由对比、组合各类大模型,只需在开发应用时轻松调用更易用、高效的 API,为你的生成式 AI 应用选择最佳实践。

近期更新

硅基流动上线Kimi-K2-0905

硅基流动上线蚂蚁集团Ling-mini-2.0

硅基流动上线腾讯混元Hunyuan-MT-7B

硅基流动上线阿里通义千问Qwen-Image

硅基流动企业级MaaS助电力巨头效能狂飙

提效300%,大模型一体机加速药企报告撰写

扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

硅基流动 Ling-flash-2.0 大语言模型 MoE架构 复杂推理
相关文章