原创 SiliconFlow 2025-09-22 18:42 北京
想得快,答得准。
它是一款思考模型;它与 Ling-flash-2.0 都是 100B 总参数,每次推理仅激活其中 6.1B,具有极高的生成速度;它背后的棒冰(icepop)算法成功使其复杂推理能力在长周期的 RL 训练中可以持续提升;它在数学竞赛、代码生成、逻辑推理等多项高难度基准测试中取得了显著突破,性能不仅超越了 40B 以内的 SOTA Dense 模型,还媲美更大规模的开源 MoE 模型以及闭源高性能思考模型。
它是蚂蚁集团百灵团队最新开源的 Ring-flash-2.0,是登陆硅基流动的第 132 个模型。
硅基流动平台上的 Ring-flash-2.0 支持 128K 最大上下文长度,价格为输入 1 元 / M Tokens,输出 4 元 / M Tokens。
国内站在线体验
https://cloud.siliconflow.cn/models
国际站在线体验
https://cloud.siliconflow.com/models
第三方应用接入教程
https://docs.siliconflow.cn/cn/usercases/
开发者 API 文档
https://docs.siliconflow.cn/cn/api-reference/chat-completions/
模型特点及性能
- 1. 领先的复杂推理能力
相比 Qwen3-32B-Thinking、Seed-OSS-36B-Instruct、GPT-OSS-120B(medium) 以及 Gemini-2.5-Flash,Ring-flash-2.0 在多类高难度通用推理任务中展现出领先优势,包括数学竞赛(AIME 25、Omni-MATH)、代码生成(LiveCodeBench、CodeForce-Elo)以及逻辑推理(ARC-Prize)等。在科学与医疗等专业学科的推理任务上(GPQA-Diamond、HealthBench),它同样展现出较强的竞争力。更为意外的是,尽管 Ring-flash-2.0 主要以复杂推理见长,它在创意写作任务(Creative Writing v3)中的表现也超过了其他对比模型,并与其“双胞胎兄弟”——非思考模型 Ling-flash-2.0 处于同一创作能力水平。
- 2. 高效架构,高速推理
继承 Ling 2.0 系列的高效 MoE 设计,通过 1/32 专家激活比、MTP 层等架构优化,Ring-flash-2.0 仅激活 6.1B (non-embedding 4.8B) 参数,即可等效撬动约 40B dense 模型的性能。得益于小激活、高稀疏度的设计,Ring-flash-2.0 在 4 张 H20 部署下实现 200+ tokens/s 的高速生成,同时大幅降低高并发场景下思考模型的推理成本。
- 3. 棒冰(icepop)算法:让 RL 进行长周期的稳定训练
蚂蚁集团提出了一种解决方案 icepop:通过带掩码的双向截断技术来修正分布,从而有效减小训练与推理阶段的差异。最终,icepop 能够保持稳定的强化学习训练过程,避免了 GRPO 出现的训练崩溃问题。与 GRPO 相比,icepop 还将训推精度差异约束在合理范围内,显示出对于控制训推精度差异有效性。
- 4. SFT + RLVR + RLHF 多阶段训练,激发推理潜能、保持通用体验
为提升 Ring-flash-2.0 的能力,蚂蚁集团设计了 Two-staged RL pipeline:首先通过 Long-CoT SFT 训练使模型掌握多样思考方式,再经 RLVR 激发推理潜力,最后引入 RLHF 增强通用能力。实验表明,融合 RLVR 与 RLHF 的联合训练与分阶段方案效果接近,但由于两者任务难度和生成长度差异较大,联合训练会导致生成长尾问题,出于工程效率考虑,最终选择了分阶段训练方案。
开发者首选的“Token 工厂”
—— 极速 · 可靠 · 经济
硅基流动的一站式大模型服务平台致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。
除了 Ring-flash-2.0,硅基流动平台已上架包括 Qwen-Image-Edit、Hunyuan-MT-7B、Qwen-Image、Ling-flash-2.0、Ling-mini-2.0、Kimi-K2-0905、DeepSeek-V3.1、Wan2.2、step3、Qwen3-Coder、Qwen3-30B-A3B、MOSS-TTSD-V0.5、GLM-4.5、Qwen3-Embedding & Reranker、DeepSeek-R1-0528、Qwen2.5VL-72B、CosyVoice2 在内的各类语言、图片、音频、视频、嵌入与重排序模型。其中,DeepSeek-R1 蒸馏版(8B、7B、1.5B)、Qwen3-8B 等多款大模型可免费使用,让开发者实现“Token 自由”。
开发者可在平台自由对比、组合各类大模型,只需在开发应用时轻松调用更易用、高效的 API,为你的生成式 AI 应用选择最佳实践。
近期更新
硅基流动上线DeepSeek-V3.1
硅基流动上线阿里Qwen-Image-Edit
提效300%,大模型一体机加速药企报告撰写
