Step 3开源，兼顾智能与效率的推理时代模型

阶跃星辰 09月25日

阶跃星辰今日宣布开源其最新一代基础大模型Step 3，旨在为企业和开发者提供性能与成本极致均衡的解决方案。Step 3采用MoE架构，总参数量321B，激活参数量38B，拥有强大的视觉感知和复杂推理能力。通过MFA&AFD优化，推理效率大幅提升。Step 3在MMMU、MathVision等多个评测集上成绩行业领先。模型支持多模态预训练，并重构了解码流程，解决推理瓶颈。Step 3 API已上线阶跃星辰开放平台，欢迎下载体验。

🔍 Step 3采用MoE架构，总参数量321B，激活参数量38B，兼顾智能与效率，专为追求性能与成本极致均衡的企业和开发者设计。

🎨 Step 3拥有强大的视觉感知和复杂推理能力，可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析，以及日常生活中的各类视觉分析问题。

⚡ 通过MFA&AFD优化，Step 3在各类芯片上推理效率均大幅提升，面向AFD场景的StepMesh通信库已随模型一同开源。

🌐 Step 3支持多模态预训练，采用5B Vision Encoder和双层2D卷积进行视觉特征降采样，减轻上下文长度压力，提升推理效率。

🔧 Step 3在系统架构层重构了解码流程，实现了高性能的AFD（Attention-FFN Disaggregation）方案，将Attention与FFN解耦，有效提升整体吞吐效率。

原创阶跃星辰 2025-07-31 21:36 北京

欢迎下载体验！

大家好，我们最新一代基础大模型 Step 3 今天正式开源，欢迎下载体验。

Step 3 开源地址：
Github：https://github.com/stepfun-ai/Step3
Hugging Face：https://huggingface.co/stepfun-ai/step3
魔搭ModelScope：
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8

核心要点

Step 3 兼顾智能与效率，专为追求性能与成本极致均衡的企业和开发者设计，旨在面向推理时代打造最适合应用的模型。

Step 3 采用 MoE 架构，总参数量 321B，激活参数量 38B。

Step 3 拥有强大的视觉感知和复杂推理能力，可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析，以及日常生活中的各类视觉分析问题。

通过 MFA（Multi-matrix Factorization Attention） & AFD（Attention-FFN Disaggregation）的优化，在各类芯片上推理效率均大幅提升。

面向 AFD 场景的 StepMesh 通信库已随模型一同开源，提供可跨硬件的标准部署接口，支持关键性能在实际服务中的稳定复现。

模型限时折扣中，所有请求均按最低价格计算，每百万 token 价格低至输入 1.5 元，输出 4 元。

Step 3 API 已上线阶跃星辰开放平台（platform.stepfun.com），大家也可以在“阶跃 AI”官网（stepfun.com）和“阶跃 AI”App（应用商店搜索下载）进行体验。

行业领先的模型性能我们在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench （2024.08-2025.05）等评测集上对 Step 3 进行了测试，在同类型开源模型中，Step 3 成绩行业领先。

技术亮点

Step 3 重点解决多模态协同、系统解码成本与推理效率问题，在训练路径、架构设计和推理部署上做了系统级优化。

1、预训练架构Step 3 的核心结构采用自研 MFA 注意力机制，有效降低注意力计算中的 KV 缓存开销与算力消耗。在不牺牲模型能力的前提下，这一方案实现了资源利用与推理效率的平衡，使得模型可在 8×48GB 显卡上完成大吞吐量推理，具备真实部署的可行性。

2、多模态预训练Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开，重点解决视觉引入带来的 token 负担与训练干扰问题。为此，我们采用 5B Vision Encoder，并通过双层 2D 卷积对视觉特征进行降采样，将视觉 token 数量减少到原来的 1/16，减轻上下文长度压力，提升推理效率。

为保证多模态训练的稳定性，训练过程分为两个阶段：第一阶段强化 Encoder 感知，第二阶段冻结视觉编码器，仅优化主干与连接层，以减少梯度干扰。训练语料也需与策略匹配，保障稳定协同。多模语料涵盖 Pair、Interleave 与多任务数据，在清洗环节中引入相似度过滤、重采样与任务比例控制，进一步提升图文协同质量与训练鲁棒性。

3、AFD 解耦系统Step 3 在系统架构层重构了解码流程，重点解决 Attention 与 FFN 混合执行带来的推理瓶颈以及资源不匹配问题。为此，我们实现了高性能的 AFD（Attention-FFN Disaggregation）方案，将两类计算任务解耦成为两个子系统，并通过多级流水线并行调度，有效提升整体吞吐效率。

由于解耦后的子系统之间对数据传输有极高要求，我们同时研发了面向 AFD 场景的 StepMesh 通信库，基于 GPU Direct RDMA 实现跨卡的低延迟和高带宽传输，同时兼备不占用 GPU 计算资源、适配多类异构硬件等优势。在 50ms 解码的 SLA 前提下，Step 3 在 Hopper GPU 上的吞吐达到 4039 token/gpu/s，显著高于类似设置下的 DeepSeek V3（2324 token/gpu/s），且该性能增益在特定硬件与长文场景会进一步放大至 300%。

StepMesh 库已随模型一同开源，提供可跨硬件的标准部署接口，支持关键性能在实际服务中的稳定复现。之后我们也会积极与各开源社区合作推广，让以上技术更容易被采纳和使用。

StepMesh 开源地址：https://github.com/stepfun-ai/StepMesh

立即体验案例 1：商务饭局座位表第一次安排商务饭局，领导让我按照 10 人图来排座，但客户那边来 7 个人，我们这边算上我5个人，一共 12 人围坐圆桌。怎么排座才不翻车？

“安排商务宴座”是一个混合了图示、模糊语义、礼仪常识与实际变量（人数变化）的非结构化复杂任务。在只提供一张含有限标签的座次图和人数输入的情况下，Step 3 首先识别图中结构，自动解析礼仪规则、角色关系与空间逻辑，再结合中文社交礼仪推理出完整 12 人角色分布逻辑，最终输出了角色明确、位置清晰、结构合理的“主宾-主陪”全局排座方案，并用表格+ ASCII 图直观展示，直接对照坐人即可。

▲上下滑动查看「饭局排座指南」

案例 2：卡路里计算我们上传一张麦当劳小票，问“两个人这一餐分别吃了多少卡路里”。

Step 3 看懂了重复杂乱的食品项目，把菜品归好类、对上热量，最终估算出 2 人一顿饭总共吃了 5710 大卡，人均 2855 大卡，整个过程从原始数据 → 概念识别 → 计算 → 结论解释，逻辑清晰，一整个闭环。

▲上下滑动查看「卡路里分析」

Step 3 API 已上线阶跃星辰开放平台（platform.stepfun.com），大家也可以在“阶跃 AI”官网（stepfun.com）和“阶跃 AI”App（应用商店搜索下载）进行体验。

请点击文末“阅读原文”，查看完整 Step 3 技术博客。

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签