阿里巴巴发布了Qwen3-Next-80B-A3B大模型,提供Instruct和Thinking两个版本,分别侧重指令理解和多步推理。该模型引入混合动力引擎,结合了75%的高效Gated DeltaNet(线性注意力)和25%的精准Gated Attention(门控注意力),实现了长文本处理的快速稳定,并有效控制内存占用。其极致省钱架构通过MoE结构,在80B总参数下,推理时仅激活约3B参数,算力利用率高达3.7%。预训练阶段的MTP(Multi-token Prediction)技术加速了长文本生成,实测吞吐量提升显著。该模型适用于长文本处理、高速度稳定性要求、成本敏感以及需要指令响应或深度推理的场景,并支持API、开源及网页版多端体验。
✨ **混合动力引擎实现高效与精准平衡:** Qwen3-Next-80B-A3B模型采用75%的高效Gated DeltaNet(线性注意力)处理长文本,保证速度和内存效率,同时结合25%的精准Gated Attention,确保模型能准确召回关键信息,避免在长文本中“迷失重点”。这种设计特别适合处理32K、64K甚至256K的超长文本,显著提升了长文本处理的稳定性和速度。
💰 **极致省钱架构降低推理成本:** 该模型虽然总参数量为80B,但在推理时仅激活约3B的参数,算力利用率低至3.7%。通过MoE(Mixture of Experts)结构,模型动态选择最相关的10个专家和1个共享专家进行计算,这意味着用户在享受大模型能力的同时,无需为未使用的算力付费,大大降低了使用成本。
🚀 **预训练加速机制提升生成效率:** 模型在预训练阶段集成了MTP(Multi-token Prediction)技术,使其“天生”具备一次预测多个token的能力。这一创新显著减少了生成长文本(如32K以上)时的推理步数,实测表明其吞吐量相比Qwen3-32B提升了10倍以上,为用户带来了更快的文本生成体验。
🎯 **多场景适用与多端体验:** Qwen3-Next-80B-A3B模型专为处理超长输入文本、对推理速度和稳定性有高要求的场景设计。无论是需要指令响应还是深度推理能力,其双版本(Instruct和Thinking)都能满足特定需求。此外,模型支持阿里云百炼API调用、GitHub/魔搭/Hugging Face开源下载以及QwenChat网页版在线使用,提供了便捷的多端体验。
2025-09-12 01:51 浙江
📢 如果你用大模型时总在纠结“效果好但太贵” or “便宜但太卡”…
可以试试我们刚发布的 Qwen3-Next-80B-A3B,包含两个版本:
🔹 Qwen3-Next-80B-A3B-Instruct —— 更擅长理解和执行指令
🔹 Qwen3-Next-80B-A3B-Thinking —— 更擅长多步推理和深度思考
⚡️ 核心技术创新
1️⃣ 【混合动力引擎】75%高效 + 25%精准 = 长文处理更稳更快
经过多次实验,我们发现这个比例在速度和效果之间找到了一个比较好的平衡点。
🔹 75%,用Gated DeltaNet(线性注意力):处理32K、64K、甚至256K的超长文本时,速度飞快,内存占用线性增长,绝不“越长越卡”。
🔹 25%,用Gated Attention(门控注意力):负责精准召回关键信息,确保模型“记得住重点”,不会在长文中迷失。
2️⃣ 【极致省钱架构】80B总参,推理时只用约3B
我们希望大家在享受大模型能力的同时,无需为用不到的算力买单。
为了让大模型在推理时更“轻便”,我们调整了MoE结构:
🔹 总共准备了 512个专家,覆盖各种知识和技能。
🔹 但每次处理请求时,只会动态选择最相关的10个专家 + 1个共享专家 来工作。
🔹 虽然模型总参数是80B,但实际参与计算的只有大约3B,算力利用率大约是3.7%。
3️⃣ 【预训练加速机制】一次多猜几个字,长文生成更快
我们做了一个小改动:在模型预训练阶段,就教它一次预测多个token,这个技术叫 MTP。
🔹 不是外挂的加速工具,而是模型“天生”就会的技能。
🔹 在生成长文本(比如32K以上)时,显著减少推理步数,实测吞吐量比Qwen3-32B提升了10倍+。
🎯 适合场景
🔹 要处理很长的输入文本(KV Cache固定,不会爆显存)
🔹 对推理速度和稳定性要求高(MTP加速 + 高接受率)
🔹 希望用大模型容量,但不想每次推理都“全功率运行”(80B总参,3B激活)
🔹 需要指令响应 or 深度推理能力(双版本针对性优化)
支持多端体验(链接见评论区)
🔹 阿里云百炼(API调用)
🔹 GitHub / 魔搭 / Hugging Face(开源模型)
🔹 QwenChat 网页版(在线即用)






跳转微信打开