index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
MiniMax M2发布引起技术圈广泛关注,其核心亮点在于采用全注意力(Full Attention)机制,成功支撑了多跳推理(multi-hop reasoning)和复杂的Agent工作流。与追求算力优化的稀疏或混合注意力机制不同,M2通过全注意力保证了长链条推理过程中的上下文完整性,避免信息累积错误。此外,M2在对话式推理(CoT)数据构造上注重多样性和动态重构,使其回答逻辑更具灵活性;其Agent能力则体现在跨工具、跨场景的推理连续性上,而非简单调用工具。M2的性能并非仅限于榜单分数,更强调在复杂场景下的稳定性与泛化能力,并以可负担的成本使其能力具备实际应用价值,将模型能力讨论引向了更深层次的机制层面。
💡 **全注意力机制保障长链推理的稳定性**:MiniMax M2采用全注意力机制,而非算力受限的稀疏或混合注意力。这确保了在复杂的多跳推理任务中,模型能够看到完整的上下文信息,避免了因信息不完整而导致的推理错误累积,从而在长链条的复杂任务中表现出持续的稳定性和准确性。
🧠 **对话式推理(CoT)注重动态重构而非固定模板**:M2在构造CoT数据时,不追求统一的固定格式,而是强调数据在题型跨度、难度分布和错误推理筛选上的多样性。这使得模型能够根据不同问题动态重构推理骨架,生成更具变形空间和适应性的回答,而非套用预设模板。
🔄 **Agent能力侧重跨场景推理的连续性**:M2的Agent能力关键在于模型在切换工具、页面或API时,能够保持推理逻辑的持续性,避免“清空”或重新开始。它强调的是在多轮交互中,思维状态能够不中断地向前推进,从而真正完成复杂的Agent工作流,这比单纯的工具调用数量更为重要。
📈 **性能评估聚焦真实场景的稳定与泛化**:M2的能力评估不侧重于单点基准测试的分数,而是强调在增加难度、变换题型或领域后,模型能否保持推理链条的连贯性。这种对复杂性和泛化能力的关注,旨在证明模型在真实、更复杂的应用场景中依然可靠。
💰 **可负担的成本是能力落地的关键**:M2将能力的可执行性建立在可负担的成本之上,其定价远低于同类模型,使得开发者能在实际的算力和预算范围内持续使用。这意味着模型的能力不仅仅存在于受控环境或高成本演示中,而是能够真正投入到实际应用中。
原创 让你更懂AI的 2025-11-04 13:21 北京

全注意力做 Agent,不再是实验室上限能力

MiniMax M2 发布这几天,最被聚焦的讨论并不在榜单截图,而是那个更关键的问题:Full Attention 到底能不能撑得住多跳 reasoning?
M2 给出的结果,是“撑住了”。这一细节点被技术圈不断单独拉出来讨论,追问机制层为什么能成立。
MiniMax M2 是一个体量不大,却能支撑 Max-级别 coding 与 Agent 工作流的模型。但它真正被技术圈盯上的点,不在参数表里。它不是靠“跑分”吸睛,而是把复杂任务链条做到可以长链不散、推到底。
也正因为这个点太反直觉,M2 一出现,算法圈第一反应不是看结果,而是往下钻到:这一层结构为什么能成立?成立的边界在哪里?
于是技术团队连发三篇 blog,都是在回应被追问的机制层问题——例如:
而使讨论继续升温的,是这个问题并没有局限在国内技术圈;海外算法圈也把目光直接锁在机制本体上。
很快,这个话题出现了几个“卡位精准”的讨论:
MIT CSAIL 博士生 & Thinking Machines 研究员

她的关注点不是 benchmark 本身,而是直奔技术交叉点:Full 与 Hybrid/Linear 注意力在多跳推理上表现差异是否明显、这背后的评测与训练策略是否影响判断?她同时指出线性复杂度层仍值得继续探索与基础设施优化。

他没有去谈“能力排名”,而是把 adopt 当作既成现实来举例 —— 230GB 权重可直接跑在 256GB Mac Studio,他自己已经写了 Anthropic-compatible 的 M2 插件,还算了一笔真实 token 成本:不到 0.5 cent 就能跑一条有工具调用的输出。
NVIDIA Director of Research

他关注的是为何采用 Full 而非 Hybrid:在更广基准上,线性注意力混合出现更明显的准确率下降;对长上下文与 agentic 任务尤其如此。
他还讨论了层间混合(inter-layer hybrid fusion)的利弊与规模门槛(如 34B 规模可能看不出同样现象)。
到这个点为止,我们已经能看出一个清晰趋势:不同角色的技术追问,其实都在指向同一根技术主干 :M2 的能力来自哪几条内核技术线?

M2 为什么做得到?1.1 复杂推理不掉速很多人注意到 M2 用的是 Full Attention 时,第一反应都是:这不是在“往回走”吗?
但这几年 linear / sparse / hybrid attention 被讨论得那么多,本质原因其实很简单:它们省算力。不是因为更强,是因为在算力受限的条件下,可以把一些开销“省”回来。
在小规模、短链 benchmark 上,Lightning Attention + Full Attention 的 hybrid 架构表现看不出问题;但当规模放大、推理链条加深,差异就会直接暴露:复杂多跳任务会塌。而且是那种“代理指标看不出来,但真实任务直接炸掉”的类型。
所以 Full Attention 在这里不是“信仰”,而是因为它提供了一个目前其他结构给不出来的底层保证:每一步 reasoning,都能看到完整的必要上下文。不是“看一部分”,不是“看平均”。
在 multi-hop 的情境下,这不是 bonus,是 must have。否则错误不会在第一跳爆,它会累积;到第 5、8、12 步,你根本不知道是哪一步开始跑偏的。
前文中,MIT CSAIL 的 Songlin Yang 卡的就是这一点:随着链条变长,Full 与 Hybrid 的差距是否会被放大?
这就是“复杂推理不掉速”这条能力线的关键:Full Attention 是为了把深链条里的信息保持完整可见。
M2 选择这个结构,是 scale 实验之后做出的必要性判断。
1.2 回答不是靠模版
当我们说到 CoT 时,很多人脑海里会自动浮出一个固定套路:先铺垫,再走几步推理,最后给结论——好像这就是正确的 CoT 姿势。
但对 M2 来说,CoT 的意义根本不在这里。它不是为了写出更长的解释句子,而是让回答的推理形态能跟着问题变化。逻辑不是预先写死成一种排布,而是随着题型动态重构。
MiniMax 团队在构造 CoT 数据时,就没有追求统一格式的长解释。他们更在意三件事:
题型跨度要大
难度分布要拉开
错误推理要被规则 + 模型双重审判筛掉
目的是让模型的 CoT 有变形空间——遇到不同题,不是套一张模板,而是把这题的推理骨架重新搭一次。
这也是为什么在官方 blog 评论区,大家最常追问的不是 CoT 要写多长,而是“怎么构数据、怎么确认 CoT 的结构是能变形的”。评论区也有人指出:若 CoT 演化成统一格式与固定表达,其泛化价值将受限。
所以 M2 这条线的本质很简单:回答不是记格式,逻辑是现场长出来的。这也是为什么它在不同题型下,呈现出来的展开方式会不一样:不是换题复刻同一套写法,而是每一题重新找逻辑起点。
1.3 Agent 不怕换场景
如果说 Full Attention 解决的是“链条会不会散”,CoT 数据解决的是“推理是不是现场长出来的”,那 agent 这一层的问题更贴近真实任务:当模型还没走完一条复杂工作流时,能否在切换工具、切换页面、切 API 时,让推理逻辑不中断。
现实里的 agent,本来就不是一次推理一步到位,而是会不断跨工具跨页面:先搜资料、再调接口、再写代码、再运行结果、再回调接口修一遍。
如果每次换工具、换视图都相当于重新开始一轮思考,那 agent 根本没法把复杂链条真正走完。
M2 在这里想验证的是另一种能力判定:不能只看能不能调用工具,要看跨工具过程中,逻辑是否持续向前,而不是每次重算一遍前情。
能跨场景、跨 UI、跨 API 而不丢失正在进行中的逻辑,这才是 agent 的基本可用性;工具数量多不多不重要,是否能带着思路持续推进才重要。
1.4 为什么 Interleaved Thinking 重要?
在前一节,我们只讨论了换工具不断线这一点本身的必要性;Interleaved Thinking 则是 M2 用来把这个要求变成可验证机制的具体做法。
它不是让模型想得更长,而是把推理 → 动作 → 再推理这一轮转节奏变成默认路径。执行动作不是把 reasoning 暂存一旁,而是让推理链在动作执行过程中持续延伸,避免每次动作后重新落地重启。
下图是相关 benchmark 的对比结果:在 SWEBench Verified、Tau²、BrowseComp、GAIA、xBench 等多项任务上,保留 multi-round 思维状态 → 性能显著更稳。

这说明 Interleaved Thinking 不是写 CoT 写得更漂亮, 而是直接决定复杂链条能否稳定完成。
而下方这张示意图,则把结构拆得更清晰:思维段、动作段不是封箱分块,而是嵌套式向前推进;执行外部动作后,推理并不会回到起点,而是继续沿着刚刚那条思路往下走。

Interleaved Thinking 把每一步得到的新证据真正带进下一轮判断,使得 agent 能在跨工具、跨页面、跨 API 的复杂工作链条上持续推进,而不在中途漂移。这不是形式上的好看, 而是 agent 可靠性的技术根因。
1.5 性能不是刷榜
性能这件事,有一个很常见的错觉:只要 benchmark 分数高,就说明更强。但对 M2 来说,判断能力从不是单点测一下,而是难度加深之后是否还能稳住。
因为单点 benchmark 很容易被“调出来”——挑题、过拟合、格式对齐、prompt 微定制、专门针对某个leaderboard 做适配,这些都能把数字推得很好看,但并不代表模型在真实、更复杂的场景里也能扛住。
在官方 blog 的讨论区,有用户提过一个关键点:小规模实验与榜单位置,本身不能证明泛化能力。所以在看结果时,他们并不在意是不是在某一个榜单排第几,而在意的是:换一点难度会不会撑不住?换个题型、换个表达、换个 domain,推理链条能否继续延续,而不是一下子偏掉。
M2 想证明的重点,就是这一点:单点刷分不具代表性,规模上去仍保持稳定才有参考价值。
一个只能刷榜、但一换题就掉线的表现,不叫能力;一个在复杂度上升、domain 变化时依然保持连贯的表现,才是可以实际投入使用的能力。
1.6 能力不是实验室里的奢侈品
在 M2 的设定里,能不能长期跑得起本身就是能力定义的一部分。不是只看一次 demo 成不成功,而是看开发者能不能在自己的算力与预算区间里,把它持续用下去。
MiniMax 公布的定价里,M2 的单价为输入 $0.3 / 1M tokens(约 2.1 元),输出 $1.2 / 1M tokens(约 8.4 元)。公开的横向对比信息显示:约为 Claude 同区间价格的 8%,也低于 K2、GLM4.6 等同级模型的报价。


换句话说:能力不能只在高成本、受控条件里成立,而要能在真实使用者承担得起的成本带里成立。只有这样,前面讨论的那一整条能力链(长链 reasoning、跨工具、跨页面)才具备实际可用性。

总结
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·

![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
阅读原文
跳转微信打开