MiniMax M2：以全注意力机制赋能长链推理与Agent工作流

PaperWeekly 12小时前

MiniMax M2发布引起技术圈广泛关注，其核心亮点在于采用全注意力（Full Attention）机制，成功支撑了多跳推理（multi-hop reasoning）和复杂的Agent工作流。与追求算力优化的稀疏或混合注意力机制不同，M2通过全注意力保证了长链条推理过程中的上下文完整性，避免信息累积错误。此外，M2在对话式推理（CoT）数据构造上注重多样性和动态重构，使其回答逻辑更具灵活性；其Agent能力则体现在跨工具、跨场景的推理连续性上，而非简单调用工具。M2的性能并非仅限于榜单分数，更强调在复杂场景下的稳定性与泛化能力，并以可负担的成本使其能力具备实际应用价值，将模型能力讨论引向了更深层次的机制层面。

💡 **全注意力机制保障长链推理的稳定性**：MiniMax M2采用全注意力机制，而非算力受限的稀疏或混合注意力。这确保了在复杂的多跳推理任务中，模型能够看到完整的上下文信息，避免了因信息不完整而导致的推理错误累积，从而在长链条的复杂任务中表现出持续的稳定性和准确性。

🧠 **对话式推理（CoT）注重动态重构而非固定模板**：M2在构造CoT数据时，不追求统一的固定格式，而是强调数据在题型跨度、难度分布和错误推理筛选上的多样性。这使得模型能够根据不同问题动态重构推理骨架，生成更具变形空间和适应性的回答，而非套用预设模板。

🔄 **Agent能力侧重跨场景推理的连续性**：M2的Agent能力关键在于模型在切换工具、页面或API时，能够保持推理逻辑的持续性，避免“清空”或重新开始。它强调的是在多轮交互中，思维状态能够不中断地向前推进，从而真正完成复杂的Agent工作流，这比单纯的工具调用数量更为重要。

📈 **性能评估聚焦真实场景的稳定与泛化**：M2的能力评估不侧重于单点基准测试的分数，而是强调在增加难度、变换题型或领域后，模型能否保持推理链条的连贯性。这种对复杂性和泛化能力的关注，旨在证明模型在真实、更复杂的应用场景中依然可靠。

💰 **可负担的成本是能力落地的关键**：M2将能力的可执行性建立在可负担的成本之上，其定价远低于同类模型，使得开发者能在实际的算力和预算范围内持续使用。这意味着模型的能力不仅仅存在于受控环境或高成本演示中，而是能够真正投入到实际应用中。

原创让你更懂AI的 2025-11-04 13:21 北京

全注意力做 Agent，不再是实验室上限能力

MiniMax M2 发布这几天，最被聚焦的讨论并不在榜单截图，而是那个更关键的问题：Full Attention 到底能不能撑得住多跳 reasoning？
M2 给出的结果，是“撑住了”。这一细节点被技术圈不断单独拉出来讨论，追问机制层为什么能成立。

MiniMax M2 是一个体量不大，却能支撑 Max-级别 coding 与 Agent 工作流的模型。但它真正被技术圈盯上的点，不在参数表里。它不是靠“跑分”吸睛，而是把复杂任务链条做到可以长链不散、推到底。

也正因为这个点太反直觉，M2 一出现，算法圈第一反应不是看结果，而是往下钻到：这一层结构为什么能成立？成立的边界在哪里？

于是技术团队连发三篇 blog，都是在回应被追问的机制层问题——例如：

为什么在 Full Attention 下做长链 reasoning 不会越走越糊？

CoT 数据是怎么构造与筛选的？

Agent 换工具时思考状态如何不被“清空”？

而使讨论继续升温的，是这个问题并没有局限在国内技术圈；海外算法圈也把目光直接锁在机制本体上。

很快，这个话题出现了几个“卡位精准”的讨论：

Songlin Yang

MIT CSAIL 博士生 & Thinking Machines 研究员

她的关注点不是 benchmark 本身，而是直奔技术交叉点：Full 与 Hybrid/Linear 注意力在多跳推理上表现差异是否明显、这背后的评测与训练策略是否影响判断？她同时指出线性复杂度层仍值得继续探索与基础设施优化。

Simon Willison

Django Co-Creator

他没有去谈“能力排名”，而是把 adopt 当作既成现实来举例 —— 230GB 权重可直接跑在 256GB Mac Studio，他自己已经写了 Anthropic-compatible 的 M2 插件，还算了一笔真实 token 成本：不到 0.5 cent 就能跑一条有工具调用的输出。

Pavlo Molchanov

NVIDIA Director of Research

他关注的是为何采用 Full 而非 Hybrid：在更广基准上，线性注意力混合出现更明显的准确率下降；对长上下文与 agentic 任务尤其如此。

他还讨论了层间混合（inter-layer hybrid fusion）的利弊与规模门槛（如 34B 规模可能看不出同样现象）。

到这个点为止，我们已经能看出一个清晰趋势：不同角色的技术追问，其实都在指向同一根技术主干：M2 的能力来自哪几条内核技术线？

M2 为什么做得到？

1.1 复杂推理不掉速

很多人注意到 M2 用的是 Full Attention 时，第一反应都是：这不是在“往回走”吗？

但这几年 linear / sparse / hybrid attention 被讨论得那么多，本质原因其实很简单：它们省算力。不是因为更强，是因为在算力受限的条件下，可以把一些开销“省”回来。

在小规模、短链 benchmark 上，Lightning Attention + Full Attention 的 hybrid 架构表现看不出问题；但当规模放大、推理链条加深，差异就会直接暴露：复杂多跳任务会塌。而且是那种“代理指标看不出来，但真实任务直接炸掉”的类型。

所以 Full Attention 在这里不是“信仰”，而是因为它提供了一个目前其他结构给不出来的底层保证：每一步 reasoning，都能看到完整的必要上下文。不是“看一部分”，不是“看平均”。

在 multi-hop 的情境下，这不是 bonus，是 must have。否则错误不会在第一跳爆，它会累积；到第 5、8、12 步，你根本不知道是哪一步开始跑偏的。

前文中，MIT CSAIL 的 Songlin Yang 卡的就是这一点：随着链条变长，Full 与 Hybrid 的差距是否会被放大？

这就是“复杂推理不掉速”这条能力线的关键：Full Attention 是为了把深链条里的信息保持完整可见。

M2 选择这个结构，是 scale 实验之后做出的必要性判断。

1.2 回答不是靠模版

当我们说到 CoT 时，很多人脑海里会自动浮出一个固定套路：先铺垫，再走几步推理，最后给结论——好像这就是正确的 CoT 姿势。

但对 M2 来说，CoT 的意义根本不在这里。它不是为了写出更长的解释句子，而是让回答的推理形态能跟着问题变化。逻辑不是预先写死成一种排布，而是随着题型动态重构。

MiniMax 团队在构造 CoT 数据时，就没有追求统一格式的长解释。他们更在意三件事：

题型跨度要大

难度分布要拉开

错误推理要被规则 + 模型双重审判筛掉

目的是让模型的 CoT 有变形空间——遇到不同题，不是套一张模板，而是把这题的推理骨架重新搭一次。

这也是为什么在官方 blog 评论区，大家最常追问的不是 CoT 要写多长，而是“怎么构数据、怎么确认 CoT 的结构是能变形的”。评论区也有人指出：若 CoT 演化成统一格式与固定表达，其泛化价值将受限。

所以 M2 这条线的本质很简单：回答不是记格式，逻辑是现场长出来的。这也是为什么它在不同题型下，呈现出来的展开方式会不一样：不是换题复刻同一套写法，而是每一题重新找逻辑起点。

1.3 Agent 不怕换场景

如果说 Full Attention 解决的是“链条会不会散”，CoT 数据解决的是“推理是不是现场长出来的”，那 agent 这一层的问题更贴近真实任务：当模型还没走完一条复杂工作流时，能否在切换工具、切换页面、切 API 时，让推理逻辑不中断。

现实里的 agent，本来就不是一次推理一步到位，而是会不断跨工具跨页面：先搜资料、再调接口、再写代码、再运行结果、再回调接口修一遍。

如果每次换工具、换视图都相当于重新开始一轮思考，那 agent 根本没法把复杂链条真正走完。

M2 在这里想验证的是另一种能力判定：不能只看能不能调用工具，要看跨工具过程中，逻辑是否持续向前，而不是每次重算一遍前情。

能跨场景、跨 UI、跨 API 而不丢失正在进行中的逻辑，这才是 agent 的基本可用性；工具数量多不多不重要，是否能带着思路持续推进才重要。

1.4 为什么 Interleaved Thinking 重要？

在前一节，我们只讨论了换工具不断线这一点本身的必要性；Interleaved Thinking 则是 M2 用来把这个要求变成可验证机制的具体做法。

它不是让模型想得更长，而是把推理 → 动作 → 再推理这一轮转节奏变成默认路径。执行动作不是把 reasoning 暂存一旁，而是让推理链在动作执行过程中持续延伸，避免每次动作后重新落地重启。

下图是相关 benchmark 的对比结果：在 SWEBench Verified、Tau²、BrowseComp、GAIA、xBench 等多项任务上，保留 multi-round 思维状态 → 性能显著更稳。

这说明 Interleaved Thinking 不是写 CoT 写得更漂亮，而是直接决定复杂链条能否稳定完成。

而下方这张示意图，则把结构拆得更清晰：思维段、动作段不是封箱分块，而是嵌套式向前推进；执行外部动作后，推理并不会回到起点，而是继续沿着刚刚那条思路往下走。

Interleaved Thinking 把每一步得到的新证据真正带进下一轮判断，使得 agent 能在跨工具、跨页面、跨 API 的复杂工作链条上持续推进，而不在中途漂移。这不是形式上的好看，而是 agent 可靠性的技术根因。

1.5 性能不是刷榜

性能这件事，有一个很常见的错觉：只要 benchmark 分数高，就说明更强。但对 M2 来说，判断能力从不是单点测一下，而是难度加深之后是否还能稳住。

因为单点 benchmark 很容易被“调出来”——挑题、过拟合、格式对齐、prompt 微定制、专门针对某个leaderboard 做适配，这些都能把数字推得很好看，但并不代表模型在真实、更复杂的场景里也能扛住。

在官方 blog 的讨论区，有用户提过一个关键点：小规模实验与榜单位置，本身不能证明泛化能力。所以在看结果时，他们并不在意是不是在某一个榜单排第几，而在意的是：换一点难度会不会撑不住？换个题型、换个表达、换个 domain，推理链条能否继续延续，而不是一下子偏掉。

M2 想证明的重点，就是这一点：单点刷分不具代表性，规模上去仍保持稳定才有参考价值。

一个只能刷榜、但一换题就掉线的表现，不叫能力；一个在复杂度上升、domain 变化时依然保持连贯的表现，才是可以实际投入使用的能力。

1.6 能力不是实验室里的奢侈品

在 M2 的设定里，能不能长期跑得起本身就是能力定义的一部分。不是只看一次 demo 成不成功，而是看开发者能不能在自己的算力与预算区间里，把它持续用下去。

MiniMax 公布的定价里，M2 的单价为输入 $0.3 / 1M tokens（约 2.1 元），输出 $1.2 / 1M tokens（约 8.4 元）。公开的横向对比信息显示：约为 Claude 同区间价格的 8%，也低于 K2、GLM4.6 等同级模型的报价。

换句话说：能力不能只在高成本、受控条件里成立，而要能在真实使用者承担得起的成本带里成立。只有这样，前面讨论的那一整条能力链（长链 reasoning、跨工具、跨页面）才具备实际可用性。

总结

如果回看这次 M2 引发的所有讨论，会发现一件更值得标记的事：大家的关注点已经从模型表现出了什么，转向能力是如何被维持住的。也就是说，判断不再停留在表层结果本身，而是延伸到了能力形成的条件、边界和结构。

所以这次 M2 引发的不是一个新模型的热闹，而是把能力讨论重新带回了机制层这一层级：哪些能力是可重复的、可解释的、可被长期使用的。

从这个角度看，M2 并不是多了一条亮点，而是把可执行的能力结构落在可检验的框架里。这才是这次讨论真正的价值所在。

参考资料

[1] Agent 向谁对齐：Agent 泛化

https://www.zhihu.com/question/1965302088260104295/answer/1966524554693288083

[2] 为什么 M2 是 Full Attention？

https://www.zhihu.com/question/1965302088260104295/answer/1966810157473335067

[3] 什么是好的 Reasoning 数据？

http://xhslink.com/o/T9YWokbLXl

[4] 全球调用量前三，交错思维链解锁M2的Agent能力 https://mp.weixin.qq.com/s/az9OvwEKJ_vYifqlfw6rWA

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签