MiniMax M2：全注意力机制赋能长链推理与Agent工作流

PaperWeekly 前天 19:45

MiniMax M2模型发布，其核心亮点在于采用了全注意力（Full Attention）机制，成功解决了多跳推理（multi-hop reasoning）的挑战，使得Agent工作流能够长链不散。该模型在复杂任务链条的执行上表现出色，能够支撑Max级别的编码和Agent工作。技术圈对其机制原理展开了深入讨论，关注点在于全注意力如何在长链推理中保持信息完整性，以及CoT（Chain-of-Thought）数据的构造与筛选策略。M2的发布不仅在国内引起关注，也吸引了海外算法圈的目光，多位知名研究者和开发者对其技术细节进行了分析和探讨，普遍认为其在复杂推理、Agent切换工具时的思维状态保持以及性能的实际可用性方面展现了显著优势。

💡 **全注意力机制突破长链推理瓶颈**：MiniMax M2采用全注意力（Full Attention）而非线性或混合注意力机制，解决了多跳推理中信息累积错误的问题。它能确保在长而复杂的推理链条中，模型始终能看到完整的上下文信息，从而在复杂任务中保持推理的稳定性和准确性，避免了信息在推理过程中逐渐模糊或丢失。

🧠 **CoT数据构造重塑推理形态**：M2的CoT（Chain-of-Thought）数据并非追求统一格式的长篇解释，而是注重问题的类型跨度、难度分布以及对错误推理的双重筛除。这种数据构造策略使得模型能够根据不同问题动态重构推理骨架，实现“逻辑现场长出来”而非套用固定模板，从而展现出更强的泛化能力和适应性。

🛠️ **Agent跨工具/场景思维持续性**：M2的Agent能力体现在其能够跨越工具、页面和API切换时，保持推理逻辑不中断。通过“Interleaved Thinking”机制，推理与动作执行嵌套式推进，确保每次执行动作后，思维状态不会被“清空”，而是能继续沿着当前思路进行，这对于Agent完成复杂工作流至关重要。

📈 **性能评估回归实际可用性**：MiniMax M2的性能评估重点在于其在难度加深、领域变化时是否依然能够保持稳定连贯的表现，而非仅仅追求单点Benchmark的高分。这种评估方式更侧重于模型的泛化能力和在真实、复杂场景下的实际可用性，确保其能力不只是实验室里的奢侈品，而是能在可承受的成本下被开发者持续使用。

💰 **高性价比实现能力普及**：M2的定价策略使其能力具备了实际应用的经济可行性。相比同级别模型，其较低的输入输出Token价格，使得其强大的长链推理、Agent工作流等能力能够以更低的成本投入到实际开发和应用中，从而推动AI能力的普及和落地。

原创让你更懂AI的 2025-11-04 13:21 北京

全注意力做 Agent，不再是实验室上限能力

MiniMax M2 发布这几天，最被聚焦的讨论并不在榜单截图，而是那个更关键的问题：Full Attention 到底能不能撑得住多跳 reasoning？

M2 给出的结果，是“撑住了”。这一细节点被技术圈不断单独拉出来讨论，追问机制层为什么能成立。

MiniMax M2 是一个体量不大，却能支撑 Max-级别 coding 与 Agent 工作流的模型。但它真正被技术圈盯上的点，不在参数表里。它不是靠“跑分”吸睛，而是把复杂任务链条做到可以长链不散、推到底。

也正因为这个点太反直觉，M2 一出现，算法圈第一反应不是看结果，而是往下钻到：这一层结构为什么能成立？成立的边界在哪里？

于是技术团队连发三篇 blog，都是在回应被追问的机制层问题——例如：

而使讨论继续升温的，是这个问题并没有局限在国内技术圈；海外算法圈也把目光直接锁在机制本体上。

很快，这个话题出现了几个“卡位精准”的讨论：

Songlin Yang

MIT CSAIL 博士生 & Thinking Machines 研究员

她的关注点不是 benchmark 本身，而是直奔技术交叉点：Full 与 Hybrid/Linear 注意力在多跳推理上表现差异是否明显、这背后的评测与训练策略是否影响判断？她同时指出线性复杂度层仍值得继续探索与基础设施优化。

Simon Willison

Django Co-Creator

他没有去谈“能力排名”，而是把 adopt 当作既成现实来举例 —— 230GB 权重可直接跑在 256GB Mac Studio，他自己已经写了 Anthropic-compatible 的 M2 插件，还算了一笔真实 token 成本：不到 0.5 cent 就能跑一条有工具调用的输出。

Pavlo Molchanov

NVIDIA Director of Research

他关注的是为何采用 Full 而非 Hybrid：在更广基准上，线性注意力混合出现更明显的准确率下降；对长上下文与 agentic 任务尤其如此。

他还讨论了层间混合（inter-layer hybrid fusion）的利弊与规模门槛（如 34B 规模可能看不出同样现象）。

到这个点为止，我们已经能看出一个清晰趋势：不同角色的技术追问，其实都在指向同一根技术主干：M2 的能力来自哪几条内核技术线？

M2 为什么做得到？

1.1 复杂推理不掉速

很多人注意到 M2 用的是 Full Attention 时，第一反应都是：这不是在“往回走”吗？

但这几年 linear / sparse / hybrid attention 被讨论得那么多，本质原因其实很简单：它们省算力。不是因为更强，是因为在算力受限的条件下，可以把一些开销“省”回来。

在小规模、短链 benchmark 上，Lightning Attention + Full Attention 的 hybrid 架构表现看不出问题；但当规模放大、推理链条加深，差异就会直接暴露：复杂多跳任务会塌。而且是那种“代理指标看不出来，但真实任务直接炸掉”的类型。

所以 Full Attention 在这里不是“信仰”，而是因为它提供了一个目前其他结构给不出来的底层保证：每一步 reasoning，都能看到完整的必要上下文。不是“看一部分”，不是“看平均”。

在 multi-hop 的情境下，这不是 bonus，是 must have。否则错误不会在第一跳爆，它会累积；到第 5、8、12 步，你根本不知道是哪一步开始跑偏的。

前文中，MIT CSAIL 的 Songlin Yang 卡的就是这一点：随着链条变长，Full 与 Hybrid 的差距是否会被放大？

这就是“复杂推理不掉速”这条能力线的关键：Full Attention 是为了把深链条里的信息保持完整可见。

M2 选择这个结构，是 scale 实验之后做出的必要性判断。

1.2 回答不是靠模版

当我们说到 CoT 时，很多人脑海里会自动浮出一个固定套路：先铺垫，再走几步推理，最后给结论——好像这就是正确的 CoT 姿势。

但对 M2 来说，CoT 的意义根本不在这里。它不是为了写出更长的解释句子，而是让回答的推理形态能跟着问题变化。逻辑不是预先写死成一种排布，而是随着题型动态重构。

MiniMax 团队在构造 CoT 数据时，就没有追求统一格式的长解释。他们更在意三件事：

目的是让模型的 CoT 有变形空间——遇到不同题，不是套一张模板，而是把这题的推理骨架重新搭一次。

这也是为什么在官方 blog 评论区，大家最常追问的不是 CoT 要写多长，而是“怎么构数据、怎么确认 CoT 的结构是能变形的”。评论区也有人指出：若 CoT 演化成统一格式与固定表达，其泛化价值将受限。

所以 M2 这条线的本质很简单：回答不是记格式，逻辑是现场长出来的。这也是为什么它在不同题型下，呈现出来的展开方式会不一样：不是换题复刻同一套写法，而是每一题重新找逻辑起点。

1.3 Agent 不怕换场景

如果说 Full Attention 解决的是“链条会不会散”，CoT 数据解决的是“推理是不是现场长出来的”，那 agent 这一层的问题更贴近真实任务：当模型还没走完一条复杂工作流时，能否在切换工具、切换页面、切 API 时，让推理逻辑不中断。

现实里的 agent，本来就不是一次推理一步到位，而是会不断跨工具跨页面：先搜资料、再调接口、再写代码、再运行结果、再回调接口修一遍。

如果每次换工具、换视图都相当于重新开始一轮思考，那 agent 根本没法把复杂链条真正走完。

M2 在这里想验证的是另一种能力判定：不能只看能不能调用工具，要看跨工具过程中，逻辑是否持续向前，而不是每次重算一遍前情。

能跨场景、跨 UI、跨 API 而不丢失正在进行中的逻辑，这才是 agent 的基本可用性；工具数量多不多不重要，是否能带着思路持续推进才重要。

1.4 为什么 Interleaved Thinking 重要？

在前一节，我们只讨论了换工具不断线这一点本身的必要性；Interleaved Thinking 则是 M2 用来把这个要求变成可验证机制的具体做法。

它不是让模型想得更长，而是把推理 → 动作 → 再推理这一轮转节奏变成默认路径。执行动作不是把 reasoning 暂存一旁，而是让推理链在动作执行过程中持续延伸，避免每次动作后重新落地重启。

下图是相关 benchmark 的对比结果：在 SWEBench Verified、Tau²、BrowseComp、GAIA、xBench 等多项任务上，保留 multi-round 思维状态 → 性能显著更稳。

这说明 Interleaved Thinking 不是写 CoT 写得更漂亮，而是直接决定复杂链条能否稳定完成。

而下方这张示意图，则把结构拆得更清晰：思维段、动作段不是封箱分块，而是嵌套式向前推进；执行外部动作后，推理并不会回到起点，而是继续沿着刚刚那条思路往下走。

Interleaved Thinking 把每一步得到的新证据真正带进下一轮判断，使得 agent 能在跨工具、跨页面、跨 API 的复杂工作链条上持续推进，而不在中途漂移。这不是形式上的好看，而是 agent 可靠性的技术根因。

1.5 性能不是刷榜

性能这件事，有一个很常见的错觉：只要 benchmark 分数高，就说明更强。但对 M2 来说，判断能力从不是单点测一下，而是难度加深之后是否还能稳住。

因为单点 benchmark 很容易被“调出来”——挑题、过拟合、格式对齐、prompt 微定制、专门针对某个leaderboard 做适配，这些都能把数字推得很好看，但并不代表模型在真实、更复杂的场景里也能扛住。

在官方 blog 的讨论区，有用户提过一个关键点：小规模实验与榜单位置，本身不能证明泛化能力。所以在看结果时，他们并不在意是不是在某一个榜单排第几，而在意的是：换一点难度会不会撑不住？换个题型、换个表达、换个 domain，推理链条能否继续延续，而不是一下子偏掉。

M2 想证明的重点，就是这一点：单点刷分不具代表性，规模上去仍保持稳定才有参考价值。

一个只能刷榜、但一换题就掉线的表现，不叫能力；一个在复杂度上升、domain 变化时依然保持连贯的表现，才是可以实际投入使用的能力。

1.6 能力不是实验室里的奢侈品

在 M2 的设定里，能不能长期跑得起本身就是能力定义的一部分。不是只看一次 demo 成不成功，而是看开发者能不能在自己的算力与预算区间里，把它持续用下去。

MiniMax 公布的定价里，M2 的单价为输入 $0.3 / 1M tokens（约 2.1 元），输出 $1.2 / 1M tokens（约 8.4 元）。公开的横向对比信息显示：约为 Claude 同区间价格的 8%，也低于 K2、GLM4.6 等同级模型的报价。

换句话说：能力不能只在高成本、受控条件里成立，而要能在真实使用者承担得起的成本带里成立。只有这样，前面讨论的那一整条能力链（长链 reasoning、跨工具、跨页面）才具备实际可用性。

总结

如果回看这次 M2 引发的所有讨论，会发现一件更值得标记的事：大家的关注点已经从模型表现出了什么，转向能力是如何被维持住的。也就是说，判断不再停留在表层结果本身，而是延伸到了能力形成的条件、边界和结构。

所以这次 M2 引发的不是一个新模型的热闹，而是把能力讨论重新带回了机制层这一层级：哪些能力是可重复的、可解释的、可被长期使用的。

从这个角度看，M2 并不是多了一条亮点，而是把可执行的能力结构落在可检验的框架里。这才是这次讨论真正的价值所在。

参考资料

[1] Agent 向谁对齐：Agent 泛化

https://www.zhihu.com/question/1965302088260104295/answer/1966524554693288083

[2] 为什么 M2 是 Full Attention？

https://www.zhihu.com/question/1965302088260104295/answer/1966810157473335067

[3] 什么是好的 Reasoning 数据？

http://xhslink.com/o/T9YWokbLXl

[4] 全球调用量前三，交错思维链解锁M2的Agent能力 https://mp.weixin.qq.com/s/az9OvwEKJ_vYifqlfw6rWA

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签