AI 增长速度被低估：专家预测未来几年将实现指数级飞跃

原创小雅 2025-11-11 11:15 北京

上个月底，前 DeepMind 传奇项目（AlphaGo Zero、MuZero）的核心贡献者、现任 Anthropic 顶级研究员 Julian Schrittwieser 发布了一篇题为《[Failing to Understand the Exponential, Again]》（《我们又一次低估了指数增长的力量》）的博文，迅速在 AI 圈爆火。

原因很简单，这篇博文戳中了一个关键问题：我们对 AI 的增长速度，可能一直都在误判。

在近期的深度访谈中，Julian 再次系统性地阐述了前沿 AI 发展的真实轨迹、对未来一两年的具体预测，以及从 AlphaGo 到 AGI 的关键进化路径。

跟随这位顶级研究员的视角，我们会发现令人震惊的真相。

传送门：https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

一、公众为何会反复误判 AI？Julian 指出，人类在面对「指数增长」时一贯迟钝。这种认知错觉，在新冠疫情早期就出现过——明明数据已经在爆炸增长，社会却仍觉得离我们很远。AI 如今也一样。

Julian 总结了公众的两大认知偏差：

忽视指数曲线。

大多数人仍以线性视角看待 AI 的进步，误以为它正在“放缓”，或将止步不前。但在前沿实验室的数据中，AI 能力的增长极其稳定且指数级，与“泡沫论”的主流叙事完全不同。

以当下的错误做永久性判断。

看到 AI 现在偶尔犯错（如写程序、设计网站），就认为它永远无法达到人类水平。于是就跳到结论：AI 永远无法在人类水平上完成这些任务，或者只会产生很小的影响。

可几年前，让 AI 做到这些事情还完全是科幻。有人看到连续两代模型的对话差异不大，就断言 AI 已见顶、Scaling 时代结束了。

虽然社交媒体上人工智能泡沫的讨论随处可见，但 Julian 在前沿实验室看到的，却是另一番景象：

“我们没有看到进展的放缓，反而看到的是一个非常稳定的进步，已经持续多年。”

这种进步，用数据可以精确描绘出来。

二、AI 长任务能力每 7 个月翻一番根据独立机构 METR（Model Evaluation and Testbed for Robustness） 的研究报告《Measuring AI Ability to Complete Long Tasks》（《衡量 AI 完成长任务的能力》），

前沿模型在任务持续时间上的表现呈现出稳定的翻倍曲线。

2024 年中期，Claude Sonnet 3.5 仅能独立完成约 30 分钟任务；

到 2025 年，Sonnet 3.7 已能连续自主工作约 1 小时。

按照这种趋势外推，AI 长任务能力每 7 个月翻一番。最新一代 GPT-5、Grok 4、Opus 4.1 等模型的表现已经超出了趋势预测线，能够胜任超过 2 小时长度的任务。

Julian 指出：

“这意味着模型已经能在中等规模项目上独立运行，不需要人类实时干预。”

这类能力的提升，不是“线性叠加”，而是指数倍增。

若继续沿着 METR 的趋势线外推，仅需一年多时间，AI 就能连续工作一个完整工作日。

有人可能会反对：从软件工程任务上推广到更广泛的经济领域是否合适？

三、AI 已逼近人类专家，可委托性逐渐扩大幸运的是，我们还有另一个研究可以参考：OpenAI 的 GDPval 评估——它在 9 个行业中覆盖了 44 个职业来测量模型表现。

在这项评估中：

每个任务都由平均 14 年经验的行业专家设计，

模型与人类解答进行盲评比较。

结果显示：GPT-5 、Claude Opus 4.1 已接近人类专家的平均水平。

这些跨行业数据说明：

AI 的“可委托性”正在迅速扩大。

如果模型每 10 分钟就需要人类反馈交互，其效率会受到极大限制；但当模型能持续工作数小时，并在专业水平上与专家持平，它就不再是单纯的工具副本，而成为可以批量委托任务、进行团队化管理的 “虚拟协作伙伴”。

Julian 认为，即使是保守的趋势外推，也足以推断 2026 年将是 AI 广泛融入经济的关键一年。

“基于对数据和过去趋势的简单的线性拟合外推，可以预测 AI 在未来一两年内将实现全天候自主工作，并在专业领域达到甚至超越专家水平。”

对此，他给出了三个时间节点的关键预测：

到 2026 年中期，模型将能够 自主工作一整天（8 个工作小时）。

在 2026 年底之前，至少有一个模型将在多个行业 匹配人类专家 的表现。

到 2027 年底，模型将频繁地在许多任务上超越专家。

这些不是空想，是数据外推的结果。Julian 说，这或许比很多 “专家判断” 更可靠。

四、AI 生产力革命之后，是一场 AI 创造力革命不止如此，AI 的价值，早已不只是 “高效干活”。它的创造力，也在改写科学探索的节奏。

Julian 对 AI 创造力的理解，源自他在 DeepMind 时期的亲历。2016 年，AlphaGo 对战世界顶尖围棋选手，走出了震惊业界的 “37 步”。那一步棋非常反常，连职业棋手都感到意外。

这一步的意义重大 —— 它证明 AI 不只是机械计算最优路径，还能做出真正新颖、有创意的决策。

现在的语言模型，同样有这种创造力。它们能生成无限量的新颖内容，比如新代码、新论文片段。

真正的难点，不在于 “新颖”，而在于 “有用的新颖”。

要做到这一点，任务得够难、够有趣，AI 还得能判断创意的质量。既走新路径，又保证这条路径有实际价值。

如今，这种创造力已经用到了科学发现上。

AlphaCode 能找到新程序，AlphaTensor 能发掘新算法。Google DeepMind 和 Yell，也在生物医学领域用 AI 做出了新发现。

Julian 判断：

“或许明年，我们就会看到由 AI 独立完成、足以震动科学界的发现。”

而对于当前存在的争议，他保持十分乐观的态度：

现在有些成果还有争议，但这个过程一直在推进，等证据足够清晰，争议自然会消失。

更让人期待的是诺贝尔奖级别的突破。

Julian 甚至预测，到 2027 年或 2028 年，AI 模型会足够聪明，能单独完成足以赢得诺贝尔奖的科学突破。

未来，AI 甚至可能冲击数学菲尔兹奖。它会帮我们解锁宇宙的奥秘，提升人类的生活水平。

换言之，AI 的生产力革命之后，正酝酿一场「创造力革命」。

五、AGI 的路径与挑战：预训练与强化学习的结合聊到 AGI，Julian 的判断极为清晰：

“不需要新的神秘技术，‘预训练 + Transformer + 强化学习’的范式，足以实现人类水平的智能系统。”

这个范式的有效性，在 AlphaGo 系列进化中体现得淋漓尽致：

AlphaGo 靠深度网络与自我对弈击败顶级棋手

AlphaGo Zero 将这一过程提升到了另一个层次，完全去除了对人类知识的依赖，从零开始自我对弈，几天就超越初代

AlphaZero 把逻辑推广到国际象棋、将棋，实现跨游戏通用

Mu0 则将框架扩展到现实世界的强化学习问题

在他看来，AGI 不会是突发奇点，而是一条平滑曲线。

技术难度的上升是真实的，但只要生产力的提升能抵消研究成本的增加，进步就不会停滞。

至于未来是否会放弃预训练、只用强化学习，Julian 的答案是 “大概率不会”。

“预训练带来了一些有趣的安全性视角。创造一个拥有与我们相似价值观的代理”—— 预训练不仅高效，还能帮 AI 对齐人类价值观。

或许有人会为科学兴趣训练 “从零开始的 AI”，但实用层面，“预训练 + 强化学习” 仍是主流。

最终，AI 的目标不是 “超智能”，而是解决气候变化、医疗、教育等全球性问题。

“我们需要确保人工智能是为人类服务，而不是对抗人类”—— 这才是技术进化中最核心的原则。

六、结语Julian 的分享，其实在帮我们纠正一个认知：别用 “现在的 AI” 去判断 “未来的 AI”。

因为它在指数增长。

今天觉得 “不可能” 的事，可能明年就成了 “常规操作”。

从自主工作一整天，到追上甚至超越专家，再到帮人类拿诺贝尔奖 ——AI 的进化速度，比我们想象中快。

正如 Julian 所说：

“人工智能是一种工具 —— 一种强大的工具，可以帮助我们解决问题，实现曾经认为不可能的事情。”

但它终究是个工具。是否能够负责任地使用它，并确保它造福全人类，这掌握在我们手中。

未来有多好，取决于我们能不能用好这个工具，能不能让它跟人类站在一边。我们面前有一个巨大的机会，而如何充分利用它，取决于我们自己。

接下来的两三年，会是 AI 改变世界的关键期。我们不妨保持关注，也保持理性 —— 既不低估它的潜力，也不忽视它的挑战。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签