原创 小雅 2025-11-11 11:15 北京
传送门:https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/一、公众为何会反复误判 AI?Julian 指出,人类在面对「指数增长」时一贯迟钝。这种认知错觉,在新冠疫情早期就出现过——明明数据已经在爆炸增长,社会却仍觉得离我们很远。AI 如今也一样。Julian 总结了公众的两大认知偏差:忽视指数曲线。大多数人仍以线性视角看待 AI 的进步,误以为它正在“放缓”,或将止步不前。但在前沿实验室的数据中,AI 能力的增长极其稳定且指数级,与“泡沫论”的主流叙事完全不同。以当下的错误做永久性判断。看到 AI 现在偶尔犯错(如写程序、设计网站),就认为它永远无法达到人类水平。于是就跳到结论:AI 永远无法在人类水平上完成这些任务,或者只会产生很小的影响。可几年前,让 AI 做到这些事情还完全是科幻。有人看到连续两代模型的对话差异不大,就断言 AI 已见顶、Scaling 时代结束了。虽然社交媒体上人工智能泡沫 的讨论随处可见,但 Julian 在前沿实验室看到的,却是另一番景象:
“我们没有看到进展的放缓,反而看到的是一个非常稳定的进步,已经持续多年。”这种进步,用数据可以精确描绘出来。二、AI 长任务能力每 7 个月翻一番根据独立机构 METR(Model Evaluation and Testbed for Robustness) 的研究报告《Measuring AI Ability to Complete Long Tasks》(《衡量 AI 完成长任务的能力》),前沿模型在任务持续时间上的表现呈现出稳定的翻倍曲线。2024 年中期,Claude Sonnet 3.5 仅能独立完成约 30 分钟任务;到 2025 年,Sonnet 3.7 已能连续自主工作约 1 小时。按照这种趋势外推,AI 长任务能力每 7 个月翻一番。最新一代 GPT-5、Grok 4、Opus 4.1 等模型的表现已经超出了趋势预测线,能够胜任超过 2 小时长度的任务。Julian 指出:
“这意味着模型已经能在中等规模项目上独立运行,不需要人类实时干预。”这类能力的提升,不是“线性叠加”,而是指数倍增。若继续沿着 METR 的趋势线外推,仅需一年多时间,AI 就能连续工作一个完整工作日。有人可能会反对:从软件工程任务上推广到更广泛的经济领域是否合适?三、AI 已逼近人类专家,可委托性逐渐扩大幸运的是,我们还有另一个研究可以参考:OpenAI 的 GDPval 评估——它在 9 个行业中覆盖了 44 个职业来测量模型表现。在这项评估中:每个任务都由平均 14 年经验的行业专家设计,模型与人类解答进行盲评比较。结果显示:GPT-5 、Claude Opus 4.1 已接近人类专家的平均水平。
“基于对数据和过去趋势的简单的线性拟合外推,可以预测 AI 在未来一两年内将实现全天候自主工作,并在专业领域达到甚至超越专家水平。”对此,他给出了三个时间节点的关键预测:到 2026 年中期,模型将能够 自主工作一整天(8 个工作小时)。在 2026 年底之前,至少有一个模型将在多个行业 匹配人类专家 的表现。到 2027 年底,模型将频繁地在许多任务上超越专家。这些不是空想,是数据外推的结果。Julian 说,这或许比很多 “专家判断” 更可靠。四、AI 生产力革命之后,是一场 AI 创造力革命不止如此,AI 的价值,早已不只是 “高效干活”。它的创造力,也在改写科学探索的节奏。Julian 对 AI 创造力的理解,源自他在 DeepMind 时期的亲历。2016 年,AlphaGo 对战世界顶尖围棋选手,走出了震惊业界的 “37 步”。那一步棋非常反常,连职业棋手都感到意外。这一步的意义重大 —— 它证明 AI 不只是机械计算最优路径,还能做出真正新颖、有创意的决策。现在的语言模型,同样有这种创造力。它们能生成无限量的新颖内容,比如新代码、新论文片段。
真正的难点,不在于 “新颖”,而在于 “有用的新颖”。要做到这一点,任务得够难、够有趣,AI 还得能判断创意的质量。既走新路径,又保证这条路径有实际价值。如今,这种创造力已经用到了科学发现上。AlphaCode 能找到新程序,AlphaTensor 能发掘新算法。Google DeepMind 和 Yell,也在生物医学领域用 AI 做出了新发现。Julian 判断:
“或许明年,我们就会看到由 AI 独立完成、足以震动科学界的发现。”而对于当前存在的争议,他保持十分乐观的态度:
现在有些成果还有争议,但这个过程一直在推进,等证据足够清晰,争议自然会消失。更让人期待的是诺贝尔奖级别的突破。Julian 甚至预测,到 2027 年或 2028 年,AI 模型会足够聪明,能单独完成足以赢得诺贝尔奖的科学突破。未来,AI 甚至可能冲击数学菲尔兹奖。它会帮我们解锁宇宙的奥秘,提升人类的生活水平。换言之,AI 的生产力革命之后,正酝酿一场「创造力革命」。五、AGI 的路径与挑战:预训练与强化学习的结合聊到 AGI,Julian 的判断极为清晰:
“不需要新的神秘技术,‘预训练 + Transformer + 强化学习’的范式,足以实现人类水平的智能系统。”这个范式的有效性,在 AlphaGo 系列进化中体现得淋漓尽致:AlphaGo 靠深度网络与自我对弈击败顶级棋手AlphaGo Zero 将这一过程提升到了另一个层次,完全去除了对人类知识的依赖,从零开始自我对弈,几天就超越初代AlphaZero 把逻辑推广到国际象棋、将棋,实现跨游戏通用Mu0 则将框架扩展到现实世界的强化学习问题在他看来,AGI 不会是突发奇点,而是一条平滑曲线。技术难度的上升是真实的,但只要生产力的提升能抵消研究成本的增加,进步就不会停滞。至于未来是否会放弃预训练、只用强化学习,Julian 的答案是 “大概率不会”。
“预训练带来了一些有趣的安全性视角。创造一个拥有与我们相似价值观的代理”—— 预训练不仅高效,还能帮 AI 对齐人类价值观。或许有人会为科学兴趣训练 “从零开始的 AI”,但实用层面,“预训练 + 强化学习” 仍是主流。最终,AI 的目标不是 “超智能”,而是解决气候变化、医疗、教育等全球性问题。
“我们需要确保人工智能是为人类服务,而不是对抗人类”—— 这才是技术进化中最核心的原则。六、结语Julian 的分享,其实在帮我们纠正一个认知:别用 “现在的 AI” 去判断 “未来的 AI”。因为它在指数增长。今天觉得 “不可能” 的事,可能明年就成了 “常规操作”。从自主工作一整天,到追上甚至超越专家,再到帮人类拿诺贝尔奖 ——AI 的进化速度,比我们想象中快。正如 Julian 所说:
“人工智能是一种工具 —— 一种强大的工具,可以帮助我们解决问题,实现曾经认为不可能的事情。”但它终究是个工具。是否能够负责任地使用它,并确保它造福全人类,这掌握在我们手中。未来有多好,取决于我们能不能用好这个工具,能不能让它跟人类站在一边。我们面前有一个巨大的机会,而如何充分利用它,取决于我们自己。接下来的两三年,会是 AI 改变世界的关键期。我们不妨保持关注,也保持理性 —— 既不低估它的潜力,也不忽视它的挑战。
