AI世界模型：科学与安全的关键

人工智能研究的最新目标，尤其是在追求“通用人工智能”（AGI）的实验室中，是一个被称为“世界模型”（world model）的概念：这是一种AI内部携带的环境表征，就像一个计算型的雪球玻璃球。AI系统可以借助这个简化的内部模型，在真正执行任务之前，先对预测和决策进行评估。

深度学习领域的几位重量级人物——Meta的杨立昆（Yann LeCun）、Google DeepMind的德米斯·哈萨比斯（Demis Hassabis）和加拿大魁北克人工智能研究院Mila的约书亚·本吉奥（Yoshua Bengio）都认为，要构建真正聪明、科学且安全的AI系统，世界模型是不可或缺的。

实际上，心理学、机器人学和机器学习等领域几十年来一直以不同方式使用类似的概念。你大脑中现在可能就有一个“世界模型”在运行——正是它让你知道不该走到一列行驶中的火车前面，而不必真的先去试一试。

那么这是否意味着，AI 研究者终于找到了一个所有人都能达成共识其含义的核心概念？引用一位著名物理学家的话：“你是在开玩笑吧。”世界模型听起来简单明了，但一如既往，人们在细节上完全无法达成一致。比如：模型中应该包含什么内容？精度要达到什么水平？它是与生俱来的，还是通过学习获得的，或者两者的结合？我们又该如何确认模型的存在？

了解这一概念的起源会有所帮助。早在1943年，也就是“人工智能”这个术语被提出的12年前，年仅29岁的苏格兰心理学家肯尼斯·克雷克（Kenneth Craik）发表了一本影响深远的小册子，他在里面提出了这样的设想：“如果有机体在脑中携带着一个外部现实的‘小尺度模型（small-scale model）’……它就能够先行尝试各种备选方案，判断出其中哪一个最好……从而做出更全面、更安全、更有能力的反应。”

克雷克关于心智模型或心智模拟的设想，预示了在20世纪50年代重塑心理学并至今仍主导认知科学的“认知革命。更重要的是，它直接把认知与计算联系在一起：克雷克认为，“并行或建模外部事件的能力”，是“神经机制”与“计算机器”共有的“根本特征”。

新兴的人工智能领域也迅速采纳了世界模型的方法。在20世纪60年代末，一套名为SHRDLU的AI系统令人惊艳：它用一个简易的“积木世界”来回答有关桌面物体的常识问题，比如“一个金字塔能支撑一个方块吗？”然而，这类手工构建的模型无法规模化，难以应对更为真实环境的复杂性。到了上世纪80年代末，人工智能与机器人学先驱罗德尼·布鲁克斯（Rodney Brooks）则干脆放弃了世界模型，他那句名言广为流传——“世界本身就是其最佳模型（the world is its own best model）”，而“显式表征……只会碍事”。

让克雷克的设想重焕生机的是机器学习的崛起，尤其是基于人工神经网络的深度学习。深度神经网络不再依赖脆弱的手写规则，而是通过反复试验，在训练过程中逐渐构建出内部的环境近似模型，并用来完成如驾驶虚拟赛车等狭窄定义的任务。

最近几年，随着支持聊天机器人（如 ChatGPT）的“大语言模型（LLM）”展现出许多“意外”能力——比如通过emoji推断电影名称，或玩黑白棋等，这让世界模型成为一个颇具解释力的思路。对杰出的AI专家而言，如杰弗里·辛顿（Geoffrey Hinton）、伊利亚·苏茨克弗（Ilya Sutskever）与克里斯·奥拉（Chris Olah），答案几乎是不言自明的：在某个深埋于LLM庞大“虚拟神经元”丛林的角落里，一定存在着一个“外部现实的小尺度模型”，正如克雷克当年所设想的那样。

但现实（至少目前来看）并没有那么理想。现在的生成式AI更像是在学习“启发式集合”：成百上千条互不关联的经验法则，可以在特定场景下给出近似的应对，但无法整合成一个自洽的整体，有时它们甚至相互矛盾。这就像盲人摸象的故事：一个人摸到象鼻，以为大象像蛇；另一个人摸到腿，以为像树；还有人摸到尾巴，说像绳子。当研究者尝试从大语言模型内部找回世界模型的证据——例如，对黑白棋（Othello）棋盘的一种连贯的计算表征——他们寻找的是整头大象。而他们真正找到的，却是这里一点“蛇”、那里一截“树”，再加上一段“绳子”。

当然，这些启发式规则并非一无是处。大语言模型可以在其数万亿个参数中编码数以“袋”计的此类规则——而俗话说，“数量本身就是一种质量”。正因如此，正如哈佛大学与麻省理工学院的研究者近期所发现的，只通过语言数据就几乎完美地生成从曼哈顿任意两点之间的导航路线，尽管这个模型根本没有学会整个街道网络的连贯世界模型。

那如果“一点蛇、一截树、一些绳子”就能完成任务，为何还要执着于整只大象？答案只有一个词：鲁棒性。当研究人员随机封闭曼哈顿1%的街道，LLM的导航能力就明显崩溃了。如果它内部拥有的是一个一致且连贯的街道地图，而不是在每个街角以相互矛盾的“最佳猜测”拼接成的一张极其复杂的补丁式网，它完全可以轻松绕开障碍。

即便是简单的世界模型也能带来诸多益处，不难理解为什么所有大型AI实验室都在拼命研发它们，为什么学术界也越来越关注它们。一个鲁棒且可验证的世界模型，或许未必能发现通用人工智能的“黄金城”，但至少有望提供一种在科学上站得住脚的工具，用来消除AI幻觉、支持可靠推理，并提升AI系统的可解释性。

这就是世界模型的“是什么”和“为什么”。至于“怎么做”，依然是个未知数。Google DeepMind和OpenAI认为，只要有足够多的“多模态”训练数据——比如视频、三维模拟和超越文本的其他输入——世界模型会在神经网络中自然“凝聚”出来。与此同时，杨立昆则认为，构建世界模型需要完全不同于生成式AI的全新架构。在构建这个“计算型的雪球玻璃球”的征途中，没有人手握能预测未来的水晶球。但这一次的终极目标，也许的确配得上围绕通用人工智能的那股热度。

原文：

https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/

本文来自微信公众号“神经现实”（ID：neureality），作者：John Pavlus，译者：琴心，36氪经授权发布。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签