AI系统AI-Newton自主发现牛顿定律

新智元报道

编辑：元宇

【新智元导读】人类数千年的科学探索，如今被AI「顿悟」瞬间复刻。北京大学研究团队推出的名为AI-Newton的AI系统，重新发现了牛顿第二定律、能量守恒定律和万有引力定律等基础规律，这一成果被视作AI驱动自主科学发现的一项重要进展。

一个AI，在观察了一系列小球运动的枯燥数据后，突然「顿悟」，推导出了牛顿第二定律？

这听起来像是科幻小说的情节，但它的确真实地发生了。

近日，《Nature》杂志介绍了北京大学团队的一项研究。

他们开发出了一个名为AI-Newton的系统，它在输入实验数据后，能够自主「发现」关键的物理原理。

目前，大多数AI模型本质上都是在海量数据中寻找关联性的「模式识别大师」。

但若是让它们利用这些数据推导出像「万有引力定律」这样的科学定律就很困难了。

而AI-Newton，正是在这条艰难的路上迈出了关键一步。

论文地址：https://arxiv.org/abs/2504.01538

哈佛大学计算机科学家Keyon Vafa解释，AI-Newton使用的是「符号回归」（symbolic regression）方法，也就是让模型去搜索哪个数学方程最能描述某个物理现象。

他认为这将有望推动科学发现，因为系统会尝试去推导概念。

在自然科学发展史上，人类对自然定律的探索具有可解释性强、简洁、普适性好等优势，但也存在研究周期长、容易受主观偏见影响、面对复杂问题能力有限等不足。

这些短板随着各学科前沿问题日益复杂而被进一步放大。

AI驱动的科学发现为人类主导的科学研究提供了一种新范式，它既能继承人类良好的研究习惯，又能弥补其固有不足。

AI-Newton基于大模型的SR方法近年来，基于神经网络（NN）的方法迅速兴起，其强大的模式识别能力，可以从观测数据中提取物理世界的潜在结构。

但受制于其本身存在的「黑箱」特性，使其在推导物理定律时的可靠性受到质疑。

神经网络方法的不足，重新引发了人们对符号方法的兴趣，这类方法通过显式数学表达式来优先保证可解释性。

符号回归（SR）不同于传统的回归方法，它会同时探索数学表达式的结构与参数，它在重新发现控制方程与守恒量方面表现尤为突出。

而基于大模型技术的SR方法可以利用其丰富的跨学科知识，为搜索提供有效引导，生成更合理的候选表达式。

与神经网络不同，这类方法生成的人类可读方程可以直接用于分析推导，这对确保科学可证伪性至关重要。

然而，现有符号方法在处理多自由度复杂系统时仍会遇到搜索空间急剧膨胀的问题。此外，它们通常只能提炼出适用于某类特定问题的知识，难以在不同实验条件下泛化。

因此，如何构建一个能够从数据中自主提取并泛化知识的系统，仍是一个重大挑战。

正是在这样的背景下，研究人员提出了一个基于概念提取与合理推理的发现系统AI-Newton。

它整合了一个自主发现工作流，并由一个由符号化概念、特定定律与普适定律构成的知识库（KB）提供支持，这些知识通过一个物理领域专用语言（DSL）进行表示。

通过这种方式，当系统接收到一组物理实验时，它能够在完全没有监督、没有任何物理先验知识的前提下，提出可适用于广泛问题范围的符号化普适定律。

知识库与知识表示知识库，是AI-Newton的核心组成部分，它负责存储与管理结构化知识。

如下图所示，它由实验库与理论库构成。

AI-Newton通过一种语法与语义均严格定义的物理DSL来表示知识。

该DSL不仅可以将方程写成数学表达式，还会按照抽象语法树的结构，将物理对象的属性以及物理量之间的关系编码到DSL表示中。

实验库，用于存储物理实验及其对应的数据模拟器。

每个实验的输入仅包括涉及的物体、几何信息、实验参数与时空坐标。

为了确保系统不依赖任何物理先验知识，其他所有概念（如质量、能量等）都由AI-Newton自主提取。每个实验的输出是带有统计误差的模拟数据。

理论库，用于存储系统自主发现的知识。

它采用以「概念」为中心的三层结构（符号、概念、定律）。

概念对于人类物理学家制定简洁又普适的定律至关重要。

与以往将神经网络的潜在特征解释为物理概念的研究不同，AI-Newton以DSL表达式的方式显式表示概念与定律。

这不仅提升了可解释性，也能够更方便地将已发现的知识迁移到不同任务中。

此外，与传统符号方法相比，引入具有强表达能力的概念显著减少了搜索空间，使表达式更加简洁。

符号层用于存储可用于表示物理知识的符号。

定律层存储由AI-Newton发现的物理定律，包括守恒量和动力学方程。

定律分为两大类：一类是只适用于某一具体实验的特定定律，另一类是可以在多种实验条件下成立的一般定律。

比如，能量守恒、牛顿第二定律这样的典型定律就属于一般定律。

有了一般定律，AI-Newton就能够用紧凑而简洁的表达式，同时描述多个复杂系统中的物理过程。

自主发现工作流AI-Newton将合理推理与符号方法相结合，构建了一个自主的发现工作流。

该工作流可以持续从实验数据中提炼知识，并以物理概念和物理定律的形式加以表示。每次分析试验都会尝试完整地执行这一流程，如图1中所示。

所谓的「合理推理」，是一种基于局部证据进行理性推断的方法。

与严格的演绎逻辑不同，它给出的并不是在所有情形下都必然正确的结论，而是「在当前语境下看起来合理」的结论，这与科学实践中「先提出假说，再进行严谨验证」的做法非常接近。

每次试验的起点，是从知识库中选择一个实验和若干个概念。这一选择由推荐引擎完成。

推荐引擎将受UCB算法启发的价值函数，与在发现过程中动态自适应的神经网络结合起来。

接下来，系统会在所选实验与概念的基础上寻找新的定律。

特定定律可以通过在允许的运算范围内，直接搜索这些概念之间的关系来获得，这相当于符号回归（SR）的一个特殊情形。

在此之上，还可以通过合理推理在已有一般定律的基础上作扩展，从而产生新的一般定律。

合理推理的核心思想是：

如果某条一般定律在多个实验中都成立，却在当前实验中失效，那么就有可能通过符号回归在原表达式上添加一些简单的额外项，从而得到一条新的、在当前实验中同样有效的修正定律。

整体而言，系统以类似人类研究者的方式，启发式地利用已有的一般定律与精心挑选的概念，去搜索能够解释新实验数据的物理定律。

通过这种一体化的架构，系统得以在多自由度系统中推导出重要的物理定律。

测试与结果作为概念验证，研究人员将AI-Newton应用于牛顿力学问题，重点考察了一组预先设定的46个实验。

这些问题涉及三类主要物理对象：球体（包括小球和天体）、弹簧以及斜面。

实验研究对象既包括孤立系统，也包括耦合系统，如图2所示，主要包括：

单个小球和弹簧的自由运动；

小球之间的弹性碰撞；

展现平动振荡、转动振荡以及类摆运动的耦合系统；

与重力相关的问题，例如抛体运动、斜面运动，以及复杂的弹簧–小球系统；

涉及引力相互作用的天体力学问题。

这样构建出的实验集合，覆盖了牛顿力学中的三类典型力：弹力、近地重力以及万有引力，同时纳入了现实测量中存在的不确定性。

这一设置，有助于较为严格地评估AI-Newton在含噪声实验数据中发现物理定律的能力。

在将最大试验次数设为1200的条件下，系统展现出较强的知识发现能力：在各个测试用例中，平均识别出约90个物理概念和50条一般定律。

在此基础上，AI-Newton通过合理推理，最终给出了完整的能量守恒定律。

牛顿第二定律的发现过程与此类似。

研究人员通过对多组测试用例的综合分析，观察到AI-Newton的两个根本特性：

渐进性：人类物理学家不会在一步之内就同时定义所有物理概念或写出完整的定律，而是从基础概念做起，再在不断探索中扩展到更复杂的概念。这种渐进式的模式在AI-Newton中也表现得很明显。

多样性：在遵循上述逻辑推进的同时，AI-Newton在不同测试用例中的行为又表现出明显的多样性。

设计一个能够进行无监督科学发现的AI系统，依然是一个开放问题。

AI-Newton不仅在一定程度上弥补了以往工作的不足，还展现出良好的扩展潜力。

例如，它可以引入更强大的数学工具，有望显著提升AI-Newton在定律推导与证伪方面的能力。

此外，AI-Newton的核心框架天然适合集成自然语言，这有望带来更加多样的知识表示形式和更灵活的合理推理机制。

这将有助于将那些难以用纯数学表达式描述的物理概念和一般定律（如惯性、量子力学原理等），也得以在系统中更自然地表达。

参考资料：

https://arxiv.org/abs/2504.01538%20

https://www.nature.com/articles/d41586-025-03659-4

文章原文

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签