掘金 人工智能 08月07日
字节Seed数学新模型,SOTA了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节发布全新数学解决模型Seed-Prover,该模型在复杂数学推理任务上表现卓越,全面超越谷歌AlphaGeometry2。Seed-Prover在MiniF2F数据集上实现了100%的正确率,并在IMO(国际数学奥林匹克)和普特南数学竞赛等高难度挑战中展现出强大的泛化能力和解决能力。该模型基于Lean 4形式化证明框架,采用引理式证明范式,并通过集成专门的几何推理引擎Seed-Geometry,有效解决了几何证明中的难题,达到了IMO银牌水准,为AI在数学领域的应用树立了新标杆。

💡 Seed-Prover模型采用Lean 4作为其形式化推理的基础,其核心创新在于引入了“引理式证明”范式。这种方法将引理置于推理过程的中心,要求模型首先生成有用的引理(以“lemma”关键字引入),然后利用这些引理来构建主要证明(以“theorem”关键字应用)。这一机制能够清晰地区分已证明和待证明的引理,并允许引理的模块化存储、编译和重用,为模型提供了解决其他问题的潜在灵感。

🚀 为了克服Lean在几何推理上的局限,Seed-Prover集成了专用的几何推理引擎Seed-Geometry。该引擎采用前向链推理架构,通过不断检查适用规则推导出新事实直至得出结论,并具备反向追踪事实依赖关系的能力,能够精确识别解决几何问题所需的最小依赖结构和辅助构造。Seed-Geometry基于包含2.3亿个独特几何问题的库进行训练,使其成为一个高效的神经-符号混合几何证明器。

🏆 Seed-Prover在多项数学竞赛和基准测试中取得了令人瞩目的成绩。在IMO 2025比赛中,它成功解决了4道题中的4道,并部分解决了另一道题,达到了IMO银牌水准。在2000-2024年的IMO几何问题上,Seed-Geometry比AlphaGeometry 2多解决一道题。在更具挑战性的IMO候选题的几何问题上,Seed-Geometry也优于AlphaGeometry 2。此外,Seed-Prover在MiniF2F数据集上实现了接近100%的正确率,并在普特南数学竞赛中的表现是其他主流模型的四倍。

📚 Seed-Prover的开发不仅体现在其强大的推理能力上,还包括其完善的工程实践。研究人员为每个难题构建了引理池,存储了引理陈述、名称、证明、难度和依赖关系等综合数据。同时,根据推理资源和问题难度,开发了轻量级、中等级和重量级三种不同级别的推理策略,以优化模型在不同场景下的表现。这种细致的策略设计和数据管理,是Seed-Prover能够取得优异成绩的重要保障。

不仅能达 IMO 银牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型 o4-mini!

字节发布全新复杂数学解决模型——Seed-Prover

该模型全面超越了谷歌的 AlphaGeometry2,并在 MiniF2F 数据集上实现了惊人的 100% 正确率。

不仅如此,Seed-Prover 还展现了其卓越的泛化能力:

对此,前谷歌成员 Deedy Das 惊叹道:字节真不愧是唯一一家专为 IMO 发表完整论文的 AI 实验室!

Seed-Prover 模型框架

Seed-Prover 是一个专注于使用 Lean 4 进行形式化推理的大型语言模型。

Lean 4 允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。

相较于先前的研究,Seed-Prover 最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。

简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 “lemma” 关键字引入 ,然后再使用 “theorem” 通过应用生成的引理来生成主要证明。

这种方法具有几个关键优势:

1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。

2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。

3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。

为了实现 Seed-Prover 的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。

根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。

由于 Lean 在几何支持方面存在不足,Seed-Prover 集成了一个专用的几何推理引擎 Seed-Geometry

它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。

此外,Seed-Geometry 还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。

基于上述工作,Seed-Geometry 建立了一个包含 2.3 亿个需要辅助构造的独特几何问题的库。

这是通过利用过去 20 多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。

基于这一专属几何数据训练得到的 Seed 模型,成为了一个高效的神经 - 符号混合几何证明器

它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。

达 IMO 银牌水准

研究团队使用 Seed-Prover 与 Seed-Geometry 参加了 IMO 2025,完整解决了 6 道题中的 4 道以及一道题的部分证明,在比赛规定时间内达到了 IMO 银牌水准。

根据 IMO-AG-50 的统计方法,在 2000 年至 2024 年 IMO 几何问题中,Seed-Geometry (SG) 解决了 43 道题,比 AlphaGeometry 2 (AG2) 多解决 1 道。

对于 2000 年至 2022 年难度大的多的 IMO 候选题中的几何题,AlphaGeometry 2 解决了 19 道,而 Seed-Geometry 解决了 22 道。

此外,值得注意的是,Seed-Geometry 还在 2 秒内解出了 IMO 2025 第 2 题。

除此之外,对于 MiniF2F 测试集,Seed-Prover 达到了几乎百分百的正确率。

参考链接:
[1]x.com/deedydas/st…
[2]www.alphaxiv.org/pdf/2507.23…

欢迎在评论区留下你的想法!

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Seed-Prover 数学推理 AI模型 Lean 4 几何证明 国际数学奥林匹克
相关文章