智源社区 08月04日
谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind近日在Gemini App中推出了Gemini 2.5 DeepThink模型,该模型在国际数学奥林匹克竞赛(IMO)中展现出卓越能力。虽然App版本经过优化,速度更快且更实用,但其性能略逊于竞赛“完全体”,可达到IMO铜牌水平。DeepThink通过扩展Gemini的“思考时间”和并行思维技术,能够从多角度探索和权衡解决方案,处理复杂数学、科学问题及代码编写。该模型在编码、科学、知识和推理能力上均超越了OpenAI的o3和Grok 4,尤其在LiveCodeBench V6和Humanity’s Last Exam测试中表现优异。DeepThink能够协助研究人员探索数学猜想、分析科学文献,并优化算法开发,为用户提供更深度的思考和更具创造性的解决方案。该模型仅对Ultra订阅用户开放,月费249.99美元。

🌟 Gemini 2.5 DeepThink模型在Gemini App中推出,该模型源自谷歌DeepMind在IMO竞赛中夺金的模型,经过优化后速度更快、实用性更强,能够达到IMO铜牌水平,为用户提供更便捷的AI数学解题能力。

🚀 该模型通过扩展Gemini的“思考时间”和引入并行思维技术,使其能像人类一样从多角度、多思路地解决复杂问题。通过同时生成和考量多个想法,并根据时间推移进行修正和结合,以期找到最优解,这种能力在处理网页开发、科学研究和算法设计等任务中尤为突出。

📊 在推理性能方面,Gemini 2.5 DeepThink在LiveCodeBench V6(代码性能)和Humanity’s Last Exam(科学与数学知识)测试中均优于其他模型,显示出其在编码、科学、知识和推理能力上的强大实力,能够辅助科研人员进行复杂的数学猜想探索和科学文献分析,加速研究进程。

💡 DeepThink在处理算法开发与代码编写方面表现出色,尤其擅长需要精细代码编写、问题表述、权衡利弊和时间复杂度考量的难题。此外,它还能融合不同论文的观点,提供超越简单复述的深度分析,成为学术研究的有力工具。

💰 Gemini 2.5 DeepThink模型目前仅对每月订阅费为249.99美元(约1803元人民币)的Ultra订阅用户开放,表明其作为高端AI工具的定位和价值。

谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。

根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。

并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。

之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。

但相对的,实力定然不如之前的“完全体”,不过同样是拿IMO’25的试题实验,可以达到铜牌的水平。

DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台:

当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个

不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元

推理性能超越o3、Grok 4

除了“发布”的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。

主要考量的能力聚焦在了编码、科学、知识和推理能力上。

结果显示,在衡量代码性能的LiveCodeBench V6测试中,以及在衡量不同领域(包括科学和数学)专业知识的Humanity’s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成绩。

整体来看,Gemini 2.5 Deep Think功能具备以下优势:

    迭代式开发与设计:DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think能够提升网页开发任务的美观性和功能性。

    科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。

    算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。

至于其背后的原理,DeepMind总结了一句话:

扩展Gemini的并行“思考时间”。

具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think通过使用并行思维技术,拓展了思维能力的边界。

这种方法让Gemini能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。

DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使Deep Think随着时间的推移,成为一个更出色、更直观的问题解决者。

团队成员还表示,Gemini 2.5 Deep Think用来看论文:

它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。

参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🎉 希望了解AI产品最新趋势?
量子位智库「AI 100」2025上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考👇

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 DeepThink 谷歌DeepMind AI数学 人工智能 推理能力
相关文章