智源社区 09月20日
Grok 4在ARC-AGI榜单上表现出色,Grok 5有望实现AGI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,Elon Musk旗下xAI公司的Grok 4在ARC-AGI榜单上取得了新的SOTA(State-of-the-Art)成绩,其表现超越了OpenAI、Anthropic和谷歌等公司的模型。基于Grok 4,研究人员通过程序合成技术进一步优化,显著提升了模型在复杂推理任务上的准确率。Musk本人也对Grok 5寄予厚望,认为其有很大可能实现通用人工智能(AGI),并透露Grok 5将在几周内开始训练,训练数据量和硬件资源投入都将大幅增加。这一进展引发了AI界的广泛关注和讨论,但Grok 5能否真正达到AGI仍有待市场检验。

🌟 **Grok 4在ARC-AGI榜单上取得突破性进展**:Grok 4利用程序合成技术,在ARC-AGI榜单上实现了新的SOTA,其在v1和v2版本上的准确率均超越了GPT-4和Claude Opus,显示出强大的问题解决和推理能力。Jeremy Berman的方案更是将Grok 4的表现提升至79.6%(v1)和29.44%(v2),大幅领先于其他模型。

🚀 **Grok 5有望成为AGI的有力竞争者**:Elon Musk公开表示,他认为Grok 5很有可能实现AGI,并将概率估计为10%或更高。这一预测基于Grok 4的优异表现以及xAI在数据收集和硬件资源上的巨大投入,包括庞大的GPU集群和持续增长的训练数据量。

💪 **xAI在数据和算力上的巨额投入是Grok系列模型持续进步的关键**:Grok 5的训练将拥有比前代模型多得多的数据,xAI也正在构建相当于5000万台H100 GPU的算力。通过xAI、特斯拉FSD数据、擎天柱机器人等多种数据来源,以及Colossus超级计算集群的支持,为Grok 5的研发提供了坚实的基础。

🤔 **AGI的实现仍存悬念,需关注成品表现**:尽管Grok 4表现亮眼,且Musk对Grok 5充满信心,但AI社区对AGI的实现仍持谨慎态度。AGI的达成不仅依赖于数据和算力,更需要模型在通用智能方面展现出真正的突破,最终的成品表现将是检验其能力的关键。

马斯克的Grok 5偷偷藏不住了。

刚刚ARC-AGI榜单官宣出现新SOTA,用的还是Grok 4+程序合成技术微调

好小汁,啥时候开始Grok都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。

一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是……

马斯克也随即出来回应:

我现在认为Grok 5能达到AGI。

顺便附赠了一堆有关Grok 5的爆料。

马斯克疯狂剧透Grok 5

这事还得从Grok 4超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize发布了两个最新的ARC-AGI榜单SOTA方案:

    都是开源的。
    都使用的是Grok 4作为基础模型。
    都实现了带测试自适应的程序合成外循环。

先简单介绍一下ARC-AGI排行榜,其旨在评估AI解决复杂难题的能力,类似于人类的智力测试,从而反映LLM的推理能力。

测试任务包含v1和v2版本,v2需要LLM完成更多的多步骤推理,一般来说,即使是最优秀的LLM也只能在v2中获得16%的准确率。

GPT-5在二者上的得分依次是65.7%和9.9%,Claude Opus 4的得分是35.7%和8.6%,而Grok 4则是66.7%和16%。

Jeremy Berman的新方案则是在Grok 4基础上,用英语替代了传统的Python,最终得分来到79.6%和29.44%。

Eric Pang则在Jeremy的工作上,设计了一个受DreamCoder启发、LLM辅助的程序合成系统,能够通过从不断扩展的程序库中学习来解决越来越难的任务。

虽然得分没有进一步升高(77.1%和26%),但是成功让每个任务的平均费用得以下降(v1:8.42美元→2.56美元;v2:30.4美元→3.97美元)

当问及两位作者选择Grok 4的理由,他们均表示,这是他们测试下来效果最好的模型。

当中所体现出的AGI潜力,也让马斯克感到自豪,随即透露了一系列有关Grok 5的消息。

老马表示,这才只是Grok 4,而Grok 5将很有可能达成AGI

而这个可能性也许能达到10%或者更高,要知道他此前并不认为Grok版本会出现AGI。

与此同时,他表示Grok 5将会在几周之内开始训练

加上此前他曾表示Grok 5将在今年年底前推出,或许我们将在不久后见证新的“LLM怪物”诞生。

所以为什么老马能对Grok 5抱以如此强烈的信心呢?

训练数据及硬件资源的投入

归根结底,是马斯克在Grok训练中投入之深。

据悉,Grok 5将拥有较之前代更多的训练数据

Grok 4的训练量是Grok 2的100倍、Grok 3的10倍,而Grok 5则只会更多。

马斯克拥有一整套的最新真实数据收集体系,其中xAI可以为其提供最新的直接数据,特斯拉可以定期利用FSD和摄像头捕获图像从而生成数据,而擎天柱机器人也能从现实世界中生成大量数据。

可以说,马斯克在当下数据为王的时代,最不缺的就是数据。

此外,xAI在硬件资源上也投入颇多,目标在5年内完成相当于5000万台H100 GPU同等算力的部署。

其专门为Grok系列打造的超级计算集群Colossus,已经部署了约23万张GPU。其中包括3万张NVIDIA GB200(基于Nvidia的Blackwell架构),将会持续为Grok提供强大的算力支持。

不过Grok 5究竟能否真正实现AGI,网友们对此也提出了质疑:毕竟要成为AGI靠的可不仅仅是数据和马斯克的声明,一切还得看成品

所以究竟谁才是能吃到第一只AGI螃蟹的AI公司,且让我们拭目以待。

参考链接:
[1]https://x.com/elonmusk/status/1968196086193066365 
[2]https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again
[3]https://ctpang.substack.com/p/e760eba7-c8b3-4fda-b631-61b89dd0d0fd
[4]https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🏆 年度科技风向标「2025人工智能年度榜单」评选报名开启!我们正在寻找AI+时代领航者 点击了解详情

❤️‍🔥 企业、产品、人物3大维度,共设立了5类奖项,欢迎企业报名参与 👇 

一键关注 👇 点亮星标

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok 4 Grok 5 AGI ARC-AGI Elon Musk xAI AI模型 程序合成 人工智能 LLM
相关文章