富途牛牛头条 02月18日
20萬張GPU!馬斯克掏出「地表最強」大模型Grok 3,排行榜登頂,復仇OpenAI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

马斯克xAI最新旗舰大模型Grok3终于亮相,Grok3是一个系列,包含轻量版本Grok 3 mini,它虽然牺牲了部分准确性,但能更快地回答问题。Grok 3的训练使用了包含约20万块GPU的庞大数据中心。基准测试显示,Grok-3在Math、Science和Coding三方面大幅超过Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet和GPT-4o,在Chatbot Arena中也取得了第一。Grok-3还解锁了测试时计算能力,并具备强大的智能体能力,通过深度搜索DeepSearch来进行深入研究,对标OpenAI的深度搜索Deep Research。X Premium+订阅用户将首先获得Grok 3,其他功能需要订阅SuperGrok版本。

🚀 **性能卓越**:Grok-3在多个基准测试中超越了包括GPT-4o在内的众多竞争对手,尤其在数学、科学和编码方面表现突出,成为首个在Chatbot Arena中突破1400分的模型。

🧠 **推理能力**:Grok-3支持推理能力,解锁了测试时计算能力,这意味着它在推理模型市场中具有强大的竞争力,在AIME 2025数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名。

🔍 **深度搜索**:Grok-3具备强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码,对标 OpenAI 推出的深度搜索 Deep Research,能完成复杂的研究任务。

💰 **订阅模式**:Grok 3将首先提供给X Premium+订阅用户,更多功能需要订阅SuperGrok版本,价格为每月30美元或每年300美元,解锁更多推理和DeepSearch查询,并提供无限的图像生成。

带点特斯拉、SpaceX 基因,工程能力很强。

马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了!中午12点,所有人都在马斯克的直播预告中开始了等待。

在等到20分钟、线上观看人数达到100万时,直播终于开始,马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。

根据工程师们介绍,准确地说,Grok 3 是一个系列,不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。目前并非所有型号都已上线,但会从今天开始陆续推出。

马斯克则直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且拥有扩展的训练数据集。

另外,原定要发布的语音模式延期了,但也不会等太久,一周左右就行。

不过现在的大模型,总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。

这个数据中心建造的速度极快,只用了 122 天,二期还将增加到 20 万块 GPU。

Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确?

看来 Grok 3 主打一个力大砖飞,我们来看下基准测试的成绩吧。

在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。

下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到,Grok-3 在每个维度上都排第一。

比如,在编码任务中,Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:

推理能力一骑绝尘,超越 o3 mini、R1 等所有对手

与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。

Grok-3 的推理基准测试结果也说明了这一点,它分为了两个版本,分别是 Grok-3 Reasoning BETA (0263.MY) 和 Grok-3 mini Reasoning

当使用更多测试时间计算时(图中延长部分),其中在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型

在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名,大幅超越了其他推理模型。

Grok-3 的用户界面如下所示,我们可以看到它的思考(Think)模式

在实际使用过程中,像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长

不仅如此,Grok-3 还支持了「Big Brain」模式,使用更多算力来解决问题,进行更深度的思考。

Grok-3 能做到的超乎你的想象,比如「生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。」

再比如「使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,代码可以很长,效果要炫酷」:

从演示来看,Grok-3 各项能力都在线的。

下一代智能体——DeepSearch 问世

Grok-3 还具备了强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。

可以说,DeepSearch 对标了此前 OpenAI 推出的深度搜索 Deep Research,后者通过联网可以在几十分钟内完成人类专家数小时才能完成得复杂研究任务。

我们可以看以下几个示例,Grok-3 在 DeepSearch 模式下可以联网进行更深入的搜索,过程中也调用了思考能力。并且,搜索本身所需要的步骤也展示了出来。

在下面这个示例中,让 Grok-3「对疯狂的三月比赛做出一个完整的预测」(create a full march madness bracket prediction)。

最后是订阅和定价的相关信息:

X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。

SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。

发布完之后,团队还根据网友提问进行了简单的问答。

其中提到,xAI 将会发布一个 Grok 驱动的语音应用(大约将在一周后发布)。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。

此外,马斯克还重申了 xAI 的开源原则,即发布了最新版的模型之后便会开源前一版本的模型。他表示在发布了 Grok 3 稳定版之后就会开源 Grok 2(可能还需要等待几个月时间)。这一点看来不如开源之光 DeepSeek。

马斯克曾发推说明 xAI 的开源原则:发布新一代模型时开源上一代模型。

最终,发布会在一个 xAI 语音模式演示视频中落下帷幕。之后,马斯克发推暗示自己的公司将赢得与 OpenAI 的技术竞争,因为 xAI 的创新速率有更高的一阶和二阶导数。

对于马斯克今日的发布,你怎么看?

编辑/danial  

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok3 xAI 大模型 人工智能 DeepSearch
相关文章