Gemini 3.0疑似上线LMArena，实测能力引关注

36氪 - AI相关文章 10月21日 10:52

Gemini 3.0疑似上线LMArena，实测能力引关注

谷歌下一代旗舰模型Gemini 3.0的踪迹已在LMArena竞技场显现，其代号疑似为lithiumflow（Gemini 3.0 Pro）和orionmist（Gemini 3.0 Flash）。尽管官方尚未正式发布，但早期实测表明Gemini 3.0在多个方面展现出显著提升，包括AI首次精确识别钟表时间，以及在SVG图像生成方面表现出色，甚至具备一定的抽象艺术风格。此外，Gemini 3.0 Pro还展现出强大的作曲能力，能模仿音乐风格并保持节奏。虽然部分用户反馈效果参差不齐，但整体而言，Gemini 3.0的出现预示着AI能力的又一次飞跃，也为AI评测方式的创新带来思考。

🛜 Gemini 3.0模型疑似通过“马甲”形式在LMArena竞技场进行早期测试，其代号被认为是lithiumflow（Gemini 3.0 Pro）和orionmist（Gemini 3.0 Flash）。这种做法是AI模型发布前常见的预热策略，旨在收集用户反馈并展示模型能力。

⏰ Gemini 3.0在AI识别钟表时间这一长期难题上取得了突破性进展，Gemini 3.0 Pro能够精确识别小时、分钟和秒，远超此前模型（包括Gemini 2.5 Pro和GPT-5 Thinking）在该任务上的表现，显示了其在视觉理解和精细化判断上的显著提升。

🎨 在SVG图像生成方面，Gemini 3.0 Pro展现了比以往更强的画面表现力，甚至呈现出一定的“抽象派”风格，尤其在绘制自行车等复杂元素的细节上有所进步。尽管“骑自行车的鹈鹕”已成为AI测试的固定梗，Gemini 3.0在该测试中亦有不俗表现，但与其他模型相比，在某些SVG生成效果上仍有讨论空间。

🎶 Gemini 3.0 Pro的一项重大更新是其作曲能力，该模型能够模仿不同的音乐风格，长时间保持节奏的稳定，并加入活力和变奏，为AI在创意内容生成领域开辟了新的可能性。

🤔 尽管Gemini 3.0的出现预示着AI能力的进步，但文章也指出，AI模型的评测方式似乎仍停留在“实测截图+prompt对比+看图说话”的传统模式，呼吁在模型能力提升的同时，也应探索更具创新性的评测方法，打破评测模式的同质化。

谷歌的Gemini 3.0疑似上线LMArena！众多实测提前曝光，但效果嘛，很难评。

Gemini 3.0传了这么久，终于还是露出「马脚」了。

依然还是LMAreana竞技场，Gemini 3.0的两个「马甲」被扒了出来。

lithiumflow

orionmist

这已经是「传统艺能」了，每次新模型上线，都要去LMArena上去造势一番。

不过看了竞技场的实测结果，Gemini 3确实是真的有点东西，希望谷歌这次别再跟着OpenAI跑了，硬气一把！

此前Gemini 3的一些前端案例就曾流出，网友爆料称，谷歌下一代旗舰模型将在10月22日发布。

一些拿到内测资格的开发者，放出了部分demo。

不过这次是直接上线在LMArena竞技场里了。

「幸运」碰到Gemini 3马甲的用户分享了他们的例子，如果你也运气好，可以分享一下Gemini 3的表现是否有大幅度的提升。

AI第一次看懂钟表

实测「看表」一直是AI的大难题，这里面涉及多种因素，钟表样式、指针长短、指向、分钟间隔的判断等等。

不过Gemini 3 Pro（lithiumflow）的实测看出，这个模型已经可以精确到小时（6）、分钟（02）和秒（30）。

同样的问题，GPT-5 Thinking就有点「发癫」，直接识别成了12:30，有点时针、分针不分了。

用Gemini 2.5 Pro实测也是同样发癫，模型真的很难分辨时钟时间。

作为对比，LMArena中其他非顶级模型，「发癫」程度要更甚。

另外，在LMArena中实测了N次，一直没有碰到过Gemini 3的马甲。

如果竞技场里Gemini 3的马甲能力是真的，那确实Gemini 3还是非常值得期待！

SVG实测传统艺能，骑自行车的鹈鹕

新模型每次一出来，SVG测试是躲不开的。

Gemini 3 Pro的SVG测试效果，初看还是很不错的。

画面表现能力比之前测试的提升了不止一点，能看出甚至具有一点「抽象派」的风格。

当然，骑自行车的鹈鹕是永远躲不过的，起码这次自行车画的是真不错。

不过需要吐槽的一点是，可能这个互联网模因meme「骑自行车的鹈鹕」成为了一个测试新模型的梗。

所以，各家模型似乎都悄悄的针对这个提示词，进行了微调。

比如下面这两个竞技场例子，不过没有强调使用SVG。

即使强调了使用SVG，效果依然很「完美」，相比之下Gemini 3画出来的反而不好看，效果一般。

第一个相当体面的作曲模型

另外一个大更新就是Gemini 3 Pro可以作曲了。

能模仿音乐风格，能长时间保持节奏，并带来一些活力和变奏。

你觉得这个音乐效果如何？

目前大部分实测还是在LMArena碰运气。

（顺便吐槽一下，跑了快100个提示了，还是没碰到Gemini 3）

那为什么判断这两个马甲就是Gemini 3的实测代号呢？

有人说「Orion」本身可能和Gemini 3有关，而且「orionmist」这种两个单词合成方法是谷歌会使用的。

此前，Gemini 3没上LMArena时，就有各种内测觉得这个很厉害。

甚至可以一个HTML符合整个MacOS、Windows系统的UI交互。

甚至只有1分钟，Gemini 3 Pro就能用SVG做出一整个风格动画。

截取了部分动画，这个效果看起来还是挺「唬人」的。

不过，也有部分人遇到的实测效果并不理想。

谷歌的Gemini 2.5发布也快一年，目前各个大科技厂都盯着OpenAI的动作。

在OpenAI打出GPT-5和新版Sora 2两张牌以后，谷歌只跟了一张Veo 3.1。

这波上线LMArena的估计是发布前的试水了，Gemini 3应该很快了！

总的来说，虽然模型确实强了不少，能看表、能画SVG、还能作曲，但整个AI圈的「传统艺能」也越来越固定了——

先传风声、再上LMArena、然后一堆人去撞马甲、测SVG、看谁更像真货。

看多了也不免有点腻。

毕竟，无论是Gemini 3、GPT-5还是Claude新版本，最后都还是那一套「实测截图+prompt对比+看图说话」。

模型越来越聪明，但我们的评测方式似乎还停在老套路上。

希望下一次，不只是模型更强，而是真的能玩出点新花样。

参考资料

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101

本文来自微信公众号“新智元”，作者：定慧，36氪经授权发布。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 3.0 LMArena AI实测谷歌AI 人工智能 Gemini 3.0 Pro Gemini 3.0 Flash AI作曲 SVG生成钟表识别

相关文章

人工智能正在摧毁互联网内容生态系统

阿里云：通义千问API日调用量破亿企业用户破9万

【iThome 2024 CIO大調查系列1】AI、資安和永續變革三箭齊發

鈺登跨入AI，推出搭配英特爾四代Xeon SP與Gaudi2的伺服器

蘋果發表M4晶片，更新iPad產品線

Red Hat推出AI平臺，內建IBM開源Granite模型

【iThome 2024 CIO大調查系列 1｜IT投資趨勢】IT投資布局更多角化，雲端比重明顯增加