神秘模型Nano-Banana揭秘：实为Google Gemini 2.5 Flash Image

快科技资讯 08月27日

神秘模型Nano-Banana揭秘：实为Google Gemini 2.5 Flash Image

曾引起广泛关注的图像编辑模型Nano-Banana，现已由Google官方确认，其真实身份为Gemini 2.5 Flash Image。该模型展现了卓越的图像推理和编辑能力，支持多图合并创作、2D到3D转换以及精细的光影细节处理。此前，Nano-Banana因其匿名发布和惊艳的表现，在社区引发热烈讨论，甚至被认为将挑战Photoshop的地位。如今，该模型已在Gemini和Google AI Studio上免费提供，API也已开放，价格为每张图像0.039美元。

✨ **模型身份揭晓与核心能力**：备受瞩目的“Nano-Banana”模型，经Google官方证实，其真身为Gemini 2.5 Flash Image。该模型不仅具备强大的图像编辑能力，例如合并多张图片创造新内容、生成超现实艺术、组合不同照片元素，还能实现2D到3D的转换，将普通2D图片自动生成多角度的3D视角。

🧠 **卓越的图像推理与细节处理**：Gemini 2.5 Flash Image在图像推理方面表现出色，能够准确执行复杂的指令，如计算勾股定理、识别图像结构，甚至能通过生成梯子来解决“A到B的方案”问题。此外，它对光影细节的理解也相当真实，能生成带有自然阴影和折射效果的图像，并且能精准抓取和改变角色主体特征。

🚀 **发布历程与社区反响**：Nano-Banana最初匿名发布于LMArena平台，因其SOTA级别的表现迅速爆火，引发了关于其开发者身份的猜测。Google解释匿名发布是为了全球规模的发布做准备。用户们对其表现赞不绝口，认为其“能思考”，并对完整版本的发布充满期待，许多人认为这是一种非常成功的营销策略。

爆火的神秘图像编辑模型nano-banana，终于脱掉了“香蕉皮”！

就在今天，谷歌官方认领，并表明这个模型其实是Gemini 2.5 Flash Image。

最新一波官方Demo也来了：

还展现出了高超的图像推理能力

现在该模型可以在Gemini和Google AI Studio上免费使用，同时API以每张图像0.039$（折合人民币0.28￥）的价格开放。

模型的具体表现如何？一起来看~

出色的图像编辑能力

官方给出了很多有趣的用法。

除了常规的修图方式，它还可以合并最多三张图片来创造新事物。

生成超现实艺术，组合不同的照片元素，或无缝融合物体、颜色和纹理。

或者轻松实现设计想法。

还可以用几张照片生成堪称电影画面的连贯剧情故事。

而在官方实锤之前，网友们也早就被nano-banana的各种私家case吸引，开启疯狂讨论。

比如说精准改变面部表情和天气。

或者让秃头男人重新拥有不同发型。

网友表示：PhotoShop岌岌可危。

毕竟这个“香蕉”不仅可以完成平面图像的编辑，甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图片，系统就可自动生成相应的3D视角，每一个角度都是恰到好处、和谐统一。

最最最牛的是，它竟然还可以进行图像推理。勾股定理so easy，计算角度手拿把掐，识别图像里的水母结构，竟然也是瞬间反应，堪称你画我猜AI版。

说实话，最让我佩服的是，当我们要求此“香蕉”给出一个人从A到B的方案时，它竟然直接生成一个梯子！

好好好，图像编辑器真的能思考了。

我们自己也实测了一下这款模型，发现它确实很有意思：

给它一只猫猫，猫能环游世界。

提示词：以这只猫为主角，生成旅游照。

提示词：让猫猫去故宫拍张自拍照。

如果不想做真实场景，让林黛玉和孙悟空成为漫威英雄并肩战斗也就一句话的事儿~

另外，它对光影的细节理解也相当真实。

提示词：一根香蕉被放在厨房台面上，旁边有水杯、刀具和切菜板，阳光从窗户照进来，香蕉投下自然阴影。

可以看到生成结果还是很不错滴，阳光透过水杯折射的影子以及旁边植物的影子都还算合理。

它还能够很好地抓取角色特征，不出意外地改变角色主体：

如果那一年，工藤新一喝下的并不是缩小药水，而是……

神秘香蕉模型

Nano Banana最初出现在一个名为LMArena的网站上，这是一个让不同AI模型匿名进行“战斗模式”竞赛的地方。

而让Nano-banana爆火的原因无他，表现实在太好了。

这又是一个SOTA级别的图像编辑模型——而且在一开始没有任何官方文档。

不过在官方宣布之前，已经有一些人猜到了这是谷歌家族的一员。

一方面，该模型的表现与Gemini近期发布的多模态版本相似，这样出色的性能很难是车库团队的产品。

另一方面，它的发布策略——匿名发布、无品牌标识、让用户群体自行探索——与DeepMind早期在匿名测试平台上评估大语言模型的方式如出一辙。

还有一点额外原因：一些与谷歌有关联的开发者在社交媒体上发了奇怪的香蕉内容??

有网友问到Google为什么要选择秘密发布，官方给出了这样的解释：

正在为全球规模的发布做准备工作。

网友：何时发布完整版本

既然官方都那样说了，网友们也坐不住了。

纷纷表示：那我们能用完整版了吗？

不过，虽然这个模型在图像生成的表现确实很好，但并不意味着它没有问题——

尤其是在大公司的服务政策下，很容易出现一些让人比较抓狂的情况：

有网友认为，这是一个非常有趣的营销方式，并且确实达到了他们想要的效果。

感兴趣的朋友也可以去试一下这个香蕉，哦不，这个Gemini 2.5 Flash Image。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Flash Image Nano-Banana AI图像编辑 Google AI 图像推理 AI艺术 2D to 3D Gemini 2.5 Flash Image Nano-Banana AI Image Editing Google AI Image Reasoning AI Art 2D to 3D

相关文章

Google AI Introduces PaliGemma: A New Family of Vision Language Models

3 new ways to use Google AI on Android at work

Google’s Advanced AI Models: Gemini, PaLM, and Bard

Top Artificial Intelligence AI Courses from Google

Show HN: 我制作了一份人工智能艺术通讯来展示人工智能艺术

谷歌的新型人工智能如何彻底改变医学

Google AI Introduces Proofread: A Novel Gboard Feature Enabling Seamless Sentence-Level And Paragraph-Level Corrections With A Single Tap

Runway: Watch the full panel from AIFF LA featuring Claire Evans (@TheUniverse), Paul Trillo (@paultrillo), Joel Kuawhara and Cristóbal Valenzuela (@...

Midjourney: ↩️ @ddb4ng Here you go "Amsterdam under northern light skies, Rembrandt style"

Midjourney: ↩️ @musicalcomet Here you go "Detailed cross-sectional diagram of an underground city"