36氪 - 科技频道 08月27日
Gemini 2.5 Flash Image:神秘香蕉模型揭秘,图像编辑与推理能力惊艳
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌官方确认了此前广受关注的“nano-banana”模型即为Gemini 2.5 Flash Image。该模型展现了强大的图像编辑与推理能力,能够合并多张图片进行创意合成、生成超现实艺术,甚至实现2D到3D的转换。其推理能力也十分出色,能完成复杂的数学计算和图像结构识别。此前,该模型因其在匿名竞赛中的优异表现和神秘发布方式引发热议。目前,用户可在Gemini和Google AI Studio上免费体验,API也已开放。

💡 **Gemini 2.5 Flash Image的身份揭晓与核心能力**:此前备受瞩目的“nano-banana”模型已被谷歌官方确认为Gemini 2.5 Flash Image。该模型的核心亮点在于其卓越的图像编辑能力,能够通过合并最多三张图片来创造新颖的视觉内容,包括生成超现实艺术、组合不同照片元素,以及无缝融合物体、颜色和纹理,满足用户的多样化设计创意需求。

🧠 **强大的图像推理与多模态交互**:除了图像编辑,Gemini 2.5 Flash Image在图像推理方面也表现出惊人的实力。它能够轻松完成复杂的数学计算,如勾股定理,并迅速识别图像中的结构,例如水母。更令人印象深刻的是,它甚至能根据“从A到B的方案”等指令生成实用的解决方案,如提供梯子,展现了其超越传统图像编辑的智能思考能力。

🌍 **广泛的应用场景与用户体验**:该模型支持多种创意应用,不仅限于静态图像编辑,还能生成电影画面的连贯剧情故事,以及实现2D到3D的转换,用户只需提供一张2D图片即可自动生成多角度的3D视角。此外,它在细节处理方面也表现出色,如对光影的真实理解和对角色特征的精准捕捉,为用户提供了丰富的创作可能性。

🚀 **从匿名到官方:模型的发展历程与发布策略**:“nano-banana”模型最初匿名发布于LMArena网站,凭借其SOTA级别的表现迅速走红。其高效能表现和与Gemini多模态版本的相似性,以及谷歌开发者在社交媒体上的暗示,都预示了其与谷歌的渊源。谷歌此次的秘密发布策略,被认为是为全球规模发布做准备,并成功引发了广泛的用户关注和讨论。

💰 **免费使用与API定价**:目前,Gemini 2.5 Flash Image已在Gemini和Google AI Studio上提供免费使用,方便用户进行体验和探索。同时,其API也已开放,定价为每张图像0.039美元(约合人民币0.28元),为开发者和商业应用提供了便捷的接入方式。

爆火的神秘图像编辑模型nano-banana,终于脱掉了“香蕉皮”!

就在今天,谷歌官方认领,并表明这个模型其实是Gemini 2.5 Flash Image

最新一波官方Demo也来了:

还展现出了高超的图像推理能力:

现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。

模型的具体表现如何?一起来看~

出色的图像编辑能力

官方给出了很多有趣的用法。

除了常规的修图方式,它还可以合并最多三张图片来创造新事物。

生成超现实艺术,组合不同的照片元素,或无缝融合物体、颜色和纹理。

或者轻松实现设计想法。

还可以用几张照片生成堪称电影画面的连贯剧情故事。

而在官方实锤之前,网友们也早就被nano-banana的各种私家case吸引,开启疯狂讨论。

比如说精准改变面部表情和天气。

或者让秃头男人重新拥有不同发型。

网友表示:PhotoShop岌岌可危。

毕竟这个“香蕉”不仅可以完成平面图像的编辑,甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图片,系统就可自动生成相应的3D视角,每一个角度都是恰到好处、和谐统一。

最最最牛的是,它竟然还可以进行图像推理。勾股定理so easy,计算角度手拿把掐,识别图像里的水母结构,竟然也是瞬间反应,堪称你画我猜AI版。

说实话,最让我佩服的是,当我们要求此“香蕉”给出一个人从A到B的方案时,它竟然直接生成一个梯子!

好好好,图像编辑器真的能思考了。

我们自己也实测了一下这款模型,发现它确实很有意思:

给它一只猫猫,猫能环游世界。

提示词:以这只猫为主角,生成旅游照。

提示词:让猫猫去故宫拍张自拍照。

如果不想做真实场景,让林黛玉和孙悟空成为漫威英雄并肩战斗也就一句话的事儿~

另外,它对光影的细节理解也相当真实。

提示词:一根香蕉被放在厨房台面上,旁边有水杯、刀具和切菜板,阳光从窗户照进来,香蕉投下自然阴影。

可以看到生成结果还是很不错滴,阳光透过水杯折射的影子以及旁边植物的影子都还算合理。

它还能够很好地抓取角色特征,不出意外地改变角色主体:

如果那一年,工藤新一喝下的并不是缩小药水,而是……

神秘香蕉模型

Nano Banana最初出现在一个名为LMArena的网站上,这是一个让不同AI模型匿名进行“战斗模式”竞赛的地方。

而让Nano-banana爆火的原因无他,表现实在太好了。

这又是一个SOTA级别的图像编辑模型——而且在一开始没有任何官方文档。

不过在官方宣布之前,已经有一些人猜到了这是谷歌家族的一员。

一方面,该模型的表现与Gemini近期发布的多模态版本相似,这样出色的性能很难是车库团队的产品。

另一方面,它的发布策略——匿名发布、无品牌标识、让用户群体自行探索——与DeepMind早期在匿名测试平台上评估大语言模型的方式如出一辙。

还有一点额外原因:一些与谷歌有关联的开发者在社交媒体上发了奇怪的香蕉内容🍌

有网友问到Google为什么要选择秘密发布,官方给出了这样的解释:

正在为全球规模的发布做准备工作。

网友:何时发布完整版本

既然官方都那样说了,网友们也坐不住了。

纷纷表示:那我们能用完整版了吗?

不过,虽然这个模型在图像生成的表现确实很好,但并不意味着它没有问题——

尤其是在大公司的服务政策下,很容易出现一些让人比较抓狂的情况:

有网友认为,这是一个非常有趣的营销方式,并且确实达到了他们想要的效果。

感兴趣的朋友也可以去试一下这个香蕉,哦不,这个Gemini 2.5 Flash Image。

参考链接:

[1]https://x.com/googleaistudio/status/1960344388560904213

[2]https://x.com/OfficialLoganK/status/1960343135436906754

[3]https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-image-preview

[4]https://techcrunch.com/2025/08/26/google-geminis-ai-image-model-gets-a-bananas-upgrade/

[5]https://deepmind.google/models/gemini/image/

本文来自微信公众号“量子位”,作者:不圆 时令 ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Flash Image nano-banana AI图像编辑 AI图像推理 谷歌AI Gemini 2.5 Flash Image nano-banana AI Image Editing AI Image Reasoning Google AI
相关文章