快科技资讯 08月27日
神秘模型Nano-Banana揭秘:实为Google Gemini 2.5 Flash Image
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

曾引起广泛关注的图像编辑模型Nano-Banana,现已由Google官方确认,其真实身份为Gemini 2.5 Flash Image。该模型展现了卓越的图像推理和编辑能力,支持多图合并创作、2D到3D转换以及精细的光影细节处理。此前,Nano-Banana因其匿名发布和惊艳的表现,在社区引发热烈讨论,甚至被认为将挑战Photoshop的地位。如今,该模型已在Gemini和Google AI Studio上免费提供,API也已开放,价格为每张图像0.039美元。

✨ **模型身份揭晓与核心能力**:备受瞩目的“Nano-Banana”模型,经Google官方证实,其真身为Gemini 2.5 Flash Image。该模型不仅具备强大的图像编辑能力,例如合并多张图片创造新内容、生成超现实艺术、组合不同照片元素,还能实现2D到3D的转换,将普通2D图片自动生成多角度的3D视角。

🧠 **卓越的图像推理与细节处理**:Gemini 2.5 Flash Image在图像推理方面表现出色,能够准确执行复杂的指令,如计算勾股定理、识别图像结构,甚至能通过生成梯子来解决“A到B的方案”问题。此外,它对光影细节的理解也相当真实,能生成带有自然阴影和折射效果的图像,并且能精准抓取和改变角色主体特征。

🚀 **发布历程与社区反响**:Nano-Banana最初匿名发布于LMArena平台,因其SOTA级别的表现迅速爆火,引发了关于其开发者身份的猜测。Google解释匿名发布是为了全球规模的发布做准备。用户们对其表现赞不绝口,认为其“能思考”,并对完整版本的发布充满期待,许多人认为这是一种非常成功的营销策略。

爆火的神秘图像编辑模型nano-banana,终于脱掉了“香蕉皮”!

就在今天,谷歌官方认领,并表明这个模型其实是Gemini 2.5 Flash Image。

最新一波官方Demo也来了:

还展现出了高超的图像推理能力

现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。

模型的具体表现如何?一起来看~

出色的图像编辑能力

官方给出了很多有趣的用法。

除了常规的修图方式,它还可以合并最多三张图片来创造新事物。

生成超现实艺术,组合不同的照片元素,或无缝融合物体、颜色和纹理。

或者轻松实现设计想法。

还可以用几张照片生成堪称电影画面的连贯剧情故事。

而在官方实锤之前,网友们也早就被nano-banana的各种私家case吸引,开启疯狂讨论。

比如说精准改变面部表情和天气。

或者让秃头男人重新拥有不同发型。

网友表示:PhotoShop岌岌可危。

毕竟这个“香蕉”不仅可以完成平面图像的编辑,甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图片,系统就可自动生成相应的3D视角,每一个角度都是恰到好处、和谐统一。

最最最牛的是,它竟然还可以进行图像推理。勾股定理so easy,计算角度手拿把掐,识别图像里的水母结构,竟然也是瞬间反应,堪称你画我猜AI版。

说实话,最让我佩服的是,当我们要求此“香蕉”给出一个人从A到B的方案时,它竟然直接生成一个梯子!

好好好,图像编辑器真的能思考了。

我们自己也实测了一下这款模型,发现它确实很有意思:

给它一只猫猫,猫能环游世界。

提示词:以这只猫为主角,生成旅游照。

提示词:让猫猫去故宫拍张自拍照。

如果不想做真实场景,让林黛玉和孙悟空成为漫威英雄并肩战斗也就一句话的事儿~

另外,它对光影的细节理解也相当真实。

提示词:一根香蕉被放在厨房台面上,旁边有水杯、刀具和切菜板,阳光从窗户照进来,香蕉投下自然阴影。

可以看到生成结果还是很不错滴,阳光透过水杯折射的影子以及旁边植物的影子都还算合理。

它还能够很好地抓取角色特征,不出意外地改变角色主体:

如果那一年,工藤新一喝下的并不是缩小药水,而是……

神秘香蕉模型

Nano Banana最初出现在一个名为LMArena的网站上,这是一个让不同AI模型匿名进行“战斗模式”竞赛的地方。

而让Nano-banana爆火的原因无他,表现实在太好了。

这又是一个SOTA级别的图像编辑模型——而且在一开始没有任何官方文档。

不过在官方宣布之前,已经有一些人猜到了这是谷歌家族的一员。

一方面,该模型的表现与Gemini近期发布的多模态版本相似,这样出色的性能很难是车库团队的产品。

另一方面,它的发布策略——匿名发布、无品牌标识、让用户群体自行探索——与DeepMind早期在匿名测试平台上评估大语言模型的方式如出一辙。

还有一点额外原因:一些与谷歌有关联的开发者在社交媒体上发了奇怪的香蕉内容??

有网友问到Google为什么要选择秘密发布,官方给出了这样的解释:

正在为全球规模的发布做准备工作。

网友:何时发布完整版本

既然官方都那样说了,网友们也坐不住了。

纷纷表示:那我们能用完整版了吗?

不过,虽然这个模型在图像生成的表现确实很好,但并不意味着它没有问题——

尤其是在大公司的服务政策下,很容易出现一些让人比较抓狂的情况:

有网友认为,这是一个非常有趣的营销方式,并且确实达到了他们想要的效果。

感兴趣的朋友也可以去试一下这个香蕉,哦不,这个Gemini 2.5 Flash Image。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Flash Image Nano-Banana AI图像编辑 Google AI 图像推理 AI艺术 2D to 3D Gemini 2.5 Flash Image Nano-Banana AI Image Editing Google AI Image Reasoning AI Art 2D to 3D
相关文章