掘金 人工智能 09月02日
Gemini Nano Banana:AI 图像编辑新宠
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌 Gemini 团队推出的 Nano Banana(Gemini 2.5 Flash Image)模型,凭借其更快的生成速度、更低的成本和更强的图像生成与编辑能力,迅速成为 AI 图像编辑领域的新宠。与 GPT 4o 相比,Nano Banana 在真实感和细节还原上表现更佳,尤其在照片转手办、3D Q 版人物制作以及衣服穿搭等场景下,其上下文感知编辑、精准物品植入和对 3D 空间的深刻理解能力,展现出巨大的商业潜力,特别是在广告营销和电商领域。尽管存在汉字乱码等小问题,但 Nano Banana 的强大功能预示着 AI 图像编辑的广阔未来。

✨ **Gemini Nano Banana 的卓越性能**:作为谷歌 Gemini 团队推出的新一代 AI 图像编辑模型,Nano Banana(Gemini 2.5 Flash Image)在生成速度、成本效益以及图像生成与编辑能力上均有突出表现,使其迅速成为行业内的热门选择。与当前流行的 GPT 4o 模型进行对比测试,Nano Banana 在照片转手办、3D Q 版人物制作等多种场景下,展现出更强的真实感和对细节的精准还原能力,例如在照片转手办时,其生成效果更为逼真,且部分汉字乱码问题得到改善。

💡 **Nano Banana 的核心优势与应用场景**:该模型具备超强的上下文感知编辑能力,能够理解任务与环境的关联,并在替换背景时进行光线、反射的重新渲染,实现更逼真的融合效果。其精准的物品植入与修改能力,能妥善处理遮挡关系,为广告营销和电商领域带来极大便利。此外,Nano Banana 对 3D 空间的深刻理解,使其能更好地处理 2D 图片中的潜在 3D 信息,并能保持图片风格的高度一致性,延展出系列同质感图片。

🚀 **AI 图像编辑的未来展望与挑战**:随着 Nano Banana 等模型的不断发展,AI 图像生成技术正加速从技术展示走向商业价值的转化,如根据图片制作周边产品。Nano Banana 的精准编辑能力在广告和电商领域具有广阔的应用前景。未来,随着模型能力的提升,应更多关注其能发挥价值的场景,并提前布局,思考当现有技术瓶颈消失时,新的应用可能。同时,识别 AI 生成的虚假内容也是一项重要挑战。

背景

前段时间 GPT 4o 的 AI 生图掀起了"吉卜力热潮",很多网友脑洞大开,创作出非常有意思图片,如 3D Q版人物立体相框、角色穿越传送门 、Q版角色表情包等。

近期谷歌 Gemini 团队推出的 Nano Banana(Gemini 2.5 Flash Image),与其他竞品相比,该模型生成速度更快、成本更低、图像生成与编辑能力更强,网友们不吝赞美之词,一夜之间,Nano Banana 成为了 AI 图像编辑模型的新宠。

讲到这里,很多朋友可能已经跃跃欲试了,想问在哪里使用呢? 按照使用

大家可以在 谷歌的 AI Studio 平台(aistudio.google.com/prompts/new…

全球首个设计智能体 Lovart 也快速支持了 Nano Banana 模型,支持试用。

案例

看到网友都夸好,到底怎么样呢? 我找到 2025 年谷歌开发者大会的照片生成了一些图片看看效果。 照片转手办 使用照片转手办的提示词看看效果如何:

turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. set the scene indoors if possible

生成界面如下:

Nano Banana

GPT 4o

GPT 4o

生成效果如下:

Nano Banana

GPT 4o

可以看到同样地提示词,默认的配置下 Nano Banana 生成的效果更真实一些,GPT 4o 部分汉字还是存在乱码。

照片转3D Q 版人物

使用照片转3D Q 版人物的提示词看看效果如何:

根据所附照片创建一个风格化的3Q版人物角色,准确保留人物的面部特征和服装细节。角色的左手比心(手指上方有红色爱心元素),姿势俏皮地坐在一个巨大的Instagram相框边缘,双腿悬挂在框外。相框顶部显示用户名『敖丙』,四周漂浮着社交媒体图标(点赞、评论、转发)。

生成过程如下:

Nano Banana

GPT 4o

生成效果如下:

可以看到同样地提示词,默认的配置下 Nano Banana 生成的效果更真实和立体一些,但是汉字存在乱码;GPT 4o 效果也蛮不错但是偏卡通,但是有些指令没有被遵循,如相框顶部的「敖丙」字样并没有在图片中画出来。

3D Q 版形象穿过传送门

提示词

照片中的角色的 3Q 版形象穿过传送门,牵着观众的手,在将观众拉向前时动态地回头一看。传送门外的背景是观众的现实世界,一个典型的程序员的书房,有书桌,显示器和笔记本电脑,传送门内是角色所处的3Q 版世界,细节可以参考照片,整体呈蓝色调,和现实世界形成鲜明对比。传送门散发着神秘的蓝色和紫色色调,是两个世界之间的完美椭圆形框架处在画面中间。从第三人称视角拍摄的摄像机角度,显示观看者的手被拉入角色世界。23 的宽高比。

过程:

最终效果: 可以看到同样地提示词,默认的配置下 Nano Banana 生成的效果更偏写实一些,电脑屏幕灯光效果还原得都不错,但是长宽比搞反了;GPT 4o 偏卡通,长宽比遵循很好,但是笔记本并没有在图片中画出来。

衣服穿搭

show woman wearing the outfit

生图过程

生图结果

在这个 Case 上同样地提示词两个模型表现相当,整体两个模型表现都很不错。Nano Banana 短裤颜色偏淡一些,GPT 4o 更深一些,白色短袖的袖口细节上 Nano Banana 还原度更好一些,而且关注到了原始图片中的耳环,而且背景虚化的效果特别好。

地图转游戏风格

我截取阿里巴巴 C 区的地图,让模型制作地标和等距图像(仅操场),采用《主题公园》游戏的风格。

提示词

 Take this  location and make the landmark and isometric image (playground only), in the style of the game Theme Park

过程

生图结果

在这个 Case 上同样地提示词两个模型都存在一些问题。提示词中限定了仅处理操场这部分,这个被 Nano Banana 忽视了,但整体的视觉效果蛮不错。GPT 4o 更符合 Theme Park 游戏的风格,但也忽视了提示词中仅处理操场部分。

总结

通过上述 Case 结合网上的相关测评,可以看到 Nano Banana 有几大优势:

超强的上下文感知编辑能力 它不是简单抠图粘贴,而是真正能够理解任务与环境的关系,在替换背景后,重新渲染光线、反射和融入感,效果更加逼真。

精准的物品植入与修改 Nano Banana 可以比较精准地进行物品添加和替换,能够比较好地处理遮挡关系,这对于广告营销和电商领域带来了福音。

对 3D空间理解深刻 能够比较好地理解 2D 图片中隐藏的 3D 空间信息。

风格一致性更强图片:

基于一张初始照片,Nano Banana 可以延展出一系列的相同质感的图片。

同时,我们也可以看到 Nano Banana 并不完美,比如存在汉字乱码,部分指令没有被遵循(如长宽比)等问题。

外行人看热闹,内行人看门道。GPT 4o 开始,很多人已经开始将技术转化成商业价值,比如根据图片制作挂件、贴纸、3D 摆件等盈利。 Nano Banana 能够进行精准的物品植入与修改,在广告和电商场景也非常具有想象力。

未来模型能力会越来越强,大家不要盯着模型不能做什么,要多挖掘可以发挥价值的场景。甚至,可以提前思考当这些文生图模型的这些问题都不存在时,又可以在哪些场景上发会出更大的价值,提前布局。

同时,技术也是一把双刃剑。网上也常听到有人利用大模型生成变质的水果,摔坏的商品等申请退货的情况。如何高效识别出 AI 造假的内容也是未来需要解决的问题。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Nano Banana Gemini 2.5 Flash Image AI 图像编辑 谷歌 Gemini GPT 4o AI 生图 Gemini Nano Banana AI Image Editing Google Gemini AI Image Generation
相关文章