原创 R.Zen 2025-08-27 19:23 北京
昨天晚上,爆火了一周的图像生成与编辑模型 nano-banana 终于揭开了真面目。
其官方名称为 Gemini 2.5 Flash Image,在 LMArena 基准测试中一举登顶,成为当前 AI 图像编辑模型的冠军。
当前的 preview 版本已经上线 Google AI Studio、Gemini APP、Gemini API 和 Vertex AI, 大家可以免费试用。
Gemini 2.5 Flash Image 不光生成快(每分钟最多调 500 次),还特别省钱(文本输入/输出 2.50、图像生成 30.00), 知识 update 到 2025 年 6 月。速度、价格、更新都拉满,妥妥的图像模型性价比之王。
基础知识介绍的差不多了,实力到底怎么样?
我们直接上实测和玩法总结。
维度一:角色一致性
这个可以说是 banana 最擅长的维度。人物的表情、姿势都很不错非常自然,几乎没有「AI 味」,4.5 星。
比如说这张特朗普和施瓦布在世界经济论坛上的合影。俩人站在台上,表情严肃得像是刚刚在心里背完一整段联合声明,全场空气都被他们的姿态冻住了。
我把这张图扔进 AI Studio 里,第一件事就是:让他们笑。
特朗普笑得满脸褶子、嘴角上扬得都快压到领带上了,施瓦布的眼角甚至带了一点笑到有点眯眼的神态。整个场面一秒从高冷发言台,切换成老朋友重逢的合影现场。
也可以让特朗普激情开麦的时候,施瓦布在旁边认真聆听。
真的好真实,不知道的还以为是记者拍到的原图。
拿了两张陌生人的独照,想看看 banana 能不能硬拉成一对情侣。
结果还真行,我把他们安排到了巴黎街头,AI 不仅把两人姿势拼得很顺,还补了点气氛滤镜。
人物角色的神态和穿搭都衔接得不错,表情也没出戏,就是背景太像 Unsplash 网图,略微掉点氛围感。
然后试了张海边度假的场景。也很般配,唯一的 bug 是——
大模型迷惑行为之带两个墨镜。。
维度二:图片编辑能力
这里我必须拿出我珍藏多年的经典素材——某国际机场广告上那张离谱的“六根手指图”。
prompt 非常简单: Keep everything the same but remove one extra finger from her hand.
不画框、不涂抹、不指哪打哪,就这么一句话。
轻轻松松变成正常人。
当然,这只是功能上的补漏。你还可以试着把一切看到的东西往身上装。
有没有朋友跟我一样,小时候偷偷在手上画纹身贴纸,长大了想纹真,但又怕被家里长辈骂?
现在终于可以无痛上身,而且还不留痕。
prompt 我给出大家:
Take the butterfly tattoo design from the woman’s upper arm in the reference image and place it on the collarbone and neck area of the short-haired woman. Keep the pose, lighting, and overall aesthetic the same. The tattoo should blend naturally with the skin, as if it’s real.
纹身店发的效果图这不就来了。
整体能力还是不错的,这个维度很实用,可以打出 5 星,大家可以自己上手玩一玩。
维度三:风格迁移能力
这个维度中规中矩,完成度普遍在线,综合也是 4.5 星。我们拿一个 case 做一些演示:
先从一个 3D 半身像变成现实人像。光线还是很不错的,杯子中的水反射的细节也注意到了。
让它变成古典油画风,也能画出油彩肌理和巴洛克光影,审美上确实有点意思。
动漫风也不拉胯,干净的线条配色够梦幻,虽然稍微有点绘圈感。
但到了像素风和玩具风,完成度就明显不如前几个了,像素块太含糊,玩具风我只想说,第五人格启动!
维度四:多图融合能力
咱们也来说说缺点。
实话实说,这个模型在复杂任务处理的稳定性,尤其是多要素编辑的场景,目前来看并没有很好。有时候你以为它应该轻松搞定的事,结果还真不一定稳,2.5 星表现。
比如说最常见的换衣操作。
我用的是一个非常基础的 prompt,只是想让模特从 T 恤换成黑色吊带裙,其他都保持不变。结果 roll 了三次,才终于 roll 到一张比较像回事的版本。
而一旦你把要素拉高一些,比如:换衣 + 场景转换 + 动作改变——也就是同时调整角色、环境和行为,banana 的稳定性就开始明显下滑了。
Keep the model’s body and face unchanged, change her outfit to match the full white outfit from the reference image, and place her in a dynamic baseball scene — like she’s just hit the ball or ready to swing, with a stadium background.
上衣完全不一样,身后的英文字母也有许多外星文。
所以想要完美的图,还是得大力出奇迹,多试几轮。
维度五:创意生成能力
最后的最后,我们来玩点花的。
这个玩法最近在社交媒体上超级火,核心思路就是:用一句 prompt,把一张真人或角色照片,变成一个完整包装的 Blender 3D 手办场景。
turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. set the scene indoors if possible
超级可爱!
而且根据这个思路,我还玩出了几个变种:
case1:油画风展示
turn this character into a classical bust figure in oil painting style. Place the bust on a marble pedestal, add a gold nameplate, and display it in an art gallery setting with soft lighting.
case2:游戏角色盒装
prompt:_create a retro-style pixel art game figure from this character, displayed as a collectible item. Include a pixelated toy box with 8-bit graphics, a pixel game console screen behind showing the modeling interface, and a label tag with “limited edition”._
以上,就是本次 Gemini 2.5 Flash Image 的全维度实测内容啦!
一句话总结:Gemini 2.5 Flash Image 确实有点东西,特别适合这种创意场景生成。但必须提醒一句,它的出图质量不算稳定,有时候细节会糊、人物脸会变,需要你多 roll 几次挑出满意图。但比起 GPT-4o,那是稳稳胜出。
ps:以图生图为主(因为这次主要的更新点都在图片编辑这边 ~)。东西确实有点多,给坚持到这里的小朋友们小花花。
