谷歌Nano Banana：引领AI文生图新纪元

36kr 08月27日

谷歌Nano Banana：引领AI文生图新纪元

谷歌DeepMind实验室推出的Nano Banana（Gemini-2.5-Flash-Image-Preview）在AI文生图领域引起轰动，以其出色的图像一致性和功能性在LMArena排行榜上遥遥领先。该模型能够通过自然语言指令精准修改和拼接图片，保持主体特征不变，并具备完整的LLM理解能力，支持多轮次编辑和多图叙事。无论是更换背景、视角、色调，还是实现复杂场景的构建，Nano Banana都能高效完成，并展现出极高的提示词精准度和文本处理能力，甚至在科学插图绘制方面也表现卓越。其1-2秒的快速处理速度和约3毛钱的单图成本，使其成为视觉创作领域极具潜力的工具。

🌟 **卓越的一致性与精准编辑**：Nano Banana的核心优势在于其极高的一致性，能够通过简单的文本指令，在不改变主体（如人物、物体）原有特征的情况下，实现背景更换、视角调整、色调改变等复杂编辑。这解决了以往AI生图在细节失真和角色特征易变的问题，让用户能够进行可控的、高保真的图像修改。

🧠 **强大的语言理解与多模态能力**：该模型具备完整的LLM理解能力，远超普通CLIP模型。它不仅能精准理解图像内容，还能自主处理、添加文字，支持多轮次编辑和多图叙事。这意味着用户可以持续优化图片，实现如“漫画连续分镜”、“多角色合成互动”等复杂场景，甚至绘制带文字的科学插图。

🚀 **高效的运行速度与成本效益**：Nano Banana的处理速度非常可观，通常能在1-2秒内完成一张图片的生成或修改，远超同类模型。同时，其较低的生成成本（约3毛钱/张）使其成为一个经济实惠的视觉创作工具，有望替代部分人工美工的工作。

🎨 **广泛的应用场景与创新潜力**：从日常的图片编辑、风格转换，到专业的科学插图绘制、概念设计，Nano Banana展现了广泛的应用潜力。其“AI味”较少的真实感成图效果，以及与Veo3等工作流的结合，预示着其在视频生成、虚拟现实等领域的进一步发展。

⚠️ **过滤器敏感性待提升**：尽管表现出色，但有用户反馈Nano Banana的过滤器有时过于敏感，可能拒绝一些正常的创作请求，这方面仍有待改进。

谷歌终于支棱起来了，带来了今年可能是最令人惊喜的文生图模型——nano banana。

谷歌对于多模态能力的坚持和深耕，再次开花结果了。

自三天前以“Nano Banana”之名低调现身后，相关讨论便迅速发酵，原因无他，只是因为，过于出色。

这个模型前几天就在LMArena图片编辑模型排行榜上几乎断代式地领先其他模型，而昨天，谷歌终于官方宣布，nano banana正是出自 Google DeepMind 实验室推出的 Gemini-2.5-Flash-Image-Preview。

Nano banana现已经一跃居于图像编辑排行榜榜首。

不是期货，开箱即用。不论是官方发布的素材，还是网友自己测的案例，在一致性和功能性上都非常惊艳。

全球网络一致好评，纷纷盛赞其其他任何图像编辑模型都要出色。

不仅一致性强，速度还快，相比 gpt-image 能实现更精准的编辑，同时，更是具备完整 LLM 的理解能力而非普通 CLIP 规模模型的认知水平。

访问地址：ai.studio/banana

这个模型最直观的感受就是，这是一个用嘴和打字就能修改和拼接图片的模型，那种初见ChatGPT和Sora的“魔法感”又回来了。

过往AI生图常被诟病于每次编辑都像掷骰子，细节失真、角色特征易变。而谷歌对Nano Banana主要定位的就是保持主体的一致性。

谷歌表示，更换背景、视角或色调，画面中的人物与物体都能稳定保持原貌不走形。

而另一面，它还是带推理的图像模型。Nano Banana提示词精准度达到了新高度，在听懂人话，理解内容方面表现出色。

它不仅仅能够理解图像内容，还能自主理解、处理、添加文字。

这让它得以同时支持多轮次编辑与多图叙事能力，用户可以持续修改生成的图片，但人还是那个人，甚至可以保持原来的氛围感，不仅“房间布置逐步变化”、“漫画连续分镜”、“多角色合成互动”等复杂功能都能实现，绘制带文字技术插图，做几何题目也能做到。

一句话让模型把图片换视角，上图是原图，下图是俯视视角图片。

一件衣服，一个人物，一句话，衣服马上就穿到人身上。

一句话，拳王阿里秒变辛普森。

劈柴从印度老家顺移到谷歌办公室（人物还是出现了些许的变化）。

两张人物照片，就马上给你他们出演碟中谍和琼瑶剧的剧照。

只去掉小细节，局部编辑也很稳定，其他内容都没有什么变化。

人物一致性方面，网友测试表示，让人物转一圈再转回来，人看起来的变化不大，一致性确实nice。

在网友喜闻乐见的动漫领域，也是表现喜人，给出角色和手绘图示意图，就能控制多个人物的姿态。

生成角色三视图后，漫画也可以稳定生成。

而多次编辑工作更是让nano banana的成图更稳定。

网友测评后表示，连续编辑方面还没有说的那么好，会稍微变形一部分，但一致性已经相当可观了。

多种风格的消费漫画信手拈来。

网友实测反馈也很不错，除了人物五官有非常微小的变化，一致性真的非常强。如果使用的是普通人的照片，你不盯着对比，很难看出面部细节的变化。

不过对于大家都很熟悉的名人，可能还是能让人看出面部不一致的地方。

插画变手办更是近期网上一大测试热点，说到底还是因为nano banana的成图效果确实ai味儿少，看着真实。从平面到现实世界，却没有太大违和感，质感和特征都相当不错，网友们争相生成传播。

而绘制科学插图，制作用于解释的插图等包含内容生成的方面，网友也评价很高。

在几秒钟内完成科学插图的绘制，高保真文本渲染+语言理解+世界知识，nano banana确实是独一档的。

不过，也有不少网友表示，nano banana的过滤器有点敏感，有的正常请求也会会被拒绝。

除了内容本身，nano banana的运行速度也相当可观。谷歌表示，在同类模型通常需要10-15秒处理一张图片时，Gemini 2.5 Flash 基本能做到1-2秒完成。

Nano Banana配合谷歌的veo3的工作流更是能很快生成相当质量的视频，网上已经出现了不少工作流，Nano Banana出图导入veo3，几秒钟的短视频或者长视频都能够胜任。

而价格上，有网友根据谷歌放出的使用费率做了个简单的估算，生成或者修改一张图的成本在3毛钱左右。

网友表示，这是真的能替代美工的视觉工具。

谷歌这次真是盯上了视觉打工人的饭碗了。

本文来自微信公众号“直面AI”，作者：胡润伍式，36氪经授权发布。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Nano Banana Google DeepMind AI图像生成文生图图像编辑 Gemini AI艺术 Nano Banana Google DeepMind AI Image Generation Text-to-Image Image Editing Gemini AI Art

相关文章

腾讯宣布混元文生图大模型对外开源

How generative AI expands curiosity and understanding with LearnLM

Gemini breaks new ground with a faster model, longer context, AI agents and more

电厂 | I/O 2024，Google 吹响通用 AI 反击号角

Biggest Google I/O Announcements 2024

中金公司：AI端侧落地带来消费电子终端人机交互方式变革，关注操作系统升级及应用前景

马斯克批OpenAI：训练AI没有最大程度追求真相，这对人类很危险

Opera AI瀏覽器將整合Google Cloud Gemini等模型

微軟Copilot進駐Telegram

昆仑万维：旗下Opera与谷歌云深度合作，Aira接入Gemini大模型