36kr 08月27日
谷歌Nano Banana:引领AI文生图新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind实验室推出的Nano Banana(Gemini-2.5-Flash-Image-Preview)在AI文生图领域引起轰动,以其出色的图像一致性和功能性在LMArena排行榜上遥遥领先。该模型能够通过自然语言指令精准修改和拼接图片,保持主体特征不变,并具备完整的LLM理解能力,支持多轮次编辑和多图叙事。无论是更换背景、视角、色调,还是实现复杂场景的构建,Nano Banana都能高效完成,并展现出极高的提示词精准度和文本处理能力,甚至在科学插图绘制方面也表现卓越。其1-2秒的快速处理速度和约3毛钱的单图成本,使其成为视觉创作领域极具潜力的工具。

🌟 **卓越的一致性与精准编辑**:Nano Banana的核心优势在于其极高的一致性,能够通过简单的文本指令,在不改变主体(如人物、物体)原有特征的情况下,实现背景更换、视角调整、色调改变等复杂编辑。这解决了以往AI生图在细节失真和角色特征易变的问题,让用户能够进行可控的、高保真的图像修改。

🧠 **强大的语言理解与多模态能力**:该模型具备完整的LLM理解能力,远超普通CLIP模型。它不仅能精准理解图像内容,还能自主处理、添加文字,支持多轮次编辑和多图叙事。这意味着用户可以持续优化图片,实现如“漫画连续分镜”、“多角色合成互动”等复杂场景,甚至绘制带文字的科学插图。

🚀 **高效的运行速度与成本效益**:Nano Banana的处理速度非常可观,通常能在1-2秒内完成一张图片的生成或修改,远超同类模型。同时,其较低的生成成本(约3毛钱/张)使其成为一个经济实惠的视觉创作工具,有望替代部分人工美工的工作。

🎨 **广泛的应用场景与创新潜力**:从日常的图片编辑、风格转换,到专业的科学插图绘制、概念设计,Nano Banana展现了广泛的应用潜力。其“AI味”较少的真实感成图效果,以及与Veo3等工作流的结合,预示着其在视频生成、虚拟现实等领域的进一步发展。

⚠️ **过滤器敏感性待提升**:尽管表现出色,但有用户反馈Nano Banana的过滤器有时过于敏感,可能拒绝一些正常的创作请求,这方面仍有待改进。

谷歌终于支棱起来了,带来了今年可能是最令人惊喜的文生图模型——nano banana。

谷歌对于多模态能力的坚持和深耕,再次开花结果了。

自三天前以“Nano Banana”之名低调现身后,相关讨论便迅速发酵,原因无他,只是因为,过于出色。

这个模型前几天就在LMArena图片编辑模型排行榜上几乎断代式地领先其他模型,而昨天,谷歌终于官方宣布,nano banana正是出自 Google DeepMind 实验室推出的 Gemini-2.5-Flash-Image-Preview。

Nano banana现已经一跃居于图像编辑排行榜榜首。

不是期货,开箱即用。不论是官方发布的素材,还是网友自己测的案例,在一致性和功能性上都非常惊艳。

全球网络一致好评,纷纷盛赞其其他任何图像编辑模型都要出色。

不仅一致性强,速度还快,相比 gpt-image 能实现更精准的编辑,同时,更是具备完整 LLM 的理解能力而非普通 CLIP 规模模型的认知水平。

访问地址:ai.studio/banana

这个模型最直观的感受就是,这是一个用嘴和打字就能修改和拼接图片的模型,那种初见ChatGPT和Sora的“魔法感”又回来了。

过往AI生图常被诟病于每次编辑都像掷骰子,细节失真、角色特征易变。而谷歌对Nano Banana主要定位的就是保持主体的一致性。

谷歌表示,更换背景、视角或色调,画面中的人物与物体都能稳定保持原貌不走形。

而另一面,它还是带推理的图像模型。Nano Banana提示词精准度达到了新高度,在听懂人话,理解内容方面表现出色。

它不仅仅能够理解图像内容,还能自主理解、处理、添加文字。

这让它得以同时支持多轮次编辑与多图叙事能力,用户可以持续修改生成的图片,但人还是那个人,甚至可以保持原来的氛围感,不仅“房间布置逐步变化”、“漫画连续分镜”、“多角色合成互动”等复杂功能都能实现,绘制带文字技术插图,做几何题目也能做到。

一句话让模型把图片换视角,上图是原图,下图是俯视视角图片。

一件衣服,一个人物,一句话,衣服马上就穿到人身上。

一句话,拳王阿里秒变辛普森。

劈柴从印度老家顺移到谷歌办公室(人物还是出现了些许的变化)。

两张人物照片,就马上给你他们出演碟中谍和琼瑶剧的剧照。

只去掉小细节,局部编辑也很稳定,其他内容都没有什么变化。

人物一致性方面,网友测试表示,让人物转一圈再转回来,人看起来的变化不大,一致性确实nice。

在网友喜闻乐见的动漫领域,也是表现喜人,给出角色和手绘图示意图,就能控制多个人物的姿态。

生成角色三视图后,漫画也可以稳定生成。

而多次编辑工作更是让nano banana的成图更稳定。

网友测评后表示,连续编辑方面还没有说的那么好,会稍微变形一部分,但一致性已经相当可观了。

多种风格的消费漫画信手拈来。

网友实测反馈也很不错,除了人物五官有非常微小的变化,一致性真的非常强。如果使用的是普通人的照片,你不盯着对比,很难看出面部细节的变化。

不过对于大家都很熟悉的名人,可能还是能让人看出面部不一致的地方。

插画变手办更是近期网上一大测试热点,说到底还是因为nano banana的成图效果确实ai味儿少,看着真实。从平面到现实世界,却没有太大违和感,质感和特征都相当不错,网友们争相生成传播。

而绘制科学插图,制作用于解释的插图等包含内容生成的方面,网友也评价很高。

在几秒钟内完成科学插图的绘制,高保真文本渲染+语言理解+世界知识,nano banana确实是独一档的。

不过,也有不少网友表示,nano banana的过滤器有点敏感,有的正常请求也会会被拒绝。

除了内容本身,nano banana的运行速度也相当可观。谷歌表示,在同类模型通常需要10-15秒处理一张图片时,Gemini 2.5 Flash 基本能做到1-2秒完成。

Nano Banana配合谷歌的veo3的工作流更是能很快生成相当质量的视频,网上已经出现了不少工作流,Nano Banana出图导入veo3,几秒钟的短视频或者长视频都能够胜任。

而价格上,有网友根据谷歌放出的使用费率做了个简单的估算,生成或者修改一张图的成本在3毛钱左右。

网友表示,这是真的能替代美工的视觉工具。

谷歌这次真是盯上了视觉打工人的饭碗了。

本文来自微信公众号“直面AI”,作者:胡润 伍式,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Nano Banana Google DeepMind AI图像生成 文生图 图像编辑 Gemini AI艺术 Nano Banana Google DeepMind AI Image Generation Text-to-Image Image Editing Gemini AI Art
相关文章