智源社区 11月11日 15:19
Nano Banana 2:AI图像生成新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Nano Banana 2(又名GemPix2)预览版已在Media.io上亮相,展示了远超前代的能力,包括精确的文本渲染、超逼真场景以及复杂的桌面界面模拟,甚至能生成包含整个浏览器界面的AI图像。该模型在真实性、生成速度和自然交互控制方面均有显著提升,能准确绘制指向特定时间的时钟和红酒,并展现出一定的世界知识和逻辑推理能力,数学问题解决能力也大幅增强。第一代Nano Banana以其强大的图像编辑、理解能力、多图像融合、风格迁移以及低成本高速度的特点,为Gemini应用带来了大量新用户,并推动了谷歌对AI视觉体验的整合。

✨ **Nano Banana 2 的突破性能力**:新一代模型在真实感和复杂性上实现了飞跃。它能够生成包含完整浏览器界面和桌面环境的AI图像,精确渲染文本,并创造超逼真的场景。这标志着AI在理解和模拟现实世界复杂细节方面取得了显著进展,甚至在没有参考图像的情况下也能生成如此精细的输出。

🚀 **性能全面升级与应用潜力**:Nano Banana 2(GemPix2)在真实性、生成速度和自然交互控制方面进行了全面改进。它能准确绘制出指向特定时间的时钟和一杯斟满的红酒,展现了对物理常识和提示词的深刻理解。此外,它还具备了一定的世界知识和逻辑推理能力,能够更好地解决数学问题,预示着其在创意设计、内容创作乃至模拟仿真等领域的广泛应用潜力。

💡 **第一代 Nano Banana 的奠基与影响**:作为Gemini 2.5 Flash Image的代号,第一代Nano Banana凭借其出色的图像编辑和理解能力,包括自然语言编辑与角色一致性,迅速登顶AI模型排行榜。它解决了AI图像编辑中的“身份漂移”问题,并增加了多图像融合与风格迁移功能,极大地提高了电商、广告等行业的创作效率。其低成本和高速度的特点也为其后续发展奠定了坚实基础。

🌐 **谷歌生态的深度整合**:谷歌正加速将Nano Banana技术整合进其核心产品生态,包括Gemini应用、AI Studio、Google Photos、搜索、智能镜头和画圈搜索。这一战略旨在打造一个无缝的AI驱动视觉体验闭环,让用户在日常使用的各项谷歌服务中都能享受到先进的AI视觉生成和编辑能力,从而提升整体用户体验。

Nano Banana 2代一亮相就惊艳众人。

下面这张图完全是AI生成,不仅包括网页中的内容,甚至整个浏览器界面和桌面都是生成的,而且没有参考图像。

这次Nano Banana 2以预览版的形式出现在第三方网站Media.io上,随后被移除,只有少数手快的网友参加了测试。

预览版展示出的能力已远超前代,在处理复杂提示方面的表现突出,包括精确的文本渲染、超逼真的场景以及类似完整桌面界面的精细模拟。

但谷歌DeepMind方面没有对发布正式时间等做出说明。

Nano Banana 2全面升级

根据测试页面说明,这次Nano Banana 2又名GemPix2,主要在真实性、生成速度和自然交互控制上面改进。

从现有的测试结果看,Nano Banana 2能够生成极其复杂的UI,文字渲染也看不出破绽,很多网友都会以为是一张真实截图。

对物理常识与遵循提示词的细节也表现很好。

可以同时准确绘制出指向特定时间的时钟和一杯斟满的红酒。

甚至能伪造出逼真的监控录像画面,不过据推测正式版发布时候应该会削弱这方面能力。

此外,Nano Banana 2还掌握了一定的世界知识与逻辑推理能力。

在解决数学问题的对比测试中,1代解题思路好像大致方向是对的,但最终渲染出的公式基本无法理解。

二代虽然有一些小错误,但结果给人印象深刻。

Nano Banana团队:图像生成的质量已接近上限

Nano Banana最初于2025年8月中旬匿名出现在AI模型测评平台LMArena,凭借其出色的图像编辑能力迅速登顶排行榜,引发社区热议,

8月底,谷歌正式揭晓其身份为Gemini 2.5 Flash Image,Nano Banana的代号源于谷歌内部测试生成“香蕉大小的纳米机器人”时效果很好。

上线不到10天,用户编辑了超过2亿张图片,为Gemini应用带来了1000万新用户,并一度帮助Gemini超越ChatGPT成为苹果免费应用榜首。

第一代Nano Banana的核心优势在于强大的图像编辑和理解能力,

包括自然语言编辑与角色一致性,用户可用日常语言进行多轮、迭代式的图像编辑,同时解决了AI图像编辑中常见的“身份漂移”问题,保持角色特征在多次修改后高度一致。

与先前模型相比增加了多图像融合与风格迁移功能,支持将多张不同图片无缝融合成一张连贯的图像,或将一张图的风格应用到另一张图的物体上,为电商、广告等行业提高了创作效率。

以及低成本也高速度,基于谷歌TPU v5架构优化,Nano Banana平均响应时间仅为1.3秒,单张图片生成成本约0.039美元,仅为DALL-E 3的十分之一。

此前Nano Banana核心团队透露,图像生成的质量已接近上限,未来的关键在于提升模型理解用户“意图”(intention)的能力。

谷歌自身也在加速将Nano Banana整合进其核心产品生态。除了在Gemini应用和AI Studio中提供服务外,谷歌已开始测试将其集成到Google Photos、搜索(Search)、智能镜头(Lens)和画圈搜索(Circle to Search)中,意图打造一个无缝的AI驱动视觉体验闭环。

参考链接:
[1]https://x.com/synthwavedd/status/1987259262322749784?s=20
[2]https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🏆 年度科技风向标「2025人工智能年度榜单」申报即将于11月17日截止点击了解详情

❤️‍🔥 企业、产品、人物3大维度,共设立了5类奖项,最后时刻一起冲刺👇 

一键关注 👇 点亮星标

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Nano Banana 2 AI图像生成 GemPix2 AI艺术 谷歌AI Gemini AI技术 图像编辑 人工智能 AI Image Generation Google AI AI Art AI Technology Image Editing
相关文章