谷歌推出Gemini-2.5-flash-image-preview模型

本报告导读：　　谷歌Gemini-2.5-flash-image-preview——代号Nano-Banana模型正式上线引领多模态AI模型与应用发展新方向。　　投资要点：　　投资建议。我们认为，谷歌Gemini-2.5-flash-image-preview——代号Nano-Banana模型在多模态AI领域另辟蹊径，其SOTA图像生成和编辑能力、强角色一致性和闪电的速度，便于用户高效处理已有的图片素材，无论是在生产力场景还是创意场景，已展现出超强的实用性与惊人的图像效果，建议关注多模态模型与应用迭代带来的发展机会。建议关注标的：万兴科技、虹软科技、金山办公、合合信息、福昕软件、迈富时；受益标的：当虹科技。　　谷歌上线图像新模型，具有SOTA的图像生成和编辑能力。近日，AI社区一款名叫Nano-Banana的图像生成与编辑模型备受关注，起初它在LMArena平台的Battle模式中被发现，随后谷歌正式宣布上线该模型，正式名字为Gemini-2.5-flash-image-preview，其具备SOTA的图像生成和编辑能力、强大的角色一致性以及闪电般的速度。在Artificial Analysis文生图与图像编辑两个排行榜上，该模型均已经跃升至第一位，领先于字节即梦3.0、GPT-4o、快手可灵2.1、Qwen-Image-Edit等模型。此外，Gemini-2.5-flash-image-preview在LMArena文生图与图像编辑两个排行榜上同样位居第一名。　　生产力与创意场景广泛应用，实现方便快捷的PS。Gemini-2.5-flash-image-preview的特性包括：1）充分保持角色的一致性：它可以将同一个角色置于不同的环境中，或者从多个角度展示同一款产品，高度还原角色的面部特征、表情和姿态等。2）基于提示的图片编辑：允许用户通过简单的自然语言指令，对图片进行精准的局部修改，包括背景替换、风格转换、动作或手势迁移等。3）融合Gemini的现实世界知识：可借助Gemini强大的世界知识库，让图像生成变得更加智能。4）多图像融合：可以将一张图片中的物体放进另一张图片的场景里或者多个图片的拼接融合。5）成本低廉：生成每张图像的成本大约为0.039美元（约0.28元），远低于OpenAI的图像生成成本（0.19美元）。我们认为，该模型实现了对图片的精准掌控，可延伸出丰富的玩法，也可以满足生产力需求。　　原生图像生成与多模态理解方面实现了紧密结合。Gemini-2.5-flash-image-preview在原生图像生成与多模态理解方面实现了紧密结合：图像理解为生成提供信息，生成又反过来强化理解，两者相辅相成背后是谷歌Gemini团队与Imagen团队的强强联合。Gemini团队是模型的大脑，他们赋予模型世界知识、强大的逻辑推理和指令遵循能力，Gemini的终极目标是整合所有模态，向AGI方向迈进；Imagen团队专注文本到图像任务，则像是模型的艺术总监，拥有被磨练出的、极其敏锐的审美品味。未来模型能力有望朝着进一步的智能性事实性与功能性演进。　　风险提示。AI技术迭代不及预期；商业化进展不及预期；市场竞争加剧。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签