Google周四(10/2)宣布,代號為奈米香蕉(Nano Banana)的圖像生成模型Gemini 2.5 Flash Image正式進入生產階段,並新增10種長寬比、支援批次處理,也開始提供商業授權。
過去的AI圖像工具大多只靠文字生成,缺乏對影像的深層理解,而Nano Banana可同時理解文字與圖像,能夠直接修改使用者上傳的照片,也能理解自然語言命令,還能保持角色的一致性,再加上生成速度快(少於10秒),讓它在8月底開放預覽之後迅速形成風潮。根據Google的統計,這段期間光是Gemini程式中的Nano Banana就被用來創作超過50億個作品。
本周的宣布代表Gemini 2.5 Flash Image模型已從預覽階段轉為正式產品,可安全地應用於生產環境中,受到商業條款的保護,也會開始收費,價格為每100萬個輸出Token的費用為30美元,由於每張圖平均會用上1,290個Token,所以每張圖的生成費用為0.039美元。
正式版除了開放商用與收費之外,也同步帶來多項升級。預覽時的Nano Banana只能生成16:9的固定比例圖像,而正式版則支援21:9、16:9、4:3、3:2、1:1、9:16、3:4、2:3、5:4、4:5等10種比例,讓使用者可更靈活地針對不同平臺與用途生成內容,包括電影級橫幅、方形社群貼文,或是直式短影音封面等。
其次它支援批次處理,可一次生成多張圖像,大幅提升工作效率,以支援行銷、商品圖或遊戲角色的大量製作。
Google亦提供了Nano Banana的4個使用技巧,包括利用它能保持角色一致性的特色來建立虛擬形象或公仔化自拍;利用自然語言來修改圖像中的特定細節,如「讓狗的嘴巴閉起來」;利用簡單且口語化的命令來探索Nano Banana的創意潛力;以及利用Gemini App的Canvas 模式或Google AI Studio來建立新應用程式。
其中,最後一點允許使用者或開發人員完全不必撰寫程式,只要輸入一句提示語,就能生成一個完整的AI圖像應用程式,例如:「幫我建立一個可以上傳照片並套用濾鏡的影像編輯App」。Google團隊示範了許多應用,其中的PictureMe讓使用者上傳一張照片,選擇「80年代商場寫真」主題,系統就會自動生成6張風格不同的照片;或是可將圖片變成GIF動畫的Bananimate;以及能夠預覽不同穿搭效果的Fit Check。
使用者或開發人員可以透過Gemini App、Google AI Studio、Gemini API或Vertex AI存取Nano Banana模型,當中的 Gemini App與Google AI Studio目前仍提供少量免費體驗額度。
