IT之家 10月29日 09:37
苹果发布Pico-Banana-400K数据集,利用Gemini-2.5模型构建
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司发布了名为Pico-Banana-400K的大规模研究数据集,包含40万张图像,并特别指出该数据集是利用谷歌的Gemini-2.5模型构建的。此数据集旨在推动文本引导图像编辑领域的研究,通过整合真实照片和多样化的编辑指令,并借助Gemini 2.5-Pro模型进行质量评估,以克服现有数据集在规模、质量和多样性方面的不足。Pico-Banana-400K数据集以非商业性研究许可发布,为研究人员提供了宝贵的资源,以训练和评估下一代图像编辑模型,尽管其构建过程也揭示了当前模型在精细控制等方面的局限性。

🍎 **大规模图像编辑数据集的创建**:苹果发布了Pico-Banana-400K,一个包含40万张图像的研究数据集,专为文本引导图像编辑设计。该数据集的构建克服了现有图像编辑数据集在规模、质量和多样性上的普遍问题,为推动相关领域研究奠定了基础。

🤖 **利用先进AI模型构建**:Pico-Banana-400K数据集的独特之处在于其构建过程深度整合了谷歌的Gemini-2.5模型。具体来说,Nanon-Banana模型负责执行图像编辑任务,而Gemini 2.5-Pro模型则用于自动评估生成图像的准确性和视觉质量,确保数据集的高标准。

🎨 **多样化的编辑指令与场景覆盖**:数据集包含了35种不同类型的图像修改指令,涵盖像素调整、人物风格转换、天气改变、物体位置调整及画面缩放等八大类别。通过从OpenImages数据集中选取真实照片,Pico-Banana-400K确保了内容的多样性,覆盖人物、物体和含文字场景。

📈 **推动下一代图像编辑模型发展**:尽管承认当前模型在精细空间控制和文字处理方面存在局限,苹果团队强调Pico-Banana-400K旨在为下一代文本引导图像编辑模型提供一个坚实、可复现的训练与评测基础,促进更鲁棒、更智能的图像编辑技术的进步。

🔓 **开放研究与非商业用途**:Pico-Banana-400K数据集以非商业性研究许可的形式发布,允许研究人员和学术机构自由使用。相关研究论文已在arXiv发布,数据集也已在GitHub上公开,体现了苹果对开放研究的贡献。

IT之家 10 月 29 日消息,苹果公司发布了 Pico-Banana-400K,这是一个包含 40 万张图像的研究数据集,有趣的是,该数据集是利用谷歌的 Gemini-2.5 模型构建的

据IT之家了解,苹果的这个研究成果名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》(Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing),该公司还发布了由此生成的包含 40 万张图像的完整数据集。该数据集采用非商业性研究许可(non-commercial research license)发布,意味着研究人员和学术机构可自由使用,但不得用于商业用途。

数月前,谷歌推出了 Gemini 2.5-Flash-Image 模型,也被称为 Nanon-Banana,该模型在图像编辑任务中表现出色,被广泛认为是当前最先进的图像编辑模型之一。尽管近年来多个模型在图像生成与编辑方面取得显著进展,苹果的研究团队指出:“尽管技术不断进步,开放研究仍受限于缺乏大规模、高质量且可完全共享的图像编辑数据集。现有数据集往往依赖专有模型生成的合成数据,或仅包含有限的人工筛选子集。此外,这些数据集普遍存在领域偏移(domain shifts)、编辑类型分布不均以及质量控制不一致等问题,严重阻碍了鲁棒图像编辑模型的发展。”

为解决这一瓶颈,苹果团队着手构建一个更全面、更具代表性的图像编辑数据集。

Pico-Banana-400K 的构建过程

研究团队首先从 OpenImages 数据集中选取了大量真实照片,确保涵盖人物、物体及含文字场景等多样化内容。

然后,团队设计了 35 种不同类型的图像修改指令,并将其归入八大类别,包括:

接下来,研究人员会将一张原始图像连同一条编辑指令输入至 Nanon-Banana 模型进行图像编辑。生成结果随后交由 Gemini 2.5-Pro 模型进行自动评估,判断其是否准确遵循指令并具备良好视觉质量。只有通过双重验证的结果才会被纳入最终数据集。

Pico-Banana-400K 不仅包含单轮编辑(single-turn edits,即一次提示完成编辑)的样本,还涵盖了多轮连续编辑序列(multi-turn edit sequences),以及“偏好对”(preference pairs)—— 即成功与失败编辑结果的对比样本,帮助模型学习区分理想与不良输出。

尽管研究团队承认 Nanon-Banana 在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K 的目标是为下一代文本引导图像编辑模型提供一个坚实、可复现的训练与评测基础。

目前,相关研究论文已发布于预印本平台 arXiv,而完整的 Pico-Banana-400K 数据集也已在 GitHub 上向全球研究者免费开放

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Pico-Banana-400K 数据集 图像编辑 Gemini-2.5 苹果 AI研究 Dataset Image Editing Gemini-2.5 Apple AI Research
相关文章