我爱计算机视觉 17小时前
DreamOmni2:理解多模态指令的AI绘画新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港科技大学等机构联合推出的DreamOmni2,是新一代AI图像编辑与生成模型。它解决了现有模型理解抽象风格和复杂指令的难题,能精准处理多模态指令(文字+图片),实现从P掉路人到改变整体风格的多种创意需求。DreamOmni2通过创新的三步数据合成法构建了DreamOmni2-Data数据集,并采用索引编码和位置编码平移技术处理多图指令。结合视觉语言模型(VLM)进行联合训练,显著提升了模型对复杂意图的理解能力。在全新基准测试中,DreamOmni2在多模态指令编辑和生成任务上均超越现有模型,展现出强大的实力。

💡 **多模态指令理解能力**:DreamOmni2的核心优势在于能够理解和执行复杂的、包含文本和图像的多模态指令。它能处理不仅仅是简单的物体编辑,更能理解并实现诸如“让图片更有戏剧性”或“模仿梵高风格”等抽象的风格化要求,弥合了当前AI在领会“氛围感”和抽象风格方面的不足。

🚀 **创新的数据生成与模型框架**:为解决高质量训练数据不足的问题,DreamOmni2提出了一套三步数据合成流程,包括概念提取、编辑数据生成和生成数据生成,构建了覆盖广泛任务的DreamOmni2-Data数据集。模型框架上,通过索引编码和位置编码平移技术有效处理多图指令,并创新地将视觉语言模型(VLM)与生成/编辑模型联合训练,增强了模型对复杂指令的深度理解。

🏆 **卓越的实验表现**:在研究者们构建的全新DreamOmni2 benchmark评测基准上,DreamOmni2在多模态指令编辑任务上,无论是与开源模型还是闭源商业模型(如GPT-4o)相比,都展现出更精准的编辑效果和更高的一致性。在多模态指令生成任务上也表现出色,生成质量显著优于现有开源模型,达到与顶级商业模型相媲美的水平。

CV君 2025-10-24 12:15 江苏

一个能听懂人话、看懂参考的AI绘画大师。

和大家聊一篇非常有趣的新工作,来自香港科技大学、香港中文大学和字节跳动的研究者们联手打造的 DreamOmni2

我们知道,现在的AI修图和绘画已经很强大了,但它们似乎总是“差点意思”。要么是只能听懂简单的指令,没法领会我们想要的那种“氛围感”;要么就是只能处理一些具体的物体,对于“风格”这种抽象的东西就无能为力。比如,我想让一张照片变得“更有戏剧性”,或者“像梵高的风格”,大部分模型可能就懵了。

DreamOmni2的出现,就是为了解决这个“只可意会,不可言传”的难题。它不仅仅是一个简单的图像编辑或生成工具,更是一个能理解多模态指令(也就是文字+图片)的“创意大师”,无论你是想P掉一个路人甲,还是想让整张图充满“赛博朋克”的风格,它都能精准拿捏。

论文标题: DreamOmni2: Multimodal Instruction-based Editing and Generation

作者: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang,Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang,Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia

机构: 香港中文大学、香港科技大学 、香港大学、字节跳动

论文地址: https://arxiv.org/pdf/2510.06679v1

代码仓库: https://github.com/dvlab-research/DreamOmni2?tab=readme-ov-file

DreamOmni2的技术魔法

那么,DreamOmni2是如何做到如此“善解人意”的呢?CV君带大家拆解一下它的核心技术。关键在于它巧妙地解决了两大挑战:高质量训练数据的创建和强大的模型框架设计。

创造“懂你”的数据:三步合成法

高质量的数据是训练出好模型的关键。研究者们设计了一套创新的三步数据合成流程,专门用来生产能够教会模型理解复杂指令的数据。

概念提取: 首先,模型通过一种“特征混合”的方法,学会从图片中提取各种概念,无论是具体的物体(比如一只猫),还是抽象的风格(比如“复古感”)。

生成编辑数据: 接着,利用上一步提取出的概念和相应的编辑模型,自动生成大量的“指令-编辑”数据对。这就像是给模型请了无数个陪练,让它不断学习如何根据指令修改图片。

生成生成数据: 最后,再次利用概念提取模型,创造用于多模态指令“生成”任务的训练数据。

通过这个流程,他们构建了一个名为 DreamOmni2-Data 的庞大数据集,覆盖了从具体物体到抽象风格的各种编辑和生成任务,为模型提供了全面且多样的学习材料。

解读多图指令:独特的编码与联合训练

当我们的指令包含多张参考图时(比如“让这张图的风格像A图,内容像B图”),模型怎么才能分清哪张是哪张,又该听谁的呢?

DreamOmni2提出了一种 索引编码(index encoding)和位置编码平移(position encoding shift) 的方案。简单来说,就是给每张输入的图片打上一个独特的“标签”,这样模型在处理时就不会把像素搞混,能清晰地辨别不同的图像输入。

此外,他们还创新地将 视觉语言模型(VLM) 与生成/编辑模型进行 联合训练。VLM就像一个“大脑”,负责深度理解我们给出的复杂指令,然后再指导“画手”(生成/编辑模型)进行创作,从而极大地提升了模型对复杂意图的理解能力。

实验效果:不只超越,更是碾压

为了验证DreamOmni2的实力,研究者们还构建了一个全新的、更全面的评测基准 DreamOmni2 benchmark

在多模态指令编辑任务上,无论是和开源模型比,还是和像GPT-4o这样的闭源商业模型比,DreamOmni2都展现出了更精准的编辑效果和更好的一致性。

从下面的量化数据能更直观地看到,无论是在具体物体还是抽象属性的编辑上,DreamOmni2的成功率都遥遥领先,甚至在人类评估中也获得了最高分。

在多模态指令生成任务上,DreamOmni2同样表现出色,生成结果的质量显著优于现有的开源模型,达到了与顶级商业模型相媲美的水平。

研究者们还通过一系列消融实验,证明了他们提出的多图像编码方案和VLM联合训练策略的有效性。

总结

总的来说,DreamOmni2通过其创新的数据生成策略和模型设计,极大地拓宽了AI在图像创作领域的想象力边界。它让AI不再是一个只能执行简单命令的工具人,而更像一个能理解、会思考的创意伙伴。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DreamOmni2 AI绘画 多模态指令 图像编辑 图像生成 香港科技大学 字节跳动 VLM AI艺术
相关文章