CV君 2025-10-24 12:15 江苏
一个能听懂人话、看懂参考的AI绘画大师。
和大家聊一篇非常有趣的新工作,来自香港科技大学、香港中文大学和字节跳动的研究者们联手打造的 DreamOmni2。
我们知道,现在的AI修图和绘画已经很强大了,但它们似乎总是“差点意思”。要么是只能听懂简单的指令,没法领会我们想要的那种“氛围感”;要么就是只能处理一些具体的物体,对于“风格”这种抽象的东西就无能为力。比如,我想让一张照片变得“更有戏剧性”,或者“像梵高的风格”,大部分模型可能就懵了。
DreamOmni2的出现,就是为了解决这个“只可意会,不可言传”的难题。它不仅仅是一个简单的图像编辑或生成工具,更是一个能理解多模态指令(也就是文字+图片)的“创意大师”,无论你是想P掉一个路人甲,还是想让整张图充满“赛博朋克”的风格,它都能精准拿捏。
那么,DreamOmni2是如何做到如此“善解人意”的呢?CV君带大家拆解一下它的核心技术。关键在于它巧妙地解决了两大挑战:高质量训练数据的创建和强大的模型框架设计。
创造“懂你”的数据:三步合成法高质量的数据是训练出好模型的关键。研究者们设计了一套创新的三步数据合成流程,专门用来生产能够教会模型理解复杂指令的数据。
概念提取: 首先,模型通过一种“特征混合”的方法,学会从图片中提取各种概念,无论是具体的物体(比如一只猫),还是抽象的风格(比如“复古感”)。生成编辑数据: 接着,利用上一步提取出的概念和相应的编辑模型,自动生成大量的“指令-编辑”数据对。这就像是给模型请了无数个陪练,让它不断学习如何根据指令修改图片。生成生成数据: 最后,再次利用概念提取模型,创造用于多模态指令“生成”任务的训练数据。通过这个流程,他们构建了一个名为 DreamOmni2-Data 的庞大数据集,覆盖了从具体物体到抽象风格的各种编辑和生成任务,为模型提供了全面且多样的学习材料。
当我们的指令包含多张参考图时(比如“让这张图的风格像A图,内容像B图”),模型怎么才能分清哪张是哪张,又该听谁的呢?
DreamOmni2提出了一种 索引编码(index encoding)和位置编码平移(position encoding shift) 的方案。简单来说,就是给每张输入的图片打上一个独特的“标签”,这样模型在处理时就不会把像素搞混,能清晰地辨别不同的图像输入。
此外,他们还创新地将 视觉语言模型(VLM) 与生成/编辑模型进行 联合训练。VLM就像一个“大脑”,负责深度理解我们给出的复杂指令,然后再指导“画手”(生成/编辑模型)进行创作,从而极大地提升了模型对复杂意图的理解能力。
实验效果:不只超越,更是碾压为了验证DreamOmni2的实力,研究者们还构建了一个全新的、更全面的评测基准 DreamOmni2 benchmark。
在多模态指令编辑任务上,无论是和开源模型比,还是和像GPT-4o这样的闭源商业模型比,DreamOmni2都展现出了更精准的编辑效果和更好的一致性。
从下面的量化数据能更直观地看到,无论是在具体物体还是抽象属性的编辑上,DreamOmni2的成功率都遥遥领先,甚至在人类评估中也获得了最高分。
在多模态指令生成任务上,DreamOmni2同样表现出色,生成结果的质量显著优于现有的开源模型,达到了与顶级商业模型相媲美的水平。
研究者们还通过一系列消融实验,证明了他们提出的多图像编码方案和VLM联合训练策略的有效性。
总结
总的来说,DreamOmni2通过其创新的数据生成策略和模型设计,极大地拓宽了AI在图像创作领域的想象力边界。它让AI不再是一个只能执行简单命令的工具人,而更像一个能理解、会思考的创意伙伴。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!
