原创 歸藏的 AI 工具箱 2025-07-31 23:50 北京
我去! Black Forest Labs 和 Krea 一起开源了一个新的图像模型 FLUX.1-Krea [dev]
专注于打造具有独特美感的图像。没有“AI 效果”,没有过曝的高光,只有自然的细节。
而且这个模型完全可以兼容之前的 FLUX 开源模型生态系统,这个太重要了。
而且他们发布了一个技术报告,详细介绍了模型的实现思路和训练过程,也介绍了一下 AI 感出现的原因,这部分更重要,我总结和分析一下。
先看案例
解析“AI 风格”
大家最近对 AI 脸和 AI 质感诟病都很多,在使用 AI 生成图像时,一个明显的趋势是它们独特的外观:过于模糊的背景、蜡质的皮肤质感、乏味的构图等等。这些问题共同构成了现在所谓的“AI 风格”。
人们常常关注模型有多“聪明”。我们经常看到用户测试复杂的提示词。它能让马骑上宇航员吗?它能把酒杯倒满吗?它能正确渲染文字吗?
多年来,我们设计了各种基准来将这些问题形式化为具体的指标。研究界在推动生成模型方面取得了显著成就。
然而,在追求技术能力和基准优化的过程中,早期图像模型中那种杂乱的真实感、风格多样性和创造性融合却被忽视了。
这个模型训练开始的目标很简单:“制作看起来不像 AI 的 AI 图像。”希望创建一个能解决这些问题的模型。不幸的是,许多学术基准和指标与用户实际需求不符。
在预训练阶段,诸如 Fréchet inception distance(FID)和 CLIP Score 等指标对于衡量模型的整体性能非常有用,因为该阶段的大多数图像都是不连贯的。超出预训练阶段后,DPG、GenEval、T2I-Compbench 和 GenAI-Bench 等评测基准被广泛用于评估学术界和工业界的模型。
但这些基准主要限于测量提示词的遵从性,重点关注空间关系、属性绑定、对象数量等。
在美学评估方面,常用的模型有 LAION-Aesthetics、Pickscore、ImageReward、HPSv2 等,但这些模型中的许多都是 CLIP 的微调版本,而 CLIP 处理的是分辨率较低(224×224 像素)、参数量有限的图像。
比如,LAION 美学模型——一种常用于获取高质量训练图像的模型——在描绘女性、模糊背景、过于柔和的纹理和明亮图像方面存在高度偏见。虽然这些模型对于提高美学质量分数很有用,但依赖这些模型来获取高质量训练图像会给模型的先验带来隐含偏见。
尽管基于视觉语言模型的更好美学评分器正在出现,但问题依然存在:人类的偏好和审美高度个人化,无法轻易简化为单一数值。提升模型能力而不退化为“AI 风格”需要对数据进行精心策划,并对模型输出进行彻底校准。
模式崩溃的艺术
训练图像生成模型大致可以分为两个阶段跟 LLM 类似:预训练和后训练。模型的大部分美学特征是在后训练阶段学习的,但在解释我们的后训练方法之前,先了解一下我们对这些训练阶段的直观理解。
预训练
预训练阶段的重点应放在“模式覆盖”和“世界理解”上。在此阶段,为模型提供丰富的视觉世界知识:风格、物体、地点、人物。这里的目标是最大化多样性。
他们甚至认为,预训练模型应该在“劣质”数据上进行训练,只要数据中不良的方面能够被准确地反映在其条件输入中。实际上,除了告诉模型我们想要什么之外,通常还希望告诉它不想要什么。
许多图像生成工作流程使用负面提示词,如“手指太多、面部变形、模糊、过度饱和”,以提升图像质量。为了让负面提示词引导模型远离数据分布中不良的部分,模型必须首先学会这些不良部分的样子。如果模型从未见过“劣质图像”的例子,负面提示就不会有效。
然后期训练对模型最终质量的影响最大,但重要的是要记住,模型的质量上限和风格多样性来自预训练模型。
后训练
在后训练阶段,重点应放在转移和逐步削减分布中不理想的部分。预训练模型可以输出多样化的图像,并理解广泛的概念,但由于它对生成美学输出的偏向不足,难以可靠地输出高质量图像。
这时模式崩溃(mode collapsing)就派上用场了:开始将模型偏向认为理想的分布部分。
从原始基础开始
要开始后训练,需要一个“原始”模型。他们希望有一个可塑性强的基础模型,具有多样化的输出分布,便于将其重新塑造为更具主观审美倾向的模型。
不幸的是,许多现有的开源权重模型已经经过大量微调和后训练。换句话说,它们已经“烘焙”得太过,无法用作基础模型。
为了能够完全专注于美学,Krea 与世界一流的基础模型实验室 Black Forest Labs 合作,他们为提供了 flux-dev-raw,这是一款预训练且经过指导蒸馏的 12 亿参数扩散变换器模型。
作为一个预训练的基础模型,flux-dev-raw 的图像质量远不及最先进的基础模型。然而,它作为后续训练的基础有三个重要原因:
1. flux-dev-raw 包含大量的世界知识——它已经了解常见的物体、动物、人、摄影角度、媒介等。
2. flux-dev-raw 虽然是一个原始模型,但已经提供了令人信服的质量:它可以生成连贯的结构、基本的构图,并能渲染文本。
3. flux-dev-raw 不是“烘焙”过的——它是一个未受污染的模型,没有“AI 美学”。它能够生成非常多样化的图像,范围从原始到美丽。
后训练流程
后训练流程分为两个阶段。一个是监督微调(SFT)阶段,另一个是基于人类反馈的强化学习(RLHF)阶段。
在监督微调阶段,手工挑选了一批符合我们审美标准的高质量图像数据集。为了训练 FLUX.1 Krea [dev],还在 SFT 阶段加入了来自 Krea-1 的高质量合成样本。合成图像有助于稳定模型检查点的性能。
由于 flux-dev-raw 是一个指导蒸馏模型,他们设计了一个自定义损失函数,直接在无分类器引导(CFG)分布上微调模型。经过 SFT 阶段后,模型的图像质量输出显著提升。然而,还需要进一步工作使模型更加稳健,并达到期望的美学效果。这就是 RLHF 发挥作用的地方。
在 RLHF 过程中,应用了一种称为 TPO 的偏好优化技术变体,以进一步提升模型的美学和风格化效果。
使用经过严格筛选以确保数据质量的高质量内部偏好数据。在许多情况下,进行了多轮偏好优化,以进一步校准模型的输出。
在探索各种后训练技术的过程中,Krea 发现了一些关键的发现,想与大家分享。
质量重于数量:
进行良好的后训练所需的数据量出乎意料地少(< 1M)。数据量有助于稳定性和减轻偏差,但数据质量才是最重要的。这一观察结果与之前文献中报告的在小规模精心策划数据集上训练的有效性一致。
偏好标签是由对当前模型的局限性、改进空间、优势和弱点有深刻了解的标注员精心收集的。特别是,我们确保偏好标注界面中的图像包含多样化的集合,以获得有针对性的标注。
采取有明确观点的方法:
有许多开源的偏好数据集被用来作为偏好微调技术的基准。在探索阶段,这些数据集对于测试各种技术非常有用。然而,我们发现使用现有数据集进行训练会导致一些意想不到的行为。
他们认为经过“全球”用户偏好微调的模型是次优的。对于文本渲染、解剖结构、结构和提示遵循等具有客观真实标准的目标,数据的多样性和规模是有帮助的。然而,对于审美等主观目标,将不同的审美偏好混合在一起几乎是对抗性的。
基于这一直觉,他们决定以一种非常有主见的方式收集偏好数据,这种方式与审美品味和明确的艺术方向相一致。通常,将模型过拟合到某种特定风格上会更好也更容易。
模型下载:https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
