CV君 2025-10-21 12:13 江苏
把冰冷的、数字化的相机参数翻译成摄影师口中的“行话”
最近,AI在空间感知和内容生成方面的能力又有了新突破。来自新加坡南洋理工大学、商汤科技、密西根大学和马普所的研究者们联手,带来了一个名为 Puffin 的统一多模态模型。它巧妙地将两个看似独立的任务——从图像中理解相机参数(比如拍摄角度、焦距)和根据相机参数生成图像——融合在了一起。这让AI不仅能“看懂”一张照片是怎么拍的,还能化身“摄影师”,从任意指定的视角“拍”出新照片。
这篇论文的核心亮点在于提出了一种“用相机思考(Thinking with Camera)”的新范式。简单来说,就是把原本冰冷的、数字化的相机参数(比如旋转角度、视野大小)翻译成摄影师口中的“行话”(比如“荷兰角倾斜”、“广角镜头”、“低角度拍摄”)。这样一来,大型语言模型就能更好地理解和推理这些空间信息,像一个经验丰富的摄影师一样思考,从而在理解和生成任务上都表现得更出色。
论文标题: Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
作者: Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy
机构: 新加坡南洋理工大学,商汤科技,密西根大学、Max-Planck Institute for Informatics
论文地址: https://arxiv.org/abs/2510.08673
背景:从“各自为战”到“统一战场”
在过去,AI处理与相机相关的问题时,通常是“兵分两路”。
一条路是 相机为中心的理解(Camera-Centric Understanding),比如计算机视觉里的相机姿态估计,它的任务是从一张给定的图片中,反推出拍摄这张照片时相机的位置、朝向、焦距等参数。这对于三维重建、AR/VR等应用至关重要。
另一条路是 相机为中心的生成(Camera-Centric Generation),比如计算机图形学和AIGC里的可控图像生成。我们给模型指定一个虚拟的相机位姿,让它生成该视角下的图像。这在电影特效、游戏场景生成、虚拟试衣等领域大有可为。
虽然这两个任务都围绕“相机”展开,但它们就像一枚硬币的两面,长期以来被分开研究,各自发展。研究者们敏锐地意识到,如果能将两者统一起来,不仅能让模型的能力更全面,还能让理解和生成任务相互促进,实现“1+1>2”的效果。Puffin模型正是在这样的背景下应运而生。
方法:“像语言一样思考相机”
Puffin模型的核心思想是构建一个统一的框架,能够同时学习相机理解和生成任务。下面我们来看看它是如何实现的。
“用相机思考”范式
CV君认为,这篇论文最有趣和最具启发性的地方,就是这个“用相机思考”的范式。传统方法通常直接处理数值化的相机参数,或者学习它们的几何表示,但这些对于大型语言模型(LMM)来说并不“友好”。
Puffin另辟蹊径,它将相机参数与专业的摄影术语联系起来。例如,它不直接处理-45°到45°的相机侧倾角(Roll),而是将其映射为“荷兰角(Dutch Angle)”;不直接处理视野(FoV),而是将其映射为“标准”、“广角”、“长焦”等术语。通过这种方式,模型在进行相机参数预测时,实际上是在进行一种空间推理:它会分析图像中的视觉线索(比如地平线的倾斜、物体的透视关系),然后像人类一样思考“嗯,这张图看起来有点歪,应该是用了荷兰角拍摄”,最终在<think>标签中记录推理过程,并在<answer>标签中给出具体的参数预测。
这种方法巧妙地将LMM强大的语言推理能力引入到几何问题中,让模型不仅知其然(预测出参数),更知其所以然(理解参数背后的视觉表现)。
Puffin-4M:大规模训练数据
为了训练Puffin这样强大的模型,一个大规模、高质量的数据集必不可少。为此,研究者们构建了 Puffin-4M 数据集,它包含了 400万个“视觉-语言-相机”三元组。这个数据集覆盖了各种场景和相机配置,为模型提供了丰富的学习素材。
数据集的构建流程也很有意思,它结合了现有的多个360°全景数据集,通过渲染生成带有精确相机参数的图像,并利用大型语言模型自动生成描述性文本和前文提到的“思考过程”文本。
与之前的数据集相比,Puffin-4M在规模、多样性以及是否包含空间推理文本方面,都有着显著优势。
统一的训练策略
Puffin在一个统一的框架中,混合了多种训练任务,包括相机参数理解、可控图像生成、图像描述等。通过精心设计的训练配方,模型在各项能力上都得到了充分的锻炼。
实验效果:全面超越专用模型
是骡子是马,拉出来遛遛。Puffin在相机理解和可控生成两个核心任务上,都表现出了卓越的性能,甚至超越了许多为单一任务专门设计的模型。
相机理解能力
在MegaDepth、TartanAir等多个公开基准数据集上,Puffin在预测相机内参(焦距)和外参(旋转、平移)方面,其误差都显著低于之前的方法。这证明了“用相机思考”范式的有效性。
可控生成能力
在相机可控的图像生成任务上,Puffin同样表现出色。给定文本描述和目标相机参数,它生成的图像不仅内容准确,而且相机视角也控制得非常精准。从下图的误差图(Error Map)可以看出,Puffin生成的图像在相机姿态上与目标真值的偏差(Median Error)远小于其他多模态模型。
定量结果也证实了这一点,无论是在相机参数的直接对比还是在图像相似度指标上,Puffin都取得了最佳或次佳的成绩。
下图直观地展示了Puffin生成的相机参数分布与真实值(Ground Truth)的分布高度吻合,而之前的方法则有较大偏差。
丰富的应用潜力
得益于其统一的设计和强大的指令遵循能力,Puffin还能解锁许多有趣的应用:
空间想象:给定一张图片,想象从不同视角(比如更高、更左)看会是什么样子。
世界探索:像玩FPS游戏一样,在场景中“走动”,从不同位置生成连续的视图,甚至可以用于三维重建。
摄影指导:分析一张照片,并给出如何改进构图和拍摄参数的建议。
3D对象植入:准确预测出真实照片的相机参数,从而可以将虚拟的3D模型无缝地植入到场景中。
总结
总而言之,Puffin模型通过“用相机思考”这一创新范式,成功地统一了相机为中心的理解与生成任务,为实现更全面的空间智能AI迈出了坚实的一步。作者已经开源了代码和数据集构建流程,这无疑将极大地推动相关领域的研究。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!
