Puffin模型：AI赋能相机理解与生成新范式

CV君 2025-10-21 12:13 江苏

把冰冷的、数字化的相机参数翻译成摄影师口中的“行话”

最近，AI在空间感知和内容生成方面的能力又有了新突破。来自新加坡南洋理工大学、商汤科技、密西根大学和马普所的研究者们联手，带来了一个名为 Puffin 的统一多模态模型。它巧妙地将两个看似独立的任务——从图像中理解相机参数（比如拍摄角度、焦距）和根据相机参数生成图像——融合在了一起。这让AI不仅能“看懂”一张照片是怎么拍的，还能化身“摄影师”，从任意指定的视角“拍”出新照片。

这篇论文的核心亮点在于提出了一种“用相机思考（Thinking with Camera）”的新范式。简单来说，就是把原本冰冷的、数字化的相机参数（比如旋转角度、视野大小）翻译成摄影师口中的“行话”（比如“荷兰角倾斜”、“广角镜头”、“低角度拍摄”）。这样一来，大型语言模型就能更好地理解和推理这些空间信息，像一个经验丰富的摄影师一样思考，从而在理解和生成任务上都表现得更出色。

论文标题: Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

作者: Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy

机构: 新加坡南洋理工大学，商汤科技，密西根大学、Max-Planck Institute for Informatics

论文地址: https://arxiv.org/abs/2510.08673

项目主页: https://kangliao929.github.io/projects/puffin/

代码仓库: https://github.com/kangliao929/puffin

背景：从“各自为战”到“统一战场”

在过去，AI处理与相机相关的问题时，通常是“兵分两路”。

一条路是 相机为中心的理解（Camera-Centric Understanding），比如计算机视觉里的相机姿态估计，它的任务是从一张给定的图片中，反推出拍摄这张照片时相机的位置、朝向、焦距等参数。这对于三维重建、AR/VR等应用至关重要。

另一条路是 相机为中心的生成（Camera-Centric Generation），比如计算机图形学和AIGC里的可控图像生成。我们给模型指定一个虚拟的相机位姿，让它生成该视角下的图像。这在电影特效、游戏场景生成、虚拟试衣等领域大有可为。

虽然这两个任务都围绕“相机”展开，但它们就像一枚硬币的两面，长期以来被分开研究，各自发展。研究者们敏锐地意识到，如果能将两者统一起来，不仅能让模型的能力更全面，还能让理解和生成任务相互促进，实现“1+1>2”的效果。Puffin模型正是在这样的背景下应运而生。

方法：“像语言一样思考相机”

Puffin模型的核心思想是构建一个统一的框架，能够同时学习相机理解和生成任务。下面我们来看看它是如何实现的。

“用相机思考”范式

CV君认为，这篇论文最有趣和最具启发性的地方，就是这个“用相机思考”的范式。传统方法通常直接处理数值化的相机参数，或者学习它们的几何表示，但这些对于大型语言模型（LMM）来说并不“友好”。

Puffin另辟蹊径，它将相机参数与专业的摄影术语联系起来。例如，它不直接处理-45°到45°的相机侧倾角（Roll），而是将其映射为“荷兰角（Dutch Angle）”；不直接处理视野（FoV），而是将其映射为“标准”、“广角”、“长焦”等术语。通过这种方式，模型在进行相机参数预测时，实际上是在进行一种空间推理：它会分析图像中的视觉线索（比如地平线的倾斜、物体的透视关系），然后像人类一样思考“嗯，这张图看起来有点歪，应该是用了荷兰角拍摄”，最终在<think>标签中记录推理过程，并在<answer>标签中给出具体的参数预测。