我爱计算机视觉 10月09日
双扩散模型攻克“鬼探头”轨迹预测难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一项关于行人轨迹预测的研究,特别关注了在观测数据极少时的“鬼探头”场景。研究者提出了名为 Diffusion² 的新框架,该框架巧妙地利用两个串联的扩散模型,先回溯生成缺失的历史轨迹,再结合观测数据预测未来轨迹。该方法还引入了不确定性感知和自适应噪声机制,以处理生成历史轨迹的不确定性,从而提高预测精度。在多个主流数据集上的实验结果表明,Diffusion² 达到了目前最优的性能(SOTA),有效解决了瞬时轨迹预测的难题。

💡 **双重扩散模型框架:** Diffusion² 核心在于使用两个串联的扩散模型。第一个模型负责“回溯历史”,根据短暂观测到的轨迹生成未被观测到的合理历史轨迹;第二个模型则在此基础上,结合观测到的真实轨迹,预测未来的运动路径。这种分阶段处理的方式,使得模型能够更有效地处理信息缺失的问题。

🧠 **不确定性感知与自适应噪声:** 为解决生成历史轨迹的不确定性问题,Diffusion² 采用了双头参数化机制,一个头预测位置,另一个头预测该位置的偶然不确定性(方差)。这个不确定性信息随后被用于时序自适应噪声调整,即在预测未来时,模型会根据历史轨迹中各点的可信度动态调整噪声尺度,减少误差累积。

🚀 **显著的性能提升:** 该研究在 ETH/UCY 和 Stanford Drone 等主流行人轨迹预测数据集上进行了验证。定量分析显示,Diffusion² 在瞬时轨迹预测任务上,显著优于现有方法,在平均位移误差(ADE)和最终位移误差(FDE)两项指标上均达到了新的SOTA水平,证明了其在实际应用中的有效性。

⚠️ **应对极端场景:** Diffusion² 的主要贡献在于它能有效处理自动驾驶和人机交互中至关重要的“鬼探头”等极端场景。在观测数据极少的情况下,通过“脑补”历史并精确评估“脑补”的可靠性,模型能够做出更准确的未来预测,从而提升交通安全和人机交互的鲁棒性。

CV君 2025-10-09 14:47 江苏

双扩散模型回溯历史、预测未来,一举攻克“鬼探头”式轨迹预测难题。

朋友们,今天我们来聊一篇非常有意思的论文,来自威斯康星大学麦迪逊分校、华盛顿大学和同济大学的研究者们,题为《Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction》。

这篇工作主要解决了一个在自动驾驶和人机交互领域里非常棘手,也至关重要的问题:当观测数据极少时,如何准确预测行人的轨迹? 想象一下,一个行人突然从公交车后面走出来,自动驾驶系统只有一瞬间的观测数据,这种“鬼探头”情景下的预测,直接关系到交通安全。

作者们提出的新框架 Diffusion²,巧妙地利用了两个串联的扩散模型,不仅回溯生成了缺失的历史轨迹,还对其中的不确定性进行了建模,最终在几个主流数据集上实现了目前最好的性能(SOTA)。这个名字也很有意思,Diffusion² 就代表了其核心——双重扩散模型。

论文标题: Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction

作者: Yuhao Luo, Yuang Zhang, Kehua Chen, Xinyu Zheng, Shucheng Zhang, Sikai Chen, Yinhai Wang

机构: 威斯康星大学麦迪逊分校、华盛顿大学、同济大学

论文地址: https://arxiv.org/abs/2510.04365

研究背景

在真实的交通环境中,我们很难保证总能获得长时间、高质量的观测数据。尤其是在行人被遮挡后突然出现的情况下,可用的轨迹信息可能只有短短几帧。传统的轨迹预测方法在这种“瞬时轨迹”(momentary trajectory)场景下,性能会大打折扣。

论文中对比了解决该问题的几种思路:

(a)直接利用有限的观测进行预测,效果不佳。(b)联合预测历史和未来,但可能会相互干扰。(c)本文提出的Diffusion²,采用串联方式,先“回溯过去”,再“预测未来”,思路更加清晰。

Diffusion²:双扩散模型如何“追根溯源”?

CV君认为,这篇论文最大的亮点在于它如何“创造性”地处理信息不足的问题。既然眼前的线索不够,那就先“脑补”一下缺失的历史,并且清醒地认识到“脑补”的内容有多大把握。

整个框架如下图所示,主要由两个核心部分组成:

1. 历史轨迹生成 (Backward Prediction)

第一个扩散模型  负责“回溯历史”。它接收短暂观测到的轨迹 ,然后生成一段未被观测到的、合理的历史轨迹 。这就像侦探根据现场的蛛丝马迹,推断出受害者之前的行动路线。

2. 未来轨迹预测 (Forward Prediction)

第二个扩散模型  则负责“预测未来”。它的输入不仅包括真实观测到的几帧,还包括上一步生成的历史轨迹。结合了更完整的“过去”,模型对“未来”的预测自然更有底气。

3. 不确定性感知与自适应噪声

这里就是精髓所在了。模型非常“诚实”,它知道自己生成的那段历史轨迹()不一定完全准确,是存在不确定性的。如果盲目信任这些“脑补”的信息,反而可能带偏最终的预测。

Diffusion²用了两个很妙的设计来解决这个问题:

双头参数化机制 (Dual-head Parameterization) 在生成历史轨迹时,不止一个输出头。一个头负责预测轨迹点的位置,另一个头则负责预测这些位置的“偶然不确定性”(aleatoric uncertainty),也就是一个方差。这相当于模型在说:“我猜他之前在这里,但我对这个点的把握只有七成。”

时序自适应噪声 (Temporally Adaptive Noise): 这个不确定性信息会被传递给第二个模型  。 会根据历史轨迹中每个点的不确定性程度,动态地调整前向扩散过程中的噪声尺度。简单来说,如果某段生成历史的“可信度”低,模型在预测未来时就会减少对它的依赖,从而避免了误差的累积和放大。

整个去噪过程,就像从一团迷雾中逐渐勾勒出清晰的路径,充满了“生成之美”。

实验效果:不光思路新,效果还好

理论说得好,还得看疗效。论文在两个主流的行人轨迹预测数据集 ETH/UCY 和 Stanford Drone 上进行了验证。

定量分析

结果显示,Diffusion² 在瞬时轨迹预测任务上,将平均位移误差(ADE)和最终位移误差(FDE)都刷到了新的SOTA水平,显著优于之前的方法。

同时,其推理延迟也处于一个可接受的范围,证明了方法的实用性。

定性分析

从可视化的结果来看,Diffusion² 生成的轨迹(蓝色和橙色虚线)也比之前的方法(品红色虚线)更贴近真实的轨迹(浅蓝色实线)。

下面这张图展示了更多在不同场景下的预测结果,可以看到模型能够生成多样且合理的未来轨迹。

当然,没有完美的模型。作者也很坦诚地展示了一些失败案例,比如在行人轨迹发生剧烈、非典型转弯时,模型的预测就会出现偏差。

消融实验

为了验证每个模块的有效性,作者还进行了消融研究。结果表明,无论是“回溯历史”这一步,还是“不确定性估计”和“自适应噪声”模块,都对最终的性能有关键贡献。

总的来说,Diffusion² 通过一个巧妙的双阶段扩散框架,并显式地对生成信息的不确定性进行建模和利用,为解决极端场景下的轨迹预测问题提供了一个非常漂亮、有效的思路。

大家对这种“预测过去”来辅助“预测未来”的思路怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

轨迹预测 扩散模型 自动驾驶 计算机视觉 人机交互 Trajectory Prediction Diffusion Models Autonomous Driving Computer Vision Human-Robot Interaction
相关文章