机器之心 09月30日
FSDrive:推动自动驾驶从符号推理迈向视觉推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了FSDrive项目,该项目提出了一种名为“时空视觉CoT”的新方法,旨在解决当前自动驾驶多模态大模型在推理过程中易出现的空间时间关系模糊和信息丢失问题。FSDrive让模型直接“以图思考”,通过生成统一的未来图像帧作为中间推理步骤,联合未来场景和感知结果进行可视化推理。该方法在不改动原有MLLM架构的前提下,通过扩展词表和自回归视觉生成激活图像能力,并注入物理先验,使模型兼具“世界模型”预测未来和“逆动力学模型”规划轨迹的能力。实验结果表明,FSDrive在轨迹规划、未来帧生成和场景理解方面均表现出强竞争力,并显著降低了碰撞风险,推动了自动驾驶走向更直观的视觉推理。

💡 **时空视觉CoT革新推理范式**:FSDrive提出“时空视觉CoT”,让自动驾驶模型直接“以图思考”,通过生成统一的未来图像帧作为中间推理步骤,将文字符号中介转变为视觉推演,有效解决了传统方法在处理时空关系和细粒度信息时的模糊性与信息丢失问题,使得推理过程更加直观且符合物理世界的模拟与想象。这标志着自动驾驶从依赖离散文本符号推理向更自然的视觉推理迈进。

🚀 **激活图像生成能力,注入物理先验**:该方法在不改动现有MLLM架构的前提下,通过扩展词表引入视觉Token并采用自回归生成方式,即可激活模型的图像生成能力。同时,通过“由易到难”的渐进式视觉CoT,先生成包含车道线和3D检测框等物理约束的粗粒度感知图,再补全细节生成完整未来帧,显式注入物理合理性,提升了未来预测的真实性和一致性。

🧠 **模型双重角色与高效预训练**:FSDrive中的模型扮演着“世界模型”和“逆动力学模型”的双重角色。它首先预测未来场景,然后基于当前观测和未来预测进行轨迹规划。这种统一的预训练范式在保持原有MLLM理解能力的同时,通过数据高效的方式激活了生成能力,所需数据量远低于其他同类方法,且无需从零开始训练,展现出强大的迁移性和效率。

📈 **实验验证与SOTA表现**:在端到端轨迹规划任务中,FSDrive在不使用自车状态时,相比其他先进方法取得了更低的L2误差和碰撞率。在未来帧生成质量方面,其FID分数优于多数扩散式世界模型,兼顾了实时性和质量。在场景理解任务中,FSDrive也达到了领先水平,证明了其“理解+生成”统一预训练的有效性,并显著降低了碰撞风险。

2025-09-30 16:42 北京

推动自动驾驶从「符号推理」走向「视觉推理」

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。该方法在不改动原有 MLLM 架构的前提下,通过 “词表扩展 + 自回归视觉生成” 激活图像生成能力,并以 “由易到难” 的渐进式视觉 CoT 注入物理先验。模型既充当 “世界模型” 预测未来,又作为 “逆动力学模型” 进行轨迹规划。

多模态大语言模型(MLLM)凭借世界知识与可解释推理能力,正加速进入端到端 “视觉 - 语言 - 动作”(VLA)自动驾驶范式。但现有做法多依赖离散文本 CoT(如规则描述、坐标),本质上是对视觉信息的高度符号压缩,存在跨模态语义鸿沟与时空关系表征不足的问题。

核心问题:面向与物理世界深度交互的自动驾驶,思考过程更应接近 “模拟与想象” 的视觉推演,而非纯符号逻辑?

FSDrive 提出 “时空视觉 CoT”,将未来场景与感知结果(车道线、3D 检测框)统一生成到一张未来图像帧中,作为中间推理步骤。一方面用普通未来帧承载时序演化,另一方面用 “红色车道线与 3D 框” 提供可驾驶区域与关键动态物体的空间先验,从而在视觉域内完成因果推断与决策规划。

本文关键创新:

1) 统一的 “视觉中介” 替代文字 / 表格中介,消除跨模态语义鸿沟;

2) 以极小代价在现成 MLLM 上 “激活” 图像生成能力:仅通过扩展词表引入 VQ 类视觉 token,无需改架构大改或海量训练;

3) 渐进式视觉 CoT:先生成 “物理约束” 的粗粒度感知图(车道线 / 3D 框),再生成细节丰富的未来帧,显式注入物理合理性。

价值:保持端到端简洁链路与可解释可视化推理,同时可大规模利用无标注视频数据学习世界演化规律。

方法

FSDrive 整体框架:

统一预训练范式:理解 + 生成

渐进式视觉 CoT(物理先验→细节补全)

时空视觉 CoT 用于规划

训练策略

实验

端到端轨迹规划

相比同时具备视觉生成的 Doe-1(Lumina-mGPT-7B),FSDrive 在不使用自车状态时取得更低 L2 与更低碰撞:

与 LLaVA-7B 系列下的近期方法(如 OminiDrive、RDA-Driver)相比,FSDrive 在相同设置下展现出强竞争力,说明框架可广泛迁移到主流 MLLM。

未来帧生成质量(FID)

在 128×192 分辨率下,FSDrive(自回归)FID=10.1,优于多数扩散式世界模型(如 GEM 10.5)并显著优于 Doe-1(15.9),兼顾实时性与质量。

场景理解(DriveLM GVQA)

Final Score 0.57,超过 OminiDrive(0.56)、Cube-LLM 等;多项语言生成指标与多选准确率(0.72)均表现稳健,表明 “理解 + 生成” 统一预训练的有效性。

定性分析

在错误导航指令下,FSDrive 可通过 “观察 + 未来预测” 的视觉推理纠偏路径,降低潜在碰撞;体现其 “逆动力学” 能力与可解释性。

总结

本文提出 FSDrive:以 “统一的时空视觉 CoT” 作为中间推理,打通未来场景预测与感知结果的视觉表达,让 VLA 在视觉域内完成因果推理与轨迹规划。

方法无需改动原 MLLM 结构,通过扩展词表与自回归训练即可激活图像生成;配合 “由易到难” 的渐进式视觉 CoT,显式注入物理约束,提升未来预测的真实性与一致性。

在规划、生成与理解三大任务的系统验证显示:FSDrive 以更低的数据 / 算力成本实现强竞争力甚至 SOTA 的开放回路表现,并显著降低碰撞风险,推动自动驾驶从 “符号推理” 走向 “视觉推理”。

局限与展望:当前为实时性考虑主要生成前视未来帧,未来可扩展至环视统一预测;同时,随模型落地需重视安全、隐私与监管等伦理合规问题,确保技术向善与可靠部署。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FSDrive 自动驾驶 多模态大模型 视觉推理 时空视觉CoT Autonomous Driving Multimodal Large Models Visual Reasoning Spatio-Temporal CoT
相关文章