index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
北京航空航天大学联合香港大学提出了一种名为STEVE的时空基向量表征模型,该模型首次将后门调整原理应用于连续和未知的混杂因子,以应对复杂城市场景下的交通预测挑战。通过构建基混杂库、利用自监督任务增强表示,并结合因果解耦机制,STEVE能够更准确、更鲁棒地进行交通预测,即使在分布移位等非常态场景下也能保持高精度。该研究已被KDD 2025接收,代码已开源,为智能交通系统提供了新的解决方案。
💡 **基混杂表征应对未知混杂因子**:研究提出了一种创新的基混杂库,通过可学习的基向量线性组合来统一表示连续、未知且可组合的混杂因子,避免了传统方法中对混杂因子进行离散化和穷举的局限性,使得模型能够更灵活地适应真实世界复杂多变的交通环境。
🚀 **自监督任务增强表示能力**:通过面向混杂的自监督学习(COSSL),模型在无显式混杂标签的情况下,利用空间位置分类、时间索引识别和交通负载预测等辅助任务,驱动模型自动编码混杂信息,从而提升了混杂表示在空间、时间及语义维度上的判别力,使其更能捕捉环境特征。
🔗 **因果解耦实现鲁棒预测**:STEVE采用了对抗解耦和互信息最小化机制,将交通预测模型解耦为“混杂相关”和“混杂无关”两个分支。前者显式刻画环境对交通的影响,后者则聚焦于不随环境变化的内在时空规律。通过异质性感知的融合策略,模型能够自适应地调节两分支的贡献,生成更准确、更鲁棒的预测结果,有效缓解分布移位问题。
📊 **实验验证与性能优势**:在NYCTaxi、NYCBike1、NYCBike2、BJTaxi等四个真实数据集上的实验表明,STEVE在MAE/MAPE等评价指标上均取得最优结果,且在时间分布移位和空间分布移位等场景下表现出更强的泛化能力和稳定性。消融实验也证明了基混杂库、自监督任务、对抗解耦和互信息最小化等核心组件对模型性能至关重要。
原创 让你更懂AI的 2025-09-29 14:31 北京
基混杂表征 + 因果解耦,实现复杂城市场景的稳健泛化

北京航空航天大学联合香港大学提出了基于因果建模的时空基向量表征模型,首次将后门调整原理扩展到连续与未知混杂因子,通过构建基混杂库、自监督任务增强表示,并结合因果解耦机制,实现了在复杂城市场景下更准确、更具泛化性的交通预测。本文第一作者为北京航空航天大学计算机学院博士生寄家豪,本文的通讯作者为北京航空航天大学计算机学院教授王静远。目前该研究已被 KDD 2025 正式接收,相关代码与模型已经全部开源。论文标题:Seeing the Unseen: Learning Basis Confounder Representations for Robust Traffic Prediction论文链接:https://arxiv.org/abs/2311.12472代码链接:https://github.com/bigscity/STEVE_CODE研究背景交通预测是智能交通与城市计算中的基础问题。经典做法默认存在稳定的因果通道 (如下图中 a),即由历史交通状态 推断未来状态 。然而在真实城市系统中,天气、节假日、区域功能差异、事故/管制、道路负载等外生因素会同时作用于 与 ,构成混杂因子 。这类混杂使得 的条件分布随环境改变(如下图中 b),即出现分布移位,从而削弱模型在非常态场景(极端天气、长假、高负载等)下的准确与鲁棒性。 为缓解混杂影响,部分工作将因果推断中的前门/后门调整引入深度模型:前门依赖可观测中介变量,后门依赖对混杂因子的控制。然而,这两类方法通常依赖离散化与预定义:需要预先枚举混杂因子或中介变量的有限取值集合。现实环境中的混杂往往是连续的、可组合的且部分未知,难以被完整刻画与穷尽,导致上述方法在开放城市场景中存在适用性限制。基于此,本文采用图中 c 的综合因果视角:在保留时空依赖()的同时,显式建模并控制混杂效应()。围绕这一目标,本文提出 STEVE:以基向量库与线性组合统一表示连续/未知/可组合的混杂;通过面向混杂的自监督任务向混杂表征注入空间、时间与语义信息;并以对抗解耦与互信息最小化在表征层分离“混杂相关”与“混杂无关”因素,最终通过异质性感知的融合策略得到对分布移位与未见环境更准确、可泛化的交通预测模型。该框架避免对混杂进行先验离散化与穷举,直接在数据层面学习可泛化的“环境因子”表示,兼顾可解释性与工程适用性。 模型架构本文在传统时空卷积/图卷积的基础上,引入面向混杂因子的自监督学习与因果解耦机制,构建可应对连续/未知混杂与分布移位的统一交通预测框架。模型工作原理如下图。STEVE 分为两个分支:首先是混杂相关预测分支,基于时空编码得到的表示与混杂表示 协同建模,显式刻画节假日、天气、枢纽等环境对交通的影响,输出受混杂驱动的预测;其次是混杂无关预测分支,通过对抗解耦与互信息最小化得到的稳定表征 进行预测,聚焦于不随环境变化的内在时空规律。最后,模型采用异质性感知的门控融合,依据 自适应地调节两条分支的贡献,生成更稳健的最终预测结果。2.1 时空表征学习模块(TSRL)为了把原始的多维交通时间序列转化为更“懂时空关系”的底层特征,并为后续的混杂因子提取做好准备,本文模型首先将输入的历史交通状态序列 ,映射为时空隐藏表征 。具体做法是,本文模型采用时序卷积(TCL)与图卷积(GCL) 交替堆叠的方式。按照 “TCL → GCL → TCL” 的堆叠结构,模型逐步融合时序与空间依赖,最终生成序列化的时空嵌入:2.2 混杂因子提取器在真实的交通系统中,混杂因素非常复杂:既可能是离散的(如工作日/节假日)、也可能是连续的(如交通负载逐渐饱和),甚至还可能相互叠加(如雨天遇上早高峰再叠加交通枢纽效应)。如果逐一枚举并建模所有可能混杂,几乎是不可能完成的任务,也会严重限制模型的泛化能力。为了解决这一问题,本文提出用一组基混杂向量(basis confounders)来替代繁琐的枚举。模型不需要显式定义所有混杂,而是学习一个“基混杂库”,让任意复杂的混杂都可以通过这些基向量的线性组合来表示,如下图所示。具体实现上,本文构建一个基混杂库:将时空嵌入 在(T,N)两个维度上做扁平化后输入 MLP,生成一个临时库 。然后通过动量更新将历史环境与当前环境信息结合:这样既保留历史环境的“常识”,又能跟上当前环境的变化接下来,本文模型为每个节点在每个时刻生成专属的混杂表示首先,将该节点最近一段时间的特征平均,形成查询向量 ,相当于提炼该节点近期的“环境气质”。然后,用 与基库中的每个基向量 做相似度计算,再经过 softmax 得到注意力权重:最后,用这些权重对基向量加权求和:得到的 就是该节点此时的混杂表示。2.3 面向混杂因子的自监督学习在真实交通系统中,天气、节假日、区域功能与负载强度等外生因素共同作用于交通状态,构成混杂因子,且其取值往往连续、难以完整枚举与标注。为此,本文提出面向混杂的自监督学习(COSSL):通过辅助任务在无显式混杂标签下驱动模型自动编码混杂信息,从而增强混杂表示的空间/时间/语义判别力。具体包括三类任务:1. 空间位置分类:以节点唯一 ID 作为监督信号,学习区域差异与功能语义;优化目标为交叉熵 。2. 时间索引识别:将 24 小时 ×(工作日/节假日)构成 48 类时间索引,捕获时段节律与日类型差异;优化目标为交叉熵 。3. 交通负载预测:依据历史统计构建负载强度等级,刻画拥堵语义与容量效应;优化目标为均方误差 。三者联合构成混杂表示的自监督目标为:2.4 混杂因子无关关系解耦本文提出了两种关键机制:1. 对抗式解耦(Adversarial Disentanglement)在训练过程中,模型通过对抗解耦机制,使得学习到的表示 H 在不同混杂环境下保持稳定,其语义尽量一致,不再携带环境特定的干扰信息,具体过程如下图。2. 互信息最小化(Mutual Information Minimization)当两个表征 H 与 C 的互信息过大时,意味着它们在表示空间中存在过度耦合,仍然残留混杂信息。为此,本文采用 CLUB 方法对互信息上界进行近似估计,并通过最小化该上界来降低二者的相关性。2.5 双分支预测与异质性感知融合STEVE 将预测拆为混杂相关与混杂无关两条路径,并进行动态融合:1. 混杂相关分支(环境效应)2. 混杂无关分支(稳定规律)3. 异质性感知融合:用混杂表示生成门控权重 ,逐元素加权:最终优化总目标为多项联合、端到端训练:训练过程中, 作为动态权重自适应调节各辅助目标在总体损失中的相对重要性;反向传播层面,主损失 直接驱动两条预测分支及异质性融合门向真实目标收敛,从而优化最终预测;自监督损失 侧重提升混杂表示 的判别能力,强化其在空间、时间与语义维度的可分性。对抗解耦损失 以判别器最小化、特征提取器(经 GRL)最大化的方式训练,使判别器从 识别混杂、而特征提取器被迫抹除 中的混杂线索。互信息最小化损失 同时作用于 与 ,降低二者的统计依赖。实验验证本文模型在 NYCTaxi、NYCBike1、NYCBike2、BJTaxi 四个真实交通数据集上进行了对比实验,涵盖了时间分布移位(TDS)和空间分布移位(SDS)两种常见场景。3.1 整体表现STEVE 在所有数据集和任务上的 MAE/MAPE 表现均是最优结果,并且比其他方法的稳定。这说明它在各种分布移位条件下都能保持高精度和强泛化能力。3.2 消融实验本文展示了消融结果。无论去掉基混杂库(a)、自监督信号(b)、对抗解耦(c),还是互信息最小化(d),误差都明显上升。这证明四个核心组件对最终性能都至关重要。3.3 可解释性与稳健性本文发现不同地点(工作区 vs 交通枢纽)以及不同时段(中午非高峰 vs 晚高峰)的基混杂分布存在显著差异,说明模型确实捕捉到环境特征。STEVE 在未见过的天气(晴/阴/雪)场景下仍然优于对比模型,并且学到的混杂表征能清晰区分天气类型。本文验证了互信息最小化模块的作用,使得混杂相关表征 C 与混杂无关表征 H 更加解耦。3.4 效率与扩展性STEVE 的训练与推理时间低于大多数基线方法,且随着数据规模和图规模的增加,推理时间曲线更平缓,表现出更强的可扩展性。总结本文提出 STEVE 框架,首次将后门调整扩展至可处理连续与未知的混杂因子,并用于深度学习交通预测:借助基混杂库,用可学习基向量的线性组合统一表示各类混杂;通过面向混杂的自监督任务,为混杂表征注入空间—时间—语义信息;并以因果解耦分离“混杂相关”与“混杂无关”关系,然后进行联合预测,从而获得更准确、稳健的输出。
在四个真实数据集的评测中,STEVE 在准确性、鲁棒性与可扩展性方面均显著优于现有方法。未来工作将进一步提取典型混杂(如天气、节假日)的可解释表征,量化其对交通状态的影响,并在干预/反事实设定下开展交通预测,以支持更具因果解释力的城市交通决策。王静远教授https://www.bigscity.com/jingyuan-wang/北京航空航天大学计算机学院 BIGSCITY 实验室https://www.bigscity.com/实验室长期招聘青年教师、博士后,招收博士研究生以及实习生。有意者请联系 jywang@buaa.edu.cn 智慧城市大数据智能组(BIGSCITY)专注于数据驱动的城市智能关键技术,重点涵盖城市计算、时空数据挖掘、可解释机器学习等方向。团队已在数据挖掘、人工智能等领域的权威会议与期刊发表高水平论文近百篇;截至目前,2025 年度 CCF A 类会议就已录用 15 篇。相关技术已落地城市规划、智能交通、医疗服务等场景,在北京、天津、深圳、无锡、成都等地应用。更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·阅读原文
跳转微信打开