粉丝投稿 2025-09-02 12:57 江苏

近日，上海交通大学联合宁波东方理工大学、南京航空航天大学以及联想的一篇关于第一视角人-物-人交互的研究工作被计算机视觉顶级会议ICCV 2025录用，论文、代码、数据均将开源。

论文标题：Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

论文地址：https://arxiv.org/abs/2508.04681

项目主页：https://liangxuy.github.io/InterVLA/

本文的主要贡献为：

采集了首个大规模包含多种交互类别和第一视角数据的人-物-人交互数据集，包含11.4小时和1.2M帧交互数据；

构建多任务评测基准，赋能第一视角人体姿态估计、交互生成、交互预测等下游任务。

图1. InterVLA基于视觉-语言-动作范式采集了大规模人-物-人交互数据，共计3.9K交互序列和11.4小时超过1.2M帧的多模态交互数据，包含第一视角、第三视角视频数据，语言指令和高精度人/物动作轨迹。

01. 简介

我们始终怀揣憧憬，通用人形智能机器人能够走进千家万户为人们的日常生活提供极大便利。尽管随着大模型、具身智能的飞速发展，机器人的自身控制、感知操控、导航能力不断突破极限，但是迈向真正通用的服务机器人仍然有很长一段路要走。

由于直接采集机器人数据成本较高，因此很多方法改为采集真人数据并迁移应用到真机上。从数据的角度来看，通用服务机器人往往需要泛化的交互类别以及第一视角的感知数据，然而目前的数据集往往只针对特定的交互类别（例如只有人物交互），而没有提供一个通用的交互场景。同时，已有的大部分数据集忽略了一个事实，即机器人通常是通过第一视角来感知与决策。因此，构建一个同时拥有多样的交互类别以及第一视角感知数据的数据集很有必要。

02. 数据集构建

InterVLA数据集采用精心设计的视觉-语言-动作流程构建，模拟真实日常场景中的人-物-人交互行为，两个人分别扮演<指令者>和<助手>的身份，其中指令者通过语言和肢体动作表达需求，助手理解意图并提供相应的服务，例如“请帮我把桌上的杯子递给我”。其中一个数据集的例子可以参见图2。

图2. InterVLA数据样本。包括2个第一视角视频、5个第三视角视频、语言指令和人体动作/物体运动轨迹。

场景设置方面，我们首先在场地中随机布置桌椅等家具作为简易的场景设定，同时，我们选取多个可操作物体（例如苹果、刀具、杯子等）并随机摆放在场景中。我们一共收集了50个真实物体或者高保真塑料物体制品，其中35种为小型物体，15种为大型物体，每个场景中包含2-3个家具和5个随机物体，确保多样性。图3展示了我们采用的视觉-语言-动作采集系统。

图3. InterVLA数据集采集系统。(a) 我们在人身上粘贴光学反光点，并佩戴第一视角相机；(b) 我们选取的物体设定；(c) 光学动捕场地以及多视角RGB相机设定。

视觉方面

InterVLA数据集提供高质量的第一视角和第三视角视频数据，我们通过采用真实物体以及在人体皮肤上粘贴反光点（而非穿紧身动捕服）的策略，充分保证了RGB数据的高保真度。助手会在前胸和额头各绑定一个第一视角GoPro相机，以5312x2988的高分辨率采集第一视角画面。此外，我们还在场景周围均匀布置了五个高低错落的Kinect相机以1920x1080的分辨率采集多视角第三视角交互数据。第一视角和第三视角视频通过时间戳进行时许对齐，GoPro相机的内参、Kinect相机的内外参均进行了标定。

语言方面

InterVLA数据集采用了大语言模型来设计多样化的场景布置和操作指令。给定50种物体类别，我们提示大语言模型根据物体的功能性以及不同物体之间的功能组合来生成合理且多样的物体摆放、以及对物体的操作指令，每个场景会包含2-3个家具物体，5个可操作物体，以及8条连续的操作指令。所有生成的剧本结果都经过了仔细的人工检查和微调，最终我们收集了100条剧本。

动作方面

InterVLA数据集使用20台相机的高精度OptiTrack光学动捕系统采集人体动作和物体运动轨迹。如上所述，我们用医用胶带在人体表面粘贴反光点来捕捉人肢体动作，物体作为刚体来处理，在其表面粘贴不少于4个反光小球来捕捉物体的运动轨迹。在采集过程中，所有的人、物体都经过了精细的构建和标定。动捕数据通过额外的时间码与视觉数据进行时序对齐。

最终，我们将动捕得到的人体动作拟合成SMPL参数，同时将所有涉及到的物体通过高精度物体扫描仪扫描出物体的几何表征。所有的视频数据被归一化为1920x1080分辨率，30FPS。我们一共召集了47个参与者，组成27对<指令者，助手>进行了数据采集，最终得到3,906个交互片段，共计11.4小时和1.2M帧的交互数据，与现有数据集比较的表格如下图4所示。

表1. InterVLA与已有数据集的比较。包含人人、人物、人景、多物体操作，以及第一和第三视角数据。

03. 下游实验

通用人形机器人需要具备第一视角感知推理与决策的能力，因此我们在InterVLA数据集上定义了四种下游任务和评测指标，分别为1. 第一视角人体姿态估计，2. 交互生成，3. 基于动作的交互预测，4. 基于视觉-语言的交互预测，如下图4所示。

图4. InterVLA数据集能够赋能多种下游任务。包括第一视角人体动作估计，文本驱动的交互生成，以及基于动作的交互预测和基于视觉-语言的交互预测。

04. 结果分析

我们对提出的四个下游任务分别构建了完善的评测基准，并均选取了3-4个主流算法进行了充分实验。对于第一视角全局人体动作姿态估计任务，我们选取了TRACE、GLAMR、TRAM、WHAM等四个算法进行实验，结果如表2所示，体现了第一人称视角的遮挡、高速相机移动、人体捕捉不全等问题对动作姿态估计任务带来了挑战。

对于文本驱动的人-物-人交互序列生成任务，本文选取了MDM、priorMDM、HIMO等三个算法进行了实验，结果如表3所示，其中HIMO取得了最好的生成效果。

对于基于动作的交互预测任务，本文选取了MDM、InterDiff和CAHMP三个算法进行了实验，结果如表4所示。

对于基于视觉-语言的交互预测任务，本文选取了FHOI、OCT、USST等三个算法进行了实验，结果如表5所示。

05. 总结与展望

InterVLA数据集通过整合第一人称视角、多模态数据和通用交互场景，为构建真实世界中的智能AI助手奠定了基础。其独特的VLA框架和多样化的交互类型弥补了现有数据集的不足，为机器人交互、AR/VR和动作预测等领域提供了数据资源。然而，数据集目前局限于室内场景，物体种类和数据量仍不足以训练大型通用交互模型，未来可扩展至室外场景并增加数据规模。此外，动作捕捉的复杂性（如反光标记的安装）增加了数据采集成本，需探索更高效的采集方法。

了解最新 AI 进展，欢迎关注公众号:aicvml投稿寻求报道请发邮件至：amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

01. 简介

02. 数据集构建

视觉方面

语言方面

动作方面

03. 下游实验

04. 结果分析

05. 总结与展望

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签