智源社区 08月08日
又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

混合现实(XR)技术正通过头戴设备融合物理与数字世界,但传统XR设备在选择现实物体时面临挑战。新提出的Reality Proxy(现实代理)技术,通过为现实物体创建抽象数字表示,将交互目标从物体本身转移到其代理上,从而打破物理限制,实现便捷的“隔空抓物”。该技术能够将用户视线内的真实物体抽象为可操作的代理,并保留其空间关系。用户可通过标准手势操作代理,关键视觉反馈会直接显示在物理物体上,实现自然流畅的交互。Reality Proxy支持物体浏览、多对象刷选、按属性过滤、物理特征交互、语义分组、空间缩放及自定义分组等多种功能,已在信息检索、建筑导航和无人机控制等场景中展示了其潜力。研究评估显示,该技术在实用性、易学性和易用性方面均获得积极反馈。

✨ **Reality Proxy打破物理交互限制,革新XR人机交互体验。** 该技术通过为现实世界中的物体创建抽象的数字代理,使用户能够绕过距离、大小或视线不稳等物理限制,实现对现实物体的便捷操控。例如,用户可以通过代理轻松完成书籍检索、建筑导航,甚至控制多无人机协作,极大地扩展了XR的应用场景。

🎯 **交互流程优化,将用户注意力聚焦现实世界。** Reality Proxy的核心流程包括激活代理、生成代理和与代理交互。系统会自动检测用户视线范围内的物体并生成代理,并通过“延迟跟随”机制将代理置于用户手部附近,减少用户低头查看代理的需求。关键视觉反馈直接显示在物理物体上,确保用户在与代理交互时仍能保持对现实世界的关注,实现视觉焦点和交互的无缝切换。

🖐️ **丰富多样的交互功能,提升用户操作的灵活性和效率。** Reality Proxy支持多种交互模式,如浏览预览物体、多对象刷选、按属性过滤物体(例如筛选出所有红色的杯子)、借助物理特征的交互(将表面转变为触摸板)、语义分组、空间缩放以及自定义分组等。这些功能使得用户可以根据不同场景和需求,更加精细和高效地与现实物体进行互动。

👍 **用户评估积极,实用性与易用性得到认可。** 对10名XR领域专业人士的评估结果显示,Reality Proxy在实用性、易学性和易用性方面均表现出色。参与者认为该技术能有效解决与遥远、密集或难触及物体的交互问题,比传统方式更快捷,并能减少身体疲劳,扩展了交互能力,对行动不便或视线不稳的用户尤其友好。

只靠说话和AI眼镜互动,确实有点不方便。

现在新玩法来了!数字替身帮你“隔空抓物”,混合现实即时选择现实世界的物体作为上下文。

书籍检索,轻松get~

建筑导航?手拿把掐。

多无人机协作?也是毫不逊色。

该技术被称为Reality Proxy——一种直接操控界面,让你可以瞬间选中现实世界中的物体。

研究者Xiaoan Liu甚至表示,这使我们离贾维斯又进了一步。

Reality Proxy打破物理条件限制

混合现实(XR)正在重塑人机交互的边界。通过头戴设备,它有望将物理世界与数字世界融合,让用户能同时操控现实与虚拟中的对象。

然而,传统的XR设备通常通过光线投射来选择物体,但由于目标在视野中尺寸较小、视线不稳定以及手部颤抖等原因,这一过程往往容易出错。

因此,研究团队提出Reality Proxy(现实代理)——现实物体的抽象数字表示。

他们将交互目标从物体无缝转移到其代理上,选择代理等同于选择实际物体,便于用户摆脱距离或大小等限制,实现轻松选择物体。

如上所示,Reality Proxy流程包括三个主要步骤:

激活代理:捕获层级和语义场景结构

当用户捏合确认选择时,它会自动检测用户视线范围内的真实世界物体,并将其抽象为手部的交互代理。

如果用户成功选中目标物体(用户视线默认瞄准的物体),他们可以继续执行预期操作;否则,他们可以使用手边的代理优化选择。

生成代理:保留空间关系

在这一步骤中,系统可以将上一步骤中场景的层级、语义表示转换为代理 —— 用户可操作的对象。

默认情况下,系统仅为用户扩展视线范围内的1级物体生成代理。这些代理保留彼此的相对空间关系。

每个代理可通过长按和双手缩放等标准手势操作,即使在用户释放捏合后也保持在原位。

由于代理仅作为交互的抽象表示,所以其物理大小并不关键。因此,在实现过程中,每个代理表示为固定大小的矩形3D对象。

与代理交互:保持对现实世界的关注

为使用户能主要关注现实物体, Reality Proxy在与代理交互时,将关键视觉反馈直接显示在物理物体上。

例如,当一个物体被选中时,它会以亮色高亮显示,相应的代理也会高亮,提供双重反馈。

为确保代理易于访问且无需持续视觉关注,研究应用 “延迟跟随”机制,将代理放在用户手部附近。

当手保持在特定阈值内时,代理保持静止;如果手移动超出该范围,代理会平滑跟随 —— 使其保持在可达范围内,而不会对轻微的手部抖动做出反应。

这种设计减少了用户低头查找代理的需求,并实现在关注现实世界与快速查看代理信息之间的平滑切换。

此外,Reality Proxy还支持多种交互功能,使用户与现实物体的互动更加灵活。

1、浏览预览物体:用户手指在多个代理上滑动,就能快速浏览物体的信息,比如快速查看多本书的内容。

2、多对象刷选:用双手捏合的手势划定一个区域,就能选中多个代理对应的现实物体。

3、按属性过滤物体:长按一个物体的代理,调出属性面板,滑动手指到某个属性的代理上,就能选中所有有相同属性的物体,比如筛选出所有红色的杯子。

4、借助物理特征的交互:代理可结合真实世界的物理功能促进直观交互。

例如,放在物理表面(如桌子)上的代理可以将这些表面转换为自然的触摸板。

用户可以使用熟悉的触摸设备手势与真实世界物体交互,如在表面上拖动手指选择多个物体、分开手指扩大选择范围,或回溯路径调整选择等。

5、语义分组:双击一个代理,就能把有相同属性的物体归为一组。

6、空间缩放分组:用双手缩放的手势,在层级结构中导航,比如从查看整栋楼缩小到查看某一层的房间。

7、自定义分组:在空处用刷选的手势画一个立方体容器,把选中的代理放进里面,就能创建自定义分组,方便进行整体操作,比如计算一组书的总价。

除此之外,研究者还通过几个场景展示了此技术的实用性。

日常信息检索

在办公室里,老师可以用它快速找到特定的书,计算书的总价。

在厨房里也能实现与不同粒度级别的物体交互,比如选中微波炉的不同部件。

建筑导航

Reality Proxy让在大型建筑中高效导航和交互成为可能。

无人机控制

Reality Proxy还允许控制动态真实世界物体。

为展示这一点,研究者开发了一个基于混合现实的无人机控制应用,该应用用无人机中嵌入的跟踪器代替AI场景理解组件。

此研究招募了12名经验丰富的XR开发者和研究人员(7名男性,5名女性,年龄在18岁到38岁之间)。

由于两名参与者参与了完善研究方案的预试验环节,因此被排除在以下报告的评分中。

评估结果显示,这个系统在实用性、易学性和易用性方面评价普遍积极。

参与者认为Reality Proxy在实用性上表现突出,能有效解决与遥远、密集或难触及物体的交互问题。

相比传统方式更快捷,可减少身体疲劳、扩展交互能力(如批量选择、按属性筛选),对行动不便或视线不稳定用户也更友好。

不过参与者也指出了一些问题,比如新手可能需要一定的学习时间,代理的定位精度还有待提高等。

团队介绍

Xiaoan Liu,本科毕业于江南大学,硕士毕业于纽约大学。

他于2019年3月创立了Fusion Reality。2023在清华大学担任研究助理。2024年11月至2025年5月期间在谷歌工作。

他最近的一项比较有意思的研究还包括RealiTips(稿件准备中)——一款可以指导你一步步煮咖啡的助手。

值得一提的是,他本科时期就设计出很多XR设备和游戏。

Mar Gonzalez-Franco,2014年,她在英国创建了沉浸式技术实验室,研究航空背景下的AR、VR和混合现实。

2015年,她以高级研究科学家的身份加入初创公司Traity,该公司完成了470万美元的A轮融资,拥有超过450万用户,是硅谷500 Startups和Seedcamp(全球知名的风险投资基金和创业加速器)的校友企业。2016年,她还曾担任微软EPIC团队的首席研究员。

Xianhao Carton Liu,本科就读于浙江大学竺可桢学院,曾获图灵班的人工智能荣誉学士。博士就读于明尼苏达大学计算机科学专业,研究方向为人机交互。曾在斯坦福大学和哈佛大学任研究实习生。

Chen Zhu-Tian,本科毕业于华南理工大学,博士毕业于香港科技大学,现任明尼苏达大学双城分校CSE系(计算机科学与工程系)助理教授。

参考链接:
[1]https://x.com/_seanliu/status/1952770318034190420
[2]https://arxiv.org/abs/2507.17248

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

💻 8月7日周四下午14点,量子位AI沙龙邀请了来自模型厂商、IDE、零代码平台、Agent等产品代表,一同聊聊AI Coding将如何重构开发

👩‍💻 欢迎线下参会!来和百度文心快码智谱Kimi硅心科技海新智能CREAOIDEA面对面交流 👇 

一键关注 👇 点亮星标

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Reality Proxy 混合现实 XR交互 AI眼镜 隔空操作
相关文章