机器之心 20小时前
衡量AI对物理工具理解的新基准PhysToolBench
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港科技大学等机构的研究团队推出了PhysToolBench,一个用于评估多模态大模型对物理工具理解程度的基准。该基准将对工具的理解分为“认识”、“理解”和“创造”三个等级,并通过包含1000+图文配对的数据集,以视觉问答的形式考察模型在工具识别、属性理解、组合使用以及可用性判断等方面的能力。对32个最新的多模态大模型的系统测试表明,即使是顶级的模型在PhysToolBench上的表现也远未达到人类水平,尤其在理解工具的深层原理和创造性使用方面存在明显不足,揭示了当前AI在物理工具理解方面的长尾效应和推理能力的局限性。

🔑 PhysToolBench基准旨在衡量多模态大模型对物理工具的理解,将其分为“认识工具”、“理解工具”和“创造工具”三个由易到难的层级。

🔬 该基准通过1000+图文配对的视觉问答数据集进行评估,考察模型在工具识别、理解工具属性(如高温耐受性)、理解组合工具的用途(如遥控器和电池)、以及判断工具可用性(如损坏的工具)等方面的能力。

📊 对包括闭源商用模型(如GPT-5)、开源模型、具身智能专用模型以及VLA模型主干在内的32个最新模型进行的测试结果显示,当前顶级模型在PhysToolBench上的总准确率仍然较低,尤其在需要深层理解和创造性应用工具的难度较高的M3和Hard级别任务中表现欠佳,揭示了现有模型对物理工具的理解仍停留在较浅的层面,缺乏对工具为何可用的深刻理解。

💡 研究还发现,即使使用思维链进行推理可以提升模型性能,但在面对需要视觉信息辅助的复杂任务时仍然存在瓶颈,为此,研究团队提出了以视觉为中心的推理框架,通过目标识别等技术放大关键工具的视觉信息进行推理,初步实验表明这种方法可以提升模型在判断工具可用性方面的准确率。

🤖 实验结果还表明,专门针对具身智能场景finetune的模型,在物理工具理解方面并未展现出明显的领先优势,暗示当前具身智能相关数据集在工具使用方面的数据可能仍然不足;同时,作为VLA模型backbone的模型在PhysToolBench上的得分普遍较低,说明它们在物理工具理解方面仍有很大提升空间,这对于未来通用智能体的发展至关重要。


人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言,这同样是不可或缺的基本技能,对物理工具的使用会大大影响任务的成功率与效率。


尽管当下的多模态大模型在具身智能的高层任务规划以及低层动作执行方面都展现出很大的潜力,但它们是否真正「懂」物理工具、理解其运作原理,仍缺乏统一的量化评估。


为此,来自香港科技大学(广州)、香港科技大学等研究机构的团队提出了 PhysToolBench,一个衡量多模态大模型对物理工具的理解的基准。PhysToolBench 把对物理工具的理解分为了三个等级,分别为「认识」工具、「理解」工具、「创造」工具。



GitHub 链接:https://github.com/EnVision-Research/PhysToolBench

论文链接:https://arxiv.org/abs/2510.09507

Hugging Face 数据集链接:https://huggingface.co/datasets/zhangzixin02/PhysToolBench


PhysToolBench 系统性地测试了 32 个最新的多模态大模型,包含闭源商用模型、开源模型、具身智能专用模型以及 VLA 模型的 VLM 主干四大类,测试出了他们对于物理工具的理解的不足。



PhysToolBench 介绍

机器人执行任务的一般逻辑是,机器人会收到任务指令,并进行环境观察,随后再做出任务规划或者一级动作执行。因此,PhysToolBench 以视觉问答 (VQA) 的形式,设计了包含 1000+ 图文配对的数据集,其中文字部分是任务描述,图片是一个包含了各种工具的图片,代表了机器人观察到的环境,模型被要求观察图片,回答应该使用的工具 (当判断没有工具可用时可以回答 None)。


三层能力评估:

Easy-工具识别 (Tool Recognition): 判断模型是否认识工具以及知道它的主要功能;给定一个任务,图片中会包含一个最常用的能完成这个任务的工具。例如任务是切菜,图片中会包含一把菜刀。


Medium-工具理解 (Tool Understanding): 判断模型是否理解工具运作的基本原理;为了更细致地考验多模态大模型的真实理解,这一难度又分为了三个子类别:


M1-工具属性理解: 不仅仅需要知道物理工具的用途,还得知道它的物理、化学等属性,从而选择合适的工具。例如任务是高温煎牛排,图片中包含不粘锅和铁锅,模型需要选择铁锅因为其高温耐受性。

M2-组合工具理解: 需要组合多种工具实现目标,以此来判断模型是否明白组合不同工具解锁新的 affordance。例如,需要组合遥控器和电池才能完成开电视机的任务。

M3-工具可用性理解: 给出的工具有损坏,模型需要识别出它不可用,以此来判断模型是否真正理解物理工具「为什么可用」。例如,有一把没有刀片的美工刀,模型需要理解它没法完成切割的任务。


Hard-工具创造 (Tool Creation): 判断模型是否能根据任务需求反推所需要的工具的能力。给定一个任务,图片中将不包含常规工具,模型需要利用环境物体「造工具」来完成任务。例如,当没有螺丝刀可用时,可以用一元硬币来拧一字螺丝。


评测范围: 覆盖 32 个最新的多模态大模型 (专有、开源、具身智能专用与 VLA 主干)。



实验结果:大模型在 PhysToolBench 上的答卷

各个多模态大模型在PhysToolBench上的总准确率(%)


顶级大模型表现仍然不理想


整体来看,闭源商用模型领跑,开源模型紧随其后。且模型越「大」,模型越「强」。然而,即使是当前的顶级的大模型,在 PhysToolBench 上表现欠佳,总得分最高的模型为闭源商用模型 GPT-5,得分为 62.15%,在 M3 难度和 Hard 难度下,得分普遍低于 50%,和人类表现相去甚远。


专用于 Embodied 场景的 MLLM 表现如何?


Robobrain2、Embodied-R1 等模型以 MLLM 为基模,并在 Embodied 相关数据集上进行了 finetune。然而,对比 Robobrain2、Embodied-R1 以及他们的基模 Qwen-2.5-VL,在同等参数量的情况下他们并没有展现出领先优势,说明当今的 Embodied Reasoning 的数据集中关于工具使用的内容仍然比较欠缺。



被用在 VLA 当中的 backbone 模型是否具备了足够的物理工具理解能力?


研究团队还测试了几个用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,结果显示,他们的表现比较糟糕,总得分普遍低于 20%。这说明它们尽管具备了一定的知识,但要完成更高阶更复杂的任务或许还不够。


深入分析

对工具的识别与理解存在长尾效应。 即使是顶级的模型,在对一些工具的识别和理解上仍然存在长尾效应。例如,模型对一些电子设备的识别与理解欠佳。


模型对工具「是否可用」理解很差。 在 M3 难度,PhysToolBench 特意设置了「陷阱」,但绝大多数模型都没有识别出这个陷阱,仍然选择了损坏的工具。在 M3 难度的总得分甚至比 Hard 难度还低,说明大模型对工具的理解较为肤浅,仅仅是浅层的死记硬背工具与其功能的对应关系,而并没有对其为什么可用的深刻理解。这不仅仅会导致任务失败,还会带来一些安全隐患。


推理能力非常重要,但还远远不够。 研究团队对比了一些模型在使用/不使用思维链下的性能,发现使用思维链会带来性能的提升,但对于一些难度较大的 case,例如 M3 难度和 Hard 难度,纯文本层面的推理仍然会有瓶颈,模型无法抓取到存在于视觉模态当中的关键信息,导致推理仍然带来不了正确的结果。研究团队认为,以视觉为中心的推理 (Vision Centric Reasoning) 对于正确使用物理工具非常关键,并提出了一个初步的以视觉为中心的推理的 Agent 框架,鼓励推理过程中利用目标识别等工具放大观察一些关键的工具,并进行额外推理。在 M3 难度上的实验表明,这种推理方式能显著提升模型的准确率,但仍然达不到令人满意的水平。


不同模型使用不同推理方式的表现


对比:(a)文本层面推理 与 (b)视觉为中心的推理


总结

论文提出了测试多模态大模型对物理工具的理解的基准 PhysToolBench。通过系统性地设置不同层级以及广泛的测试,PhysToolBench 揭示了当今多模态大模型对物理工具的理解的短板,也为未来的发展指明了方向:理解、运用和创造复杂的物理工具的能力,是迈向通用智能体不可或缺的一步,也是下一代多模态大模型需要提升的一步。


相关论文、代码、数据集等均已公开公布。 感兴趣的小伙伴可以进一步体验和探索。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PhysToolBench 多模态大模型 物理工具理解 具身智能 视觉问答
相关文章