PaperWeekly 09月19日
AI助力行人重识别:从大海捞针到精准狙击
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为LLaVA-ReID的交互式行人重识别(Inter-ReID)新框架。与传统方法不同,LLaVA-ReID能通过多轮对话主动向用户提问,以澄清模糊描述并逐步收窄目标范围。该框架通过引入专门的数据集Interactive-PEDES,并结合检索器、提问器和回答器协同工作,显著提升了行人重识别的准确性和效率。实验表明,LLaVA-ReID在交互式和传统文本重识别任务上均表现出色,为现实场景中的目标识别提供了更智能的解决方案。

💡 交互式行人重识别(Inter-ReID)新任务:该任务突破了传统基于文本的行人重识别(T-ReID)的局限,通过系统与证人之间的多轮对话,主动提问以迭代优化初始描述,使其更贴近现实场景中信息不完整、模糊的情况,从而提升识别的准确性和适应性。

📊 数据集Interactive-PEDES的构建:为了支持Inter-ReID任务,研究者构建了一个包含粗粒度描述(模拟初步印象)、细粒度描述(补充详细视觉特征)以及由此衍生的多样化问答对的新数据集,为训练和评估Inter-ReID系统提供了重要基础。

🧠 LLaVA-ReID模型的核心机制:该模型包含检索器(快速筛选候选图像)、提问器(基于多模态大模型LLaVA,分析视觉和文本信息生成区分性问题)和回答器(模拟证人,根据记忆回答问题)。其关键创新在于选择性视觉筛选和前瞻监督,以高效地识别关键图像并生成最有效的问题。

🚀 实验验证与性能提升:在Interactive-PEDES数据集上,LLaVA-ReID经过几轮交互后,Recall@1显著提升,远超基线方法。同时,将LLaVA-ReID集成到现有T-ReID模型中,即使在描述较完整的数据集上,也能带来性能上的进一步提升,证明了其在补充遗漏细节方面的价值。

让你更懂AI的 2025-09-17 23:20 北京

从大海捞针到精准狙击

今年 ICML Outstanding Paper “COLLABLLM: From Passive Responders to Active Collaborators” 把从被动到主动的人机协作推到台前,展示了让大模型主动澄清意图、规划多轮协作的训练框架,显著提升任务完成度。

无独有偶,同期 LLaVA-ReID 把“主动性”引入行人重识别:模型不再被动接受含糊描述,而是基于候选图像有选择地发问,在多轮对话中迭代收窄目标,把“大海捞针”变成“精准狙击”。

本文第一作者鲁一丁是四川大学计算机学院 2022 级直博研究生。研究方向为多模态理解与 AI4Science,指导老师为彭玺教授。

论文标题:

LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification

论文地址:

https://arxiv.org/pdf/2504.10174

代码地址:

https://github.com/XLearning-SCU/LLaVA-ReID

huggingface数据集:

https://huggingface.co/datasets/XLearning-SCU/Interactive-PEDES-v1

多轮对话,让行人重识别不再「盲人摸象」

1983 年小巷,12 月晴朗。昏暗的房间里,福尔摩斯正仔细询问一起命案的目击证人。烛火摇曳,墙角一把焦黑的手杖成了谜团的起点。

证人紧张地回忆起他观察到嫌疑人的短暂瞬间:“那个人很高,大概 6 英尺,穿着格子衬衫,背着一个黑色的包”。

对于福尔摩斯这位怀疑论者来说,模糊的印象远远不够,每个细节都至关重要。他进一步追问:“他穿什么颜色的裤子?除了黑色的包,还携带了其他物品吗?他走路是否有跛脚或特殊步态?”

如同艺术家雕琢素描,福尔摩斯通过针对细节的定向询问,逐步勾勒出嫌疑人的完整形象,渐渐揭开真相。

▲ 图0 福尔摩斯探案

假设回到 20 世纪初的伦敦,福尔摩斯拥有一个交互式的 AI 工具,它将侦探直觉的延伸:基于证人不断演变的描述和从这些线索中评估出的候选嫌疑人,帮助福尔摩斯提出越来越精细和精准的问题。

不再被动接受笼统的描述,该工具使福尔摩斯能够分析证词和候选嫌疑人,动态调整问题。通过引导证人回忆嫌疑人外貌或行为的特定关键细节,在每次回复完善对嫌疑人的刻画,从而更有效地锁定嫌疑人。

▲ 图1。交互式行人重识别的图示案例。红色圆圈突出了候选图像中需要询问过程聚焦的独特细节。

在本文中,作者引入了交互式行人重识别(Inter-ReID)框架,其目标是通过与证人的持续交互迭代优化初始描述。此前没有研究探索过这一新问题,与之最接近的范式是基于文本的行人重识别(T-ReID)。

然而,现有的 T-ReID 假设描述是静态的、一次性提供的。相比之下,Inter-ReID 紧密反映现实场景,其中初始描述通常是不完整且模糊的,需要通过交互式优化来准确识别目标人物。

为促进对这一新型任务的研究,作者构建了一个新的数据集 Interactive-PEDES,其中包含:

本文的主要贡献如下:

任务定义:什么是交互式行人重识别?

简单来说,这个任务就像一场“你问我答”的游戏,需要系统既能“看”(分析图像差异),又能“问”(生成有效问题)

1. 初始描述:证人先给出一个不完整的描述(比如“穿格子衬衫,背黑包”)。

2. 系统提问:系统根据现有描述和候选图像,生成针对性的问题(比如“他的裤子是什么颜色?”“包里有没有露出什么物品?”)。

3. 证人回答:证人补充细节,系统根据新信息缩小搜索范围,直到找到目标人物。

数据集构建

数据集包含 54,749 张图像和 13,051 个人的身份,这些图像来自现有的 CUHK-PEDES 和 ICFG-PEDES 数据集,作者给它们加上了“对话属性”。制作过程分为三个步骤:

▲ 图2。所提出的自动对话数据构建流程示意图。步骤1:生成粗粒度和细粒度描述。步骤2:将后续描述分解为不同的属性。步骤3:构建多样化的问答对。

第一步:从模糊到清晰——生成粗粒度和细粒度描述

第二步:拆分细节——把完整描述拆成独立问题点

比如,细粒度描述中提到“裤子颜色”“鞋子特征”“包的颜色”“头发长度和颜色”等,我们把这些细节拆分成单独的“子描述”,每个子描述对应一个可以提问的点。例如:

第三步:设计多样化的问题——模拟真实对话场景

把每个子描述转化为三种类型的问题,让对话更自然、更有针对性:

1. 描述性问题(50%):用“是什么”“怎么样”引导证人自由描述,比如“他的外套款式是什么样的?”

2. 是非问题(40%):用假设性问题确认细节,比如“他的包是深蓝色的吗?”(即使假设错误,也能帮助证人回忆,比如证人可能回答:“不,是灰紫色的!”)

3. 多选题(10%):给出几个相似选项,降低证人回答难度,比如“他的头发是:A. 中长发 B. 深棕色长发 C. 短发卷发 D. 不确定”。

最终,每个图像平均对应 9 轮对话,训练集包含 47,376 张图像,测试集包含 7,373 张图像。

LLaVA-ReID模型:会提问的“智能侦探”

▲ 图3。(左)交互式行人重识别框架。检索器对图库图像和描述进行编码,向提问器提供检索结果和相关候选图像。提问器根据描述和候选图像生成具有判别性的问题。证人响应该问题并提供相应信息。(右)筛选器架构。筛选器基于文本信息从 top-k 候选人中选择最具代表性的候选图像。

LLaVA-ReID 的工作流程可以类比为一个三人小组:

1. 检索器(Retriever):快速筛选手册

2. 提问器(Questioner):智能提问专家(即 LLaVA-ReID)

3. 回答器(Answerer):模拟证人的记忆

提问器的关键技术:如何做到“精准提问”?

难题 1:如何从大量候选图像中挑出“关键图像”?

●  问题:如果候选图像有 100 张,直接全部输入模型不现实,而且无关图像会干扰提问。

●  解决方案:选择性视觉筛选(Selective Visual Context)

难题 2:如何确定“问什么问题最有效”?

●  问题:比如已经知道“裤子是深色”,再问颜色可能没用,需要问其他未覆盖的细节(如鞋子、包的特征)。

●  解决方案:前瞻监督(Looking-Forward Supervision)

实验对比

1. 交互式重识别任务:越问越准,效率更高

▲ 表1。在 Interactive-PEDES 数据集上与最先进的交互式检索方法的对比。“Initial” 表示使用初始描述而不进行交互。我们的方法用灰色标记。BRI 值越低表示性能越好。

▲ 图4. 检索性能与查询次数的关系。实线表示 R@1,虚线表示 R@5。

2. 传统文本重识别(T-ReID)任务

▲ 表2。与现有文本行人重识别(T-ReID)方法在三个基准数据集上的集成性能对比。

真实对话案例:模型如何一步步锁定目标?

▲ 图7。交互式系统生成的对话定性结果。每轮中的 4 张图像是由我们的筛选器选择的代表性候选图像。

总结

本文提出了交互式行人重识别这一全新任务,该任务通过引入证人与检索系统之间的多轮对话,使行人重识别场景更贴近现实。

为支撑这一任务,作者构建了专用数据集 Interactive-PEDES,并开发了多图像提问模型 LLaVA-ReID,该模型能够借助视觉和文本上下文识别细粒度差异。

未来,可以探索侦探式的推理范式,借鉴柯南、东野圭吾、阿婆笔下的推理逻辑,把复杂线索转化为模型可利用的交互证据;跨场景与多模态的融合,引入视频、音频,让线索拼图更全面。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

行人重识别 交互式AI 多模态学习 LLaVA-ReID Person Re-Identification Interactive AI Multimodal Learning
相关文章