安全学术圈 08月18日
粤港澳大湾区数字经济研究院 | THINK-ON-GRAPH 2.0
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为解决传统检索增强生成(RAG)在深度和完整性上的不足,本文提出了Think-on-Graph 2.0 (ToG-2),一个创新的混合RAG框架。ToG-2能够迭代地、紧密耦合地从非结构化和结构化知识源中检索信息。它巧妙地利用知识图谱(KG)通过实体链接来深化上下文检索,同时又借助文档内容来优化图谱检索。通过在图谱检索和上下文检索之间交替进行,ToG-2能搜索与问题相关的深入线索,赋能大语言模型生成更准确、更忠实的答案。该框架无需额外训练,即插即用,可兼容多种大语言模型,并在多个数据集的实验中展现出显著优势。

💡 **混合知识源的深度耦合检索**:ToG-2的核心在于其混合RAG框架,能够迭代地、紧密耦合地从非结构化文档和结构化知识图谱(KG)中检索信息。它通过KG的实体链接来深化上下文检索,同时利用文档信息进行精确高效的图谱检索,实现了两种知识源的优势互补。

🗺️ **知识图谱引导的图搜索**:该框架利用KG的丰富结构性连接,通过关系发现和关系剪枝,识别并选择可能包含关键信息的实体关系。随后,利用这些选定的关系进行实体发现,探索看似遥远但概念上相关的高级主题,为深度推理奠定基础。

📄 **上下文检索与实体剪枝**:ToG-2通过将实体与其相关文档块进行关联,并为每个块计算相关性分数。基于上下文块的排名分数,它能够进行基于上下文的实体剪枝,筛选出最相关的候选实体,进一步聚焦于解决问题的关键信息。

🧠 **迭代式混合知识推理**:在检索完成后,ToG-2将所有检索到的知识(包括实体、三元组路径、上下文块)整合起来,提示大语言模型进行评估。如果知识不足,则生成有用线索并重建查询,直至达到最大深度,确保推理的深度和忠实度。

🚀 **即插即用与广泛兼容性**:ToG-2的设计使其无需进行额外的模型训练,并且能够轻松地集成到现有的LLM系统中,具有良好的即插即用性和广泛的兼容性,降低了应用门槛。

原创 彭佳仁 2025-08-18 21:30 四川

作者引入了Think-on-Graph 2.0 (ToG-2),这是一个混合RAG框架,它以紧密耦合的方式迭代地从非结构化和结构化知识源中检索信息。

原文标题:THINK-ON-GRAPH 2.0: DEEP AND FAITHFUL LARGE LANGUAGE MODEL REASONING WITH KNOWLEDGE GUIDED RETRIEVAL AUGMENTED GENERATION原文作者:Shengjie Ma, Chengjin Xu ,Xuhui Jiang ,Muzhi Li, Huaren Qu, Cehao Yang, Jiaxin Mao , Jian Guo原文链接:https://openreview.net/forum?id=oFBu7qaZpS发表会议:ICLR'25笔记作者:彭佳仁@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈

1. 研究背景

检索增强生成(RAG)通过利用知识检索来克服知识不足,从而改进了大型语言模型(LLM)。然而,当前的RAG方法在确保检索信息的深度和完整性方面往往不足,而这对于复杂的推理任务是必需的。

在这项工作中,作者引入了Think-on-Graph 2.0 (ToG-2),这是一个混合RAG框架,它以紧密耦合的方式迭代地从非结构化和结构化知识源中检索信息。具体而言,ToG-2利用知识图谱(KG)通过实体链接文档,从而促进了深度和知识引导的上下文检索。同时,它利用文档作为实体上下文来实现精确高效的图谱检索。ToG-2在图谱检索和上下文检索之间交替进行,以搜索与问题相关的深入线索,从而使LLM能够生成答案。

作者进行了一系列精心设计的实验,以突出ToG-2的以下优势:1)ToG-2紧密耦合了上下文检索和图谱检索过程,通过KG深化上下文检索,同时基于上下文实现可靠的图谱检索;2)它通过上下文和KG之间迭代的协作知识检索过程,在LLM中实现了深度和忠实的推理;3)ToG-2是免训练且即插即用的,可与各种LLM兼容。

2 方法

2.1 初始化

如图所示,给定一个问题 。ToG-2首先识别  中存在的实体,并将它们链接到KG中的实体。这一步可以通过不同的实体链接(EL)方法完成,例如LLM或专门的EL工具。

然后,ToG-2执行主题剪枝(TP)步骤,选择合适的实体作为在KG中探索的起点,它会提示LLM评估  和出现的实体,选择主题实体 ,其中  由LLM决定。

在第一轮图检索之前,ToG-2使用密集检索模型(DRM,包括双塔和单塔模型)从与初始主题实体  相关的文档中提取前  个块。然后LLM评估这些信息是否足以回答问题,利用其自身的知识。如果LLM认为可用信息足够,则无需进一步步骤。

2.2 混合知识探索

接下来将阐述ToG-2如何迭代地协调和紧密耦合异构知识。

形式上,在第  次迭代中,主题实体表示为 ,其前置三元组路径(推导到现在这个实体的路径)为 ,其中  是探索宽度的超参数(每次迭代中保留的最大主题实体数量), 是一个单一的三元组 ,其中  是KG中  和  之间的关系,可以是任一方向。请注意, 表示初始化阶段, 为空。

2.2.1 知识引导的图搜索

通过利用KG上丰富的知识结构连接性,图搜索旨在探索和建立问题与目标信息之间的高级概念和关系,这些信息在语义空间中看似遥远。关系发现: 在第  次迭代开始时,通过函数

可以找到所有主题实体的关系。 是一个搜索实体关系的函数。 表示该关系  的方向是否指向主题实体 关系剪枝(RP): 从收集到的关系集  中,作者提示LLM选择并评分可能包含有助于解决  的上下文信息的实体关系。文中设计了两种提示方式:

得分低的关系将被剪枝。公式2涉及多次调用LLM对每个主题实体进行单独的实体剪枝,而公式3在单个操作中处理所有主题实体的关系选择。第  次迭代中所有主题实体的选定关系表示为 实体发现: 给定  中的主题实体  及其对应的选定关系  在  函数中

识别通过关系  连接到主题实体  的实体集 

2.2.2 知识引导的上下文检索

在这一步中,ToG-2收集与每个候选实体  相关的文档,为当前迭代形成一个候选实体上下文池。实体引导的上下文检索: 将候选实体  的当前三元组  转换为一个简短的句子,并将其附加到待计算分数的上下文中。形式上,将  的第  个块的相关性分数表示为:

 (5)

然后选择得分最高的前  个块  作为推理阶段的参考。基于上下文的实体剪枝: 候选实体的选择基于其上下文块的排名分数。候选实体  的排名分数计算为其在得分前  的块得分的指数衰减加权和( 表示推理的上下文数量),其形式化为:

 (the k-th ranked chunk is from , (6)

其中  是第  个排名块的得分, 是指示函数,如果第  个块属于  则等于1, 和  是超参数。得分最高的前  个候选实体将被选作下一次迭代的主题实体 。在图2中,像Evan Jager这样相关性得分低的候选实体被剪枝。

2.3 混合知识推理

在第  次迭代结束时,用找到的所有知识提示LLM,包括 、三元组路径、前  个实体和相应的上下文块,以评估给定知识是否足以回答问题,其中  是来自先前迭代的检索反馈,旨在在历史上下文中保留有用的知识。如果LLM判断提供的知识足以回答问题,它会直接输出答案。否则,提示LLM输出从现有知识中总结出的有用线索 ,然后基于准确信息重建优化的查询,直到达到最大深度 。该过程公式化为:

3 实验

3.1 数据集与指标

作者在两个多跳知识库问答数据集 WebQSP 和 QALD10-en,一个多跳复杂文档问答数据集 AdvHotpotQA(它是 HotpotQA 的一个具有挑战性的子集),一个槽位填充数据集 Zero-Shot RE,以及两个事实核查数据集 FEVER 和 Creak对模型进行有效性验证。

于FEVER和Creak,评估指标是准确率(Accuracy, Acc.),而其他数据集的指标是精确匹配率(Exact Match, EM)。

3.2 主要结果

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com


专题最新征文

期刊征文 | 域名安全评估与风险预警 (CCF T2)


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Think-on-Graph 2.0 混合RAG 知识图谱 大语言模型 知识检索
相关文章