PaperAgent 09月20日 19:55
腾讯优图提出HiCBench与HiChunk,提升RAG文档切分质量
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

现有RAG评测普遍忽略文档切分对模型性能的影响,尤其在证据稀疏场景下难以区分优劣。腾讯优图创新性地提出了HiCBench,这是首个专注于评估“切分质量”的基准,包含人工标注的多级切分点和证据稠密的问答对。同时,他们还开发了HiChunk框架,利用微调LLM将文档构建成多级语义树,并结合Auto-Merge检索算法,实现动态召回最合适的文档层级。HiChunk在保证切分准确率和端到端RAG性能的同时,效率也显著优于现有方法,为解决RAG中间层的“无人区”问题提供了新思路。

📚 **HiCBench:首个专注于文档切分质量的评测基准**:现有RAG评测主要关注检索和生成两端,忽视了文档切分这一关键中间环节。HiCBench的提出填补了这一空白,它包含人工标注的多级切分点和证据稠密的QA对,能够更精准地评估切分策略在“证据稀疏”等复杂场景下的表现,从而帮助研究者区分不同切分方法的优劣。

🌳 **HiChunk框架:构建多级语义树以优化切分**:HiChunk框架利用指令微调的小型LLM(如Qwen3-4B)将长文档解析成多级语义树。通过迭代推理和全局合并,即使是超长文档也能被有效构建,解决了“层次漂移”问题。这种结构化的文档表示为后续的检索和生成提供了更精细的控制,能够根据上下文动态选择最合适的切分层级。

🧩 **Auto-Merge检索算法:动态召回与语义完整性**:HiChunk框架中的Auto-Merge检索算法能够根据预设的token预算,动态决定是否将子节点合并到父节点,以保证召回的文档块既语义完整又符合长度限制。通过与兄弟节点和剩余预算的综合考量,该算法能够智能地“拼积木”式地召回最相关的文档片段,有效提升RAG系统的证据覆盖率和准确性。

🚀 **显著的性能提升与效率优化**:实验结果表明,HiChunk在切分准确率和端到端RAG性能上均显著优于传统的单级切分方法,尤其在证据稠密场景下优势更明显。同时,HiChunk在保证高质量的同时,其处理速度比现有方法快2倍以上,具备在线部署的潜力,为实际应用提供了可行性。

2025-09-20 11:26 湖北

现有 RAG 评测只关心“检索-生成”两端,对中间的文档怎么切分几乎不测,导致“证据稀疏”场景下好坏难分。

腾讯优图提出HiCBench——第一份专门评测“切分质量”的基准,包含人工标注的多级切分点+证据稠密 QA

同时给出HiChunk框架:用微调 LLM 把文档先建成多级语义树,再配一个Auto-Merge 检索算法,动态决定召回哪一层节点。

RAG 的中间层“无人区”

图1:同一段落用不同切分方法可能得到完全一样的 top-chunk,但证据其实被拦腰截断,现有稀疏证据 QA 无法发现。

表1:主流 RAG 基准的证据极度稀疏,导致“切得好/切得差”在端到端指标上几乎无差别。

HiCBench:第一份“切分专用”评测

图2:HiCBench 构建流程——先人工标多级结构→再生成证据稠密 QA→保留证据占比≥10% 且 Fact-Cov≥80% 的样本。

三种任务类型

类型

证据分布

用途

T0 证据稀疏

1-2 句

模拟传统场景

T1 单块证据稠密

同一语义块 512-4 096 词

考核“块内完整”

T2 多块证据稠密

跨 2+ 语义块 256-2 048 词/块

考核“跨块召回”

关键数字130 篇长文(平均 8.5 k 词)

1 200 人工标注多级切分点

(659 T1 + 541 T2)  QA 对,平均证据句 20+

HiChunk:把文档建成“可伸缩”的树

两级子任务切分点检测:在哪句断开?

层级分配:这段属于 L1/L2/…/Lk?

指令微调的 4 B 小模型(Qwen3-4B)直接生成“<sent_i> 是 L2 标题”式文本,统一解决。

超长文档怎么办?图2(a) 迭代推理:每次只看 8 k token,滑动窗口产生局部切分点,再 Merge 到全局树,解决“层次漂移”。

Auto-Merge:检索时自动“拼积木”

图2(b) Auto-Merge:按 token 预算 T 动态决定“子节点→父节点”是否上卷,保证语义完整又不爆长度。

合并条件(同时满足):

已召回兄弟节点 ≥2

兄弟累计长度 ≥ θ*(随已用 token 自适应增长)

剩余预算足够装入父节点

怎么从这棵树里召回最合适的一段

实验结果

切分准确率表3:HiChunk 在域内/域外均显著优于语义相似度或 LLM 单级切分。*

端到端 RAG(Qwen3-32B)表4:证据越稠密,HC200+AM 优势越大;在稀疏数据集(GutenQA、OHRBench)上与基线持平,证明“不伤害”原有能力。

token 预算影响图3:2 k→4 k token 预算下,HC200+AM 的 Rouge、Fact-Cov 全程高于其他切分策略。

最大层级消融图4:只保留 L1 时证据召回掉 8%+;L3 后收益饱和,建议默认 3 级

耗时表5:HC 在保证最高质量的同时,速度是 LC 的 2×+ 快,可在线部署。

    https://arxiv.org/pdf/2509.11552
    HiChunkEvaluating and Enhancing Retrieval-Augmented Generation with Hierarchical Chunking
    Codehttps://github.com/TencentCloudADP/HiChunk.git
    Datahttps://huggingface.co/datasets/Youtu-RAG/HiCBench

    推荐阅读


      每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      RAG 文档切分 HiCBench HiChunk 腾讯优图 自然语言处理 大模型 Retrieval-Augmented Generation Document Chunking Tencent YouTu NLP LLM
      相关文章