index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
本文介绍了MedRef,一个新型医疗对话系统,它通过知识精炼和动态提示调整来提高回复的准确性和个性化。MedRef利用知识精炼机制过滤不相关医疗数据,并设计综合提示结构,包含历史细节和证据细节。系统通过三元组过滤器和示例选择器,为LLM提供合适的知识和示例,以适应不同患者情况。实验结果表明,MedRef在自动和人工评估中都取得了显著提升。
🔍 MedRef采用知识精炼机制,通过建模潜变量过滤不相关的医疗知识,提高对回复中关键医疗实体的预测准确性。
🗣️ MedRef设计了一个包含历史细节和证据细节的综合提示结构,并利用三元组过滤器和示例选择器,为LLM提供合适的知识和示例,以适应不同患者情况。
📈 MedRef通过实体-行为联合预测模块,捕捉医疗实体(症状、疾病和治疗)与对话行为(症状询问、疾病诊断和治疗建议)之间的高度对应关系,从而生成更准确的回复。
🔄 MedRef采用两阶段的训练目标,首先预训练实体-行为联合预测模块,然后微调负责回复生成的医疗LLM,以确保回复的准确性和流畅性。
📊 实验结果表明,MedRef在自动评估指标(BLEU、ROUGE、entity-F1)和人工评估指标(流畅性、知识准确性、整体质量)上都取得了显著提升。
原创 彭佳仁 2025-08-22 21:49 四川
本文提出了MedRef,一个集成了知识精炼和动态提示调整的新型医疗对话系统。
原文标题:Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment 原文作者:Hongda Sun, Jiaren Peng, Wenzhong Yang, Liang He, Bo Du, RuiYan 原文链接: https://aclanthology.org/2025.findings-acl.1320.pdf 发表会议:ACL'25 笔记作者:彭佳仁@安全学术圈 主编:黄诚@安全学术圈 编辑:张贝宁@安全学术圈 1. 研究背景 现有的医疗对话系统通常难以识别相关的医疗知识,以及生成个性化且医学上准确的回复。一种常见方法是从医疗知识图谱中检索相关医疗实体(如症状、诊断、治疗方法)。然而,这种检索增强生成(RAG)方法常常引入不相关的知识,从而降低了回复质量。 为了应对这些挑战,本文提出了MedRef,一个集成了知识精炼和动态提示调整的新型医疗对话系统。首先,采用知识精炼机制来过滤掉不相关的医疗数据,从而提高对回复中关键医疗实体的预测准确性。此外,设计了一个包含历史细节和证据细节的综合提示结构。为了实现对不同患者情况的实时适应性,MedRef实现了两个关键模块——三元组过滤器和示例选择器,为系统提示提供合适的知识和示例。 2 方法 2.1 问题定义 假设一个医疗对话会话 总共持续 轮,其中 和 分别代表第 轮中患者的话语和医生的回复。每一轮的对话上下文表示为 ,用于生成当前医生的回复 。每个话语都引入了多个医疗实体,并且每个医生的回复都进一步标注了对话行为。上下文 中的历史医疗实体 和对话行为 指导着回复 的生成。此外,通常使用医疗知识图谱G来检索相关知识以辅助回复生成。因此,医疗对话系统的目标是在每一轮t中,根据对话上下文 、历史实体 、历史行为 以及从 中检索的相关知识,生成医生回复 。 2.2 输入表示 为了有效追踪患者的健康状况并生成适当的回复,对医疗对话系统中的对话历史关键组成部分进行编码至关重要。在上下文 中,每个患者话语表示为 ,包含 个词元;每个医生话语表示为 ,包含 个词元。为了捕捉其语义内容,首先应用一个嵌入层 ,分别为患者和医生的话语生成词元级别的嵌入 和 。 鉴于任务的医疗性质,采用专门针对医疗领域预训练的模型MedBERT作为我们的编码器主干。嵌入后的话语由该编码器 处理,以融合序列化的对话信息,最终输出 作为后续模块的上下文表示。编码过程可形式化为: 然后,从医疗知识图谱G中检索相关实体,以指导准确的回复生成。具体来说,本文构建一个子图 ,该子图总共包含m个历史实体 及其一跳邻居。然后使用 对这些实体进行编码,并通过图注意力网络(GAT) 编码结构信息。由此得到子图表示: 此外,对话行为捕捉了每个回复的沟通意图(例如,症状询问、疾病诊断和治疗建议)。历史对话行为被编码为行为级别的表示 。这些丰富的表示共同为准确的回复生成提供了上下文信息。 2.3 知识精炼机制 由于确定性检索,检索到的实体可能存在噪声或过于宽泛。为了解决这个问题,MedRef使用一种知识精炼机制,通过建模一个潜变量 来过滤不相关的知识。首先基于对话上下文 和检索到的实体 估计先验分布 。为了引导先验分布保留有用的知识,通过引入目标回复 中的真实实体 来定义后验分布 。先验和后验都建模为高斯分布,并通过独立的编码器进行参数化: 其中 、 、 和 由独立的知识编码器网络计算得出。 一旦潜变量 被采样,它将通过知识解码器 ,其输出与原始实体嵌入 结合,生成精炼后的表示: 这个精炼后的嵌入 减少了噪声并提高了相关性,用于更好地预测回复中的预期实体。 2.4 实体-行为联合预测 基于精炼后的知识,模型可以重构回复中的实体。为了捕捉医疗实体(症状、疾病和治疗)与对话行为(症状询问、疾病诊断和治疗建议)之间的高度对应关系,MedRef利用一个联合预测模块来获取目标回复中的预期实体和行为。首先使用交叉注意力模块 建模上下文、精炼实体和历史行为之间的交互,然后通过GRU 获得新的表示: 然后,通过线性变换层和sigmoid 激活函数计算第t轮中实体和行为的预测概率: 其中 且 ; 且 。 和 分别是候选实体和行为的数量,d是隐藏层大小。 2.5 动态提示调整 2.5.1 提示设计 为了更好地激励LLM生成准确且针对患者的回复,MedRef设计了一个综合的提示结构。如图所示,系统提示 包含以下关键部分: 任务指令 I :概述了回应患者的任务,并解释了其余提示的结构。 历史细节 H :总结了对话历史中的关键元素,包括对话上下文 以及按序列出的历史实体 和行为 。 证据细节 K :为生成回复提供医疗知识,包含预测的实体和行为,以及来自MedKG的相关知识三元组。 相关示例 :提供一个上下文示例以指导回复格式。 为了实现对不同患者情况的实时适应,MedRef集成了一个动态提示调整策略,通过引入 三元组过滤器 和 示例选择器 模块来精炼提示中配备的知识和示例。 2.5.2 三元组过滤器 为了从检索到的实体中获得可靠的知识三元组,MedRef设计了一个迭代过滤过程。首先,将检索到的一跳子图 转换为一组三元组 。接下来,计算这些三元组中每个实体的频率,并按降序排序。基于这些频率,MedRef通过设置一个阈值 来动态调整保留的三元组。只有当三元组的头实体和尾实体的频率都不小于 时,该三元组才能被保留。 最初, 设置为1,并在每次迭代中递增,从而逐渐减少保留的三元组数量。一旦 中的三元组数量不超过预定义的最大值M,该过程即终止。当前的 将作为提示中最终证据细节的一部分。 2.5.3 示例选择器 为了给系统提示选择最相关的示例,MedRef引入了一个多步对齐过程。 实体对齐 :首先根据第一个患者话语中的实体标注,将所有训练对话组织成子集。具体来说,构建多实体子集 ,其中每个子集 包含的对话案例其第一个话语都包含相同的n个实体 。同时,我们创建单实体子集 ,其中每个子集 包含的案例其第一个话语都提到了共享的实体 。给定当前对话上下文 ,MedRef需要检查其第一个话语 是否与 中的任何实体集完全匹配。如果是,MedRef检索相应的子集作为候选示例集 。否则,我们回退到单实体子集,并从 中选择所有与 至少共享一个实体的会话。 相似度对齐 :为了优化示例选择,MedRef计算当前第一个话语 与 中话语的语义相似度。通过分别对每个候选话语进行编码,然后应用余弦相似度来识别最接近的对话 作为示例参考。 跨度对齐 :为提高上下文相关性并减少提示长度,MedRef使用大小为 的滑动窗口从 中提取一个集中的片段。设 的总话语序列为 ,并记起始索引为 ,对应当前对话轮次t。最终的示例在三种不同的情况下截取。 2.6 模型优化 为了优化MedRef的不同模块,本文设计了一个两阶段的训练目标。首先预训练实体-行为联合预测模块,为后续的回复生成做准备。对于医疗实体的预测,我们计算预测值 与真实实体标签 之间的二元交叉熵(BCE)损失 。同样,对话行为预测基于交叉熵损失 进行训练。这些损失函数可以形式化为: 为了确保知识精炼的一致性,最小化先验分布 和后验分布 之间的KL散度: MedRef为每个损失分配权重 、 和 ,该阶段的总损失函数是加权组合: 接下来,在预测模块固定的情况下,我们微调负责回复生成的医疗LLM。通过最大化系统回复的对数似然,基于语言模型的损失由下式给出: $\mathcal{L}_{gen}=-\sum_{t=1}^{T}log\sum_{k}p_{gen}(r_{t_{k}}|r_{t_{ 3. 实验设置 3.1 数据 MedDG :包含超过17,000个医疗对话,标注了5个类别(疾病、症状、药物、检查和属性)下的160个医疗实体。官方划分为14,862(训练)、1,999(验证)和999(测试)个会话。 Kamed :包含超过63,000个对话,涵盖100多个科室。我们移除了隐私敏感数据,最终得到29,159(训练)、1,532(验证)和1,539(测试)个会话。对话行为被标注为7种类型:闲聊、告知、询问、提供日常预防措施、说明需要的医疗检查、做出诊断和开具药物。 3.2 评估指标 自动评估 :我们使用BLEU和ROUGE评估词汇相似度,使用entity-F1分数衡量实体级别的准确性。 人工评估 :我们关注三个关键的人工评估指标:流畅性(FLU)衡量对话的自然流畅程度;知识准确性(KC)关注医疗术语的正确性;以及整体质量(OQ)考虑回复的综合效果。 4. 结果 4.1 自动指标 4.2 人工评估 安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com
专题最新征文
阅读原文
跳转微信打开