安全学术圈 09月12日
MedRef医疗对话系统:知识精炼与动态提示调整
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了MedRef,一个新型医疗对话系统,它通过知识精炼和动态提示调整来提高回复的准确性和个性化。MedRef利用知识精炼机制过滤不相关医疗数据,并设计综合提示结构,包含历史细节和证据细节。系统通过三元组过滤器和示例选择器,为LLM提供合适的知识和示例,以适应不同患者情况。实验结果表明,MedRef在自动和人工评估中都取得了显著提升。

🔍 MedRef采用知识精炼机制,通过建模潜变量过滤不相关的医疗知识,提高对回复中关键医疗实体的预测准确性。

🗣️ MedRef设计了一个包含历史细节和证据细节的综合提示结构,并利用三元组过滤器和示例选择器,为LLM提供合适的知识和示例,以适应不同患者情况。

📈 MedRef通过实体-行为联合预测模块,捕捉医疗实体(症状、疾病和治疗)与对话行为(症状询问、疾病诊断和治疗建议)之间的高度对应关系,从而生成更准确的回复。

🔄 MedRef采用两阶段的训练目标,首先预训练实体-行为联合预测模块,然后微调负责回复生成的医疗LLM,以确保回复的准确性和流畅性。

📊 实验结果表明,MedRef在自动评估指标(BLEU、ROUGE、entity-F1)和人工评估指标(流畅性、知识准确性、整体质量)上都取得了显著提升。

原创 彭佳仁 2025-08-22 21:49 四川

本文提出了MedRef,一个集成了知识精炼和动态提示调整的新型医疗对话系统。

原文标题:Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment原文作者:Hongda Sun, Jiaren Peng, Wenzhong Yang, Liang He, Bo Du, RuiYan原文链接:https://aclanthology.org/2025.findings-acl.1320.pdf发表会议:ACL'25笔记作者:彭佳仁@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈

1. 研究背景现有的医疗对话系统通常难以识别相关的医疗知识,以及生成个性化且医学上准确的回复。一种常见方法是从医疗知识图谱中检索相关医疗实体(如症状、诊断、治疗方法)。然而,这种检索增强生成(RAG)方法常常引入不相关的知识,从而降低了回复质量。

为了应对这些挑战,本文提出了MedRef,一个集成了知识精炼和动态提示调整的新型医疗对话系统。首先,采用知识精炼机制来过滤掉不相关的医疗数据,从而提高对回复中关键医疗实体的预测准确性。此外,设计了一个包含历史细节和证据细节的综合提示结构。为了实现对不同患者情况的实时适应性,MedRef实现了两个关键模块——三元组过滤器和示例选择器,为系统提示提供合适的知识和示例。

2 方法2.1 问题定义假设一个医疗对话会话  总共持续轮,其中  和  分别代表第轮中患者的话语和医生的回复。每一轮的对话上下文表示为 ,用于生成当前医生的回复 。每个话语都引入了多个医疗实体,并且每个医生的回复都进一步标注了对话行为。上下文  中的历史医疗实体  和对话行为  指导着回复  的生成。此外,通常使用医疗知识图谱G来检索相关知识以辅助回复生成。因此,医疗对话系统的目标是在每一轮t中,根据对话上下文 、历史实体 、历史行为  以及从中检索的相关知识,生成医生回复 

2.2 输入表示为了有效追踪患者的健康状况并生成适当的回复,对医疗对话系统中的对话历史关键组成部分进行编码至关重要。在上下文  中,每个患者话语表示为 ,包含  个词元;每个医生话语表示为 ,包含  个词元。为了捕捉其语义内容,首先应用一个嵌入层 ,分别为患者和医生的话语生成词元级别的嵌入  和 

鉴于任务的医疗性质,采用专门针对医疗领域预训练的模型MedBERT作为我们的编码器主干。嵌入后的话语由该编码器  处理,以融合序列化的对话信息,最终输出  作为后续模块的上下文表示。编码过程可形式化为:

然后,从医疗知识图谱G中检索相关实体,以指导准确的回复生成。具体来说,本文构建一个子图 ,该子图总共包含m个历史实体  及其一跳邻居。然后使用  对这些实体进行编码,并通过图注意力网络(GAT) 编码结构信息。由此得到子图表示:

此外,对话行为捕捉了每个回复的沟通意图(例如,症状询问、疾病诊断和治疗建议)。历史对话行为被编码为行为级别的表示 。这些丰富的表示共同为准确的回复生成提供了上下文信息。

2.3 知识精炼机制由于确定性检索,检索到的实体可能存在噪声或过于宽泛。为了解决这个问题,MedRef使用一种知识精炼机制,通过建模一个潜变量  来过滤不相关的知识。首先基于对话上下文  和检索到的实体  估计先验分布 。为了引导先验分布保留有用的知识,通过引入目标回复  中的真实实体  来定义后验分布 。先验和后验都建模为高斯分布,并通过独立的编码器进行参数化:

其中  和  由独立的知识编码器网络计算得出。

一旦潜变量  被采样,它将通过知识解码器 ,其输出与原始实体嵌入  结合,生成精炼后的表示:

这个精炼后的嵌入  减少了噪声并提高了相关性,用于更好地预测回复中的预期实体。

2.4 实体-行为联合预测基于精炼后的知识,模型可以重构回复中的实体。为了捕捉医疗实体(症状、疾病和治疗)与对话行为(症状询问、疾病诊断和治疗建议)之间的高度对应关系,MedRef利用一个联合预测模块来获取目标回复中的预期实体和行为。首先使用交叉注意力模块  建模上下文、精炼实体和历史行为之间的交互,然后通过GRU  获得新的表示:

然后,通过线性变换层和sigmoid  激活函数计算第t轮中实体和行为的预测概率:其中  且  且  和  分别是候选实体和行为的数量,d是隐藏层大小。

2.5 动态提示调整2.5.1 提示设计为了更好地激励LLM生成准确且针对患者的回复,MedRef设计了一个综合的提示结构。如图所示,系统提示  包含以下关键部分:

任务指令 I:概述了回应患者的任务,并解释了其余提示的结构。

历史细节 H:总结了对话历史中的关键元素,包括对话上下文  以及按序列出的历史实体  和行为 

证据细节 K:为生成回复提供医疗知识,包含预测的实体和行为,以及来自MedKG的相关知识三元组。

相关示例:提供一个上下文示例以指导回复格式。

为了实现对不同患者情况的实时适应,MedRef集成了一个动态提示调整策略,通过引入三元组过滤器示例选择器模块来精炼提示中配备的知识和示例。

2.5.2 三元组过滤器为了从检索到的实体中获得可靠的知识三元组,MedRef设计了一个迭代过滤过程。首先,将检索到的一跳子图  转换为一组三元组 。接下来,计算这些三元组中每个实体的频率,并按降序排序。基于这些频率,MedRef通过设置一个阈值  来动态调整保留的三元组。只有当三元组的头实体和尾实体的频率都不小于  时,该三元组才能被保留。最初, 设置为1,并在每次迭代中递增,从而逐渐减少保留的三元组数量。一旦  中的三元组数量不超过预定义的最大值M,该过程即终止。当前的  将作为提示中最终证据细节的一部分。

2.5.3 示例选择器为了给系统提示选择最相关的示例,MedRef引入了一个多步对齐过程。

实体对齐:首先根据第一个患者话语中的实体标注,将所有训练对话组织成子集。具体来说,构建多实体子集 ,其中每个子集  包含的对话案例其第一个话语都包含相同的n个实体 。同时,我们创建单实体子集 ,其中每个子集  包含的案例其第一个话语都提到了共享的实体 。给定当前对话上下文 ,MedRef需要检查其第一个话语  是否与  中的任何实体集完全匹配。如果是,MedRef检索相应的子集作为候选示例集 。否则,我们回退到单实体子集,并从  中选择所有与  至少共享一个实体的会话。

相似度对齐:为了优化示例选择,MedRef计算当前第一个话语  与  中话语的语义相似度。通过分别对每个候选话语进行编码,然后应用余弦相似度来识别最接近的对话  作为示例参考。

跨度对齐:为提高上下文相关性并减少提示长度,MedRef使用大小为  的滑动窗口从  中提取一个集中的片段。设  的总话语序列为 ,并记起始索引为 ,对应当前对话轮次t。最终的示例在三种不同的情况下截取。

2.6 模型优化为了优化MedRef的不同模块,本文设计了一个两阶段的训练目标。首先预训练实体-行为联合预测模块,为后续的回复生成做准备。对于医疗实体的预测,我们计算预测值  与真实实体标签  之间的二元交叉熵(BCE)损失 。同样,对话行为预测基于交叉熵损失  进行训练。这些损失函数可以形式化为:

为了确保知识精炼的一致性,最小化先验分布  和后验分布  之间的KL散度:

MedRef为每个损失分配权重  和 ,该阶段的总损失函数是加权组合:

接下来,在预测模块固定的情况下,我们微调负责回复生成的医疗LLM。通过最大化系统回复的对数似然,基于语言模型的损失由下式给出: $\mathcal{L}_{gen}=-\sum_{t=1}^{T}log\sum_{k}p_{gen}(r_{t_{k}}|r_{t_{

3. 实验设置3.1 数据MedDG:包含超过17,000个医疗对话,标注了5个类别(疾病、症状、药物、检查和属性)下的160个医疗实体。官方划分为14,862(训练)、1,999(验证)和999(测试)个会话。

Kamed:包含超过63,000个对话,涵盖100多个科室。我们移除了隐私敏感数据,最终得到29,159(训练)、1,532(验证)和1,539(测试)个会话。对话行为被标注为7种类型:闲聊、告知、询问、提供日常预防措施、说明需要的医疗检查、做出诊断和开具药物。

3.2 评估指标自动评估:我们使用BLEU和ROUGE评估词汇相似度,使用entity-F1分数衡量实体级别的准确性。

人工评估:我们关注三个关键的人工评估指标:流畅性(FLU)衡量对话的自然流畅程度;知识准确性(KC)关注医疗术语的正确性;以及整体质量(OQ)考虑回复的综合效果。

4. 结果4.1 自动指标4.2 人工评估

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com


专题最新征文


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MedRef 医疗对话系统 知识精炼 动态提示调整 实体-行为联合预测 MedBERT 图注意力网络 三元组过滤器 示例选择器
相关文章