安全学术圈 09月07日
PaDeLLM-NER:LLM的NER并行解码新方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出PaDeLLM-NER,一种为命名实体识别(NER)任务设计的、基于大型语言模型(LLM)的并行解码方法。研究背景指出,传统的自回归NER方法在处理长序列时存在推理效率低下的问题。PaDeLLM-NER通过将指令微调的重构和两步推理策略相结合,将一个包含所有标签-提及对的非结构化文本分割成多个独立的序列进行处理。首先,模型预测每个标签的总提及数,然后并行地生成每个提及文本。这种并行解码策略有效降低了推理延迟,特别适用于流式数据场景。此外,文章还讨论了如何通过预测概率来移除重复提及,以提高NER的准确性。实验结果表明,PaDeLLM-NER在预测质量和推理速度上均表现出色。

💡 **高效推理的并行解码策略**:PaDeLLM-NER通过将命名实体识别任务的输出分解为多个独立的序列,并进行并行解码,显著提高了推理效率。与传统的自回归方法相比,这种方法避免了生成长序列带来的延迟,尤其适用于需要快速响应的场景。

🎯 **重构指令微调与两步推理**:该方法通过重构指令微调,将原始的标签-提及对信息分割成多个独立的训练数据条目。推理时,模型首先预测特定标签的提及数量,然后基于标签和索引信息并行生成实际的提及文本,实现了更灵活和高效的解码过程。

✅ **重复提及的移除机制**:为了解决并行解码可能带来的重复提及问题,PaDeLLM-NER利用预测概率来甄别和移除重复的实体提及。通过计算每个提及实例的预测概率,并保留概率最高的实例,确保了NER结果的准确性和唯一性。

📚 **多维度实验验证**:研究在零样本和有监督数据集上进行了广泛的实验,评估了模型在不同领域(通用、生物医学、中文特定领域)和不同NER类型(扁平化、嵌套)上的表现。实验采用了Llama2-7b和Baichuan2-7b等主干模型,并从预测质量(F-score)和推理速度两方面进行了衡量,证明了PaDeLLM-NER的有效性。

原创 彭佳仁 2025-09-07 20:05 四川

作者认为通过减少序列长度,可以为 NER 任务提供更高效的推理方案。

原文标题:PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition
原文作者: Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Brian Mac Namee, Can Huang
原文链接:https://openreview.net/pdf?id=vjw4TIf8Bo
发表会议:Nips'24
笔记作者:彭佳仁@安全学术圈
主编:黄诚@安全学术圈
编辑:张贝宁@安全学术圈

1. 研究背景

命名实体识别(NER)中存在两种典型的自回归输出格式:

(1)调整原始输入文本以包含标签信息,这被称为“增强语言”;

(2)直接使用一种定制的、易于解析的结构化格式来输出所有标签和提及,这被称为“结构化标注”。

这些格式带来了一些挑战。例如,增强语言需要复制所有原始输入文本,从而增加了输出长度并导致推理效率低下。虽然结构化标注避免了复制整个输入,但它以自回归的方式生成所有标签和提及。这意味着每个后续生成的对都依赖于其前面的对,当标签-提及对的数量很大时,会导致序列更长。之前研究证明LLM 中的高延迟主要源于长序列生成,作者认为通过减少序列长度,可以为 NER 任务提供更高效的推理方案。

2 方法

2.1 指令微调的重构

重构的图示在图 1 中展示。其中包含四个标签:person (PER), miscellaneous (MISC), location (LOC), 和 organization (ORG)。

在重构过程中,一个包含所有标签-提及对的非结构化文本被分割成多个序列。每个新序列的输出包括一个指定标签(表示为“entity type”)的提及数量,后跟该标签的第  个提及(表示为“”)。因此,在这个例子中,一个原始的训练数据被转换成五个新的训练数据条目。其中包括两个用于预测“LOC”(有 2 个提及),一个用于预测“MISC”(有 1 个提及),一个用于预测“PER”(有 1 个提及),以及一个用于预测“ORG”(有 0 个提及,直接预测“”)。

2.2 标签-提及对的推理

给定一个训练好的 LLM,作者提出一个两步推理方法:首先,根据提示预测特定标签的提及数量;其次,给定标签和提供的索引,精确地识别相应的提及。

图 2 展示了 PaDeLLM-NER 推理的概览。在步骤 1 中,模型根据标签提示预测输入中每个标签的总提及数。一个单独的词元“\n” 标志着这个计数预测的完成。如果给定标签的提及不存在,模型会生成一个“”词元,并跳过该标签的步骤 2。在步骤 2 中,在将预测的提及数添加到输入之后,会附加提及索引模板。随后,模型在前面词元的条件下生成相应的提及。所有标签-提及对的解码是并行发生的,允许它们同时生成。

在实践中,如果有足够的 GPU 资源,可以为每个标签的提及数量推理以及后续的提及文本片段推理分配在不同的 GPU 上。如果 GPU 资源有限,推理也可以使用批量推理部署在单个 GPU 上,以促进并行解码。以图 2 为例,在步骤 1 中,批处理大小为 4,因为数据集中有四个标签。在步骤 2 中,批处理大小为 5,反映了在步骤 1 中确定的五个标签-提及对(即“PER”中 1 个,“MISC”中 2 个,“LOC”中 2 个)。这种并行解码策略能有效降低推理延迟,特别是在输入以流式方式接收的场景中。

2.3 重复提及的移除

与自回归解码不同,PaDeLLM-NER 独立生成每个标签-提及对。这种推理策略意味着模型可能会错误地生成在多个标签中重复的提及。如图 2 所示,模型正确地将“LOC”的第一个提及预测为“Italy”,但它也错误地将“MISC”的第二个提及预测为“Italy”。

为了解决重复提及的问题,作者建议使用预测概率来移除重复的提及。具体来说,计算每个提及实例的预测概率。这是通过公式  来完成的,其中  代表提及文本的起始词元索引, 代表结束词元索引。然后,对于出现在多个标签中的一个提及,将保留概率最高的那个提及实例。

3 实验

3.1 数据集、主干模型和指标

    零样本数据集:使用 Pile-NER 数据集训练 PaDeLLM。为了评估模型在未见过的实体类别上的零样本能力,选择了两个公认的基准:CrossNER 和 MIT。

    有监督数据集:英语数据集包括通用领域的扁平化 NER 数据集 CONLL2003、嵌套 NER 数据集 ACE2005 以及生物医学领域的嵌套 NER 数据集 GENIA。中文数据集包括四个常用的通用领域扁平化 NER 基准:Resume(简历)、Weibo(微博)、MSRA 和 Ontonotes 4.0,以及两个垂直工业领域的扁平化 NER 数据集:YouKu(优酷)和 Ecommerce(电商)。

    主干模型:使用 Llama2-7b 和 Baichuan2-7b 的预训练版本作为英语和中文研究的基础模型。

    指标:评估涵盖两个维度:预测质量和 NER 推理的加速。(1)预测质量,采用微观 F-score。(2)推理速度,使用以下代码记录延迟:start = time.time(); model.generate(); latency = time.time() start

3.2 主要结果

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com


专题最新征文

期刊征文 | 域名安全评估与风险预警 (CCF T2)


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PaDeLLM-NER 命名实体识别 大型语言模型 并行解码 LLM NER Parallel Decoding Large Language Models
相关文章