PaperWeekly 09月17日
无需训练的AI文本检测器对抗新方法CoPA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为应对大语言模型(LLM)生成的文本被滥用,研究者开发了LLM文本检测器。为绕过这些检测器,现有方法常需大量数据和计算资源训练改写模型,且效果随检测算法进步而下降。本文提出了一种名为对比重写攻击(CoPA)的新方法,它无需额外训练,能利用现有大模型生成更接近人类风格的文本,有效规避主流检测器。CoPA的核心思想是构造对比分布,引导模型生成类人文本,并通过惩罚机器风格特征来提升攻击效果,同时保持语义一致性。实验证明,CoPA在多种数据集和检测算法上均表现出显著优于基线方法的攻击能力。

📝 **CoPA:一种无需训练的重写攻击方法** CoPA(Contrastive Paraphrase Attack)是一种创新的方法,旨在通过重写AI生成文本来规避检测,其核心优势在于无需额外的训练数据或计算资源。它利用现成的大语言模型(LLM),通过巧妙的提示工程,引导模型生成更贴近人类写作风格的文本。这种方法直接解决了现有攻击技术在数据和计算成本上的瓶颈,使得AI文本检测器的对抗更加高效和易于实现。

💡 **对比分布机制:实现类人文本生成** CoPA的关键创新在于其“对比分布”的生成机制。它首先通过人类风格的提示引导LLM生成一个类人文本的概率分布,同时,通过一个机器风格的提示生成一个机器文本的概率分布。在文本生成过程中,CoPA将这两个分布进行对比,通过减去机器风格的概率,强化类人文本的特征。这种方法能够有效纠正LLM固有的统计偏差,生成在语义上一致且风格上更难被检测器识别的文本。

🚀 **实验验证与显著提升** 通过在XSum、SQuAD和LongQA等多个主流数据集上进行广泛实验,CoPA被证明在对抗8种不同的AI文本检测算法时效果显著。相比于基线方法,CoPA在欺骗文本检测器的成功率上平均提升了30.55%。即使面对先进的检测算法(如FastDetectGPT),CoPA也能保持稳定且突出的攻击性能,同时保持超过90%的语义相似度,展现了其在攻击效果和文本质量上的双重优势。

🧠 **理论支撑与未来展望** 该研究不仅提供了实验证据,还构建了一个理论框架来证明CoPA的有效性。研究提出的定理表明,在特定条件下,CoPA构造的对比分布能更接近真实的人类文本分布。CoPA被视为一种审计检测系统鲁棒性的有力工具,并有望推动更强大、更具适应性的AI文本检测算法的发展,从而促进AI安全和可信度的整体提升。

原创 让你更懂AI的 2025-09-15 23:37 北京

免训练一招见效!

大语言模型(LLM)的滥用(如学术抄袭、虚假信息生成)推动了 LLM 文本检测器的发展,用于判别由模型生成的文本。

为规避这些检测器,研究人员提出了重写攻击,即有意重写文本以逃避检测。尽管已有一定成效,但现有方法需要大量数据与计算资源来训练专门的改写模型,并且在面对先进检测算法时效果显著下降。

为解决这一问题,我们提出了一种对比重写攻击(Contrastive Paraphrase Attack,CoPA),该方法无需额外训练,可利用现成的大模型生成更接近人类风格的文本,从而有效绕过主流检测器。该成果发布在 EMNLP 2025 上。

论文标题:

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors

论文链接:

https://arxiv.org/abs/2505.15337

代码链接:

https://github.com/ffhibnese/CoPA_Contrastive_Paraphrase_Attacks

问题背景

大型语言模型(LLM),如 GPT-4 和 Claude-3.5,在文本理解与生成方面展现了卓越的能力。这些能力推动了它们在诸多领域的广泛应用,包括代码生成和学术研究等。

然而,LLM 的滥用问题也引发了广泛的社会关注,例如学术抄袭和虚假信息生成。为此,研究人员提出了多种检测方法,利用 LLM 生成文本所特有的统计特征,从不同角度加以识别,以缓解相关风险。

与此同时,红队对抗手段也被引入,用于评估这些检测算法的可靠性。这类对抗方法大体可分为词替换攻击和改写攻击两类。具体而言,词替换攻击通过替换生成文本中的特定重要词汇,以规避检测。

这种方法通常需要额外的代理模型来衡量词的重要性,且替换操作往往会显著提高句子的困惑度,从而使改写后的文本更容易被人类识别。

相比之下,Dipper 方法提出了一种基于重写的攻击策略。它通过改变句子结构和用词,重写整个段落来欺骗检测器。这种方法无需依赖代理模型,同时能够保持句子困惑度。

然而,Dipper 需要训练一个大型的生成式语言模型作为重写器,这带来了大量的计算开销。此外,在面对更先进的防御策略(如 Fast-DetectGPT)时,其攻击性能显著下降。

▲ 图1. 不同重写策略的对比,人类式和机器式提示分别用于指导大模型生成人类风格和机器风格的文本

算法动机与实现

在本文中,我们提出了一种无需训练的重写方法——对比重写攻击(Contrastive Paraphrase Attack,CoPA)。CoPA 的核心思想是利用现成的 LLM,通过构造对比分布,引导模型生成更接近人类写作风格的文本,从而规避检测。

具体而言,我们重新审视了现有检测算法的基本机制,并提出一个论断:有效的重写攻击的核心在于消除文本中的机器风格特征,同时注入更多人类文本风格特征,例如更加灵活的词汇选择和语法结构。

基于这一洞察,我们尝试通过提示词来缓解 LLM 内在的统计偏差,从而生成更类人的词分布(如图 1 所示)。

然而,由于 LLM 在大规模语料上训练时会自然优先选择高概率词以确保句子连贯性,这种固有偏差仍然严重地控制其输出有着机器风格。因此,即便采用人类文本风格提示,部分重写文本依旧保留了明显的机器特征,使其容易被检测器识别。

为解决这一难题,我们提出了一种基于逆向思维的策略——虽然直接生成和人类文本分布高度相似的文本很难,但生成带有机器化特征的分布相对容易。因此,我们构造了一个机器文本分布,将其作为负样本与先前构造的人类文本分布进行对比。

通过这种方式,CoPA 在解码过程中能够减去机器风格相关 token 的概率,从而得到更接近人类写作的分布。最终,CoPA 生成的文本不仅在语义上一致,同时在风格上也更难以被检测器识别。

▲ 图2. CoPA 示意图,对比重写成功地惩罚了 LLM 偏好的单词 “embarked”,并鼓励在下一个 token 采样中使用更灵活的单词选择。

具体而言,如图 2 所示,我们设计了一个人类文本风格提示  ,引导 LLM 生成更接近人类写作风格的词分布  ,除此之外,我们额外设计一个机器提示 ,诱导 LLM 生成典型的机器化分布  ,在重写大模型解码的过程中,将人类分布与机器分布进行对比修正,得到对比纯化分布:

其中  为调节参数,用于控制对比强度。这样,生成器在采样时会动态惩罚机器偏好,增强人类风格表达。同时,为避免错误惩罚合理词汇,我们引入基于置信度的自适应裁剪机制,仅在高置信度候选集内进行对比修正,保证文本的语义合理性与连贯性。 

除了基于经验的分析,我们还构建了一个理论框架并证明了 CoPA 在模拟真实人类风格方面的优越性,得出的关键性定理如下:

定理 1:对于 ,如果 ,则 ,对于任意 ,有

其中  是真实人类文本分布, 是机器分布分布, 是使用 Prompt 让 LLM 输出的类似人类风格的分布。

该定理指出,在  的前提下,对于任意  均能满足所构造的对比分布比构造的人类风格分布  更加靠近真实的人类文本分布。具体推导过程请参考原论文。

实验结果

如表 1 所示,我们在三个主流文本数据集(XSum、SQuAD、LongQA)上,针对 8 种 AI 文本检测算法开展了系统全面的实验验证,证实了所提出算法的有效性。

▲ 表1. 使用来自三个不同数据集的 GPT-3.5-turbo 生成文本,对 8 种文本检测算法(FPR=5%)进行不同重写攻击的性能比较

更强的攻击效果。通过在词分布上进行自我校正,CoPA 在攻击效果上显著优于基线方法。例如,在三个数据集上,平均欺骗文本检测器的成功率提升了 30.55%。

尽管 Dipper 在部分检测器上表现尚可,但在面对更先进的算法(如 FastDetectGPT)时,其效果会显著下降。相比之下,CoPA 在多种检测器上始终展现出稳定而突出的攻击性能。

值得注意的是,尽管 Raidar-A 和 CoPA 使用了同一个 LLM 作为改写器,CoPA 仍然远超 Raidar-A,这验证了我们所设计的提示词与对比式改写机制的有效性。

良好的语义保持性。在改写文本的质量方面,我们的实验表明,CoPA 在多个数据集上的平均语义相似度超过 90%,这证明了该方法在改写过程中能够有效保持语义一致性。

虽然 Raidar-A 的文本相似度更高,但其攻击效果依然相当有限。相比之下,CoPA 同时在攻击效果和语义一致性上都取得了优异表现。

对于更多原模型和消融实验的结果,请参考原论文。

总结与思考

在本研究中,我们聚焦于针对 AI 生成文本检测器的红队攻击。我们首先指出了现有攻击方法存在的关键局限,并尝试通过提示词来缓解 LLM 内在的统计偏差。

在此基础上,本文提出 CoPA,一种简单而高效的针对 AI 生成文本检测器的释义攻击方法。CoPA 构造了一种机器风格的词元分布,作为负对比项,以减轻大语言模型(LLM)的语言偏差,并促进生成更加丰富和多样化的句子。

通过理论分析与实验验证,我们全面展示了该方法在多种场景下的优越性。我们将 CoPA 视为一种用于审计检测系统鲁棒性的有力工具,并期望其能够激发更鲁棒的检测算法的发展。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI文本检测 大语言模型 LLM 对抗性攻击 对比重写攻击 CoPA 自然语言处理 EMNLP 2025 AI Text Detection Large Language Models LLM Adversarial Attacks Contrastive Paraphrase Attack CoPA Natural Language Processing EMNLP 2025
相关文章