无需训练的AI文本检测规避新方法

原创让你更懂AI的 2025-09-15 23:37 北京

免训练一招见效！

大语言模型（LLM）的滥用（如学术抄袭、虚假信息生成）推动了 LLM 文本检测器的发展，用于判别由模型生成的文本。

为规避这些检测器，研究人员提出了重写攻击，即有意重写文本以逃避检测。尽管已有一定成效，但现有方法需要大量数据与计算资源来训练专门的改写模型，并且在面对先进检测算法时效果显著下降。

为解决这一问题，我们提出了一种对比重写攻击（Contrastive Paraphrase Attack，CoPA），该方法无需额外训练，可利用现成的大模型生成更接近人类风格的文本，从而有效绕过主流检测器。该成果发布在 EMNLP 2025 上。

论文标题：

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors

论文链接：

代码链接：

https://github.com/ffhibnese/CoPA_Contrastive_Paraphrase_Attacks

问题背景

大型语言模型（LLM），如 GPT-4 和 Claude-3.5，在文本理解与生成方面展现了卓越的能力。这些能力推动了它们在诸多领域的广泛应用，包括代码生成和学术研究等。

然而，LLM 的滥用问题也引发了广泛的社会关注，例如学术抄袭和虚假信息生成。为此，研究人员提出了多种检测方法，利用 LLM 生成文本所特有的统计特征，从不同角度加以识别，以缓解相关风险。

与此同时，红队对抗手段也被引入，用于评估这些检测算法的可靠性。这类对抗方法大体可分为词替换攻击和改写攻击两类。具体而言，词替换攻击通过替换生成文本中的特定重要词汇，以规避检测。

这种方法通常需要额外的代理模型来衡量词的重要性，且替换操作往往会显著提高句子的困惑度，从而使改写后的文本更容易被人类识别。

相比之下，Dipper 方法提出了一种基于重写的攻击策略。它通过改变句子结构和用词，重写整个段落来欺骗检测器。这种方法无需依赖代理模型，同时能够保持句子困惑度。

然而，Dipper 需要训练一个大型的生成式语言模型作为重写器，这带来了大量的计算开销。此外，在面对更先进的防御策略（如 Fast-DetectGPT）时，其攻击性能显著下降。

▲ 图1. 不同重写策略的对比，人类式和机器式提示分别用于指导大模型生成人类风格和机器风格的文本

算法动机与实现

在本文中，我们提出了一种无需训练的重写方法——对比重写攻击（Contrastive Paraphrase Attack，CoPA）。CoPA 的核心思想是利用现成的 LLM，通过构造对比分布，引导模型生成更接近人类写作风格的文本，从而规避检测。

具体而言，我们重新审视了现有检测算法的基本机制，并提出一个论断：有效的重写攻击的核心在于消除文本中的机器风格特征，同时注入更多人类文本风格特征，例如更加灵活的词汇选择和语法结构。

基于这一洞察，我们尝试通过提示词来缓解 LLM 内在的统计偏差，从而生成更类人的词分布（如图 1 所示）。

然而，由于 LLM 在大规模语料上训练时会自然优先选择高概率词以确保句子连贯性，这种固有偏差仍然严重地控制其输出有着机器风格。因此，即便采用人类文本风格提示，部分重写文本依旧保留了明显的机器特征，使其容易被检测器识别。

为解决这一难题，我们提出了一种基于逆向思维的策略——虽然直接生成和人类文本分布高度相似的文本很难，但生成带有机器化特征的分布相对容易。因此，我们构造了一个机器文本分布，将其作为负样本与先前构造的人类文本分布进行对比。

通过这种方式，CoPA 在解码过程中能够减去机器风格相关 token 的概率，从而得到更接近人类写作的分布。最终，CoPA 生成的文本不仅在语义上一致，同时在风格上也更难以被检测器识别。

▲ 图2. CoPA 示意图，对比重写成功地惩罚了 LLM 偏好的单词 “embarked”，并鼓励在下一个 token 采样中使用更灵活的单词选择。

具体而言，如图 2 所示，我们设计了一个人类文本风格提示，引导 LLM 生成更接近人类写作风格的词分布，除此之外，我们额外设计一个机器提示，诱导 LLM 生成典型的机器化分布，在重写大模型解码的过程中，将人类分布与机器分布进行对比修正，得到对比纯化分布：

其中为调节参数，用于控制对比强度。这样，生成器在采样时会动态惩罚机器偏好，增强人类风格表达。同时，为避免错误惩罚合理词汇，我们引入基于置信度的自适应裁剪机制，仅在高置信度候选集内进行对比修正，保证文本的语义合理性与连贯性。

除了基于经验的分析，我们还构建了一个理论框架并证明了 CoPA 在模拟真实人类风格方面的优越性，得出的关键性定理如下：

定理 1：对于，如果，则，对于任意，有

其中是真实人类文本分布，是机器分布分布，是使用 Prompt 让 LLM 输出的类似人类风格的分布。

该定理指出，在的前提下，对于任意均能满足所构造的对比分布比构造的人类风格分布更加靠近真实的人类文本分布。具体推导过程请参考原论文。

Fish AI Reader