针对大语言模型(LLM)生成文本的检测器,研究人员提出了“对比重写攻击”(CoPA)方法。CoPA无需额外训练,而是利用现有大模型,通过构造对比分布,引导模型生成更接近人类写作风格的文本,从而有效绕过主流检测算法。该方法通过修正LLM的固有语言偏差,减少机器风格特征,同时保持文本的语义一致性。实验表明,CoPA在欺骗文本检测器的成功率上显著优于现有基线方法,且在多种检测器上表现稳定,同时保持了良好的语义保留性。
💡 **CoPA:一种无需训练的AI文本检测规避新方法**
论文提出了一种名为“对比重写攻击”(Contrastive Paraphrase Attack,CoPA)的创新方法,旨在解决现有AI文本检测器(特别是针对大语言模型LLM生成文本)的局限性。与以往需要大量数据和计算资源进行模型训练的重写攻击不同,CoPA是一种“即插即用”的解决方案,能够直接利用现成的大模型进行文本改写,从而有效规避检测。
🎭 **利用对比分布生成更类人的文本风格**
CoPA的核心思想在于通过引导LLM生成更接近人类写作风格的文本来绕过检测。它通过设计特定的提示词,诱导模型生成一个“类人”的词汇分布,并同时构造一个“机器化”的词汇分布作为负样本。在文本生成过程中,CoPA会动态地对机器偏好的词汇进行惩罚,并鼓励模型选择更灵活、更具人类风格的词汇,从而在生成的文本中注入更多自然、多样的表达方式。
🚀 **理论与实践的双重验证,效果显著**
该研究不仅提供了理论上的分析,证明了CoPA构造的对比分布能够更有效地逼近真实人类文本分布,还在实际实验中得到了充分验证。在XSum、SQuAD、LongQA等三个主流数据集上,针对8种主流AI文本检测算法的测试表明,CoPA的攻击成功率平均提升了30.55%,显著优于Dipper等基线方法,并且在面对先进检测算法时依然表现稳定。同时,CoPA在改写过程中能够保持超过90%的语义相似度,保证了文本的质量。
🛡️ **为检测系统鲁棒性审计提供新工具**
CoPA的提出不仅为研究人员提供了一种更有效的对抗AI文本检测的方法,也被视为一种审计检测系统鲁棒性的有力工具。通过这种无需训练的、高效的攻击手段,可以更全面地评估现有AI文本检测算法的可靠性,并有望激发研究人员开发出更强大、更具韧性的检测算法,从而推动AI安全领域的发展。
原创 让你更懂AI的 2025-09-15 23:37 北京
免训练一招见效!

大语言模型(LLM)的滥用(如学术抄袭、虚假信息生成)推动了 LLM 文本检测器的发展,用于判别由模型生成的文本。为规避这些检测器,研究人员提出了重写攻击,即有意重写文本以逃避检测。尽管已有一定成效,但现有方法需要大量数据与计算资源来训练专门的改写模型,并且在面对先进检测算法时效果显著下降。为解决这一问题,我们提出了一种对比重写攻击(Contrastive Paraphrase Attack,CoPA),该方法无需额外训练,可利用现成的大模型生成更接近人类风格的文本,从而有效绕过主流检测器。该成果发布在 EMNLP 2025 上。论文标题:
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors
论文链接:
https://arxiv.org/abs/2505.15337
代码链接:
https://github.com/ffhibnese/CoPA_Contrastive_Paraphrase_Attacks
问题背景大型语言模型(LLM),如 GPT-4 和 Claude-3.5,在文本理解与生成方面展现了卓越的能力。这些能力推动了它们在诸多领域的广泛应用,包括代码生成和学术研究等。然而,LLM 的滥用问题也引发了广泛的社会关注,例如学术抄袭和虚假信息生成。为此,研究人员提出了多种检测方法,利用 LLM 生成文本所特有的统计特征,从不同角度加以识别,以缓解相关风险。与此同时,红队对抗手段也被引入,用于评估这些检测算法的可靠性。这类对抗方法大体可分为词替换攻击和改写攻击两类。具体而言,词替换攻击通过替换生成文本中的特定重要词汇,以规避检测。这种方法通常需要额外的代理模型来衡量词的重要性,且替换操作往往会显著提高句子的困惑度,从而使改写后的文本更容易被人类识别。相比之下,Dipper 方法提出了一种基于重写的攻击策略。它通过改变句子结构和用词,重写整个段落来欺骗检测器。这种方法无需依赖代理模型,同时能够保持句子困惑度。然而,Dipper 需要训练一个大型的生成式语言模型作为重写器,这带来了大量的计算开销。此外,在面对更先进的防御策略(如 Fast-DetectGPT)时,其攻击性能显著下降。▲ 图1. 不同重写策略的对比,人类式和机器式提示分别用于指导大模型生成人类风格和机器风格的文本算法动机与实现在本文中,我们提出了一种无需训练的重写方法——对比重写攻击(Contrastive Paraphrase Attack,CoPA)。CoPA 的核心思想是利用现成的 LLM,通过构造对比分布,引导模型生成更接近人类写作风格的文本,从而规避检测。
具体而言,我们重新审视了现有检测算法的基本机制,并提出一个论断:有效的重写攻击的核心在于消除文本中的机器风格特征,同时注入更多人类文本风格特征,例如更加灵活的词汇选择和语法结构。
基于这一洞察,我们尝试通过提示词来缓解 LLM 内在的统计偏差,从而生成更类人的词分布(如图 1 所示)。然而,由于 LLM 在大规模语料上训练时会自然优先选择高概率词以确保句子连贯性,这种固有偏差仍然严重地控制其输出有着机器风格。因此,即便采用人类文本风格提示,部分重写文本依旧保留了明显的机器特征,使其容易被检测器识别。为解决这一难题,我们提出了一种基于逆向思维的策略——虽然直接生成和人类文本分布高度相似的文本很难,但生成带有机器化特征的分布相对容易。因此,我们构造了一个机器文本分布,将其作为负样本与先前构造的人类文本分布进行对比。通过这种方式,CoPA 在解码过程中能够减去机器风格相关 token 的概率,从而得到更接近人类写作的分布。最终,CoPA 生成的文本不仅在语义上一致,同时在风格上也更难以被检测器识别。▲ 图2. CoPA 示意图,对比重写成功地惩罚了 LLM 偏好的单词 “embarked”,并鼓励在下一个 token 采样中使用更灵活的单词选择。具体而言,如图 2 所示,我们设计了一个人类文本风格提示 ,引导 LLM 生成更接近人类写作风格的词分布 ,除此之外,我们额外设计一个机器提示 ,诱导 LLM 生成典型的机器化分布 ,在重写大模型解码的过程中,将人类分布与机器分布进行对比修正,得到对比纯化分布:其中 为调节参数,用于控制对比强度。这样,生成器在采样时会动态惩罚机器偏好,增强人类风格表达。同时,为避免错误惩罚合理词汇,我们引入基于置信度的自适应裁剪机制,仅在高置信度候选集内进行对比修正,保证文本的语义合理性与连贯性。 除了基于经验的分析,我们还构建了一个理论框架并证明了 CoPA 在模拟真实人类风格方面的优越性,得出的关键性定理如下:
定理 1:对于 ,如果 ,则 ,对于任意 ,有其中 是真实人类文本分布, 是机器分布分布, 是使用 Prompt 让 LLM 输出的类似人类风格的分布。该定理指出,在 的前提下,对于任意 均能满足所构造的对比分布比构造的人类风格分布 更加靠近真实的人类文本分布。具体推导过程请参考原论文。 实验结果如表 1 所示,我们在三个主流文本数据集(XSum、SQuAD、LongQA)上,针对 8 种 AI 文本检测算法开展了系统全面的实验验证,证实了所提出算法的有效性。▲ 表1. 使用来自三个不同数据集的 GPT-3.5-turbo 生成文本,对 8 种文本检测算法(FPR=5%)进行不同重写攻击的性能比较更强的攻击效果。通过在词分布上进行自我校正,CoPA 在攻击效果上显著优于基线方法。例如,在三个数据集上,平均欺骗文本检测器的成功率提升了 30.55%。尽管 Dipper 在部分检测器上表现尚可,但在面对更先进的算法(如 FastDetectGPT)时,其效果会显著下降。相比之下,CoPA 在多种检测器上始终展现出稳定而突出的攻击性能。值得注意的是,尽管 Raidar-A 和 CoPA 使用了同一个 LLM 作为改写器,CoPA 仍然远超 Raidar-A,这验证了我们所设计的提示词与对比式改写机制的有效性。良好的语义保持性。在改写文本的质量方面,我们的实验表明,CoPA 在多个数据集上的平均语义相似度超过 90%,这证明了该方法在改写过程中能够有效保持语义一致性。虽然 Raidar-A 的文本相似度更高,但其攻击效果依然相当有限。相比之下,CoPA 同时在攻击效果和语义一致性上都取得了优异表现。对于更多原模型和消融实验的结果,请参考原论文。总结与思考在本研究中,我们聚焦于针对 AI 生成文本检测器的红队攻击。我们首先指出了现有攻击方法存在的关键局限,并尝试通过提示词来缓解 LLM 内在的统计偏差。在此基础上,本文提出 CoPA,一种简单而高效的针对 AI 生成文本检测器的释义攻击方法。CoPA 构造了一种机器风格的词元分布,作为负对比项,以减轻大语言模型(LLM)的语言偏差,并促进生成更加丰富和多样化的句子。通过理论分析与实验验证,我们全面展示了该方法在多种场景下的优越性。我们将 CoPA 视为一种用于审计检测系统鲁棒性的有力工具,并期望其能够激发更鲁棒的检测算法的发展。更多阅读