MoSEs：一种不确定性感知的 AI 生成文本检测方法

让你更懂AI的 2025-09-16 23:56 北京

别再用静态阈值！

随着大语言模型（LLMs）在新闻创作、学术研究、评论生成等领域的广泛应用，其潜在滥用风险引发了公众对内容真实性的担忧，如 AI 生成假新闻误导舆论、AI 代写学术内容引发学术不端等问题。

在此背景下，构建可靠的 AI 生成文本检测系统成为亟待解决的关键课题。

在 AI 文本检测任务中，现有方法通常关注于如何抽象出一个判别分数（discrimination score），但总是忽视了同等重要的阈值（threshold）。此外，对于不同的文体风格，score 的分布也往往各不相同。

为此，本文介绍一篇 EMNLP 2025 接受的工作《MoSEs : Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds》。

为了动态地确定最优阈值，我们利用风格感知细化数据、建模语言特征估计阈值。此外，我们还联合判别分数对不确定性（AI 率）进行估计。与基线方法相比，MoSEs 的性能平均提升了 11.34%。在低资源场景下，提升更是达到了令人鼓舞的 39.15%。

论文标题：

MoSEs : Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds

论文链接：

https://arxiv.org/abs/2509.02499

问题背景

当前 AI 生成文本检测方法主要可分为三类：一是基于词频、语法模式等手工设计语言特征的经典方法；二是利用神经网络捕捉潜在语义模式进行二分类的深度（非 LLM-based）方法；三是分析代理模型 token 级生成概率的 LLM-based 方法。

然而，这些方法存在两大核心局限：

1. 忽视文体风格建模

文体风格体现了人类写作中的职业特定惯习（Habitus，即长期文化背景形成的结构化行为倾向）。例如，记者撰写新闻时通常采用客观简洁的风格，学者撰写学术论文时则表现出严谨逻辑的风格。

但 LLMs 在多模态语料库中学习多种社会文化背景的混合特征，难以精准复现特定文化语境下人类真实的文体差异，而当前方法尚未充分挖掘这类文体线索的检测价值。

2. 决策过程静态且僵化

现有方法多基于判别分数设定静态阈值进行决策，未对语言属性相关的不确定性进行量化，导致在面对不同风格、不同长度的文本时，检测结果的可信度与适应性不足。

例如 AI 生成的新闻文本与日常对话文本的判别分数分布差异显著，静态阈值难以适配所有场景，易出现误判或漏判。

核心动机

动机 1：文体差异导致判别分数存在偏差，静态阈值无法适配

为验证文体对检测结果的影响，我们开展跨风格分布分析，对比 AI 生成与人类撰写文本在 4 种典型风格（新闻 CNN、对话 DialogSum、影评 IMDB、生物医学问答 PubMedQA）中的判别分数分布。结果显示：

不同风格的 AI 生成文本，其判别分数集中区域差异极大。例如新闻（CNN）人类文本分数集中在 -0.2±0.7，而日常对话（DialogSum）人类文本分数则分布在 +1.0±0.6；人类撰写文本的分数分布因风格不同呈现显著区分度，使得与 AI 生成文本的“分界线”随风格变化而波动。

这种风格依赖的判别偏差表明，静态阈值（如固定某一分数作为区分界限）无法适配所有场景。若按新闻文本的最优阈值判断对话文本，会导致较多的误判或漏判，因此必须引入自适应的阈值调整机制。

动机 2：融合语言统计属性可缩小人机文本分布重叠，提升判别能力

为进一步验证 “条件特征” 对检测性能的增益，我们通过热力图分析（对应原文图 3），展示判别分数与 6 种语言统计属性的条件分布关系。关键发现包括：

单一判别分数维度下，人类与 AI 生成文本的分布重叠区域较高（例如部分场景重叠度达 0.30），导致模型难以精准区分；而融入语言统计属性后，重叠区域显著缩小。以文本长度条件为例，重叠度从 0.30 降至 0.22，且其他属性均能提供互补区分信息。

这一结果证明，语言统计属性与判别分数的结合，可有效增强特征区分度，而现有方法未充分利用这类条件信息，导致判别能力受限。因此，MoSEs 框架需通过 “联合建模语言统计属性与语义特征”，突破单一分数判别的局限。

算法框架

MoSEs 框架通过三大核心组件协同工作，实现了风格感知与动态阈值决策，具体包括文体风格参考库（SRR）、文体风格感知路由器（SAR）与条件阈值估计器（CTE）。

图 1 展示了新闻、学术论文、社交媒体评论三类文本的检测流程。

首先，通过语言编码器对参考库标注条件特征与语义嵌入，再对待检测文本编码并在文体风格隐空间（Stylistics Latent Space）中激活特定的参考样本，最终结合判别分数与参考样本的条件特征输出检测结果及其概率。

1. 文体风格参考库（SRR）：构建多风格文本特征参考

SRR 是包含多风格标注数据的集合，覆盖了新闻、故事、辩论、学术论文、对话、评论等跨领域文本，为后续风格匹配与阈值计算提供了全面的特征支撑，并为检测提供参考依据。

每条数据样本均标注了“人类生成 / AI 生成”的源标签，同时包含以下三类多维条件特征：

表层统计属性：文本长度、token 对数概率的均值与方差；

语言多样性特征：2-gram/3-gram 重复率、type-token ratio（TTR，衡量词汇多样性）；

深度语义嵌入：预训练语言编码器（如 BGE-M3）提取的语义特征。

2. 文体风格感知路由器（SAR）：动态匹配风格参考样本

SAR 的核心功能是基于输入文本的语义特征，从 SRR 中动态筛选匹配的参考样本，提升检测针对性。

在准备阶段，我们构建文体风格隐空间：对 SRR 中的语义嵌入进行聚类，每个文体类别用 K 个聚类原型（Prototype）表示，由此将样本与原型的距离计算复杂度从 O(N) 降至 O(SK)（N 为数据总数，S 为文体类别数），提升计算效率。

在检测阶段，我们采用动态原型检索：通过 m 近邻搜索，在隐空间中找到与输入文本语义特征最接近的 m 个原型，激活这些原型对应的参考样本组。注意到，我们并非将输入文本硬分类至特定文体，而是灵活匹配相似样本。

3. 条件阈值估计器（CTE）：自适应计算最优分类阈值

CTE 结合 SAR 激活的参考样本与输入文本的多维特征，动态确定最优分类阈值，实现不确定性感知的决策。

具体的估计模型可以根据需要自主选择，文章展示了两种不同的实现模型，分别是逻辑回归（对应 MoSEs-lr）和 XGBoost（对应 MoSEs-xg），其中 MoSEs-lr 具有较强的可解释性，能够清晰量化各个条件特征对阈值确定过程的贡献，而 MoSEs-xg 则擅长捕捉不同条件特征之间的非线性交互关系，在检测性能上表现更优。

此外，我们的理论分析表明，CTE 估计的阈值与最优阈值的误差服从均值为 0 的高斯分布，具备渐近无偏性，从理论角度为检测可靠性提供了保障。

实验验证

本文在 8 个不同风格的实验数据集（4 个标准数据集、4 个低资源数据集），3 种判别分数模型（RoBERTa、Fast-DetectGPT、Lastde），以准确率（Accuracy）和 F1 分数为评价指标，全面地对比了 MoSEs 与静态阈值、最近邻投票两种基线方法的性能，同时验证了各组件的有效性。

具体而言，与基线方法相比，所提出方法的性能平均提升了 11.34%。在低资源场景下，提升更是达到了令人鼓舞的 39.15%。

1. 标准数据集实验结果

在 ChangeMyView（辩论）、XSum（新闻）、Reddit WritingPrompts（故事）、SciXGen（学术论文）4 个标准数据集（每个数据集含 1800 条参考样本、200 条测试样本）上，MoSEs 表现显著优于基线方法。

2. 低资源数据集实验结果

在 CNN/Daily Mail（新闻邮件）、DialogSum（日常对话）、IMDB（电影评论）、PubMedQA（生物医学问答）4 个低资源数据集（每个数据集仅含 200 条参考样本、200 条测试样本）上，MoSEs 的优势更为显著。

4. 消融实验结果

为验证各组件的必要性，本文开展了系统的消融实验，包括参考数据的选择策略（m 近邻激活或硬分类激活）、移除或保留 SAR、各个语言条件特征的消融、语义特征的压缩程度等等。

总结

MoSEs 框架通过文体建模与动态阈值决策，有效解决了现有 AI 生成文本检测方法忽视风格差异、依赖静态阈值的核心问题，在标准与低资源场景下均展现出卓越性能。核心贡献包括：

1. 首次实现职业特定写作风格的显式建模：提出 MoSEs 这一首个针对 AI 生成文本检测的风格感知框架，充分考虑文化语境塑造的语言惯习（Habitus），能够依据输入文本的风格自动激活适配的参考样本，让检测过程更具精细化与针对性。

2. 构建多风格标注数据仓库：设计并构建了包含多样文本风格的标注数据仓库，库中每个样本均标注了多维度语言统计属性，为跨领域、多风格文本的检测分析提供了全面且可靠的特征基础。

3. 提出条件阈值估计与理论误差分析：引入条件阈值估计机制，通过联合建模语言统计属性与深度语义特征实现自适应决策；同时建立了估计阈值与最优阈值间的理论误差分析，从理论层面验证了阈值估计的有效性，为方法可靠性提供坚实支撑。

4. 全面性能突破：实验结果表明，MoSEs 在标准数据场景下检测性能优于现有方法，且在参考样本较少的低资源场景中表现更为突出，性能增益显著。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签