PaperWeekly 09月18日
MoSEs:一种不确定性感知的 AI 生成文本检测方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着大语言模型在新闻、学术等领域广泛应用,其潜在滥用风险引发了对内容真实性的担忧。现有的 AI 文本检测方法通常关注于判别分数,但忽视了阈值的重要性以及文体风格的影响。本文介绍了一种名为 MoSEs 的新型检测方法,它通过混合文体专家和条件阈值来动态确定最优阈值,并联合判别分数对不确定性进行估计。实验结果表明,MoSEs 在标准数据集和低资源场景下均显著优于基线方法。

📚 MoSEs 是一种不确定性感知的 AI 生成文本检测方法,它通过混合文体专家和条件阈值来动态确定最优阈值,并联合判别分数对不确定性进行估计。

🔍 MoSEs 首次实现了职业特定写作风格的显式建模,充分考虑文化语境塑造的语言惯习(Habitus),能够依据输入文本的风格自动激活适配的参考样本,让检测过程更具精细化与针对性。

💾 MoSEs 构建了多风格标注数据仓库,库中每个样本均标注了多维度语言统计属性,为跨领域、多风格文本的检测分析提供了全面且可靠的特征基础。

📈 MoSEs 提出了条件阈值估计与理论误差分析,引入条件阈值估计机制,通过联合建模语言统计属性与深度语义特征实现自适应决策;同时建立了估计阈值与最优阈值间的理论误差分析,从理论层面验证了阈值估计的有效性,为方法可靠性提供坚实支撑。

🌟 MoSEs 在标准数据场景下检测性能优于现有方法,且在参考样本较少的低资源场景中表现更为突出,性能增益显著。

让你更懂AI的 2025-09-16 23:56 北京

别再用静态阈值!

随着大语言模型(LLMs)在新闻创作、学术研究、评论生成等领域的广泛应用,其潜在滥用风险引发了公众对内容真实性的担忧,如 AI 生成假新闻误导舆论、AI 代写学术内容引发学术不端等问题。

在此背景下,构建可靠的 AI 生成文本检测系统成为亟待解决的关键课题。

在 AI 文本检测任务中,现有方法通常关注于如何抽象出一个判别分数(discrimination score),但总是忽视了同等重要的阈值(threshold)。此外,对于不同的文体风格,score 的分布也往往各不相同。

为此,本文介绍一篇 EMNLP 2025 接受的工作《MoSEs : Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds》。

为了动态地确定最优阈值,我们利用风格感知细化数据、建模语言特征估计阈值。此外,我们还联合判别分数对不确定性(AI 率)进行估计。与基线方法相比,MoSEs 的性能平均提升了 11.34%。在低资源场景下,提升更是达到了令人鼓舞的 39.15%。

论文标题:

MoSEs : Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds

论文链接:

https://arxiv.org/abs/2509.02499

问题背景

当前 AI 生成文本检测方法主要可分为三类:一是基于词频、语法模式等手工设计语言特征的经典方法;二是利用神经网络捕捉潜在语义模式进行二分类的深度(非 LLM-based)方法;三是分析代理模型 token 级生成概率的 LLM-based 方法。

然而,这些方法存在两大核心局限:

1. 忽视文体风格建模

文体风格体现了人类写作中的职业特定惯习(Habitus,即长期文化背景形成的结构化行为倾向)。例如,记者撰写新闻时通常采用客观简洁的风格,学者撰写学术论文时则表现出严谨逻辑的风格。

但 LLMs 在多模态语料库中学习多种社会文化背景的混合特征,难以精准复现特定文化语境下人类真实的文体差异,而当前方法尚未充分挖掘这类文体线索的检测价值。

2. 决策过程静态且僵化

现有方法多基于判别分数设定静态阈值进行决策,未对语言属性相关的不确定性进行量化,导致在面对不同风格、不同长度的文本时,检测结果的可信度与适应性不足。

例如 AI 生成的新闻文本与日常对话文本的判别分数分布差异显著,静态阈值难以适配所有场景,易出现误判或漏判。

核心动机

动机 1:文体差异导致判别分数存在偏差,静态阈值无法适配

为验证文体对检测结果的影响,我们开展跨风格分布分析,对比 AI 生成与人类撰写文本在 4 种典型风格(新闻 CNN、对话 DialogSum、影评 IMDB、生物医学问答 PubMedQA)中的判别分数分布。结果显示:

不同风格的 AI 生成文本,其判别分数集中区域差异极大。例如新闻(CNN)人类文本分数集中在 -0.2±0.7,而日常对话(DialogSum)人类文本分数则分布在 +1.0±0.6;人类撰写文本的分数分布因风格不同呈现显著区分度,使得与 AI 生成文本的“分界线”随风格变化而波动。

这种风格依赖的判别偏差表明,静态阈值(如固定某一分数作为区分界限)无法适配所有场景。若按新闻文本的最优阈值判断对话文本,会导致较多的误判或漏判,因此必须引入自适应的阈值调整机制。

动机 2:融合语言统计属性可缩小人机文本分布重叠,提升判别能力

为进一步验证 “条件特征” 对检测性能的增益,我们通过热力图分析(对应原文图 3),展示判别分数与 6 种语言统计属性的条件分布关系。关键发现包括:

单一判别分数维度下,人类与 AI 生成文本的分布重叠区域较高(例如部分场景重叠度达 0.30),导致模型难以精准区分;而融入语言统计属性后,重叠区域显著缩小。以 文本长度条件为例,重叠度从 0.30 降至 0.22,且其他属性均能提供互补区分信息。

这一结果证明,语言统计属性与判别分数的结合,可有效增强特征区分度,而现有方法未充分利用这类条件信息,导致判别能力受限。因此,MoSEs 框架需通过 “联合建模语言统计属性与语义特征”,突破单一分数判别的局限。

算法框架

MoSEs 框架通过三大核心组件协同工作,实现了风格感知与动态阈值决策,具体包括文体风格参考库(SRR)、文体风格感知路由器(SAR)与条件阈值估计器(CTE)。

图 1 展示了新闻、学术论文、社交媒体评论三类文本的检测流程。

首先,通过语言编码器对参考库标注条件特征与语义嵌入,再对待检测文本编码并在文体风格隐空间(Stylistics Latent Space)中激活特定的参考样本,最终结合判别分数与参考样本的条件特征输出检测结果及其概率。

1. 文体风格参考库(SRR):构建多风格文本特征参考

SRR 是包含多风格标注数据的集合,覆盖了新闻、故事、辩论、学术论文、对话、评论等跨领域文本,为后续风格匹配与阈值计算提供了全面的特征支撑,并为检测提供参考依据。

每条数据样本均标注了“人类生成 / AI 生成”的源标签,同时包含以下三类多维条件特征:

2. 文体风格感知路由器(SAR):动态匹配风格参考样本

SAR 的核心功能是基于输入文本的语义特征,从 SRR 中动态筛选匹配的参考样本,提升检测针对性。

在准备阶段,我们构建文体风格隐空间:对 SRR 中的语义嵌入进行聚类,每个文体类别用 K 个聚类原型(Prototype)表示,由此将样本与原型的距离计算复杂度从 O(N) 降至 O(SK)(N 为数据总数,S 为文体类别数),提升计算效率。

在检测阶段,我们采用动态原型检索:通过 m 近邻搜索,在隐空间中找到与输入文本语义特征最接近的 m 个原型,激活这些原型对应的参考样本组。注意到,我们并非将输入文本硬分类至特定文体,而是灵活匹配相似样本。

3. 条件阈值估计器(CTE):自适应计算最优分类阈值

CTE 结合 SAR 激活的参考样本与输入文本的多维特征,动态确定最优分类阈值,实现不确定性感知的决策。

具体的估计模型可以根据需要自主选择,文章展示了两种不同的实现模型,分别是逻辑回归(对应 MoSEs-lr)和 XGBoost(对应 MoSEs-xg),其中 MoSEs-lr 具有较强的可解释性,能够清晰量化各个条件特征对阈值确定过程的贡献,而 MoSEs-xg 则擅长捕捉不同条件特征之间的非线性交互关系,在检测性能上表现更优。

此外,我们的理论分析表明,CTE 估计的阈值与最优阈值的误差服从均值为 0 的高斯分布,具备渐近无偏性,从理论角度为检测可靠性提供了保障。

实验验证

本文在 8 个不同风格的实验数据集(4 个标准数据集、4 个低资源数据集),3 种判别分数模型(RoBERTa、Fast-DetectGPT、Lastde),以准确率(Accuracy)和 F1 分数为评价指标,全面地对比了 MoSEs 与静态阈值、最近邻投票两种基线方法的性能,同时验证了各组件的有效性。

具体而言,与基线方法相比,所提出方法的性能平均提升了 11.34%。在低资源场景下,提升更是达到了令人鼓舞的 39.15%。

1. 标准数据集实验结果

在 ChangeMyView(辩论)、XSum(新闻)、Reddit WritingPrompts(故事)、SciXGen(学术论文)4 个标准数据集(每个数据集含 1800 条参考样本、200 条测试样本)上,MoSEs 表现显著优于基线方法。

2. 低资源数据集实验结果

在 CNN/Daily Mail(新闻邮件)、DialogSum(日常对话)、IMDB(电影评论)、PubMedQA(生物医学问答)4 个低资源数据集(每个数据集仅含 200 条参考样本、200 条测试样本)上,MoSEs 的优势更为显著。

4. 消融实验结果

为验证各组件的必要性,本文开展了系统的消融实验,包括参考数据的选择策略(m 近邻激活或硬分类激活)、移除或保留 SAR、各个语言条件特征的消融、语义特征的压缩程度等等。

总结

MoSEs 框架通过文体建模与动态阈值决策,有效解决了现有 AI 生成文本检测方法忽视风格差异、依赖静态阈值的核心问题,在标准与低资源场景下均展现出卓越性能。核心贡献包括:

1. 首次实现职业特定写作风格的显式建模:提出 MoSEs 这一首个针对 AI 生成文本检测的 风格感知框架,充分考虑文化语境塑造的语言惯习(Habitus),能够依据输入文本的风格自动激活适配的参考样本,让检测过程更具精细化与针对性。

2. 构建多风格标注数据仓库:设计并构建了包含多样文本风格的标注数据仓库,库中每个样本均标注了多维度语言统计属性,为跨领域、多风格文本的检测分析提供了全面且可靠的特征基础。

3. 提出条件阈值估计与理论误差分析:引入条件阈值估计机制,通过联合建模语言统计属性与深度语义特征实现自适应决策;同时建立了估计阈值与最优阈值间的理论误差分析,从理论层面验证了阈值估计的有效性,为方法可靠性提供坚实支撑。

4. 全面性能突破:实验结果表明,MoSEs 在标准数据场景下检测性能优于现有方法,且在参考样本较少的低资源场景中表现更为突出,性能增益显著。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 生成文本检测 MoSEs 文体风格建模 条件阈值估计 不确定性感知
相关文章