让你更懂AI的 2025-09-16 23:56 北京
别再用静态阈值!
随着大语言模型(LLMs)在新闻创作、学术研究、评论生成等领域的广泛应用,其潜在滥用风险引发了公众对内容真实性的担忧,如 AI 生成假新闻误导舆论、AI 代写学术内容引发学术不端等问题。
在此背景下,构建可靠的 AI 生成文本检测系统成为亟待解决的关键课题。
在 AI 文本检测任务中,现有方法通常关注于如何抽象出一个判别分数(discrimination score),但总是忽视了同等重要的阈值(threshold)。此外,对于不同的文体风格,score 的分布也往往各不相同。
为此,本文介绍一篇 EMNLP 2025 接受的工作《MoSEs : Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds》。
为了动态地确定最优阈值,我们利用风格感知细化数据、建模语言特征估计阈值。此外,我们还联合判别分数对不确定性(AI 率)进行估计。与基线方法相比,MoSEs 的性能平均提升了 11.34%。在低资源场景下,提升更是达到了令人鼓舞的 39.15%。
论文标题:
MoSEs : Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds
论文链接:
https://arxiv.org/abs/2509.02499
当前 AI 生成文本检测方法主要可分为三类:一是基于词频、语法模式等手工设计语言特征的经典方法;二是利用神经网络捕捉潜在语义模式进行二分类的深度(非 LLM-based)方法;三是分析代理模型 token 级生成概率的 LLM-based 方法。
然而,这些方法存在两大核心局限:
1. 忽视文体风格建模
文体风格体现了人类写作中的职业特定惯习(Habitus,即长期文化背景形成的结构化行为倾向)。例如,记者撰写新闻时通常采用客观简洁的风格,学者撰写学术论文时则表现出严谨逻辑的风格。
但 LLMs 在多模态语料库中学习多种社会文化背景的混合特征,难以精准复现特定文化语境下人类真实的文体差异,而当前方法尚未充分挖掘这类文体线索的检测价值。
2. 决策过程静态且僵化
现有方法多基于判别分数设定静态阈值进行决策,未对语言属性相关的不确定性进行量化,导致在面对不同风格、不同长度的文本时,检测结果的可信度与适应性不足。
例如 AI 生成的新闻文本与日常对话文本的判别分数分布差异显著,静态阈值难以适配所有场景,易出现误判或漏判。
核心动机
动机 1:文体差异导致判别分数存在偏差,静态阈值无法适配为验证文体对检测结果的影响,我们开展跨风格分布分析,对比 AI 生成与人类撰写文本在 4 种典型风格(新闻 CNN、对话 DialogSum、影评 IMDB、生物医学问答 PubMedQA)中的判别分数分布。结果显示:
不同风格的 AI 生成文本,其判别分数集中区域差异极大。例如新闻(CNN)人类文本分数集中在 -0.2±0.7,而日常对话(DialogSum)人类文本分数则分布在 +1.0±0.6;人类撰写文本的分数分布因风格不同呈现显著区分度,使得与 AI 生成文本的“分界线”随风格变化而波动。
这种风格依赖的判别偏差表明,静态阈值(如固定某一分数作为区分界限)无法适配所有场景。若按新闻文本的最优阈值判断对话文本,会导致较多的误判或漏判,因此必须引入自适应的阈值调整机制。
为进一步验证 “条件特征” 对检测性能的增益,我们通过热力图分析(对应原文图 3),展示判别分数与 6 种语言统计属性的条件分布关系。关键发现包括:
单一判别分数维度下,人类与 AI 生成文本的分布重叠区域较高(例如部分场景重叠度达 0.30),导致模型难以精准区分;而融入语言统计属性后,重叠区域显著缩小。以 文本长度条件为例,重叠度从 0.30 降至 0.22,且其他属性均能提供互补区分信息。
这一结果证明,语言统计属性与判别分数的结合,可有效增强特征区分度,而现有方法未充分利用这类条件信息,导致判别能力受限。因此,MoSEs 框架需通过 “联合建模语言统计属性与语义特征”,突破单一分数判别的局限。
算法框架
MoSEs 框架通过三大核心组件协同工作,实现了风格感知与动态阈值决策,具体包括文体风格参考库(SRR)、文体风格感知路由器(SAR)与条件阈值估计器(CTE)。
图 1 展示了新闻、学术论文、社交媒体评论三类文本的检测流程。
首先,通过语言编码器对参考库标注条件特征与语义嵌入,再对待检测文本编码并在文体风格隐空间(Stylistics Latent Space)中激活特定的参考样本,最终结合判别分数与参考样本的条件特征输出检测结果及其概率。
1. 文体风格参考库(SRR):构建多风格文本特征参考
SRR 是包含多风格标注数据的集合,覆盖了新闻、故事、辩论、学术论文、对话、评论等跨领域文本,为后续风格匹配与阈值计算提供了全面的特征支撑,并为检测提供参考依据。
每条数据样本均标注了“人类生成 / AI 生成”的源标签,同时包含以下三类多维条件特征:
表层统计属性:文本长度、token 对数概率的均值与方差;
语言多样性特征:2-gram/3-gram 重复率、type-token ratio(TTR,衡量词汇多样性);
深度语义嵌入:预训练语言编码器(如 BGE-M3)提取的语义特征。
2. 文体风格感知路由器(SAR):动态匹配风格参考样本
SAR 的核心功能是基于输入文本的语义特征,从 SRR 中动态筛选匹配的参考样本,提升检测针对性。
在准备阶段,我们构建文体风格隐空间:对 SRR 中的语义嵌入进行聚类,每个文体类别用 K 个聚类原型(Prototype)表示,由此将样本与原型的距离计算复杂度从 O(N) 降至 O(SK)(N 为数据总数,S 为文体类别数),提升计算效率。
在检测阶段,我们采用动态原型检索:通过 m 近邻搜索,在隐空间中找到与输入文本语义特征最接近的 m 个原型,激活这些原型对应的参考样本组。注意到,我们并非将输入文本硬分类至特定文体,而是灵活匹配相似样本。
3. 条件阈值估计器(CTE):自适应计算最优分类阈值
CTE 结合 SAR 激活的参考样本与输入文本的多维特征,动态确定最优分类阈值,实现不确定性感知的决策。
具体的估计模型可以根据需要自主选择,文章展示了两种不同的实现模型,分别是逻辑回归(对应 MoSEs-lr)和 XGBoost(对应 MoSEs-xg),其中 MoSEs-lr 具有较强的可解释性,能够清晰量化各个条件特征对阈值确定过程的贡献,而 MoSEs-xg 则擅长捕捉不同条件特征之间的非线性交互关系,在检测性能上表现更优。
此外,我们的理论分析表明,CTE 估计的阈值与最优阈值的误差服从均值为 0 的高斯分布,具备渐近无偏性,从理论角度为检测可靠性提供了保障。
实验验证
本文在 8 个不同风格的实验数据集(4 个标准数据集、4 个低资源数据集),3 种判别分数模型(RoBERTa、Fast-DetectGPT、Lastde),以准确率(Accuracy)和 F1 分数为评价指标,全面地对比了 MoSEs 与静态阈值、最近邻投票两种基线方法的性能,同时验证了各组件的有效性。
具体而言,与基线方法相比,所提出方法的性能平均提升了 11.34%。在低资源场景下,提升更是达到了令人鼓舞的 39.15%。
1. 标准数据集实验结果
在 ChangeMyView(辩论)、XSum(新闻)、Reddit WritingPrompts(故事)、SciXGen(学术论文)4 个标准数据集(每个数据集含 1800 条参考样本、200 条测试样本)上,MoSEs 表现显著优于基线方法。
2. 低资源数据集实验结果
在 CNN/Daily Mail(新闻邮件)、DialogSum(日常对话)、IMDB(电影评论)、PubMedQA(生物医学问答)4 个低资源数据集(每个数据集仅含 200 条参考样本、200 条测试样本)上,MoSEs 的优势更为显著。
4. 消融实验结果
为验证各组件的必要性,本文开展了系统的消融实验,包括参考数据的选择策略(m 近邻激活或硬分类激活)、移除或保留 SAR、各个语言条件特征的消融、语义特征的压缩程度等等。
总结
MoSEs 框架通过文体建模与动态阈值决策,有效解决了现有 AI 生成文本检测方法忽视风格差异、依赖静态阈值的核心问题,在标准与低资源场景下均展现出卓越性能。核心贡献包括:
1. 首次实现职业特定写作风格的显式建模:提出 MoSEs 这一首个针对 AI 生成文本检测的 风格感知框架,充分考虑文化语境塑造的语言惯习(Habitus),能够依据输入文本的风格自动激活适配的参考样本,让检测过程更具精细化与针对性。
2. 构建多风格标注数据仓库:设计并构建了包含多样文本风格的标注数据仓库,库中每个样本均标注了多维度语言统计属性,为跨领域、多风格文本的检测分析提供了全面且可靠的特征基础。
3. 提出条件阈值估计与理论误差分析:引入条件阈值估计机制,通过联合建模语言统计属性与深度语义特征实现自适应决策;同时建立了估计阈值与最优阈值间的理论误差分析,从理论层面验证了阈值估计的有效性,为方法可靠性提供坚实支撑。
4. 全面性能突破:实验结果表明,MoSEs 在标准数据场景下检测性能优于现有方法,且在参考样本较少的低资源场景中表现更为突出,性能增益显著。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
