用AI写论文的情况，可能比想象中更普遍

随着生成式AI工具的日益普及，它在科研场景中的应用也越来越常见。

从一开始的语言润色和结构优化，到如今直接参与段落生成，先不说正确程度如何，如我们所见，AI正在走进更多的学术写作过程之中。最近发表在《Nature Human Behaviour》上的一项研究，首次以大规模统计方式量化了这一趋势。

研究团队分析了2020至2024年间超百万篇科学论文，重点考察了摘要和引言部分的语言特征，寻找由大语言模型（LLM）生成或修改的迹象。结果显示，到2024年9月，计算机科学论文中已有22.5%的摘要可能经过了AI处理，电子工程为18%，统计学12.9%，在生物医学、物理、数学等领域也都检测到明显增长。不同学科的使用率差异，或许与研究者对AI工具的熟悉程度有关。

研究团队并未直接使用现成的AI检测工具，而是自行训练了一个基于词频统计的识别模型。具体来说，他们先从ChatGPT问世前的论文中提取段落，让LLM对其进行摘要，然后再基于摘要提示模型生成完整段落。通过将原始段落和AI生成段落进行对比训练，模型逐渐学会识别某些特定词汇在AI文本中的高频特征，例如“pivotal”“intricate”或“showcase”——这些词在传统学术写作中极为少见，却常出现在AI生成内容中。最终，这一模型被用于分析超过112万篇论文的摘要与引言，以判断其中可能存在的AI写作痕迹。

过去两年，关于AI介入科研写作的讨论一直没有停止。一些早期案例中，论文甚至包含诸如“regenerate response”“my knowledge cutoff”这类AI专属术语，引发广泛关注。有研究者还专门建立数据库，记录这些可疑文本。虽然不少期刊已出台相关规定，但从这项研究的数据来看，AI使用仍在不断增长。

与此同时，AI写作的“隐蔽性”也在增强。一项2023年的实验表明，即使是专业研究人员，也有三分之一的情况下无法识别由ChatGPT生成的医学论文摘要。加上使用者有意规避“高危词汇”，让内容看起来更像人类撰写，使得外部识别变得更加困难。

除了人工辨识的局限性，也有研究试图通过语言模式的微小变化来探测AI写作的痕迹。德国图宾根大学的数据科学家 Dmitry Kobak 领导的一项研究，近期发表于《Science Advances》，即采用“过量词”（excess words）的方法，对PubMed数据库中2010至2024年间收录的超过1500万篇医学论文进行了分析。团队发现，在ChatGPT发布之后，一些原本少见的词汇频率显著上升。研究结果显示，2024年发表的生物医学研究摘要中，大约七分之一可能由AI参与撰写。

这种变化也带来了一些结构性担忧。随着越来越多论文在引用、综述和引言部分依赖AI生成，可能导致语言风格趋同，内容原创性降低。更长远的风险在于，如果未来训练新的语言模型时所使用的语料中，混入大量由AI生成的内容，可能会形成反馈循环，影响模型质量。

不过，也有学者尝试从另一个角度理解AI的潜力。斯坦福大学的研究者正在筹划一次由AI负责写作和审稿的会议，希望检验AI是否具备提出问题、生成研究方法乃至形成新观点的能力。这种实验既是探索也是试探，或许会出现意料之外的亮点，也难免伴随一些荒诞的错误。

不可否认的是，AI写作正在成为科研的一部分。从写摘要、查文献到初稿生成，它逐渐融入了研究者的日常工具箱。在效率提升之外，也带来了新的规范挑战。对整个学术出版系统而言，AI写作正在以一种缓慢但持续的方式融入科研流程——正如此次研究的联合作者James Zou所说：“无论好坏，大语言模型正在成为科学研究过程的一部分。”而这种变化，仍在进行中。

封面来源：Levart_Photographer on Unsplash

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签