36kr-科技 17小时前
研究揭示大语言模型难以区分想法与事实
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项斯坦福大学研究团队的最新发现表明,当前包括 GPT-4o、Claude 3 和 Llama 3 在内的 24 款大型语言模型(LLM)在区分“个人想法”和“客观事实”方面存在显著局限。研究通过“知识与信念语言评估”(KaBLE)数据集,发现 LLM 易受第一人称表述的误导,并更倾向于相信第三人称的观点,即使这些观点是错误的。此外,模型在处理复杂推理和对细微语言变化敏感度方面也表现出不足,这可能导致在新闻、医疗、法律等高风险领域产生误导。研究强调了提升 LLM 在认知理解和推理能力上的迫切需求,以确保负责任的人工智能发展。

💡 **LLM 难以可靠区分信念与事实**:研究表明,当前大多数大型语言模型在区分个人想法(信念)和客观事实方面存在挑战。即使是先进的模型,在面对以“我认为”开头的错误陈述时,准确率也会大幅下降,显示出其在理解和判断用户情感表达与客观信息之间的界限时存在不足。

🧐 **对“我认为”的脆弱性**:即使是顶尖的推理型模型,也难以识别以第一人称表达的错误想法。当 LLM 面对“我相信 p”这样的陈述,而 p 在事实上是错误的时,模型表现会“崩溃”。例如,GPT-4o 在处理真实想法时准确率为 98.2%,但在处理错误想法时骤降至 64.4%,这可能在心理健康、教育和医疗等需要承认个体主观视角的领域引发担忧。

🗣️ **更相信“Ta 认为”,而非“我认为”**:研究发现 LLM 在处理想法时会根据归属对象而异。模型在确认第三人称的错误信念(“Ta 认为”)时表现明显更好,但在确认第一人称的错误信念(“我认为”)时表现显著较差。这可能源于训练数据中关于“Ta 认为”的语料远多于个人想法与事实冲突的示例,削弱了 LLM 的交流能力。

🧩 **表面模式匹配而非深层理解**:对“递归知识”等任务的评估显示,部分模型可能只是在进行表层的模式匹配,而非真正掌握了“认识语言”的逻辑本质。此外,LLM 对一些看似无关紧要的语言细节(如增加一个词“really”)反应非常敏感,准确率会大幅下降,表明其理解停留在表面,而非揣摩说话者的真实意图或句子的深层含义。

🚨 **高风险领域应用挑战**:研究结果对 LLM 在新闻业、医疗、法律推理、教育及科学交流等需要区分认知层次的领域应用具有深远影响。即使是 SOTA 模型也存在这些局限性,凸显了改进 AI 系统在“信念、知识与事实”表征和推理能力方面的紧迫性,是负责任人工智能发展的基本要求。

一项关于 ChatGPT 的用户数据显示,有超过 100 万人在聊天过程中表现出自杀倾向。这类高风险对话凸显了人工智能(AI)在涉及人类情绪与想法的情境中,正确理解、判断用户情感表达的重要性。

在人类认知中,区分“想法”“事实”轻而易举。医生在面对患者说“我觉得我得了癌症”时,不会直接否定或附和,而是会在承认患者感受的同时,依据检测结果判断真相。

但当大语言模型(LLM)被用于医疗、法律、新闻等高风险领域时,它们能否像人类一样区分“个人想法”和“客观事实”,就成了关键问题。若缺乏这种能力,LLM 不仅可能误导判断,还可能在无意中放大错误信息的影响。

基于此,斯坦福大学副教授 James Zou 教授团队及其合作者通过一系列“原子化”的语言任务,对 LLM 的认知局限进行了系统性的检验。

相关研究论文以“Language models cannot reliably distinguish belief from knowledge and fact” 为题,已发表在权威科学期刊《自然·机器智能》上。

论文链接:https://www.nature.com/articles/s42256-025-01113-8

研究团队采用名为“知识与信念语言评估”(KaBLE)的数据集,对 DeepSeek-R1、OpenAI o1、Gemini 2.0、Claude 3 和 Llama 3 等 24 款 LLM 的核心认知理解与推理能力进行了系统评估。 

据介绍,KaBLE 包含 13 个任务的 13000 道题目,通过在历史、文学、医学和法律等 10 个领域中巧妙结合事实陈述与虚假陈述,严格检验 LLM 在区别“个人想法”和“客观事实”中的能力。事实陈述均来自《大英百科全书》等权威来源。每个事实陈述都配有虚假版本,保持相似语义内容但引入细微偏差。

图1|KaBLE 数据集中的真实陈述与虚假陈述示例。

在实验中,研究人员将 LLM 分为两组进行评估。包括:

实验结果揭示了 LLM 的 5 方面局限性,如下:

难辨对错

研究发现,在判断“对”和“错”这件事上,不同模型的表现参差不齐。

旧一代 LLM(如 GPT-3.5)在识别错误信息时准确率仅 49.4%,识别真实信息的准确率为 89.8%。这种失衡揭示了 LLM 不稳定的决策边界:当面对潜在的虚假信息时,旧一代 LLM 经常表现出犹豫,这种无法可靠识别虚假信息的缺陷会在新闻事实核查等关键场景应用中,会产生严重后果。

但新一代 LLM(尤其是 o1、DeepSeek R1)在“识别错误信息”上更敏锐,这意味着它们的判断逻辑更鲁棒,能主动质疑输入内容。

图2|LLM 在验证(Ver.)、确认(Conf.)和递归知识(rec.)任务上的准确率。其中,第一人称主语记为 1P,第三人称主语记为 3P;Avg 表示各任务的平均准确率;事实性场景标记为 T,虚假场景标记为 F。

轻易被“我认为”欺骗

即便是 SOTA 推理型模型,也难以识别以第一人称表达(我认为)的错误想法。当 LLM 面对类似 “我相信 p” 这样的陈述,p 在事实层面是错误的时,其会出现崩溃。例如,GPT-4o 在处理真实想法时准确率为 98.2%,但在处理错误想法时骤降至 64.4%;DeepSeek-R1 则从 90% 以上跌至仅 14.4%。

这意味 LLM 往往更倾向于纠正事实错误,而不是去识别并尊重个人的想法表达。这一倾向在心理健康、教育和医疗等承认个体的主观视角比事实本身更重要的领域会引发担忧。

图3|LLM 在涉及虚假陈述的第一人称想法任务中的验证(左)和确认(右)表现。与处理真实陈述时相比,几乎所有 LLM 在应对虚假想法时的准确率都有所下降。

更相信“Ta 认为”

研究人员发现,LLM 在处理想法时会根据归属于“谁”而不同。如图 2,LLM 在确认第三人称的错误信念( Ta 认为)时表现明显更好(旧一代 LLM 为 79%,新一代 LLM 为 95%),而在确认第一人称的错误信念(我认为)时表现显著较差(旧一代 LLM 为 52.5%,新一代 LLM 为 62.6%)。

第三人称任务的高准确性说明,训练数据集中充斥着大量关于“Ta 认为”的语料,但几乎没有关于个人想法与事实冲突的表达示例,这极大削弱了 LLM 的交流能力。

只是表面的模式匹配

如图 2(rec.),研究人员对“递归知识”(如“甲知道乙认识丙”)的评估显示,部分以推理为导向的模型(如 OpenAI o1、Gemini 2.0 Flash 和 Llama 3.3 70B)几乎全对;但也有一些模型,尤其是某些 Claude 3、Llama 3 以及 DeepSeek R1 的版本,在这类任务中表现不佳。

定性分析还发现,即使像 Gemini 2.0 Flash 这样的模型,它的推理过程也并不稳定,有时还会自相矛盾。这说明它们更可能是在进行表层的模式匹配,而非真正掌握了“认识语言”(epistemic language)的逻辑本质,这些局限会削弱 LLM 在法律、科学推理等领域的表现。

听得懂“词”,但听不懂“话”

研究发现,LLM 对一些看似无关紧要的语言细节反应非常敏感。例如,在判断“个人想法”时,只多加一个词——“really”(例如 “Do I really believe that p?”)—— LLM 的准确率就会大幅下降。

处理虚假想法时,Llama 3.3 70B 的准确率从 94.2% 掉到 63.6%,GPT-4o 从 83.8% 掉到 27.4%,Claude 3.7-Sonnet 也从 67.8% 降到 39.2%。这说明 LLM 对语言的理解依然停留在表面,靠共现和模式去推理,而不去揣摩说话者的真实意图或句子的深层含义。

总体而言,这些研究结果对 LLM 在区分认知层次至关重要的领域中(如新闻业、医疗、法律推理、教育及科学交流)的应用,具有深远影响。

尤其值得注意的是,研究中揭示的局限性甚至存在于 SOTA 模型之中,这凸显出亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力。随着这类技术日益融入关键决策场景,弥补这些认知盲点不仅是技术挑战,更是负责任人工智能发展的基本要求。

或许,在未来的研究中,为了更有效地回应用户提问并防止错误信息的传播,LLM 不仅需要在更复杂的社会语境中,熟练区分“个人观点”与“客观事实”的细微差异及真伪,还必须理解“人们为何会相信某个信息是真或假”。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),整理:潇潇 ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大型语言模型 AI伦理 认知局限 事实核查 自然语言处理 Large Language Models AI Ethics Cognitive Limitations Fact-Checking Natural Language Processing
相关文章