IT之家 11月07日 09:11
AI 聊天机器人区分事实与信念能力受限
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

斯坦福大学一项研究发现,包括 ChatGPT 在内的多款 AI 聊天机器人在识别用户错误信念方面存在明显局限性,难以可靠区分信念与事实。当用户个人信念与客观事实冲突时,AI 容易出现“幻觉”或传播错误信息。研究测试了 24 个前沿语言模型,通过 13,000 个问题评估其区分信念、知识与事实的能力。结果显示,AI 模型在识别第一人称虚假信念方面准确率显著下降,尤其是在处理复杂逻辑谜题时。研究人员呼吁尽快改进模型,以避免在法律、医学或新闻业等关键领域部署前产生风险。

🤖 **AI 在区分信念与事实方面存在挑战**:斯坦福大学的研究表明,当前包括 ChatGPT 在内的多款 AI 聊天机器人在处理用户信念时存在局限性,尤其难以区分个人信念与客观事实,这可能导致 AI 产生“幻觉”或传播不准确信息。

📉 **识别虚假信念准确率显著下降**:在测试中,AI 模型在识别用户的第一人称虚假信念时准确率大幅降低。相较于识别真实信念,识别虚假信念的概率平均低了 34.3%(较新模型)至 38.6%(较老模型),部分模型准确率从 90% 以上跌至 14.4%。

⚠️ **高风险领域应用需谨慎**:研究强调,AI 在区分信念和知识方面的缺陷可能在法律、医学或新闻业等领域产生严重后果,导致严重的判断错误。因此,在将语言模型应用于这些高风险领域前,亟需对其进行改进。

💡 **模型推理能力并非无限**:除此项研究外,苹果公司的研究也指出,新一代 AI 模型可能并非如外界所想般“聪明”,在复杂度超过阈值后,其准确率会崩溃,且存在“反直觉的规模限制”,表明其并非具备真正的推理能力,而是擅长“模式记忆”。

IT之家 11 月 7 日消息,据新华社今日报道,美国斯坦福大学近日发表的一项研究指出,包括 ChatGPT 在内的多款 AI 聊天机器人在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。

研究表明,当用户的个人信念与客观事实发生冲突时,AI 往往难以可靠地作出准确判断,容易出现“幻觉”或传播错误信息的情况。相关成果已于 11 月 3 日发表于《自然・机器智能》。

研究团队测试了 24 个前沿语言模型,其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向这些模型提出 13,000 个问题,以评估它们区分信念、知识与事实的能力。

论文指出:“大多数模型缺乏对知识的真实性特征的稳健理解 —— 知识本质上必须建立在真实之上。这一局限性意味着在将语言模型应用于高风险领域前,亟需改进。”

当要求它们验证事实性数据的真或假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到 LLM 相较于真实信念,更难识别虚假信念。

具体而言,较新的模型(2024 年 5 月 GPT-4o 发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低 34.3%。相较第一人称真实信念,较老的模型(GPT-4o 发布前)识别第一人称虚假信念的概率平均低 38.6%。

在测试中,所有模型在识别错误信念方面均出现显著失误。例如,GPT-4o 的准确率从 98.2% 降至 64.4%,DeepSeek R1 则从 90% 以上下滑至仅 14.4%。研究人员呼吁相关公司尽快改进模型,以避免在关键领域部署前产生风险。

论文警告称:“这种缺陷在某些领域具有严重影响 —— 例如法律、医学或新闻业 —— 在这些领域中,混淆信念与知识可能导致严重判断错误。”

这项研究并非首次对 AI 推理能力提出质疑。今年 6 月,苹果公司发布的一项研究也指出,新一代 AI 模型“可能并不像外界所认为的那样聪明”。苹果在研究中提到,Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”实际上并不具备真正的推理能力,而只是擅长“模式记忆”。

苹果研究写道:“通过在不同类型的逻辑谜题上进行广泛实验,我们发现当前的‘大型推理模型’(LRMs)在复杂度超过一定阈值后会出现全面准确率崩溃。”

研究还补充说,这些模型存在“反直觉的规模限制”:随着问题复杂度的提高,它们的推理努力会先增加,随后下降,即使仍有足够的运算资源。

此外,麻省理工学院(MIT)今年 8 月发布的一项研究发现,95% 的企业在部署 AI 系统后未能获得任何投资回报。研究指出,这种情况并非因为 AI 模型效率低下,而是由于 AI 系统难以与企业现有工作流程兼容,导致实施效果不佳。

IT之家附论文地址:
https ://doi.org/10.1038/s42256-025-01113-8

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 聊天机器人 ChatGPT 斯坦福大学 研究 自然语言处理 AI伦理 AI能力 LLM 人工智能 AI Chatbots Stanford University Research NLP AI Ethics AI Capabilities LLM
相关文章