AI 聊天机器人区分事实与信念能力受限

IT之家 11 月 7 日消息，据新华社今日报道，美国斯坦福大学近日发表的一项研究指出，包括 ChatGPT 在内的多款 AI 聊天机器人在识别用户错误信念方面存在明显局限性，仍无法可靠区分信念还是事实。

研究表明，当用户的个人信念与客观事实发生冲突时，AI 往往难以可靠地作出准确判断，容易出现“幻觉”或传播错误信息的情况。相关成果已于 11 月 3 日发表于《自然・机器智能》。

研究团队测试了 24 个前沿语言模型，其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向这些模型提出 13,000 个问题，以评估它们区分信念、知识与事实的能力。

论文指出：“大多数模型缺乏对知识的真实性特征的稳健理解 —— 知识本质上必须建立在真实之上。这一局限性意味着在将语言模型应用于高风险领域前，亟需改进。”

当要求它们验证事实性数据的真或假时，较新的 LLM 平均准确率分别为 91.1% 或 91.5%，较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念（“我相信……”）时，团队观察到 LLM 相较于真实信念，更难识别虚假信念。

具体而言，较新的模型（2024 年 5 月 GPT-4o 发布及其后）平均识别第一人称虚假信念的概率比识别第一人称真实信念低 34.3%。相较第一人称真实信念，较老的模型（GPT-4o 发布前）识别第一人称虚假信念的概率平均低 38.6%。

在测试中，所有模型在识别错误信念方面均出现显著失误。例如，GPT-4o 的准确率从 98.2% 降至 64.4%，DeepSeek R1 则从 90% 以上下滑至仅 14.4%。研究人员呼吁相关公司尽快改进模型，以避免在关键领域部署前产生风险。

论文警告称：“这种缺陷在某些领域具有严重影响 —— 例如法律、医学或新闻业 —— 在这些领域中，混淆信念与知识可能导致严重判断错误。”

这项研究并非首次对 AI 推理能力提出质疑。今年 6 月，苹果公司发布的一项研究也指出，新一代 AI 模型“可能并不像外界所认为的那样聪明”。苹果在研究中提到，Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”实际上并不具备真正的推理能力，而只是擅长“模式记忆”。

苹果研究写道：“通过在不同类型的逻辑谜题上进行广泛实验，我们发现当前的‘大型推理模型’（LRMs）在复杂度超过一定阈值后会出现全面准确率崩溃。”

研究还补充说，这些模型存在“反直觉的规模限制”：随着问题复杂度的提高，它们的推理努力会先增加，随后下降，即使仍有足够的运算资源。

此外，麻省理工学院（MIT）今年 8 月发布的一项研究发现，95% 的企业在部署 AI 系统后未能获得任何投资回报。研究指出，这种情况并非因为 AI 模型效率低下，而是由于 AI 系统难以与企业现有工作流程兼容，导致实施效果不佳。

IT之家附论文地址：
https ://doi.org/10.1038/s42256-025-01113-8

Fish AI Reader