新智元 09月22日 18:35
大模型外挂“逻辑脑”,空间推理准确率大幅提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中德研究团队发布创新神经-符号框架,为大语言模型(LLMs)外挂“逻辑脑”,结合LLM的直觉与答案集编程(ASP)的严谨逻辑,显著提升空间推理能力。该框架通过“翻译-执行-修正”的迭代反馈循环,解决了LLM在复杂逻辑推理中常出现的“逻辑断裂”问题,准确率大幅提高。这种“神经-符号”双系统不仅使AI推理过程透明可追溯,还能跨任务迁移,是迈向更可靠通用推理的重要一步。

💡 **神经-符号双系统提升推理能力**:研究团队提出了一种创新的神经-符号框架,将大语言模型(LLM)的直觉式“快思考”与答案集编程(ASP)的严谨逻辑式“慢思考”相结合。LLM负责将自然语言问题转化为结构化的逻辑代码(翻译),ASP求解器负责执行逻辑推理,并通过迭代反馈循环进行自我修正。这种“外挂逻辑脑”的方式,显著弥合了神经网络模式识别能力与符号系统严谨逻辑之间的鸿沟,尤其在空间推理任务上表现突出。

🔄 **“翻译-执行-修正”的迭代反馈循环**:该框架的核心在于其自动迭代反馈机制。当ASP求解器在执行逻辑代码时发现错误(语法或逻辑),会将错误信息反馈给LLM,指导LLM对生成的逻辑程序进行多轮修正,直至代码完全正确。这种自我修正能力有效解决了以往神经-符号方法中LLM生成逻辑代码易出错导致系统失败的问题,显著提高了系统的成功率和可靠性。

📈 **空间推理准确率大幅提升**:在StepGame和SpartQA等复杂基准测试中,该神经-符号框架在空间推理任务上的准确率表现卓越。相比直接提示和思维链(Chain-of-Thought)等方法,准确率最高分别提升了43%和25%。这表明该框架能够有效地处理涉及多步骤、复杂逻辑关系和动态变化的推理场景,为AI提供了更强的逻辑分析能力。

🔍 **推理过程透明可追溯,具备泛化潜力**:该框架使得AI的推理过程透明且可追溯,每一步逻辑都可以通过符号系统进行验证和修正,克服了传统“黑箱式”AI推理的可解释性难题。此外,该技术展现出很强的泛化能力,不仅适用于空间推理,还能扩展到法律、多模态推理、工程规划等需要严谨逻辑链条的复杂任务,为实现更可靠的通用人工智能(AGI)提供了新路径。

新智元 2025-09-22 13:38 北京

  新智元报道  

编辑:LRST

【新智元导读】来自中德的研究团队发布最新成果,给大模型外挂「逻辑脑」:用答案集编程当慢思考,LLM当快直觉,空间推理准确率一口气提高四成多。这套会自我修正的「神经-符号」双系统,让AI既能说清每一步逻辑,又能跨任务迁移,向更可靠的通用推理迈出关键一步。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

大语言模型(LLMs)已在文本生成、代码编写乃至多模态任务中展现出惊人的能力,但在涉及严谨逻辑与物理的空间推理任务上,它们仍显得力不从心。

比如,当模型需要理解多个物体之间的相对位置关系,并在复杂语境下进行多步骤推理时,往往容易出现「逻辑断裂」:可能在中间步骤中虚构错误事实,或偏离目标,最终导致答案不可靠。

这一问题在空间推理任务中尤为突出。空间推理要求模型能像人一样,推演出「桌子在椅子左边,灯在桌子上方,因此灯也在椅子左边」这样的复杂链条。

然而,尽管「思维链(Chain-of-Thought)」等提示工程方法在一定程度上提升了模型的推理表现,但在多步骤、动态变化的场景中,它们依旧难以保证逻辑一致性。

为了弥合神经网络的模式识别能力与符号系统严谨逻辑之间的鸿沟,来自德国图宾根大学、斯图加特大学(王荣)和同济大学(孙坤)的科研人员合作研究发表在著名的人工智能和深度学期刊《神经网络》(Neural Networks)上,该研究提出了一种创新的神经-符号(neural-symbolic)框架。

论文链接:

https://www.sciencedirect.com/science/article/pii/S0893608025009025

该框架通过一个精巧的自动迭代反馈循环(而非手动),成功地将大语言模型与一种名为「答案集编程」(Answer Set Programming, ASP)的声明式逻辑编程系统相结合,显著提升了机器的空间推理能力。

研究人员借鉴了认知科学中的「双过程理论」,该理论认为人类思维分为两个系统:系统1负责快速、直观的联想式思考,而系统2则进行缓慢、审慎的规则化推理。

在这套新框架中,LLM强大的语言理解和模式识别能力扮演了类似「系统1」的角色;而ASP作为符号推理的主干,则承担了「系统2」的职责,负责精确、可验证的逻辑推导。

基于DSPy框架的神经-符号管道框架

该框架的工作流程可以概括为一种「翻译-执行-修正」的协同模式:

1)翻译 (Semantic Parsing): 首先,LLM接收自然语言形式的上下文和问题,并将其翻译成ASP能够理解的、结构化的逻辑事实与规则代码。

2)执行 (Logical Reasoning): 接着,ASP求解器接管这些逻辑代码,利用其强大的非单调推理能力(即在信息不完整的情况下进行推理),计算出所有满足约束条件的稳定解。

3)修正 (Iterative Feedback): 这是整个系统的核心创新。以往的神经-符号方法中,LLM生成的逻辑代码常常因语法或逻辑错误而导致整个系统失败,成功率有时低至17%

新框架引入了LLM与ASP求解器之间的迭代反馈循环。如果ASP在执行中发现错误,系统会将错误信息反馈给LLM,指导其对生成的逻辑程序进行多轮修正,直至代码在语法和语义上都完全正确。

整个系统基于模块化的DSPy框架构建,它为LLMs和符号求解器之间的无缝双向交互提供了支持,使得这种复杂的协同工作流得以实现。

自然语言查询转换为ASP表示的过程

在复杂基准测试中表现卓越

研究团队在两个不同类型的基准任务上检验了框架:

StepGame:结构化的合成数据集,用于测试多步推理。

SpartQA:语言与逻辑复杂度极高,包含 3D 空间关系、多重量词(如「所有」「仅仅」)等挑战。

结果显示,该框架在StepGame上的准确率达到82–93%,在SpartQA上为71–80%。

相比直接提示和思维链方法,准确率最高分别提升了43%和25%

更重要的是,这一框架使得推理过程透明、可追溯。每一步逻辑都能通过符号系统进行验证和修正,避免了「黑箱式」推理难以解释的问题。

在测试数据集SpartQA上LLMs与符号求解器的迭代反馈表现

通往更可靠通用AI的潜力

研究团队强调,这项成果的意义不仅在于攻克空间推理,更在于提供了一种神经网络与符号逻辑深度融合的范式。

这条路径有望解决 AI 长期存在的可解释性、可靠性与泛化性难题。

尤其值得一提的是,该技术展现出很强的泛化能力:不仅能处理空间推理任务,还可以扩展到各种需要严谨逻辑链条的复杂任务场景,如法律推理、多模态推理、工程规划乃至科学研究等。

通过为LLMs配备外部「逻辑脑」,系统可以在语言理解与逻辑推理之间实现类似人类的「双系统」协作,不仅能产出更高质量的答案,还能展现出明确的逻辑链条。

这种具备自我修正与类人多组件推理能力的混合架构,这种能自我修正、跨任务泛化的「人类式推理」新路径被认为是迈向通用人工智能(AGI)的重要一步。

换句话说,这项研究让大模型从「能说会道」,真正走向「能想会推理」,并具备跨任务迁移与应用的潜力。

参考资料:https://www.sciencedirect.com/science/article/pii/S0893608025009025    

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 LLMs 空间推理 神经-符号 答案集编程 ASP 逻辑推理 人工智能 AGI 自我修正 可解释性AI Large Language Models Spatial Reasoning Neural-Symbolic Answer Set Programming Logical Reasoning Artificial Intelligence Self-Correction Explainable AI
相关文章