PaperAgent 10月04日
大模型Agentic推理框架综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

这篇综述系统性地拆解了“大模型Agentic推理框架”,重点关注如何组织大型语言模型(LLM)使其具备思考、协作和调用工具的能力,而非训练本身。文章横跨科学发现、医疗、软件工程和社会经济模拟四大领域,提出了一套统一的语言、视角和评测方法。文章构建了单智能体、工具驱动和多智能体三个层级的递进分类体系,并详细阐述了各层级的关键问题和代表性技巧,如角色扮演、链式思考、API集成、工具选择以及不同类型的多智能体协作架构。此外,综述还梳理了在四大应用场景下的具体任务和最新进展,为理解和构建更强大的LLM Agent提供了全面的框架和视角。

🧠 **统一语言与框架:** 综述提出了一套通用的符号体系和算法,旨在形式化“代理推理”过程,使得任何LLM Agent框架都能被统一地理解和描述,从初始上下文出发,通过多步动作(推理、工具调用、反思)最终达到终止条件并输出结果,为研究和实践提供了共同的语言基础。

🏗️ **三级递进的Agent能力架构:** 文章将Agent框架分为单智能体(如角色扮演、链式思考)、工具驱动(如API集成、工具选择)和多智能体(如中央、分布式、层级协作)三个层级,清晰地展示了Agent能力的逐级叠加和复杂性提升,为理解不同Agent的构建方式和能力边界提供了清晰的脉络。

🌐 **跨领域应用与统一评测:** 综述不仅深入探讨了Agent在科学发现、医疗、软件工程和社会经济模拟四大领域的具体应用场景和细分任务,还强调了建立跨领域统一的评测指标和数据集的重要性,旨在推动Agent研究的普适性和可比性,加速实际落地应用。

💡 **关键技术与技巧解析:** 文章详细介绍了提升Agent能力的具体技巧,包括单智能体的自我提升范式(如反思、迭代优化)、工具驱动Agent的流水线构建(集成、选择、使用)以及多智能体协作的组织架构与交互协议设计,为开发者提供了丰富的技术借鉴和实践指导。

原创 PaperAgent 2025-10-04 13:01 河南

single-agent、tool-based、multi-agent

首篇系统拆解“大模型Agentic推理框架”的综述:不聊训练,只聊“怎么把 LLM 组织成会思考、会协作、会调工具的Agent”,并横跨科学发现、医疗、软件工程、社会经济模拟四大战场,给出统一语言、统一视角、统一评测。

📊 为什么值得关注?

图 1:LLM 代理框架论文&引用爆发式增长(2023 起跳)

维度

过去

这篇综述

视角

模型中心(怎么训)

框架中心

(怎么搭)

分类

零散案例

三级递进 taxonomy

评测

各玩各的

跨领域统一指标/数据集

场景

单点应用

4 大场景 30+ 子任务

全覆盖

一、统一语言:把“代理推理”形式化

论文先给出一套通用符号(表 1)与通用算法 1,任何框架都可看成:

初始上下文 → 多步动作(推理/工具/反思)→ 终止条件 → 输出

Alg-1 通用推理循环Table1 符号

🏗️ 三级递进 taxonomy

总览图 2:单智能体 → 工具 → 多智能体,能力逐级叠加

层级

关键问题

代表技巧

单智能体

如何自己想的更好

角色扮演、链式思考、自我精炼

工具-based

如何会调外部资源

API/插件/中间件、工具选择、并行调用

多智能体

如何组队协作

中央/分布式/层级架构、合作-竞争-谈判

🔍 1. 单智能体:Prompt 工程 + 自我提升Fig-3 Prompt 四象限图 3:角色、环境、任务、示例四维 Prompt 工程

Fig-4 自我提升三范式图 4:反思、迭代优化、交互学习

案例速览

Reflexion:失败 → 文字反思 → 更新上下文 → 重试

Self-Refine:生成→批评→重写,直到满足自定义标准 𝒮

🔍 2. 工具-based:让 LLM“长手脚”Fig-5 工具流水线图 5:集成 → 选择 → 使用

子维度

技巧

集成

API(REST)、插件(本地 RAG)、中间件(统一封装)

选择

零样本推理 / 规则映射 / 在线学习

使用

顺序链、并行批、迭代微调

名场面

ChemCrow:18 种化学工具链式调用,自主合成有机催化剂

LLM-Compiler:并行调度 10+ API, latency ↓40%

🔍 3. 多智能体:组队打副本Fig-6 组织×交互双轴图 6:组织架构(中央/分布式/层级)× 交互协议(合作/竞争/谈判)

组织

适用场景

案例

中央

全局最优、严格管控

MetaGPT(模拟软件公司)

分布式

鲁棒、容错

MADebate(多代理辩论)

层级

流程清晰、SOP 严格

ChatDev(瀑布式开发)

🌐 四大应用场景全景

Fig-7 应用地图图 7:科学发现 / 医疗 / 软件工程 / 社会经济模拟 细分任务一览

🔬 1. 科学发现

子领域

代理技巧

代表工作

数学

多代理 Lean4 证明

MA-LoT、ProverAgent

天文

光谱→假设流水线

AstroAgents

地学

GIS 工具链 + MCTS

GeoAgent、GeoMap-Agent

生化

分子设计、量子化学

ChemCrow、El Agente

评测速览

指标:药物相似性、合成可及性、结合亲和力

数据集:MoleculeNet、CrossDocked、CheMBL

表3. 生物化学和材料科学中代理推理框架的评估策略概览。🏥 2. 医疗

场景

关键能力

案例

诊断助手

多科会诊辩论

MedAgents、RareAgents

临床管理

试验预测、用药推荐

ClinicalAgent、TxAgent

环境模拟

可进化代理医院

Agent Hospital、AI Hospital

评测速览

基准:MedQA、PubMedQA、MIMIC-IV、MVME

指标:诊断准确率、安全率、人类一致性

💻 3. 软件工程

任务

代理策略

案例

代码生成

多角色 TDD

AgentCoder、MapCoder

程序修复

故障定位→补丁→验证

RepairAgent、OrcaLoca

全生命周期

模拟软件公司 SOP

MetaGPT、ChatDev

🌍 4. 社会经济模拟

方向

代理能力

案例

社会

沙盒行为涌现

Generative Agents、SocioVerse(10 M 用户)

经济

股票市场仿真

StockAgent、FinRobot

    https://arxiv.org/pdf/2508.17692
    LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    大模型 Agent 推理框架 LLM AI Agent 综述 人工智能 机器学习
    相关文章