index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
这篇综述系统性地拆解了“大模型Agentic推理框架”,重点关注如何组织大型语言模型(LLM)使其具备思考、协作和调用工具的能力,而非训练本身。文章横跨科学发现、医疗、软件工程和社会经济模拟四大领域,提出了一套统一的语言、视角和评测方法。文章构建了单智能体、工具驱动和多智能体三个层级的递进分类体系,并详细阐述了各层级的关键问题和代表性技巧,如角色扮演、链式思考、API集成、工具选择以及不同类型的多智能体协作架构。此外,综述还梳理了在四大应用场景下的具体任务和最新进展,为理解和构建更强大的LLM Agent提供了全面的框架和视角。
🧠 **统一语言与框架:** 综述提出了一套通用的符号体系和算法,旨在形式化“代理推理”过程,使得任何LLM Agent框架都能被统一地理解和描述,从初始上下文出发,通过多步动作(推理、工具调用、反思)最终达到终止条件并输出结果,为研究和实践提供了共同的语言基础。
🏗️ **三级递进的Agent能力架构:** 文章将Agent框架分为单智能体(如角色扮演、链式思考)、工具驱动(如API集成、工具选择)和多智能体(如中央、分布式、层级协作)三个层级,清晰地展示了Agent能力的逐级叠加和复杂性提升,为理解不同Agent的构建方式和能力边界提供了清晰的脉络。
🌐 **跨领域应用与统一评测:** 综述不仅深入探讨了Agent在科学发现、医疗、软件工程和社会经济模拟四大领域的具体应用场景和细分任务,还强调了建立跨领域统一的评测指标和数据集的重要性,旨在推动Agent研究的普适性和可比性,加速实际落地应用。
💡 **关键技术与技巧解析:** 文章详细介绍了提升Agent能力的具体技巧,包括单智能体的自我提升范式(如反思、迭代优化)、工具驱动Agent的流水线构建(集成、选择、使用)以及多智能体协作的组织架构与交互协议设计,为开发者提供了丰富的技术借鉴和实践指导。
原创 PaperAgent 2025-10-04 13:01 河南
single-agent、tool-based、multi-agent

首篇系统拆解“大模型Agentic推理框架”的综述:不聊训练,只聊“怎么把 LLM 组织成会思考、会协作、会调工具的Agent”,并横跨科学发现、医疗、软件工程、社会经济模拟四大战场,给出统一语言、统一视角、统一评测。📊 为什么值得关注?
图 1:LLM 代理框架论文&引用爆发式增长(2023 起跳)维度 | 过去 | 这篇综述 |
|---|
视角 | 模型中心(怎么训) | 框架中心 (怎么搭) | 分类 | 零散案例 | 三级递进 taxonomy | 评测 | 各玩各的 | 跨领域统一指标/数据集 | 场景 | 单点应用 | 4 大场景 30+ 子任务 全覆盖 | 一、统一语言:把“代理推理”形式化
论文先给出一套通用符号(表 1)与通用算法 1,任何框架都可看成:初始上下文 → 多步动作(推理/工具/反思)→ 终止条件 → 输出
Alg-1 通用推理循环
Table1 符号🏗️ 三级递进 taxonomy
总览图 2:单智能体 → 工具 → 多智能体,能力逐级叠加层级 | 关键问题 | 代表技巧 |
|---|
单智能体 | 如何自己想的更好 | 角色扮演、链式思考、自我精炼 | 工具-based | 如何会调外部资源 | API/插件/中间件、工具选择、并行调用 | 多智能体 | 如何组队协作 | 中央/分布式/层级架构、合作-竞争-谈判 | 🔍 1. 单智能体:Prompt 工程 + 自我提升
Fig-3 Prompt 四象限图 3:角色、环境、任务、示例四维 Prompt 工程
Fig-4 自我提升三范式图 4:反思、迭代优化、交互学习案例速览Reflexion:失败 → 文字反思 → 更新上下文 → 重试Self-Refine:生成→批评→重写,直到满足自定义标准 𝒮🔍 2. 工具-based:让 LLM“长手脚”
Fig-5 工具流水线图 5:集成 → 选择 → 使用子维度 | 技巧 |
|---|
集成 | API(REST)、插件(本地 RAG)、中间件(统一封装) | 选择 | 零样本推理 / 规则映射 / 在线学习 | 使用 | 顺序链、并行批、迭代微调 | 名场面ChemCrow:18 种化学工具链式调用,自主合成有机催化剂LLM-Compiler:并行调度 10+ API, latency ↓40%🔍 3. 多智能体:组队打副本
Fig-6 组织×交互双轴图 6:组织架构(中央/分布式/层级)× 交互协议(合作/竞争/谈判)组织 | 适用场景 | 案例 |
|---|
中央 | 全局最优、严格管控 | MetaGPT(模拟软件公司) | 分布式 | 鲁棒、容错 | MADebate(多代理辩论) | 层级 | 流程清晰、SOP 严格 | ChatDev(瀑布式开发) | 🌐 四大应用场景全景
Fig-7 应用地图图 7:科学发现 / 医疗 / 软件工程 / 社会经济模拟 细分任务一览🔬 1. 科学发现
子领域 | 代理技巧 | 代表工作 |
|---|
数学 | 多代理 Lean4 证明 | MA-LoT、ProverAgent | 天文 | 光谱→假设流水线 | AstroAgents | 地学 | GIS 工具链 + MCTS | GeoAgent、GeoMap-Agent | 生化 | 分子设计、量子化学 | ChemCrow、El Agente | 评测速览指标:药物相似性、合成可及性、结合亲和力数据集:MoleculeNet、CrossDocked、CheMBL
表3. 生物化学和材料科学中代理推理框架的评估策略概览。🏥 2. 医疗
场景 | 关键能力 | 案例 |
|---|
诊断助手 | 多科会诊辩论 | MedAgents、RareAgents | 临床管理 | 试验预测、用药推荐 | ClinicalAgent、TxAgent | 环境模拟 | 可进化代理医院 | Agent Hospital、AI Hospital | 评测速览基准:MedQA、PubMedQA、MIMIC-IV、MVME指标:诊断准确率、安全率、人类一致性
💻 3. 软件工程任务 | 代理策略 | 案例 |
|---|
代码生成 | 多角色 TDD | AgentCoder、MapCoder | 程序修复 | 故障定位→补丁→验证 | RepairAgent、OrcaLoca | 全生命周期 | 模拟软件公司 SOP | MetaGPT、ChatDev |
🌍 4. 社会经济模拟
方向 | 代理能力 | 案例 |
|---|
社会 | 沙盒行为涌现 | Generative Agents、SocioVerse(10 M 用户) | 经济 | 股票市场仿真 | StockAgent、FinRobot | 
https:
LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios
每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~ 阅读原文
跳转微信打开