新智元 10月10日 18:05
微软推出Agent Lightning框架,赋能任意AI Agent进行强化学习训练
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI Agent正加速从概念走向现实,并在金融、游戏等领域展现强大潜力。然而,当前AI Agent的训练与优化面临挑战,传统强化学习方法在复杂场景下表现不佳。微软团队为此推出了Agent Lightning框架,该框架实现了AI Agent执行与强化学习训练的完全解耦,能够无缝应用于任何AI Agent,无需大量代码修改。通过统一数据接口和分层强化学习算法,Agent Lightning能高效利用Agent在真实环境中产生的交互数据,显著提升Agent在各种任务上的性能,有望重塑AI Agent的训练范式。

🤖 **Agent-RL解耦与通用性**: Agent Lightning的核心创新在于实现了AI Agent的执行逻辑与强化学习训练过程的彻底解耦。这意味着该框架能够无缝集成到任何现有的AI Agent中,无论其实现方式如何,几乎无需进行大规模的代码修改。这一特性极大地降低了开发成本,并提高了框架的普适性,使得开发者能够轻松为各种AI Agent应用强化学习进行优化。

📊 **统一数据接口与分层强化学习**: 框架引入了一个统一的数据接口,能够抽象化不同Agent执行逻辑的复杂性,将Agent在执行过程中收集的数据直接转换为训练所需的数据轨迹。结合其分层强化学习算法和信用分配模块,Agent Lightning能够有效地将轨迹级回报分配到每次调用生成的响应中,并能将复杂交互逻辑分解为可管理的单次调用强化学习问题,从而高效地利用数据并解决长上下文序列问题。

🚀 **系统架构与可扩展性**: Agent Lightning采用Training-Agent解耦架构,由Lightning Server(负责训练)和Lightning Client(负责Agent运行时和数据收集)组成。这种前后端分离的设计不仅实现了清晰的功能划分,还允许复用现有的可观察性基础设施,确保了框架的可扩展性、可伸缩性以及与各种Agent框架的无缝集成。开发者可以专注于Agent的逻辑设计,而无需深入复杂的强化学习系统配置。

💡 **实验验证与未来展望**: 微软团队通过在Text-to-SQL、开放域问答、数学问答等多个任务上的实验,验证了Agent Lightning框架的有效性。结果显示,该框架能够稳定提升Agent在代码生成、工具使用和检索增强生成等复杂任务中的性能。未来,该框架有望支持更多优化方法(如自动prompt优化),并推动更高效的强化学习算法和系统架构的演进,进一步降低AI Agent进化的门槛。

新智元 2025-10-10 13:07 北京

  新智元报道  

作者:学术头条

编辑:英智

【新智元导读】AI Agent已逐渐从科幻走进现实!不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务,甚至还可以进行端到端的软件开发,已经在金融、游戏、软件开发等诸多领域落地应用。

当前的AI Agent在训练与优化环节却面临着严峻挑战,传统强化学习方法也在复杂、动态交互场景下表现不佳。

为此,微软团队推出了一个灵活、可扩展的框架Agent Lightning,其可对任何AI Agent进行基于强化学习的LLM训练,有望重塑AI Agent的未来训练范式。相关研究论文已发表在预印本网站arXiv上。

论文链接:https://arxiv.org/abs/2508.03680

核心贡献如下:

Agent Lightning:

训练任意AI Agent

在真实世界中,AI Agent的运行逻辑极为复杂,绝非简单的一问一答模式。

它们常常需要多轮交互,像人类对话一样循序渐进推进任务,通过调用外部工具或API,与外部系统交互获取更多信息,依据环境反馈和当前状态灵活做出动态决策甚至在复杂场景中,多个Agent需协同合作完成任务。

但现有强化学习训练框架,往往将强化学习训练过程与Agent的具体执行逻辑紧密捆绑,导致一系列问题,严重阻碍了强化学习在AI Agent大规模训练和部署中的应用。

例如:

微软此次提出的Agent Lightning框架的核心创新点,在于实现了AI Agent执行与强化学习训练之间的彻底解耦。二者可独立运作,又能进行信息交换。

Agent Lightning概述

除了上述提到的完全解耦和统一数据接口之外,Lightning RL也是该研究的主要亮点之一。

LightningRL是微软为利用收集到的转换数据优化策略LLM,而提出的专为Agent训练设计的分层强化学习算法。

LightningRL示意图

该算法包含信用分配模块,能够将任何Agent生成的轨迹分解为训练所需的转换数据,从而使强化学习能够处理复杂的交互逻辑,如多Agent场景和动态工作流。

在信用分配过程中,高层信用分配首先将整个任务的最终奖励合理分配到任务执行过程中的每一步骤,例如在最简单实现中,可让每一次调用的奖励都等于最终奖励。

经过高层信用分配后,低层策略更新将每一次LLM调用(input、output、reward)转化为一个独立的单次调用强化学习问题。

此时可直接套用任何现成的、成熟的单次调用强化学习算法(如PPO、DPO或GRPO),来更新模型参数。

这种设计不仅具备灵活性和复用性,可直接利用社区中SOTA单次调用强化学习算法,还从根本上解决了因上下文累积导致的序列过长问题,避免了复杂易错的掩码操作。

Agent Lightning将计算密集型的LLM生成与传统编程语言编写、轻量级但多样化且灵活的应用逻辑和工具分离。

在系统设计方面,Agent Lightning引入了Training-Agent解耦架构,构建了一个适用于任意Agent的标准化训练服务。

该架构由Agent Lightning Server和Agent Lightning Client组成。

Training-Agent解耦架构

Agent Lightning Server:作为强化学习训练系统的大脑,承担着管理训练流程的重任,并通过类OpenAI API向客户端暴露更新后的模型。它负责运行强化学习训练算法、分配GPU资源、管理模型版本等一系列复杂且计算密集型的任务。

Agent Lightning Client:包含两个功能模块:一个模块负责与服务器通信,实现数据传输与接收;另一个模块运行Agent并执行数据收集,充当Agent的运行时环境。

得益于统一数据接口,Agent运行时能够将OpenTelemetry等全面的可观测性框架集成到训练过程中,用于轨迹收集。

这一机制将监控基础设施与强化学习训练连接起来,使优化算法能够利用丰富的系统监控数据,从而构建更具可扩展性与灵活性的训练基础。

这种前后端分离式的架构设计,彻底将Agent开发者从复杂的强化学习系统配置中解放出来,让他们得以专注于Agent本身的逻辑和创意,极大降低了AI Agent进化的门槛。

实验结果

研究团队在多个任务上对Agent Lightning框架进行了实验验证,涵盖Text-to-SQL、开放域问答、数学问答等。

在这些实验中,Agent Lightning均展示出稳定且持续的性能提升。

实验中任务和设置的总结

通过LangChain实现Text-to-SQL

第一个任务采用LangChain实现,设计为多Agent系统架构。

系统包含三个Agent,工作流程如下:

SQL writing agent首先会生成SQL查询语句并执行。

若查询正确,SQL executor会返回数据库信息;若出错,则返回错误提示。

随后,checking agent评估SQL查询的正确性及检索信息的有效性和完整性,并决定是重写查询还是直接生成答案。

若需重写,re-writing agent将根据checking agent的反馈修改查询语句;若无需重写,该agent同时承担问答任务,利用检索到的信息和问题生成最终答案。

在此工作流程中,SQL写入(writing)、校验(checking)和重写(re-writing)均由同一LLM完成,但针对不同任务定制了专属提示,从而实现三个Agent协同运作。

在训练过程中,研究团队只对其中两个进行了优化,即SQL writing agent和re-writing Agent,这两个agent是同步进行优化的,说明Agent Lightning 可以在多Agent系统中选择性地对一个或多个Agent进行优化。

如图,Agent Lightning能够稳定地提高奖励,展示了其优化涉及代码生成和工具使用的复杂多步决策的能力。

Text-to-SQL任务的奖励曲线

通过OpenAI Agent SDK实现检索增强生成

第二个任务是典型的检索增强生成(RAG)任务。

给定一个问题和文档数据库,Agent首先会生成自然语言查询,通过现有检索工具获取支持性文档。

该Agent是使用OpenAI Agent SDK实现的。与之前的Text-to-SQL任务相比,这里的Agent工作流程类似但更简单。

策略LLM需要先生成查询请求,然后根据检索到的文档决定是优化查询还是直接生成答案。

该图展示了Agent Lightning在这一具有挑战性的任务上实现了稳定的性能提升,证明了其在更复杂和开放式RAG场景中的有效性。

通过AutoGen实现数学问答与工具使用

第三个任务是数学类问答任务,旨在评估Agent调用工具(具体指计算器)解决算术和符号问题的能力。

最终的奖励取决于Agent是否正确回答了问题,模型的性能也通过测试集上的答案准确度进行评估。

如图,Agent Lightning在训练过程中持续提高了性能。这证明了它在工具增强设置中的有效性,即需要精确的外部函数调用和推理。

未来方向:推动Agent能力迭代升级

在论文的最后,研究团队也探讨了未来的工作方向。

首先,除了强化学习外,Agent Lightning建模框架还很好地支持其他优化方法,如自动prompt优化。

关注关键组件及其调用是Agent优化的主要方法,而不仅仅局限于基于强化学习的方法。

为此,团队提出了Component of Interest(CoI)的概念,用于指定执行轨迹中受优化影响的组件子集。

例如,prompt模板渲染可视为工具调用,通过将该工具视为CoI,Agent Lightning可支持prompt优化方法。

这种统一且可扩展的数据结构支持对Agent行为进行全面的下游优化与分析。

其次,研究团队认为,开发更高效的强化学习算法是解决复杂Agent场景下模型优化的关键,包括但不限于长程信用分配、探索算法、off-policy算法等。

Agent Lightning通过过渡来建模和组织数据,使集成额外算法更加方便。

此外,支持LLM的强化学习基础设施持续演进,为与基于Agent的强化学习框架的协同开发提供了重大机会。

一个有前景的方向是进一步分解系统组件,即将训练器、推断引擎和Agent工作流程分离,以解决推断瓶颈并提升大规模强化学习训练的可扩展性。

探索此类架构改进可带来更高效且灵活的强化学习管道。

此外,针对长程任务的优化将受益于强化学习算法与系统设计协同创新,从而实现复杂Agent更高效的训练。

最后,在LLM高效服务方面,研究团队建议采用更适合LLM的抽象方法,可以优化资源利用率和响应时间。

此外,通过优化服务环境和工具的资源调度,还能进一步简化操作流程,提高在多样化部署场景中的扩展能力。

随着Agent Lightning框架解决了强化学习与Agent耦合的难题,强化学习有望成为Agent训练的标配。

同时,Agent在真实世界中产生的海量交互数据,将不再被闲置浪费。

Agent Lightning的统一数据接口,能够高效地将这些数据用于强化学习训练,推动Agent能力迭代升级。

参考资料:

https://www.microsoft.com/en-us/research/project/agent-lightning/

任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

本文转自学术头条,若二次转载请联系原作者

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Agent 强化学习 微软 Agent Lightning 机器学习 AI Agent Training Reinforcement Learning Microsoft Machine Learning LLM
相关文章