原创 QuantaAlpha 2025-08-29 16:23 广东
RepoMaster 旨在让AI智能体像人类专家一样,解决真实世界中的复杂开发任务。
RepoMaster 旨在让AI智能体像人类专家一样,解决真实世界中的复杂开发任务。
作者丨QuantaAlpha

💡 RepoMaster的核心理念是让AI智能体学会“找到并用好”已有的海量开源代码,而非开发专用工具。通过深度搜索定位最相关的代码仓库,并将其视为可直接调用的工具,从而以最小的适配成本解决复杂开发任务。
📚 RepoMaster采用三阶段闭环框架:首先进行层级化仓库分析,构建代码树、函数调用图和模块依赖图,识别核心模块;接着进行自主探索与执行,智能体可精细查看代码、分析依赖,并根据执行反馈动态调整策略;最后进行高效信息筛选,为LLM的上下文“减负”,聚焦高价值信息。
🚀 在MLE-R和GitTaskBench等评测基准上,RepoMaster表现出强大的能力,任务成功率显著提升,并且 token 消耗量大幅降低,展现了在解决真实世界复杂开发任务方面的优越性能和高效率。
🌟 RepoMaster的成功不仅是性能上的突破,更重要的是它为AI智能体有效利用庞大的人类代码遗产库指明了方向,证明了开源仓库可被视为可组合、可复用的“工具”,加速人机协作和软件开发的创新。
原创 QuantaAlpha 2025-08-29 16:23 广东
RepoMaster 旨在让AI智能体像人类专家一样,解决真实世界中的复杂开发任务。
RepoMaster 旨在让AI智能体像人类专家一样,解决真实世界中的复杂开发任务。
作者丨QuantaAlpha
RepoMaster的工作流程始于动态搜索与选择:它首先根据任务需求,利用深度搜索技术在GitHub上筛选并锁定最合适的代码仓库。在此之后,RepoMaster的核心优势便体现于其三阶段闭环框架,该框架系统性地解决了AI智能体在面对陌生代码库时“看不懂、用不来”的根本难题,从而实现高效、自主的任务执行。 第一阶段:层级化仓库分析—— 从全局到核心面对陌生的代码库,RepoMaster首先进行静态的、结构感知的分析,为后续探索建立一幅“导航地图”。 混合结构化仓库映射: 通过AST解析,RepoMaster构建出三种互补视图来描绘代码库全貌:○ 层次化代码树 (HCT): 揭示代码的包、模块、类、函数间的层级关系。○ 函数调用图 (FCG): 描绘函数间的调用关系,追踪程序脉络。○ 模块依赖图 (MDG): 理清模块间的导入依赖,洞察项目架构。核心组件识别: RepoMaster独创了一套多维度评分机制(综合依赖度、复杂度、Git更新频率等),从全局视图中精准定位出仓库最关键的核心模块与类,为后续探索提供焦点。
为了验证RepoMaster的实力,我们选用了两大极具挑战性的评测基准,二者均摒弃了传统的“从零生成代码”模式,转而考察智能体直接在现有代码库上解决复杂任务的能力。第一个是 MLE-R,它改编自 OpenAI 的 MLE-Bench,将评测范式从“从零写代码”转变为“复用GitHub项目解决机器学习任务”。第二个是我们全新构建的 GitTaskBench,它将这一理念扩展到更广泛的真实世界任务(如老照片修复、语音降噪等),并开创性地引入了交付质量(Task Pass Rate) 作为核心指标,旨在评测AI智能体端到端“交付成果”而非仅仅“跑通代码”的能力。性能全面超越: 无论是在MLE-R还是GitTaskBench上,RepoMaster的表现都远超OpenHands和SWE-Agent等主流框架。以GitTaskBench为例,在Claude 3.5模型的驱动下,RepoMaster将最高任务成功率从40.74%提升至62.96%,实现了跨越式增长。效率大幅领先: 更令人印象深刻的是,RepoMaster在取得优异性能的同时,展现了极高的效率。在GitTaskBench上,RepoMaster的token消耗量仅为SWE-Agent的约57%,极大地降低了使用成本。消融实验验证核心组件有效性: 通过逐一移除核心组件,实验证明了层级化分析、代码探索和信息筛选三大模块对于性能的决定性作用。移除任何一个组件都会导致性能显著下降,验证了RepoMaster设计的科学性与完整性。
在一个复杂的3D姿态估计任务中,基线智能体或因无效的试错而失败,或因缺乏对仓库的整体理解而偏离核心算法。相比之下,RepoMaster凭借其结构化分析能力,迅速锁定了关键组件,高效地完成了任务,直观地展示了其在解决真实世界复杂问题上的优势。
RepoMaster的提出,不仅是性能指标上的突破,更重要的是,它为AI智能体如何有效利用庞大的人类代码遗产库指明了一条清晰可行的道路。它证明了将开源仓库被有效利用后能被视为可组合、可复用的“工具”,而非从零开始的“负担”,是解决复杂现实世界任务的强大范式。未来,RepoMaster的设计理念有望推动一个更具可持续性和协作性的AI-for-code生态系统,为实现多项目的大规模协同、软件缺陷的自动化修复,乃至向硬件描述语言、机器人中间件等领域的迁移奠定基础。通过让AI智能体真正学会“站在巨人的肩膀上”,RepoMaster正在加速人机协作的良性循环,推动整个开源世界的持续创新与进步。
| 关于 QuantaAlpha✨QuantaAlpha 成立于 2025 年 4 月,由来自清华、北大、中科院、CMU、港科大、中科大等学校的教授、博士后、博士与硕士组成。我们的使命是探索智能的“量子”世界,引领智能体研究的“阿尔法”前沿 —— 从CodeAgent到自进化智能,再到金融、医疗等跨领域专用智能体,致力于重塑人工智能的边界。✨ 2025 年,我们将在 CodeAgent(真实世界任务的端到端自主执行)、DeepResearch、Agentic Reasoning/Agentic RL、自进化与协同学习 等方向持续产出高质量研究成果,欢迎对我们方向感兴趣的同学加入我们!团队主页:https://quantaalpha.github.io/ |
//
推荐阅读
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑