本文介绍了两种最新的上下文工程技术:ACE和SA-ICL。ACE通过增量更新上下文,解决了上下文工程中的Context Collapse和Brevity Bias问题;SA-ICL则借鉴人类认知心理学中的图式理论,让LLM在解题前先构建框架。实验结果表明,这两种技术都能有效提升大模型在Agent任务和科学推理任务中的性能。
📌 ACE通过增量更新上下文,避免了Context Collapse和Brevity Bias问题,在Agent任务和领域特定推理任务中始终优于基线模型。
🔍 SA-ICL借鉴人类认知心理学中的图式理论,让LLM在解题前先构建框架,在化学/物理单例prompt任务中准确率提升了39%。
🚀 ACE的核心机制是Delta Bullet结构化记忆单元,通过语义去重和计数器剪枝算法,实现了高效的上下文管理。
🧠 SA-ICL的算法流程包括读题、检索相似Schema、拉取高权重例题、激活新Schema和攻略解题五个步骤,模拟了人类的解题过程。
🔬 实验结果表明,ACE和SA-ICL都能有效提升大模型的性能,并且具有良好的可解释性和低开销。
原创 PaperAgent 2025-10-21 11:10 湖北

大家好,我是PaperAgent不是Agent!推荐下,前几天分享的一篇最新大模型Vibe Coding技术全面综述:涉及16种商业AI辅助编程Agents以及30余中大模型Coding Agents。
上下文工程(Context Engineering)技术持续火热,今天分享10月两篇最新上下文相关技术论文:大模型落地有两种主流范式:范式 | 优点 | 缺点 |
|---|
微调(SFT/RLHF) | 精度高 | 算力贵、数据贵、不可解释 | 上下文工程(Prompt/Context) | 零训练、可解释、即插即用 | 容易“越写越短”、越迭代越崩 | 来看看这两篇最新论文是怎么做的:ACE(Agentic Context Engineering)让模型像教练一样给自己写「战术板」;SA-ICL(Schema-Activated ICL)让人类认知心理学里的「图式」在Transformer里复活。一篇刷爆Agent榜单,一篇在化学/物理上把单例prompt干到+39%准确率。今天一次性讲透。斯坦福:Agentic上下文工程
让大模型自我进化的上下文工程新范式
ACE在Agentic任务和领域特定推理任务中始终优于强大的基线模型。上下文学习的两条痛点
ACE里context collapse实测痛点 | 典型症状 | 现有方案天花板 |
|---|
Context Collapse | 多轮改写后18k→122 token,精度跳水 | 一次性prompt、蒸馏、RLHF | Brevity Bias | 优化器偏爱「越短越好」,丢细节 | 多例Few-shot、长上下文窗口 | ACE:把「提示词」做成会生长的「战术板」
2.1 核心思想不再一次性重写整段prompt,而是增量Delta更新——像Git一样给context打patch。三角分工:Generator:上场打球(推理)Reflector:录像回放写战报Curator:把战报剪成「 bullet 」插进战术板长上下文窗口=无限储物柜,ACE负责把东西有序塞进去还不乱。2.2 关键机制模块 | 功能 | 对应论文图 |
|---|
Delta Bullet | 结构化记忆单元(元数据+内容) | 图3示例(链接) | Grow-and-Refine | 语义去重+计数器剪枝 | 算法1行10-15 | 多epoch自训练 | 同一条任务反复刷,持续叠buff | 表3 ablation |
2.3 结果速览
AppWorld(Agent benchmark): 用DeepSeek-V3.1 直接对标 GPT-4.1 级 IBM-CUGA,平均59.4 vs 60.3!挑战split TGC +8.4%金融任务 **+8.6%,延迟↓86.9%**,成本↓75%(SA-ICL:让LLM像科学家一样「先搭框架再做题」
3.1 认知动机人类做题 ≠ 死记硬背例题,而是:激活图式(Schema)——「这是守恒问题」「这是有机碳计数」把深层结构映射到新题图1:SA-ICL五阶段Pipeline3.2 算法流程
步骤 | 公式 | 人话 |
|---|
(i) Problem→Schema | 𝒮ₓ=ℛ(x) | 读题→画思维导图 | (ii) 检索相似Schema | argmax sim(𝒮ₓ,𝒮ᵢ) | 翻笔记找同类题型模板 | (iii) 拉取高权重例题 | w_ij(t)≥τ | 只复习「考前必做」那几题 | (iv) 激活新Schema | f(𝒮ₓ,𝒮̂,ℰ̂) | 把模板+例题+新题融合成最终攻略 | (v) 攻略解题 | y=LLM(x,𝒮_new) | 带着攻略进场答题 | 3.3 实验亮点
GPQA-Chemistry +39.67%(单例!) GPQA-Physics +34.45% 消融实验:去掉「激活」步骤→提升消失