PaperAgent 09月25日 18:00
大模型上下文学习实证研究
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大模型在上下文学习(ICL)中,虽然数学上符合学习定义,但实际上只是对prompt内统计规律的拟合,而非对任务本质的掌握。一旦分布漂移,模型就会翻车;示例足够多时,模型、提示词、语言本身都不重要了,它只记得统计规律。微软将PAC学习框架搬到ICL场景,通过大规模实验验证了ICL的鲁棒性。研究使用了189万条预测、4个模型、9个任务、7种prompt策略,对能想到的变量都进行了ablation实验。实验结果表明,例子越多,模型越好;语言不重要,统计最重要;任务相似不代表性能相似;OOD场景下,CoT最敏感,modus ponens最鲁棒;传统ML更抗造;样本顺序影响有限;标签污染实验说明模型过度关注表面统计而非规则。

📈 例子越多,模型越好:当使用50-100个示例时,模型之间的差距收敛,平均增益斜率大于0,表明随着示例数量的增加,模型的性能也随之提升。

🗣️ 语言不重要,统计最重要:即使将prompt中的词汇全部随机打乱(Word Salad),模型的性能与正常prompt相比几乎没有差异,说明模型主要依赖于统计规律而非语言本身。

🔗 任务相似不代表性能相似:例如,Pattern Matching(FSA)任务的准确率高达94%,而Reversal(PDA)任务的准确率仅为61%,差距达31%,说明即使任务类型相似,模型的性能也可能存在较大差异。

🌪️ OOD场景下,CoT最敏感,modus ponens最鲁棒:在分布偏移(OOD)场景下,Chain-of-Thought(CoT)策略对δ(分布偏移程度)最为敏感,而Modus Ponens策略则相对最鲁棒。

🪵 传统ML更抗造:在半数任务上,决策树/kNN等传统机器学习算法的平均性能甚至超过了ICL模型,说明传统机器学习算法在某些场景下可能更鲁棒。

🔢 样本顺序影响有限:打乱示例的位置对模型的准确率影响小于2%,说明样本顺序对模型性能的影响有限。

🎭 标签污染实验说明模型过度关注表面统计而非规则:即使使用随机标签,模型也能“学会”,说明模型可能过度依赖于表面统计规律而忽略了任务背后的规则。

原创 PaperAgent 2025-09-22 14:33 湖北

大模型真的在“上下文学习”吗?

“大模型在上下文学习(ICL)虽在数学上符合学习定义,但只是对prompt内统计规律的拟合,而非对任务本质的掌握:一旦分布漂一点就翻车;示例够多时,模型、提示词、语言本身都不重要了——它只记得统计规律。”

研究动机

正例

反例

几个例子就能解新任务,看起来像“学”

只是靠预训练记忆+模板匹配,没有真正“编码”新知识

微软把 PAC 学习框架搬到 ICL 场景,数学上证明 ICL 符合“学习”定义,但经验上是否 robust 需要大规模实验验证。于是做了 189 万条预测、4 个模型、9 个任务、7 种 prompt 策略,把能想到的变量都 ablate 了一遍。

实验设计速览

组件

要点

任务

9 个自动机任务(FSA/PDA),覆盖正则、上下文无关语言,难度递进。

分布偏移

训练 P vs. 测试 Q,δ=‖P−Q‖∞ 最大 0.85,模拟 OOD。

Prompt 策略

0-100 shot、CoT、APO、Word Salad、Direct Encoding……

模型

GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE

指标

准确率、δ-敏感度斜率、shot-增益斜率

图 1:每个任务对应一个概率自动机,通过控制转移概率生成 ID/OOD 数据。

7 种 Prompt 策略

策略缩写

全称 / 关键说明

主要特点

MP

Modus Ponens(仅给 exemplar,无 system prompt)

最“裸”的提示,无任务描述,易解析失败

Desc

Description(system prompt 里用自然语言说明任务)

常规做法,人类可读,零样本即可用

DE

Direct Encoding(直接把自动机代码/文法贴进 prompt)

理论计算机科学常用,对 OOD 稍鲁棒

APO

Automated Prompt Optimization(让 LLM 自己用 dev set 迭代改写 system prompt)

元提示,自动“搜”出高表现描述

CoT

Chain-of-Thought(在 system prompt 里要求“一步一步想”)

生成中间推理步,FSM/PDA 类任务常最佳

SoT

Salad-of-Thought(CoT 的词汇全部随机化,仅保留结构)

测“推理结构”vs“词汇语义”贡献

Word Salad

把 Desc 的 system prompt 词汇随机打乱

测“语义”vs“统计共现”贡献

9 个自动机任务覆盖 FSA(有限状态自动机) 与 PDA(下推自动机) 两大复杂度等级,全部用 合成数据 生成,天然支持 ID→OOD 分布偏移。任务简介如下:

任务

自动机类型

输入形式

目标

OOD 变化

PARITY

FSA

二进制串

判断 0 的个数是否为偶

字符出现概率

Pattern Matching

FSA

{a,b,c}*

是否含子串 "abcabb"

字符串长度↑

Reversal

PDA

l#r

l 是否等于 r 的反转

字母表、长度↑

Stack

PDA

操作序列

模拟栈 push/pop 后是否匹配

序列长度↑

Hamiltonian

FSA

邻接矩阵 + 路径

路径是否哈密顿

图密度↑

Maze (Complete)

FSA

迷宫 + 路径段 + 移动

移动能否连接两段路径

迷宫尺寸↑

Maze (Solve)

FSA

迷宫 + 完整移动

移动能否从 S 到 E

迷宫尺寸↑

Vending Machine (Ver.)

FSA

物品价目 + 操作序列

最终余额是否一致

序列长度↑

Vending Machine (Sum)

PDA

同上

计算

最终余额(非决策)

序列长度↑

7 条 ICL 关键发现

发现

数据说话

① 例子越多,人人变好

50-100 shot 时,模型间差距收敛,平均增益斜率 > 0(表 2)。

② 语言不重要,统计最重要

Word Salad(prompt 词全随机)极限性能≈正常 prompt(图 5)。

③ 任务相似≠性能相似

Pattern Matching(FSA)94% vs. Reversal(PDA)61%,差距 31%(表 1)。

④ OOD 一碰就碎

CoT 对 δ 最敏感,斜率 −1.4;modus ponens 最鲁棒 −0.4(表 2)。

⑤ 传统 ML 更抗造

决策树/kNN 在半数任务平均性能反超 ICL(表 1)。

⑥ 样本顺序影响有限

打乱 exemplar 位置,准确率波动 < 2%(表 7)。

⑦ 标签污染实验

随机标签也能“学会”——说明模型过度关注表面统计而非规则。

表1:每个模型在各任务上的最高准确率,以及按shot数计算的峰值平均准确率。表2:各LLM的斜率与准确率,按提示策略与任务平均。而δ斜率接近零且略为负值,表明增加shot可持续提升准确率;但在OOD场景下,这种提升失效表7:各提示策略在打乱示例(shuffled exemplars)条件下的shot与δ斜率及平均准确率。在所有任务与模型上取平均,所有提示策略的准确率随shot数增加均呈正斜率(5.2±1.6),且标准差σ的差距逐渐缩小(-2.6±0.5)。图2:从上到下依次为所有任务、PARITY 和 Reversal 的平均准确率结果;Reversal 平均准确率较低且对 OOD 极为敏感,随 δ 增大,即使 shot 数增加,准确率仍急剧下降。图5:在所有模型与任务上取平均,左侧为基线提示,右侧为 word-salad 提示。

    https://arxiv.org/pdf/2509.10414
    IS IN-CONTEXT LEARNING LEARNING?
    https://github.com/adewynter/is-icl-learning

    推荐阅读


      每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      大模型 上下文学习 ICL PAC学习 鲁棒性 统计规律 任务本质
      相关文章