原创 PaperAgent 2025-09-22 14:33 湖北
“大模型在上下文学习(ICL)虽在数学上符合学习定义,但只是对prompt内统计规律的拟合,而非对任务本质的掌握:一旦分布漂一点就翻车;示例够多时,模型、提示词、语言本身都不重要了——它只记得统计规律。”
研究动机
正例
反例
几个例子就能解新任务,看起来像“学”
只是靠预训练记忆+模板匹配,没有真正“编码”新知识
实验设计速览
组件
要点
任务
9 个自动机任务(FSA/PDA),覆盖正则、上下文无关语言,难度递进。
分布偏移
训练 P vs. 测试 Q,δ=‖P−Q‖∞ 最大 0.85,模拟 OOD。
Prompt 策略
0-100 shot、CoT、APO、Word Salad、Direct Encoding……
模型
GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE
指标
准确率、δ-敏感度斜率、shot-增益斜率
策略缩写
全称 / 关键说明
主要特点
Modus Ponens(仅给 exemplar,无 system prompt)
最“裸”的提示,无任务描述,易解析失败
Description(system prompt 里用自然语言说明任务)
常规做法,人类可读,零样本即可用
Direct Encoding(直接把自动机代码/文法贴进 prompt)
理论计算机科学常用,对 OOD 稍鲁棒
Automated Prompt Optimization(让 LLM 自己用 dev set 迭代改写 system prompt)
元提示,自动“搜”出高表现描述
Chain-of-Thought(在 system prompt 里要求“一步一步想”)
生成中间推理步,FSM/PDA 类任务常最佳
Salad-of-Thought(CoT 的词汇全部随机化,仅保留结构)
测“推理结构”vs“词汇语义”贡献
把 Desc 的 system prompt 词汇随机打乱
测“语义”vs“统计共现”贡献
任务
自动机类型
输入形式
目标
OOD 变化
FSA
二进制串
判断 0 的个数是否为偶
字符出现概率
FSA
{a,b,c}*
是否含子串 "abcabb"
字符串长度↑
PDA
l#r
l 是否等于 r 的反转
字母表、长度↑
PDA
操作序列
模拟栈 push/pop 后是否匹配
序列长度↑
FSA
邻接矩阵 + 路径
路径是否哈密顿
图密度↑
FSA
迷宫 + 路径段 + 移动
移动能否连接两段路径
迷宫尺寸↑
FSA
迷宫 + 完整移动
移动能否从 S 到 E
迷宫尺寸↑
FSA
物品价目 + 操作序列
最终余额是否一致
序列长度↑
PDA
同上
最终余额(非决策)
序列长度↑
7 条 ICL 关键发现
发现
数据说话
① 例子越多,人人变好
50-100 shot 时,模型间差距收敛,平均增益斜率 > 0(表 2)。
② 语言不重要,统计最重要
Word Salad(prompt 词全随机)极限性能≈正常 prompt(图 5)。
③ 任务相似≠性能相似
Pattern Matching(FSA)94% vs. Reversal(PDA)61%,差距 31%(表 1)。
④ OOD 一碰就碎
CoT 对 δ 最敏感,斜率 −1.4;modus ponens 最鲁棒 −0.4(表 2)。
⑤ 传统 ML 更抗造
决策树/kNN 在半数任务平均性能反超 ICL(表 1)。
⑥ 样本顺序影响有限
打乱 exemplar 位置,准确率波动 < 2%(表 7)。
⑦ 标签污染实验
随机标签也能“学会”——说明模型过度关注表面统计而非规则。
https://arxiv.org/pdf/2509.10414IS IN-CONTEXT LEARNING LEARNING?https://github.com/adewynter/is-icl-learning
