微軟:LLM上下文學習并非真的學習!
大模型真的在“上下文學習”嗎?

“大模型在上下文學習(ICL)雖在數學上符合學習定義,但只是對prompt內統計規律的擬合,而非對任務本質的掌握:一旦分布漂一點就翻車;示例夠多時,模型、提示詞、語言本身都不重要了——它只記得統計規律。”
研究動機
正例 | 反例 |
幾個例子就能解新任務,看起來像“學” | 只是靠預訓練記憶+模板匹配,沒有真正“編碼”新知識 |
微軟把 PAC 學習框架搬到 ICL 場景,數學上證明 ICL 符合“學習”定義,但經驗上是否 robust 需要大規模實驗驗證。于是做了 189 萬條預測、4 個模型、9 個任務、7 種 prompt 策略,把能想到的變量都 ablate 了一遍。
實驗設計速覽
組件 | 要點 |
任務 | 9 個自動機任務(FSA/PDA),覆蓋正則、上下文無關語言,難度遞進。 |
分布偏移 | 訓練 P vs. 測試 Q,δ=‖P?Q‖∞ 最大 0.85,模擬 OOD。 |
Prompt 策略 | 0-100 shot、CoT、APO、Word Salad、Direct Encoding…… |
模型 | GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE |
指標 | 準確率、δ-敏感度斜率、shot-增益斜率 |

圖 1:每個任務對應一個概率自動機,通過控制轉移概率生成 ID/OOD 數據。
7 種 Prompt 策略
策略縮寫 | 全稱 / 關鍵說明 | 主要特點 |
MP | Modus Ponens | 最“裸”的提示,無任務描述,易解析失敗 |
Desc | Description | 常規做法,人類可讀,零樣本即可用 |
DE | Direct Encoding | 理論計算機科學常用,對 OOD 稍魯棒 |
APO | Automated Prompt Optimization | 元提示,自動“搜”出高表現描述 |
CoT | Chain-of-Thought | 生成中間推理步,FSM/PDA 類任務常最佳 |
SoT | Salad-of-Thought | 測“推理結構”vs“詞匯語義”貢獻 |
Word Salad | 把 Desc 的 system prompt 詞匯隨機打亂 | 測“語義”vs“統計共現”貢獻 |
9 個自動機任務
覆蓋 FSA(有限狀態自動機) 與 PDA(下推自動機) 兩大復雜度等級,全部用 合成數據 生成,天然支持 ID→OOD 分布偏移。任務簡介如下:
任務 | 自動機類型 | 輸入形式 | 目標 | OOD 變化 |
PARITY | FSA | 二進制串 | 判斷 0 的個數是否為偶 | 字符出現概率 |
Pattern Matching | FSA | {a,b,c}* | 是否含子串 "abcabb" | 字符串長度↑ |
Reversal | PDA | l#r | l 是否等于 r 的反轉 | 字母表、長度↑ |
Stack | PDA | 操作序列 | 模擬棧 push/pop 后是否匹配 | 序列長度↑ |
Hamiltonian | FSA | 鄰接矩陣 + 路徑 | 路徑是否哈密頓 | 圖密度↑ |
Maze (Complete) | FSA | 迷宮 + 路徑段 + 移動 | 移動能否連接兩段路徑 | 迷宮尺寸↑ |
Maze (Solve) | FSA | 迷宮 + 完整移動 | 移動能否從 S 到 E | 迷宮尺寸↑ |
Vending Machine (Ver.) | FSA | 物品價目 + 操作序列 | 最終余額是否一致 | 序列長度↑ |
Vending Machine (Sum) | PDA | 同上 | 計算 最終余額(非決策) | 序列長度↑ |
7 條 ICL 關鍵發現
發現 | 數據說話 |
① 例子越多,人人變好 | 50-100 shot 時,模型間差距收斂,平均增益斜率 > 0(表 2)。 |
② 語言不重要,統計最重要 | Word Salad(prompt 詞全隨機)極限性能≈正常 prompt(圖 5)。 |
③ 任務相似≠性能相似 | Pattern Matching(FSA)94% vs. Reversal(PDA)61%,差距 31%(表 1)。 |
④ OOD 一碰就碎 | CoT 對 δ 最敏感,斜率 ?1.4;modus ponens 最魯棒 ?0.4(表 2)。 |
⑤ 傳統 ML 更抗造 | 決策樹/kNN 在半數任務平均性能反超 ICL(表 1)。 |
⑥ 樣本順序影響有限 | 打亂 exemplar 位置,準確率波動 < 2%(表 7)。 |
⑦ 標簽污染實驗 | 隨機標簽也能“學會”——說明模型過度關注表面統計而非規則。 |

表1:每個模型在各任務上的最高準確率,以及按shot數計算的峰值平均準確率。

表2:各LLM的斜率與準確率,按提示策略與任務平均。而δ斜率接近零且略為負值,表明增加shot可持續提升準確率;但在OOD場景下,這種提升失效

表7:各提示策略在打亂示例(shuffled exemplars)條件下的shot與δ斜率及平均準確率。

在所有任務與模型上取平均,所有提示策略的準確率隨shot數增加均呈正斜率(5.2±1.6),且標準差σ的差距逐漸縮小(-2.6±0.5)。

圖2:從上到下依次為所有任務、PARITY 和 Reversal 的平均準確率結果;Reversal 平均準確率較低且對 OOD 極為敏感,隨 δ 增大,即使 shot 數增加,準確率仍急劇下降。

圖5:在所有模型與任務上取平均,左側為基線提示,右側為 word-salad 提示。
https://arxiv.org/pdf/2509.10414
IS IN-CONTEXT LEARNING LEARNING?
https://github.com/adewynter/is-icl-learning本文轉載自??PaperAgent??

















