微軟：LLM上下文學習并非真的學習！

發布于 2025-9-23 06:49

瀏覽

0收藏

大模型真的在“上下文學習”嗎？

微軟：LLM上下文學習并非真的學習！-AI.x社區

“大模型在上下文學習（ICL）雖在數學上符合學習定義，但只是對prompt內統計規律的擬合，而非對任務本質的掌握：一旦分布漂一點就翻車；示例夠多時，模型、提示詞、語言本身都不重要了——它只記得統計規律。”

研究動機

正例	反例
幾個例子就能解新任務，看起來像“學”	只是靠預訓練記憶+模板匹配，沒有真正“編碼”新知識

微軟把 PAC 學習框架搬到 ICL 場景，數學上證明 ICL 符合“學習”定義，但經驗上是否 robust 需要大規模實驗驗證。于是做了 189 萬條預測、4 個模型、9 個任務、7 種 prompt 策略，把能想到的變量都 ablate 了一遍。

實驗設計速覽

組件	要點
任務	9 個自動機任務（FSA/PDA），覆蓋正則、上下文無關語言，難度遞進。
分布偏移	訓練 P vs. 測試 Q，δ=‖P?Q‖∞ 最大 0.85，模擬 OOD。
Prompt 策略	0-100 shot、CoT、APO、Word Salad、Direct Encoding……
模型	GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE
指標	準確率、δ-敏感度斜率、shot-增益斜率

微軟：LLM上下文學習并非真的學習！-AI.x社區

圖 1：每個任務對應一個概率自動機，通過控制轉移概率生成 ID/OOD 數據。

7 種 Prompt 策略

策略縮寫	全稱 / 關鍵說明	主要特點
MP	Modus Ponens （僅給 exemplar，無 system prompt）	最“裸”的提示，無任務描述，易解析失敗
Desc	Description （system prompt 里用自然語言說明任務）	常規做法，人類可讀，零樣本即可用
DE	Direct Encoding （直接把自動機代碼/文法貼進 prompt）	理論計算機科學常用，對 OOD 稍魯棒
APO	Automated Prompt Optimization （讓 LLM 自己用 dev set 迭代改寫 system prompt）	元提示，自動“搜”出高表現描述
CoT	Chain-of-Thought （在 system prompt 里要求“一步一步想”）	生成中間推理步，FSM/PDA 類任務常最佳
SoT	Salad-of-Thought （CoT 的詞匯全部隨機化，僅保留結構）	測“推理結構”vs“詞匯語義”貢獻
Word Salad	把 Desc 的 system prompt 詞匯隨機打亂	測“語義”vs“統計共現”貢獻

9 個自動機任務

覆蓋 FSA（有限狀態自動機） 與 PDA（下推自動機） 兩大復雜度等級，全部用 合成數據 生成，天然支持 ID→OOD 分布偏移。任務簡介如下：

任務	自動機類型	輸入形式	目標	OOD 變化
PARITY	FSA	二進制串	判斷 0 的個數是否為偶	字符出現概率
Pattern Matching	FSA	{a,b,c}*	是否含子串 "abcabb"	字符串長度↑
Reversal	PDA	l#r	l 是否等于 r 的反轉	字母表、長度↑
Stack	PDA	操作序列	模擬棧 push/pop 后是否匹配	序列長度↑
Hamiltonian	FSA	鄰接矩陣 + 路徑	路徑是否哈密頓	圖密度↑
Maze (Complete)	FSA	迷宮 + 路徑段 + 移動	移動能否連接兩段路徑	迷宮尺寸↑
Maze (Solve)	FSA	迷宮 + 完整移動	移動能否從 S 到 E	迷宮尺寸↑
Vending Machine (Ver.)	FSA	物品價目 + 操作序列	最終余額是否一致	序列長度↑
Vending Machine (Sum)	PDA	同上	計算最終余額（非決策）	序列長度↑

7 條 ICL 關鍵發現

發現	數據說話
① 例子越多，人人變好	50-100 shot 時，模型間差距收斂，平均增益斜率 > 0（表 2）。
② 語言不重要，統計最重要	Word Salad（prompt 詞全隨機）極限性能≈正常 prompt（圖 5）。
③ 任務相似≠性能相似	Pattern Matching（FSA）94% vs. Reversal（PDA）61%，差距 31%（表 1）。
④ OOD 一碰就碎	CoT 對 δ 最敏感，斜率 ?1.4；modus ponens 最魯棒 ?0.4（表 2）。
⑤ 傳統 ML 更抗造	決策樹/kNN 在半數任務平均性能反超 ICL（表 1）。
⑥ 樣本順序影響有限	打亂 exemplar 位置，準確率波動 < 2%（表 7）。
⑦ 標簽污染實驗	隨機標簽也能“學會”——說明模型過度關注表面統計而非規則。

微軟：LLM上下文學習并非真的學習！-AI.x社區

表1：每個模型在各任務上的最高準確率，以及按shot數計算的峰值平均準確率。

微軟：LLM上下文學習并非真的學習！-AI.x社區

表2：各LLM的斜率與準確率，按提示策略與任務平均。而δ斜率接近零且略為負值，表明增加shot可持續提升準確率；但在OOD場景下，這種提升失效

微軟：LLM上下文學習并非真的學習！-AI.x社區

表7：各提示策略在打亂示例（shuffled exemplars）條件下的shot與δ斜率及平均準確率。

微軟：LLM上下文學習并非真的學習！-AI.x社區

在所有任務與模型上取平均，所有提示策略的準確率隨shot數增加均呈正斜率（5.2±1.6），且標準差σ的差距逐漸縮小（-2.6±0.5）。

微軟：LLM上下文學習并非真的學習！-AI.x社區

圖2：從上到下依次為所有任務、PARITY 和 Reversal 的平均準確率結果；Reversal 平均準確率較低且對 OOD 極為敏感，隨 δ 增大，即使 shot 數增加，準確率仍急劇下降。

微軟：LLM上下文學習并非真的學習！-AI.x社區

圖5：在所有模型與任務上取平均，左側為基線提示，右側為 word-salad 提示。

https://arxiv.org/pdf/2509.10414
IS IN-CONTEXT LEARNING LEARNING?
https://github.com/adewynter/is-icl-learning

本文轉載自??PaperAgent??

標簽

LLM

大模型

預訓練

已于2025-9-23 06:49:48修改

贊

回復

舉報

回復

相關推薦

LLM超長上下文查詢-性能評估實戰

ermulong ? 4440瀏覽 ? 0回復
LLM上下文窗口突破200萬！無需架構變化+復雜微調，輕松擴展8倍

duhorse ? 4836瀏覽 ? 0回復
Transformers學習上下文強化學習的時間差分方法

AIGC最前線 ? 3800瀏覽 ? 0回復
百萬上下文RAG，Agent還能這么玩

ermulong ? 4961瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰

ermulong ? 4373瀏覽 ? 0回復
ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制

輕薄滴假象 ? 3983瀏覽 ? 0回復
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 3541瀏覽 ? 0回復
在長上下文LLM的時代，RAG是否仍然必要？

sbf_2000 ? 4006瀏覽 ? 0回復
智能決策進化之路：從長上下文LLM到自主RAG系統

Halo咯咯 ? 5132瀏覽 ? 0回復
長上下文語言模型評估體系探析

Baihai_IDP ? 4819瀏覽 ? 0回復
Claude的MCP（模型上下文協議）簡介

Halo咯咯 ? 7434瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 3442瀏覽 ? 0回復
微軟LongRoPE v2：幾乎無損的上下文擴展！

NLP前沿1 ? 3505瀏覽 ? 0回復
LLM 上下文管理：智能應用的核心競爭力

草臺AI ? 3190瀏覽 ? 0回復
模型上下文協議（MCP）開發實戰——構建LangChain代理客戶端

51CTO內容精選 ? 7744瀏覽 ? 0回復
MCP(Model Context Protocol)模型上下文協議介紹

AI探索時代 ? 6153瀏覽 ? 0回復
大型語言模型的上下文工程（Context Engineering）綜述

chengganfei ? 4801瀏覽 ? 0回復
Chroma：上下文退化-增加輸入 Tokens 長度對 LLM 性能的影響

AI取經路 ? 1609瀏覽 ? 0回復
上下文工程中的上下文

芝士AI吃魚 ? 213瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

微軟：LLM上下文學習并非真的學習！

研究動機

實驗設計速覽

7 種 Prompt 策略

9 個自動機任務

7 條 ICL 關鍵發現

目錄