精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟:LLM上下文學習并非真的學習!

發布于 2025-9-23 06:49
瀏覽
0收藏

大模型真的在“上下文學習”嗎?

微軟:LLM上下文學習并非真的學習!-AI.x社區

“大模型在上下文學習(ICL)雖在數學上符合學習定義,但只是對prompt內統計規律的擬合,而非對任務本質的掌握:一旦分布漂一點就翻車;示例夠多時,模型、提示詞、語言本身都不重要了——它只記得統計規律。”

研究動機

正例

反例

幾個例子就能解新任務,看起來像“學”

只是靠預訓練記憶+模板匹配,沒有真正“編碼”新知識

微軟把 PAC 學習框架搬到 ICL 場景,數學上證明 ICL 符合“學習”定義,但經驗上是否 robust 需要大規模實驗驗證。于是做了 189 萬條預測、4 個模型、9 個任務、7 種 prompt 策略,把能想到的變量都 ablate 了一遍。

實驗設計速覽

組件

要點

任務

9 個自動機任務(FSA/PDA),覆蓋正則、上下文無關語言,難度遞進。

分布偏移

訓練 P vs. 測試 Q,δ=‖P?Q‖∞ 最大 0.85,模擬 OOD。

Prompt 策略

0-100 shot、CoT、APO、Word Salad、Direct Encoding……

模型

GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE

指標

準確率、δ-敏感度斜率、shot-增益斜率

微軟:LLM上下文學習并非真的學習!-AI.x社區

圖 1:每個任務對應一個概率自動機,通過控制轉移概率生成 ID/OOD 數據。

7 種 Prompt 策略

策略縮寫

全稱 / 關鍵說明

主要特點

MP

Modus Ponens
(僅給 exemplar,無 system prompt)

最“裸”的提示,無任務描述,易解析失敗

Desc

Description
(system prompt 里用自然語言說明任務)

常規做法,人類可讀,零樣本即可用

DE

Direct Encoding
(直接把自動機代碼/文法貼進 prompt)

理論計算機科學常用,對 OOD 稍魯棒

APO

Automated Prompt Optimization
(讓 LLM 自己用 dev set 迭代改寫 system prompt)

元提示,自動“搜”出高表現描述

CoT

Chain-of-Thought
(在 system prompt 里要求“一步一步想”)

生成中間推理步,FSM/PDA 類任務常最佳

SoT

Salad-of-Thought
(CoT 的詞匯全部隨機化,僅保留結構)

測“推理結構”vs“詞匯語義”貢獻

Word Salad

把 Desc 的 system prompt 詞匯隨機打亂

測“語義”vs“統計共現”貢獻

9 個自動機任務

覆蓋 FSA(有限狀態自動機) 與 PDA(下推自動機) 兩大復雜度等級,全部用 合成數據 生成,天然支持 ID→OOD 分布偏移。任務簡介如下:

任務

自動機類型

輸入形式

目標

OOD 變化

PARITY

FSA

二進制串

判斷 0 的個數是否為偶

字符出現概率

Pattern Matching

FSA

{a,b,c}*

是否含子串 "abcabb"

字符串長度↑

Reversal

PDA

l#r

l 是否等于 r 的反轉

字母表、長度↑

Stack

PDA

操作序列

模擬棧 push/pop 后是否匹配

序列長度↑

Hamiltonian

FSA

鄰接矩陣 + 路徑

路徑是否哈密頓

圖密度↑

Maze (Complete)

FSA

迷宮 + 路徑段 + 移動

移動能否連接兩段路徑

迷宮尺寸↑

Maze (Solve)

FSA

迷宮 + 完整移動

移動能否從 S 到 E

迷宮尺寸↑

Vending Machine (Ver.)

FSA

物品價目 + 操作序列

最終余額是否一致

序列長度↑

Vending Machine (Sum)

PDA

同上

計算

最終余額(非決策)

序列長度↑

7 條 ICL 關鍵發現

發現

數據說話

① 例子越多,人人變好

50-100 shot 時,模型間差距收斂,平均增益斜率 > 0(表 2)。

② 語言不重要,統計最重要

Word Salad(prompt 詞全隨機)極限性能≈正常 prompt(圖 5)。

③ 任務相似≠性能相似

Pattern Matching(FSA)94% vs. Reversal(PDA)61%,差距 31%(表 1)。

④ OOD 一碰就碎

CoT 對 δ 最敏感,斜率 ?1.4;modus ponens 最魯棒 ?0.4(表 2)。

⑤ 傳統 ML 更抗造

決策樹/kNN 在半數任務平均性能反超 ICL(表 1)。

⑥ 樣本順序影響有限

打亂 exemplar 位置,準確率波動 < 2%(表 7)。

⑦ 標簽污染實驗

隨機標簽也能“學會”——說明模型過度關注表面統計而非規則。

微軟:LLM上下文學習并非真的學習!-AI.x社區

表1:每個模型在各任務上的最高準確率,以及按shot數計算的峰值平均準確率。

微軟:LLM上下文學習并非真的學習!-AI.x社區

表2:各LLM的斜率與準確率,按提示策略與任務平均。而δ斜率接近零且略為負值,表明增加shot可持續提升準確率;但在OOD場景下,這種提升失效

微軟:LLM上下文學習并非真的學習!-AI.x社區

表7:各提示策略在打亂示例(shuffled exemplars)條件下的shot與δ斜率及平均準確率。

微軟:LLM上下文學習并非真的學習!-AI.x社區

在所有任務與模型上取平均,所有提示策略的準確率隨shot數增加均呈正斜率(5.2±1.6),且標準差σ的差距逐漸縮小(-2.6±0.5)。

微軟:LLM上下文學習并非真的學習!-AI.x社區

圖2:從上到下依次為所有任務、PARITY 和 Reversal 的平均準確率結果;Reversal 平均準確率較低且對 OOD 極為敏感,隨 δ 增大,即使 shot 數增加,準確率仍急劇下降。

微軟:LLM上下文學習并非真的學習!-AI.x社區

圖5:在所有模型與任務上取平均,左側為基線提示,右側為 word-salad 提示。

https://arxiv.org/pdf/2509.10414
IS IN-CONTEXT LEARNING LEARNING?
https://github.com/adewynter/is-icl-learning

本文轉載自??PaperAgent??

已于2025-9-23 06:49:48修改
收藏
回復
舉報
回復
相關推薦
天天摸天天碰天天添| 国产精品r级在线| 成年人性生活视频| jzzjzzjzz亚洲成熟少妇| 三级一区在线视频先锋 | 久久伊人蜜桃av一区二区| 欧美一区二区三区免费观看| 人妻丰满熟妇aⅴ无码| 美女写真久久影院| 亚洲欧洲日产国码二区| 国产精品久久久对白| 日韩av免费网址| 精品久久久久久久久久久aⅴ| 欧美无人高清视频在线观看| 337p亚洲精品色噜噜狠狠p| 天天干天天干天天干| 日本不卡不码高清免费观看 | 久久av色综合| 91色|porny| 成人黄色中文字幕| 日韩免费观看一区二区| 欧美视频网址| 日韩女优毛片在线| 91av俱乐部| 成人在线免费看片| 久久久久国产精品免费免费搜索| 国产精品高清在线观看| 国产在线拍揄自揄拍| 成人免费在线观看av| 亚洲第一精品夜夜躁人人躁| 蜜臀av免费观看| 国产在线美女| 中文字幕一区二区三区不卡| 精品欧美一区二区在线观看视频 | 国产69精品久久久久毛片| 国产精品久久网| 视频一区二区三区四区五区| 亚洲国产裸拍裸体视频在线观看乱了中文 | 老色鬼久久亚洲一区二区| 欧美激情精品久久久久久大尺度| 91香蕉一区二区三区在线观看| 欧美精品一区二区三区中文字幕| 日韩毛片在线看| 插我舔内射18免费视频| 一区二区日韩| 日韩亚洲欧美在线| 日韩视频在线观看一区二区三区| 久久婷婷五月综合色丁香| 色国产精品一区在线观看| 国产成人无码精品久久久性色| av蜜臀在线| 亚洲国产精品麻豆| 蜜臀av无码一区二区三区| 久草在线视频福利| 亚洲第一狼人社区| 黄色www网站| 色在线视频观看| 欧美午夜精品伦理| 成年人视频观看| 中文字幕成在线观看| 色一区在线观看| 天天天干夜夜夜操| 国产精品久久久久久吹潮| 欧美丝袜自拍制服另类| 午夜精品久久久久久久99热影院| 日韩精品一级毛片在线播放| 欧美一区二区三区四区久久| 中文字幕 欧美 日韩| 给我免费播放日韩视频| 亚洲精品按摩视频| av黄色免费网站| 成久久久网站| 美女999久久久精品视频| 欧美日韩国产精品综合| 亚洲三级国产| 热99在线视频| 91国在线视频| 国产一区二区视频在线| 岛国视频一区免费观看| 深夜视频在线免费| 中文字幕国产一区| 欧美做受777cos| 美女91在线看| 日本久久一区二区三区| 手机免费av片| 国产一级成人av| 国产亚洲一区二区在线| 国产喷水在线观看| 在线日韩视频| 国产这里只有精品| 空姐吹箫视频大全| 日本一区二区三区国色天香| 特色特色大片在线| 中文在线8资源库| 69av一区二区三区| 黄色性生活一级片| 亚洲h色精品| 欧美一区二区三区…… | 欧美一级电影网站| 亚洲观看黄色网| 国产精品国产三级国产在线观看| 久久久亚洲网站| 亚洲图片视频小说| 95精品视频在线| 天天干天天色天天爽| 在线高清av| 日韩免费福利电影在线观看| 卡一卡二卡三在线观看| 韩国精品一区二区三区| 国产精品色婷婷视频| 污视频网站在线播放| 亚洲精品写真福利| 日韩在线第三页| 波多野结衣欧美| 日韩中文字幕国产| 国产性猛交╳xxx乱大交| 黑人巨大精品欧美黑白配亚洲| 久中文字幕一区| 免费在线中文字幕| 欧美久久婷婷综合色| 亚洲久久久久久久| 亚洲免费成人| 国产91视觉| 国产秀色在线www免费观看| 欧美亚洲自拍偷拍| 在线不卡av电影| 国产视频一区三区| 国产传媒一区| 中文字幕有码在线视频| 欧美人妖巨大在线| 精品人妻中文无码av在线| 99视频精品免费观看| 国产a一区二区| 91大神在线网站| 欧美综合色免费| asian性开放少妇pics| 精品成人一区| 成人毛片网站| 色呦呦视频在线观看| 日韩欧美一区中文| 黄色一级片中国| 国产一区二区三区蝌蚪| 亚洲天堂av免费在线观看| 四虎国产精品免费久久5151| 中文字幕九色91在线| www.av88| 国产精品成人一区二区艾草| 一区二区成人网| 日韩一区亚洲二区| 国产在线视频不卡| 超碰在线免费公开| 日韩一区二区免费在线电影| 少妇人妻丰满做爰xxx| 激情五月婷婷综合网| gogogo免费高清日本写真| 成人激情久久| 色综合视频一区中文字幕| 亚洲精品国产suv一区| 亚洲国产一区在线观看| 免费看毛片的网站| 另类亚洲自拍| 茄子视频成人在线观看| 高清成人在线| 日韩在线中文视频| 亚洲AV无码乱码国产精品牛牛 | 色婷婷成人综合| 国产美女精品视频国产| 一区二区三区免费观看| 国产xxxx视频| 免费国产自线拍一欧美视频| 视频二区一区| 二区三区精品| 国内精品一区二区三区| 免费一级在线观看| 欧美精品久久一区二区三区| 久一区二区三区| 91网上在线视频| 亚洲36d大奶网| 欧美激情精品久久久六区热门| 国内精品久久国产| 99re久久| 久久免费视频在线| yjizz视频网站在线播放| 欧美精品乱码久久久久久| 久久精品视频9| 欧美国产国产综合| japan高清日本乱xxxxx| 天堂成人国产精品一区| 青青草原国产免费| 日韩三级视频| 亚洲精品免费在线视频| 欧美一区国产| 欧美大胆在线视频| 国产三级在线免费| 日韩免费在线观看| 中文字幕 视频一区| 亚洲制服丝袜av| 大吊一区二区三区| 成人看片黄a免费看在线| 手机在线看福利| 在线精品福利| 99亚洲精品视频| 欧美日韩播放| 国产伦精品一区二区三区照片91| 成人免费毛片嘿嘿连载视频…| 欧美激情精品久久久久久大尺度| 香蕉视频国产在线观看| 日韩精品中文字| 亚洲av无码国产精品久久不卡| 欧美日免费三级在线| 欧美videossex极品| 一区二区三区波多野结衣在线观看| 亚洲av无码一区二区三区人| 成人白浆超碰人人人人| 天天干天天色天天干| 久久久久国内| 国产69精品久久久久999小说| 91tv精品福利国产在线观看| 欧美日韩亚洲在线| 牛牛影视久久网| 99久久精品久久久久久ai换脸| 78精品国产综合久久香蕉| 91chinesevideo永久地址| 三级资源在线| 萌白酱国产一区二区| 日本亚洲精品| 中文国产亚洲喷潮| 成人精品一区| 国产亚洲人成a一在线v站| 五月激情婷婷网| 亚洲国产欧美自拍| 欧美少妇bbw| 欧美大片日本大片免费观看| 国产喷水福利在线视频| 欧美日本一区二区| 一级黄色a毛片| 欧美性xxxxxxxx| 中文字幕资源网| 欧美视频一区二区| 在线播放一级片| 欧美影院一区二区| 中文字幕人妻一区二区在线视频 | 精品一区三区| 欧美日韩最好看的视频| 国产精品欧美三级在线观看| 欧美裸体网站| 国内成人自拍| 无码免费一区二区三区免费播放 | 丰满的少妇愉情hd高清果冻传媒 | 成人观看免费完整观看| 久久福利毛片| 三级4级全黄60分钟| 日韩av电影天堂| 少妇人妻互换不带套| 免费不卡在线视频| 免费看国产黄色片| 美女视频第一区二区三区免费观看网站| 成人免费毛片播放| 日本欧美在线观看| 91丝袜超薄交口足| 国产精品综合网| www.男人天堂| 久久久久久久综合| 国产又粗又长免费视频| 1024精品合集| 久久久久成人精品无码| 精品日本美女福利在线观看| 综合网在线观看| 91国偷自产一区二区三区观看| 波多野结衣一二区| 欧美二区在线观看| av免费观看在线| 精品久久久久久久久久久久久久久 | 久久人人爽人人爽人人片亚洲| 2024最新电影在线免费观看| 性欧美长视频免费观看不卡| 国产成人精品一区二三区在线观看| 国产精品一区二区在线| 亚洲欧美日本国产| 免费国产一区二区| 91麻豆精品国产91久久久平台| 高清无码视频直接看| 久久精品男女| 亚洲国产欧美91| 久久亚洲精华国产精华液 | 3d动漫精品啪啪一区二区三区免费| 国产精品白浆| 亚洲一区bb| 99精品国产在热久久婷婷| 国产三级日本三级在线播放| 国产精品1024| 亚洲欧美va天堂人熟伦| 亚洲综合男人的天堂| 精品久久久久久久久久久久久久久久| 欧美精品久久一区二区三区| 手机福利在线| 久久国产精品影片| 欧美www.| 国产精品成人观看视频免费| 日韩理论电影院| 国产精品50p| 国产成人精品综合在线观看| 久久久久亚洲av成人无码电影| 亚洲免费电影在线| 中国a一片一级一片| 亚洲第一区在线观看| 黄视频网站在线| 国产精品成人播放| 欧美一级色片| 97免费视频观看| 美女免费视频一区二区| 欧美一区二区三区成人精品| 亚洲精品视频自拍| 最新国产中文字幕| 日韩精品在线视频| 成人超碰在线| 成人免费在线网址| 成人动漫免费在线观看| 无码人妻h动漫| 91在线视频免费91| 日韩欧美性视频| 日韩欧美资源站| av影片在线看| 日本成熟性欧美| 亚洲精品小区久久久久久| 久久男人资源站| 国产乱码精品1区2区3区| 日本美女bbw| 欧美无砖专区一中文字| 九色在线视频蝌蚪| 国内精品久久久久久| 视频欧美一区| 欧美另类videos| 精品一区二区三区久久久| 精品丰满少妇一区二区三区| 在线观看亚洲成人| 国产在线观看免费| 国产成人精品在线播放| 中日韩免视频上线全都免费| www.com毛片| 久久综合av免费| 秋霞av一区二区三区| 亚洲欧美日韩成人| 日产精品一区| 日韩欧美第二区在线观看| 蜜桃视频在线观看一区| 成人无码av片在线观看| 欧洲色大大久久| 日本在线播放| 亚洲最大福利视频| 午夜精品亚洲| 欧产日产国产精品98| 午夜天堂影视香蕉久久| 亚洲区小说区图片区| 26uuu另类亚洲欧美日本一| 免费成人结看片| mm131国产精品| 亚洲精品视频在线观看网站| 超碰人人人人人人| 91精品国产亚洲| 视频精品在线观看| 2020国产在线| 国产精品日日做人人爱| 日韩一区二区在线| 小早川怜子一区二区三区| 一区二区在线观看免费视频播放| www.xxxx国产| 57pao成人永久免费视频| 国产日韩欧美一区二区三区| 欧美午夜aaaaaa免费视频| 一区在线观看免费| 成人av免费播放| 91av在线播放| 欧美丰满日韩| 人妻激情偷乱频一区二区三区| 欧美日韩国产精品专区| 成年女人的天堂在线| 91人人爽人人爽人人精88v| 激情欧美丁香| 能直接看的av| 日韩欧美一区二区不卡| 亚洲欧美韩国| 麻豆md0077饥渴少妇| 99精品一区二区| 中文字幕人妻一区二区在线视频 | av中文字幕电影在线看| 日韩av在线电影观看| 国产电影一区二区三区| 日韩精品成人免费观看视频| 欧美成人在线免费视频| 国产中文字幕一区二区三区| wwwxxx色| 欧美美女直播网站| 僵尸再翻生在线观看| 中文字幕成人一区| 久久久久久久久久久久久久久99 | 国产mv日韩mv欧美| 日韩不卡高清视频| 97热精品视频官网| 欧美高清日韩|