精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AAAI 2025 | 大模型會組合關系推理嗎?打開黑盒,窺探Transformer腦回路

人工智能 新聞
研究者開發了一個新的基準測試,稱為廣義關聯回憶(Generalized Associative Recall, GAR),專門用來評估 LLM 在組合推理任務中的表現

本文作者為北京郵電大學網絡空間安全學院碩士研究生倪睿康,指導老師為肖達副教授。主要研究方向包括自然語言處理、模型可解釋性。該工作為倪睿康在彩云科技實習期間完成。聯系郵箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

人類擁有一種強大的能力,能夠理解多個實體之間復雜的關系并基于這些關系進行推理,這被稱為組合關系推理(Compositional Relational Reasoning, CRR)。這種能力不僅是智能的標志,也是我們應對日常問題和復雜任務的核心技能。那么,像 GPT 這樣的大型語言模型(LLM)是否具備這種能力?它們又是如何在內部處理這種任務的?為了回答這個問題,研究者開發了一個新的基準測試,稱為廣義關聯回憶(Generalized Associative Recall, GAR),專門用來評估 LLM 在組合推理任務中的表現,并進一步研究模型如何解決這些任務。論文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京郵電大學和彩云科技合作完成。

  • 論文地址:https://arxiv.org/abs/2412.12841
  • 代碼地址:https://github.com/Caiyun-AI/GAR

GAR 基準測試

研究者注意到,目前大多數用于測試 LLM 的任務要么過于簡單,只能用于可解釋性分析,無法真實反映模型在復雜推理場景下的表現,要么過于復雜,不適合深入研究模型的內部機制。因此,他們設計了 GAR,一個更加多樣化和具有挑戰性的基準測試。GAR 整合了多個經典任務(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通過不同的任務形式(如肯定 / 否定句、生成 / 分類任務)和難度等級,系統地考察模型的推理能力。

簡單來講(更多例子見下圖 1 和圖 2):

  • associate recall 就是從前文 “抄寫”:前文說了 “小明有蘋果”,后文再說 “小明有__”,就知道要填 “蘋果”;
  • knowledge recall 就是記到 “腦子” 里的各種常識知識:蘋果是一種__(水果),巴黎在__(法國)
  • IOI 就是排除(否定):【蘋果、狗、蘋果】哪個不是蘋果?__(狗)

GAR 的特點是:

1. 挑戰性足夠高:即使是最先進的 LLM,在 GAR 任務上的表現也并不理想,暴露了它們在組合推理能力上的缺陷。

2. 適合深入研究:GAR 任務相對簡單的生成過程,使得研究者能夠更好地追蹤模型內部的推理機制。

圖 1 廣義關聯回憶(Generalized Associative Recall, GAR)任務構建框架。GAR 任務的設計流程包括三個步驟:選擇關系模式(如 “same” 或 “kindOf”)、采樣數據構建關系環(結合語義與語法關系)以及生成語句并引入語義和句法變體(如否定形式或主賓交換),圖中左中右部分分別展示了關系環的構建、任務數據的生成與語句的多樣化處理,體現了 GAR 在任務靈活性和復雜度上的優勢

圖 2 GAR 任務示例。任務分為兩大類:生成式(填空題,補全最后一個詞)和判別式(判斷題,回答 Yes 或 No)

現有模型的表現

通過對主流開源(如 Llama-2/3 7B/13B/33B/70B)和閉源模型(如 GPT-3.5/4)的測試發現:

  • 任務難度顯著影響表現:當任務的推理步驟或復雜度增加時,模型的正確率會明顯下降。
  • “組合性差距(Compositionality Gap)”:模型在回答任務的各個子問題時可能表現良好,但無法正確組合這些答案以得出最終結論。例如,模型能回答對 “【小明有蘋果,小紅有狗】小明有__(蘋果)”(前文抄寫),對 “蘋果是一種__(水果)”(常識)和 “【小明、小紅】里哪個不是小紅?__(小明)”(否定排除)也毫無壓力,但把它們組合起來:“【小明有蘋果,小紅有狗】小紅沒有一種__(水果)”,模型就很容易蒙圈(在不允許 CoT 的情況下)。
  • 模型規模與性能:雖然更大的模型在一些任務上表現更好,但它們的 “組合性差距” 往往更明顯,這表明增加模型規模并不能完全解決這個問題。

圖 3 (a) 不同 LLM 在 GAR 上的表現。本圖比較了生成任務(Gen.)和分類任務(Cls.)的平均準確率和正確答案的預測概率,隨著模型規模增大,準確率和答案概率均呈正相關增長

圖 3 (b 左) GPT-4 和 Vicuna-33B 在不同難度的生成式任務上的表現,通過增加非相同語義關系和引入否定語義變體調整任務難度;(c 中) 組合性差距隨模型規模的變化, Llama 系列模型隨規模增大而表現出更大的組合性差距,反映出 LLM 在組合關系推理中的不足;(d 右) 語法變化差距隨模型規模的變化,句法變體對模型性能影響較小,表明模型對語法變化的敏感性較低

GAR 任務還有個很有趣的特點:盡管它對最先進的 LLM 都具有挑戰性,它對人類來說卻非常簡單:研究者評估,在具備必要知識(如國家 - 首都關系)的情況下,人類完成任務的準確率超過 90%。并且通過實驗表明,LLM 回答錯誤并不是因為缺少這些事實性知識。這揭示了 LLM 在組合關系推理上存在某些根本性缺陷。

模型內部的推理機制

為了更好地理解 LLM 如何解決 GAR 任務,研究者采用了歸因補丁(attribution patching)的方法。這種技術可以幫助發現模型在推理過程中依賴的關鍵計算單元,特別是某些注意力頭的作用。值得指出的是,這里無論任務難度、回路復雜度還是模型大小,都遠超已有模型可解釋性工作。研究發現:

  1. 核心回路:Vicuna-33B 模型中存在一組通用的核心回路,能夠被不同任務重復利用。
  2. 注意力頭的作用:研究者識別出兩類關鍵注意力頭(True head 和 False head),它們的激活狀態分別表示抽象的 “真” 和 “假” 的概念。進一步的實驗表明,這些頭在不同任務和模型中都扮演了重要角色,是組合推理能力的基礎。

圖 4 (a 左) True head 子回路 (b 右) False head 子回路

圖 4 (c) 判別回路

圖 4 (d) 肯定式生成回路

圖 4 (e) 否定式生成回路

研究者發現,無論哪種回路,從更高的層次看,都包含我們稱之為 “relational loop” 的由注意力邊組成的閉環。這和構造 GAR 任務時的關系環是一致的。研究者認為正是這些閉環的存在保證了可預測性

通過干預關鍵注意力頭提升 LLM 表現

注意到 True/False 頭在圖 4 的所有回路中都有出現并扮演了關鍵角色。為了驗證 Vicuna 模型中的 True/False 頭的通用性和有效性,并探討其在不同模型規模上的一致性。研究者選擇了三個具有代表性的分類任務:由 GendersOfPersons 關系模式分別與 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三個關系模式組合作為數據源。首先,利用 attribution patching 識別不同規模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 頭。隨后,在模型推理過程中對 True/False 頭進行干預:當答案為 Yes/No 時,對 True/False 頭施加干預,同時屏蔽 False/True 頭,以觀察其對模型判斷的影響。

圖 5 (a 左) 干預 Vicuna-7B 的 True / False heads 提升判別任務的準確率,干預后模型準確率分別提高了 17%/14%/6%,證明 True/False 頭在各個模型中均表現出一致的效果;(b 右) True / False heads 的激活區分真 / 假陳述,通過可視化 True 和 False 頭的激活值,發現它們有效地區分了真假語句。這表明,True/False 頭編碼了真假概念,并在 GAR 任務中起到了判斷語句真偽的關鍵作用

研究意義

這項研究首次明確指出了 LLMs 在組合關系推理任務中的核心缺陷,并通過實驗揭示了模型內部的關鍵推理機制。這不僅加深了我們對 LLMs 工作原理的理解,也為模型改進提供了啟發和洞見。例如:

  • 優化注意力機制:通過改進關鍵注意力頭的功能,可以顯著提升模型的推理能力,例如研究團隊的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在類似 GAR 任務上的表現啟發而來的。。
  • 設計更具多樣性的基準:在真實世界任務中測試和改進模型的組合推理表現。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-08 13:15:02

2025-01-07 00:00:00

AI訓練數據

2025-06-03 08:35:00

2025-06-05 11:49:21

AI模型數據

2024-08-20 14:01:21

2023-10-07 13:16:40

ChatGPT神經元模型

2025-09-23 09:06:00

AILLM系統

2022-07-04 09:07:23

技術架構管理

2024-06-17 13:34:54

2024-10-22 17:24:32

2024-09-23 08:20:00

模型訓練

2025-07-08 03:11:00

2023-01-05 09:33:37

視覺模型訓練

2025-04-21 08:42:00

模型開源AI

2025-04-30 16:48:07

2024-08-07 14:10:12

模型云計算大數據

2025-02-25 09:30:00

2023-06-12 09:57:22

AIChatGPT

2025-05-21 13:56:37

模型圖像AI
點贊
收藏

51CTO技術棧公眾號

日本成人动漫在线观看| 蜜桃精品久久久久久久免费影院| 中文字幕一区二区久久人妻网站| av免费在线免费观看| 激情欧美一区二区| 在线看日韩欧美| 久久无码专区国产精品s| 国产福利在线免费观看| 26uuu成人网一区二区三区| 国产精品一区二区3区| 天天躁夜夜躁狠狠是什么心态| av久久网站| 午夜国产精品一区| 久久久久久艹| 97超碰资源站| 一区二区日韩欧美| 国产视频精品xxxx| 国产精品二区视频| 午夜影院一区| 亚洲精品高清在线| 亚洲精品无人区| 日日夜夜精品免费| 国产九色精品成人porny | 成人黄色在线免费| 国产欧美一区二区三区在线看蜜臂| 国产精品国产一区| 国产亚洲精品日韩| 欧美精品黑人猛交高潮| 亚洲91网站| 91精品国产综合久久精品app | 亚洲欧美日产图| 四虎精品成人免费网站| 国产91精品一区二区| 成人国产在线视频| 在线观看免费视频一区| 天使萌一区二区三区免费观看| 欧美激情va永久在线播放| 给我免费观看片在线电影的| 国产电影一区二区| 欧美高清你懂得| 中文字幕第38页| 成人看片网页| 在线观看不卡视频| 日本爱爱免费视频| 国产精品原创| 亚洲国产一区视频| 国内自拍中文字幕| 日p在线观看| 91免费版在线| 国产精品乱码一区二区三区| 丰满人妻av一区二区三区| 国产精品综合二区| 爱情岛论坛亚洲入口| 97国产精品久久久| 国产成人在线视频免费播放| 91中文精品字幕在线视频| 国产精品无码白浆高潮| 国产在线一区二区| 超碰97在线播放| 成人高潮片免费视频| 国产成人一级电影| 国产欧美在线一区二区| 特黄aaaaaaaaa真人毛片| 日韩中文字幕区一区有砖一区| 欧美精品做受xxx性少妇| 久久人妻无码aⅴ毛片a片app| 第九色区aⅴ天堂久久香| 色婷婷av一区二区三区在线观看 | 亚洲最大成人综合| 亚洲午夜精品一区二区 | 欧美激情一区二区三区蜜桃视频| 欧美久久久久久一卡四| 九色蝌蚪在线| 欧美高清在线精品一区| 视频一区二区三| 麻豆影视在线观看_| ...中文天堂在线一区| 99久热在线精品视频| 男人的天堂在线视频免费观看| 日韩美女视频一区二区| 大荫蒂性生交片| 在线手机中文字幕| 欧美综合欧美视频| 欧美男女交配视频| 国产ts一区| 亚洲性69xxxbbb| 国产成人无码aa精品一区| 国产精品www.| 日本亚洲欧美成人| 国产精品综合在线| 久久亚洲免费视频| 尤物一区二区三区| 日本在线影院| 7777精品伊人久久久大香线蕉超级流畅 | 欧美黄色视屏| 在线看国产一区| 丰满少妇在线观看| 亚洲免费一区三区| 国产午夜精品美女视频明星a级| 神马午夜精品91| 一区在线免费观看| 国产成人一区二区三区| 亚洲国产精品视频在线| 99精品国产热久久91蜜凸| 亚洲精品一区二区三| 久草在线资源站资源站| 91福利小视频| 精品熟女一区二区三区| 婷婷成人基地| 性视频1819p久久| 国产男男gay体育生白袜| 91视视频在线直接观看在线看网页在线看| 一区精品视频| 免费高潮视频95在线观看网站| 欧美日韩国产123区| 中国黄色a级片| 欧美日韩视频一区二区三区| 国产精品影院在线观看| 色窝窝无码一区二区三区成人网站| 国产欧美精品日韩区二区麻豆天美| 欧美爱爱视频网站| 新版的欧美在线视频| 精品少妇一区二区三区日产乱码 | 国产精品igao视频| 性色av蜜臀av| 亚洲国产高清在线观看视频| 国产91美女视频| 日本在线成人| 久久色在线播放| 中文字幕在线观看高清| 久久这里只有精品视频网| av女优在线播放| 99re8这里有精品热视频免费| 久久久精品亚洲| 亚洲天堂777| 国产成人综合视频| avav在线播放| 91九色鹿精品国产综合久久香蕉| 欧美成人性色生活仑片| 国产精品欧美综合亚洲| 一色屋精品亚洲香蕉网站| 亚洲人视频在线| 国产欧美日韩一区二区三区四区| 欧美专区在线播放| 亚洲精品中文字幕成人片| 久久久精品综合| 国产欧美精品aaaaaa片| 成人盗摄视频| 97精品久久久中文字幕免费| a毛片在线免费观看| 亚洲乱码国产乱码精品精98午夜| 草草草在线视频| 亚洲综合小说图片| 国产精品久久久久久久7电影| 国产在线观看黄| 粉嫩老牛aⅴ一区二区三区| 亚洲综合自拍网| 久久电影一区| 午夜精品一区二区在线观看| 华人av在线| 亚洲免费一级电影| 成人一二三四区| 中文字幕一区二区三区四区不卡| 亚洲国产成人va在线观看麻豆| 我不卡神马影院| 91一区二区三区| 精品极品在线| 在线观看亚洲视频| 国产三区在线播放| 亚洲成人免费观看| 国产精品九九九九九| 免费成人在线网站| 亚洲精品免费在线看| 天堂精品在线视频| 97在线视频一区| 风间由美一区| 欧美日韩国产bt| 久久久久久久国产精品毛片| 九九热在线视频观看这里只有精品| 九一免费在线观看| 久久影视三级福利片| 国产97免费视| 日本视频在线观看| 亚洲国产精品成人av| 波多野结衣一区二区三区四区| 亚洲乱码中文字幕综合| 精品少妇人妻一区二区黑料社区| 销魂美女一区二区三区视频在线| 一区二区三区欧美成人| 精品国产亚洲一区二区三区大结局 | 欧美1区2区3区| 国产成人精品福利一区二区三区| 在线中文字幕播放| 久久久成人精品视频| 亚洲 欧美 激情 另类| 欧美精品在线一区二区三区| 日本少妇性高潮| 国产精品毛片大码女人| 欧洲在线免费视频| 久久九九免费| 日韩极品视频在线观看 | 国内成人免费视频| 青青青在线播放| 国产精品地址| 一区二区三区四区免费视频| 激情av综合| 亚洲www在线| 亚洲1234区| 国语自产精品视频在线看抢先版图片| 日本暖暖在线视频| 亚洲男人第一网站| 日韩在线视频第一页| 91精品国产综合久久精品app| 自拍偷拍18p| 欧美日韩亚洲高清| 国产一级在线观看视频| 国产精品美女一区二区三区 | 日韩成人精品一区| 免费久久一级欧美特大黄| 欧美h版在线观看| 91av成人在线| 亚洲妇熟xxxx妇色黄| 精品国产拍在线观看| 岛国在线视频免费看| 亚洲精品中文字幕有码专区| 日本精品999| 欧美成人免费网站| aa视频在线免费观看| 亚洲电影在线播放| 久久黄色小视频| 亚洲精品国产a| 欧美人禽zoz0强交| 亚洲视频一区在线| 欧美成人久久久免费播放| www国产成人免费观看视频 深夜成人网 | 久久视频免费在线观看| 亚洲综合久久久| 丰满少妇高潮久久三区| 亚洲免费观看高清完整版在线 | 亚洲va欧美va天堂v国产综合| 国产亚洲精品久久久久久豆腐| 国产精品亲子乱子伦xxxx裸| 免费在线观看a视频| 久久精品亚洲一区二区三区浴池| 真人bbbbbbbbb毛片| 91免费观看在线| 亚洲国产av一区| 国产欧美一区二区精品性色| 蜜臀久久99精品久久久久久| 成人深夜福利app| 中文字幕天堂av| 成人国产精品免费| 动漫av在线免费观看| 成人久久久精品乱码一区二区三区| 女王人厕视频2ⅴk| 高潮精品一区videoshd| 国产a级片网站| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 日韩精品一区二区亚洲av性色| 中文字幕一区日韩精品欧美| 成人高潮免费视频| 一区二区三区在线播放| 欧美久久久久久久久久久久| 亚洲二区在线观看| 久久久久久不卡| 欧美日韩激情在线| 国产黄色片av| 精品久久一二三区| 欧美一区二区视频| 日韩一区二区久久久| 日皮视频在线观看| 欧美国产第一页| 都市激情亚洲综合| 国产精品久久久久久影视 | 亚洲已满18点击进入在线看片 | 日韩在线导航| 婷婷激情综合| 国产h视频在线播放| 日本大胆欧美人术艺术动态| 久久精品久久99| 激情久久久久久久久久久久久久久久| 欧美视频亚洲图片| 99v久久综合狠狠综合久久| 无码 人妻 在线 视频| 亚洲视频免费看| 久久久精品人妻一区二区三区四| 欧美性极品xxxx娇小| 中文字幕制服诱惑| 精品欧美一区二区在线观看| 国产在线观看网站| 久久久久久免费精品| 久久久久久久性潮| 国产一区二区三区奇米久涩| 亚洲调教一区| 女女百合国产免费网站| 天堂va蜜桃一区二区三区| 色哟哟网站在线观看| 国产亚洲欧洲997久久综合| 欧美成人777| 一区二区三区久久| 中国老头性行为xxxx| 亚洲国产小视频| av免费网站在线| 国产精品黄色影片导航在线观看| 超碰97久久| 99热一区二区三区| 日韩av网站免费在线| 手机在线看片日韩| 亚洲国产精品成人综合色在线婷婷 | 一级欧美一级日韩片| 亚洲欧美色综合| 成人黄色片在线观看| 亚洲精品一区久久久久久| 污视频免费在线观看| 成人福利在线视频| 精品国产乱码久久久| 少妇高潮喷水在线观看| 国产福利一区二区| av黄色免费在线观看| 在线观看日韩高清av| 亚洲 国产 欧美 日韩| 久久久久久国产精品三级玉女聊斋| 日韩欧国产精品一区综合无码| 久99久在线| 亚洲精品乱码| 国产a级片视频| 亚洲综合一二三区| 国产精品色综合| 日韩在线视频导航| 成人黄色在线| 亚洲精品国产精品国自产| 老司机午夜免费精品视频 | 国产视频在线免费观看| 在线视频一区二区| www.一区| 色乱码一区二区三在线看| 久久人人精品| 国产女主播喷水高潮网红在线| 欧美日韩国产一区二区| 日韩在线一区二区三区四区| 欧美成人国产va精品日本一级| www一区二区三区| 青青草原网站在线观看| 国产一区二区中文字幕| 国产极品国产极品| 欧美v日韩v国产v| 福利在线导航136| 福利视频久久| 亚洲国产片色| 国产偷人妻精品一区| 日本高清视频一区二区| 国产女人在线观看| 777国产偷窥盗摄精品视频| 欧美国产极品| 免费黄色特级片| 国产亚洲精品免费| 国产又粗又猛又爽又| 深夜福利亚洲导航| 亚洲网站免费| 日韩美女爱爱视频| av毛片久久久久**hd| 无码人妻熟妇av又粗又大| 中文字幕精品网| 久久久久毛片免费观看| 免费看国产一级片| 久久久不卡网国产精品二区| 在线播放一级片| 欧美黑人性猛交| 国产精选一区| 777一区二区| 亚洲精品免费视频| 好吊色视频一区二区| 日韩美女视频在线观看| 91欧美国产| 污网站免费观看| 色94色欧美sute亚洲线路一久| 91在线直播| 91久久精品美女高潮| 日韩午夜av| 国产精品suv一区二区88| 精品对白一区国产伦| 国产精品久久久久av电视剧| 欧美h视频在线观看| 99国产精品视频免费观看| 91黑人精品一区二区三区| 久久久国产一区二区| 亚洲电影男人天堂| 一二三级黄色片| 日韩欧美精品网址| 含羞草www国产在线视频| 久久手机视频| 日本va欧美va精品| 久久久精品99| 色噜噜亚洲精品中文字幕| 欧美精品中文| 日本在线观看视频一区| 在线看国产一区二区| rebdb初裸写真在线观看| 一区二区不卡在线视频 午夜欧美不卡'| 国产精品影视天天线|