精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

IKEA:通過強化學習提高LLM檢索規劃效率(開源)

發布于 2025-5-20 06:36
瀏覽
0收藏

1. 為什么要提出IKEA?

隨著可驗證獎勵系統的大規模強化學習(RL)技術突破,以Deepseek R1為代表的推理模型性能顯著提升。這類模型能通過推理激活預訓練知識來處理知識密集型任務,但受限于預訓練語料的局限性和世界知識的動態性,仍存在幻覺問題。

當前主流解決方案是賦予模型調用搜索引擎的能力,將其訓練為搜索智能體,使其在強化學習中逐步掌握任務分解與知識檢索能力。

然而該方法存在明顯缺陷:

其一,過度依賴LLM的工具調用功能,卻未能充分發揮其作為內置知識庫(LLM-as-KB)的潛力,導致大量冗余檢索——即便答案已編碼在模型參數中仍進行外部搜索。

其二,檢索器性能局限會引入噪聲,造成知識沖突,常見如錯誤檢索結果覆蓋正確參數知識。

其三,頻繁的搜索引擎調用會打斷生成過程,導致顯著推理延遲。這引出了核心研究命題:如何訓練能智能融合參數知識(內部)與檢索知識(外部)的高效自適應搜索智能體?

理想的搜索智能體需具備三大知識行為:

  • 知識邊界劃分:將問題拆解為原子問題并判斷各子問題是否在其知識邊界內;
  • 內部知識調用:對邊界內問題激活相關參數知識輔助解答;
  • 外部知識檢索:對邊界外問題生成精準搜索指令并獲取所需知識。

關鍵在于智能決策檢索時機——現有方法或依賴泛化性差的外部分類器,或采用復雜的數據工程實現自主決策,但尚未充分探索如何通過強化學習實現最優檢索時機的自主判斷。

為此,提出強化內外知識協同推理智能體IKEA。明確要求模型先界定知識邊界并優先調用參數知識,僅當確認知識不足時才觸發外部檢索。

2. 什么是IKEA?

自適應搜索智能體(Reinforced Internal-External Knowledge Synergistic REasoning Agent,IKEA)設計了兩大核心組件:

  • 面向知識協同的邊界感知獎勵函數
  • 精心構建的平衡訓練數據集(含等量的可內部解答與需外部檢索的問題)。

獎勵機制對參數知識充足的問題鼓勵答案正確性并抑制冗余檢索,對邊界外問題則激勵精準檢索,以此提升模型的自我認知能力。

在單跳與多跳知識推理任務上,IKEA不僅全面超越基線方法,在分布外數據也展現強大泛化能力。相比傳統強化學習方案Search-R1,IKEA能在提升性能的同時大幅降低檢索次數,充分驗證了方法的優越性。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

如上圖中部所示,典型的LLM搜索智能體會在動作標記中依次生成推理思路、搜索查詢和最終答案。

  • 頂部展示LLM智能體的多輪強化學習訓練框架(含可驗證獎勵機制)
  • 中部為Search-R1模塊
  • 底部為IKEA模塊。

Search-R1和IKEA屬于特殊類型的LLM智能體。

為規范交互動作的解析,定義了三類結構化標簽:

  • ??<THINK>[推理內容]</THINK>??用于思維過程
  • ??<SEARCH>[搜索查詢]</SEARCH>??用于檢索操作
  • ??<ANSWER>[最終答案]</ANSWER>??用于結果輸出

雖然??<THINK>??標簽內容不直接參與環境交互,但它作為模型生成的思維痕跡,仍屬于動作序列的組成部分。

智能體在每輪交互中,需先在??<THINK>???標簽內完成狀態分析,再選擇生成??<SEARCH>???或??<ANSWER>??標簽進行實際操作。

當觸發??<SEARCH>???時,模型生成的查詢語句會驅動檢索器從語料庫獲取相關知識,這些知識會被封裝在??<CONTEXT>[檢索結果]</CONTEXT>??標簽中,作為觀察信息反饋給智能體。

??<CONTEXT>???內容屬于環境反饋而非模型生成,因此在訓練時會進行屏蔽處理。當??<ANSWER>??標簽被激活時,意味著任務進入終局階段,模型輸出的答案將終結整個交互流程,我們稱此完整過程為一個"推演"。

2.1 IEKA:強化型內外知識協同推理智能體

現有搜索智能體往往過度依賴大語言模型(LLM)的任務分解能力:將查詢拆解為子問題后,反復檢索相關文檔輔助推理。這種模式既浪費了LLM本身作為知識庫的潛力,導致大量冗余檢索,又可能因錯誤外部知識覆蓋正確內部知識而產生有害沖突。

為此,需要IKEA——能智能劃定知識邊界,邊界內充分調用模型參數知識,邊界外精準啟動檢索機制。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA智能體通過三重創新實現這一目標(如上圖):

  • 智能提示模板:引導模型自主決策何時調用內部知識,何時啟動外部檢索
  • 邊界感知獎勵機制:包含答案準確性獎勵(r_ans)和知識邊界獎勵(r_kb),通過強化學習驅使模型明確認知自身能力邊界
  • 平衡訓練數據集:按1:1比例混合模型擅長的問題(Q_easy)與薄弱問題(Q_hard),避免訓練后出現"全盤檢索"或"拒絕檢索"的極端傾向

獎勵函數設計精要:

  • 格式錯誤直接扣分(R=-1)
  • 答案正確時(r_ans=1),獎勵隨檢索次數減少而線性增加,最高達r_kb+
  • 答案錯誤時(r_ans=0),零檢索得0分,啟動檢索則獲象征性獎勵r_kb-
  • 通過設定r_kb-?r_kb+,確保模型優先信任自身知識

數據構建采用上下文學習法:對每個問題采樣N次答案,至少一次正確則標記為Q_easy(模型已掌握),否則為Q_hard(需輔助)。如表1所示,這種均衡設計使Qwen2.5系列模型在保持精確匹配率(EM)的同時,顯著優化了檢索效率(RT)。

3. 效果如何

3.1 整體效果

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖分別呈現了實驗結果與訓練日志。簡單任務主要依賴模型已有知識,而困難任務往往需要突破知識邊界。

傳統基線方法難以協調內外知識:

  • "Direct"純靠內部知識
  • "RAG"和迭代檢索的"Iter-Retgen"則依賴外部知識

外部知識顯著提升LLM在知識密集型任務的表現,暴露出模型內部知識儲備的不足。但持續檢索會引發沖突與延遲,自適應方法IR-COT(自主決定檢索時機)和FLARE(基于低置信詞元觸發檢索)試圖解決該問題。

  • IR-COT雖提升困難任務表現,卻因知識沖突損害簡單任務;
  • FLARE因檢索次數過少,效果與"Direct"相當,證明詞元概率并非理想檢索觸發器。

關鍵結論在于:必須動態協同運用內外知識——夠用則內,不足則外。但未經調優的模型缺乏自主判斷能力。

強化學習基線成功激活了模型單獨運用內外知識的能力。僅用內部知識的R1通過強化知識表達,在簡單任務上表現突出,但對困難任務提升有限,印證外部知識的必要性。

能生成搜索查詢的Search-R1以更少檢索次數超越迭代檢索等方法,證明強化學習可增強外部知識獲取的規劃能力。但兩者都未能實現內外知識的有機融合。

IKEA實現了內外知識的自適應協同。在多輪決策中,模型可自由選擇知識來源。通過知識邊界感知獎勵機制:當內外知識均有效時,鼓勵優先使用內部知識以減少檢索;內部知識不足時,則觸發檢索獲取外部知識。

IKEA較R1性能提升超10%(主要來自困難任務),較Search-R1大幅減少檢索次數,表明模型通過自我探索學會了劃定知識邊界——邊界內充分調用參數化知識,邊界外有效利用檢索知識。這不僅規避了知識沖突,更提升了整體效率。值得注意的是,其在分布外數據集同樣表現優異,證明這種知識獲取策略具備良好泛化性。

IKEA訓練方法具有普適性。

  • 基于指令調優模型(Qwen2.5-7B-Instruct)的IKEA起點較高;
  • 從零開始的IKEA-Zero(Qwen2.5-3B-Base)雖初期獎勵較低,但最終都能達到相近水平,證實強化學習可實現無冷啟動的協同推理。

更大模型(7B vs 3B)收斂更快且效果更優。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

檢索次數與響應長度的變化曲線揭示:初期通過增加檢索探索知識邊界,后期逐步優化消除冗余。特別是IKEA-Zero的響應長度持續精簡,反映出其對無效冗余的持續優化。

3.2 消融實驗

以Qwen2.5-3B-Instruct模型為基礎開展消融實驗,全面驗證了所提方法的優越性。

3.3 獎勵機制的設計影響

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖展示了不同獎勵方案下的訓練數據對比,包含有效搜索量、響應長度及訓練獎勵的變化趨勢。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上表則呈現了最終測試結果。

  • 當移除知識邊界感知獎勵時,有效檢索次數和響應長度持續攀升,遠超基準模型。這是由于訓練初期,檢索行為比調用內部知識更容易獲得獎勵,梯度更新自然偏向抑制后者,最終形成"檢索至上"的決策偏好,與Search-R1策略如出一轍。
  • 在僅保留正向獎勵時,模型檢索頻率和響應長度驟減——因為獎勵機制過度鼓勵依賴內部知識,導致模型錯誤地將R1策略泛化到所有問題。

3.2 數據集難度的影響分析

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖清晰呈現了不同難度訓練數據集的動態變化:有效搜索次數、響應長度和訓練獎勵的演變曲線。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

通過對比簡單、混合、困難三種難度數據集的訓練過程(如上表),發現一個穩定規律:

無論是有效搜索次數還是響應長度,困難數據集的表現均優于混合數據集,而混合數據集又優于簡單數據集。

這是因為模型會智能地根據問題難度選擇知識調用方式——對熟悉領域使用參數化知識,對陌生領域則啟用檢索機制。

使用簡單數據集訓練時,模型的檢索頻率和響應長度會持續衰減,最終完全適配訓練數據的難度特征。經過難度調整的IKEA模型(無論是簡化版還是困難版),其精確匹配率都明顯遜色于原始模型。

其中簡化版的檢索頻次驟降,而困難版則檢索激增。

這一現象說明:過度依賴單一知識類型會制約模型潛能,只有讓參數化記憶與檢索知識珠聯璧合,才能實現最優的推理效果。

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI

已于2025-5-20 09:31:40修改
收藏
回復
舉報
回復
相關推薦
99久久国产宗和精品1上映| 国产视频不卡| 欧美日韩精品亚洲精品| 色欲久久久天天天综合网| 好看不卡的中文字幕| 日韩国产精品视频| 三上悠亚av一区二区三区| 91亚洲天堂| 久久免费视频色| 成人在线中文字幕| 欧美在线观看不卡| 亚洲成人三区| 亚洲另类图片色| 国产三级精品三级在线| 黄色激情在线播放| 国产女同互慰高潮91漫画| 91嫩草在线| 国产日韩久久久| 亚洲黄色在线| 久久精品国产综合| 亚洲最大成人网站| 999久久久精品一区二区| 在线看不卡av| 极品美女扒开粉嫩小泬| 成人在线网址| 国产一区二区在线观看免费| 97超级碰在线看视频免费在线看| 国产喷水在线观看| 九九视频免费观看视频精品| 日韩免费看网站| 天堂av在线中文| 精品乱码一区二区三四区视频| 午夜亚洲一区| 欧美国产日韩一区| 亚洲精品自拍视频在线观看| 欧美精品第一区| 亚洲国产精品久久91精品| 永久免费黄色片| 精品乱码一区二区三区四区| 91九色最新地址| 缅甸午夜性猛交xxxx| 伊人手机在线| 亚洲精品成a人| 中文字幕久久综合| 一级日本在线| 国产精品美女久久久久高潮| 秋霞毛片久久久久久久久| 五月婷婷丁香六月| 99精品欧美一区| 国产欧美亚洲日本| 日本黄色一区二区三区| 亚洲久久一区| 久久久免费观看视频| 欧美日韩人妻精品一区二区三区| 国产韩日影视精品| 日韩在线视频一区| 亚洲人与黑人屁股眼交| 91视频精品| www.精品av.com| 欧美风情第一页| 成人午夜大片| 亚洲第一福利在线观看| 一级欧美一级日韩片| 欧美男人操女人视频| 亚洲精品456在线播放狼人| 又黄又色的网站| 国产伦精品一区二区三区免费优势 | 欧美日韩视频在线第一区 | 中文字幕在线字幕中文| 国产一区二区精品| 在线视频日本亚洲性| 国产精品理论在线| 999视频精品| 欧美精品日韩www.p站| 久草网在线观看| 亚洲三级影院| 国产精品第三页| 香蕉视频一区二区| 一区二区国产在线观看| 国产精品成人一区二区| 国产精品伦理一区| 成人午夜又粗又硬又大| 欧美激情一区二区三区在线视频| 久久久资源网| 中文字幕一区免费在线观看| 日本中文字幕一级片| 性感女国产在线| 亚洲精品精品亚洲| 大j8黑人w巨大888a片| 偷拍视频一区二区三区| 欧美高清hd18日本| 97人妻精品一区二区三区免费| 免费精品国产| 久久成人精品电影| 黄色激情视频在线观看| 欧美96一区二区免费视频| 91精品国自产在线观看| 国产视频网址在线| 亚洲精品成人在线| 国产福利一区视频| 亚洲综合网狠久久| 在线看国产精品| 精品视频在线观看免费| 奇米精品一区二区三区四区 | 91在线播放观看| 成人高清av| 久久久久久亚洲| 亚洲无码精品在线播放| 93久久精品日日躁夜夜躁欧美| 亚洲看片网站| 在线观看免费高清完整| 午夜精品久久久久影视| 国产精品久久久久久9999| 日本欧美韩国国产| 久久视频在线观看免费| 无码人妻精品一区二| 国产v综合v亚洲欧| 在线观看一区二区三区三州| 日韩av福利| 亚洲第一精品夜夜躁人人躁| fc2ppv在线播放| 久久婷婷久久| 国产精品欧美日韩久久| 无码精品人妻一区二区| 亚洲精品国久久99热| 爆乳熟妇一区二区三区霸乳| 卡通动漫精品一区二区三区| 久久国产精品网站| 一区二区三区亚洲视频| 久久久久久久精| 少妇无码av无码专区在线观看 | 色欲狠狠躁天天躁无码中文字幕 | 国产精品电影院| 国产日韩一区二区在线| 欧美wwwwww| 欧美极度另类性三渗透| www.国产黄色| 亚洲欧美另类图片小说| 色噜噜狠狠一区二区三区狼国成人| 久久av免费| 日韩av免费看| 这里只有精品9| 久久九九99视频| 免费在线观看日韩视频| 神马日本精品| 欧美在线视频网站| 你懂的在线看| 色欧美乱欧美15图片| 波多野结衣a v在线| 国产伦理一区| 日本三级中国三级99人妇网站| 欧美日韩大片| 伊人成人开心激情综合网| 中文天堂在线资源| 成人欧美一区二区三区视频网页| 久久国产激情视频| 国产精品毛片久久| 91福利视频导航| 日韩av官网| 色老汉一区二区三区| 欧美做受高潮6| 麻豆国产精品777777在线| 一区二区精品视频| 日韩精品免费视频一区二区三区 | 日本不卡一二三区| 亚洲爱爱视频| 久久久成人精品视频| 国产99久久九九精品无码免费| 亚洲自拍欧美精品| 波多野结衣av在线免费观看| 日韩一区精品视频| 在线看成人av电影| 给我免费播放日韩视频| 日本不卡免费高清视频| 欧美尤物美女在线| 精品国产91洋老外米糕| 欧产日产国产69| 国产精品国产三级国产普通话99| 999热精品视频| 99在线观看免费视频精品观看| 欧美日韩精品免费看| 久久天天久久| 久久久久成人网| 国产免费a∨片在线观看不卡| 欧美日韩一区二区不卡| 久久久久久国产精品视频| 91偷拍与自偷拍精品| 国产九九热视频| 亚洲久久在线| 最新精品视频| 妖精视频一区二区三区免费观看 | 国模私拍一区二区国模曼安| 国产一区二区黄| 性猛交xxxx乱大交孕妇印度| 色综合久久88色综合天天6| 折磨小男生性器羞耻的故事| 亚洲一区二区伦理| 中文字幕一区二区三区有限公司| 99香蕉久久| 国产精品一区二区3区| av2020不卡| 北条麻妃一区二区三区中文字幕 | 日韩伦理在线免费观看| 成人精品视频| 蜜桃导航-精品导航| 97精品资源在线观看| 欧美最猛性xxxxx免费| av免费在线观看网址| 伊人久久免费视频| 天堂a√在线| 日韩亚洲电影在线| www.av免费| 久久久久综合网| 91精品又粗又猛又爽| 久久国产精品第一页| 黄www在线观看| 黄色免费成人| 992tv成人免费观看| 欧美熟乱15p| 久久人人爽爽人人爽人人片av| 欧美大片91| 成人h片在线播放免费网站| 日韩a**中文字幕| 庆余年2免费日韩剧观看大牛| 97超碰在线免费| 欧美大片免费观看| huan性巨大欧美| www.亚洲成人| 婷婷激情在线| 这里只有精品久久| 成年人视频在线观看免费| 亚洲精品一二区| 天堂在线中文资源| 亚洲国产精品推荐| 国产 日韩 欧美 精品| 日韩你懂的在线播放| 国产三级视频在线播放| 欧美男生操女生| 一级黄在线观看| 欧美精品色一区二区三区| 在线免费观看高清视频| 欧美日韩亚州综合| 亚洲系列第一页| 欧美日本视频在线| 国产性70yerg老太| 夜夜嗨av一区二区三区网页| 欧美三级日本三级| 亚洲欧洲美洲综合色网| 国产真实乱在线更新| 17c精品麻豆一区二区免费| 亚洲a∨无码无在线观看| 国产精品色一区二区三区| 免费黄色国产视频| 亚洲人成网站精品片在线观看| 成人高潮免费视频| 一区二区三区色| 久久这里只有精品国产| 亚洲成人久久影院| 欧美a∨亚洲欧美亚洲| 欧美性xxxx极品hd欧美风情| www.97视频| 亚洲精品中文在线影院| 久久久精品国产sm调教网站| 亚洲一区二区视频在线观看| 日本一级淫片免费放| 日韩欧美亚洲一二三区| 黄色大全在线观看| 91精品国产手机| 成人爽a毛片一区二区| 日韩av网站电影| 成年人在线观看视频| 欧美老妇交乱视频| av高清不卡| 成人精品一区二区三区| 成人福利一区| 欧美日韩在线高清| 99精品视频精品精品视频| 激情成人开心网| 久久久亚洲一区| 伊人精品视频在线观看| www.在线成人| 欧美成人短视频| 亚洲地区一二三色| 一区二区乱子伦在线播放| 欧美一区二视频| 四虎在线免费看| 不卡中文字幕av| 大胆人体一区| 2019国产精品视频| 久久99影视| 免费在线看黄色片| 青青草国产精品97视觉盛宴| 白丝校花扒腿让我c| 国产欧美在线观看一区| 欧美日韩人妻精品一区二区三区| 日本国产一区二区| 91久久国语露脸精品国产高跟| 亚洲国产日韩一区| 黄视频网站在线| 日本在线观看天堂男亚洲 | 最新黄色av网址| 欧美日韩激情网| 日韩美女一级片| 欧美日韩三级在线| 三级在线电影| 色与欲影视天天看综合网| 欧美日韩精品一区二区三区视频| 成人欧美一区二区三区视频| 日韩.com| 茄子视频成人免费观看| 成人免费高清在线观看| 啪啪一区二区三区| 在线看一区二区| 男女av在线| 97精品一区二区三区| 日韩在线视频一区二区三区| 亚洲视频sss| 日本一不卡视频| 免费看黄色aaaaaa 片| 亚洲国产一区二区三区青草影视| 97国产精品久久久| 一区二区三区四区在线观看视频| 国产拍在线视频| 国产乱人伦精品一区二区| 中文字幕一区二区三区乱码图片| www.99av.com| 亚洲国产精品黑人久久久| 在线观看免费av片| 日韩精品福利在线| 2020国产在线| 好吊色欧美一区二区三区| 国产精品红桃| 欧洲成人午夜精品无码区久久| 亚洲丝袜自拍清纯另类| 一区二区三区免费在线| 波霸ol色综合久久| 欧美综合社区国产| 一区二区三区在线视频111| 麻豆国产欧美日韩综合精品二区| 一级特黄曰皮片视频| 欧美在线一二三| 成人午夜在线观看视频| 国产精品福利在线观看| 欧美精品系列| 午夜两性免费视频| 亚洲欧洲美洲综合色网| 999av视频| 欧美精品成人91久久久久久久| 51亚洲精品| 欧美爱爱视频免费看| 337p粉嫩大胆噜噜噜噜噜91av| 狠狠人妻久久久久久| 亚洲日本中文字幕| 精品九九久久| 99re6这里有精品热视频| 成+人+亚洲+综合天堂| 成人免费a视频| 国产一区二区三区视频在线观看| 日韩中文在线播放| 自拍偷拍99| 成人夜色视频网站在线观看| 国产精品午夜影院| 亚洲人高潮女人毛茸茸| 色综合久久久| 国产911在线观看| 播五月开心婷婷综合| 7799精品视频天天看| xvideos亚洲人网站| aaa国产精品| 欧美成人精品欧美一级乱| 国产精品久久久久久久久免费丝袜| 国产又粗又长又大视频| 欧美精品久久久久a| 亚洲宅男网av| 欧洲美女亚洲激情| 午夜精品一区二区三区电影天堂| 毛片免费在线播放| 91免费看国产| 亚洲美女黄网| 青青青视频在线播放| 精品国产乱码久久久久久影片| 韩国美女久久| 一级全黄肉体裸体全过程| 99久久久免费精品国产一区二区| 69亚洲精品久久久蜜桃小说| 久久视频在线观看免费| 欧美做受69| 伊人国产精品视频| 狠狠久久五月精品中文字幕| 免费黄色在线看| 精品午夜一区二区| 精品一区二区三区在线观看| 久久亚洲天堂网| 久久夜色精品国产| 九九久久成人| 88av在线播放| 欧美日本国产视频| 中文日产幕无线码一区二区| 国产内射老熟女aaaa| 国产亲近乱来精品视频|