精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

自搜索強化學習SSRL:Agentic RL的Sim2Real時刻

人工智能 新聞
本研究探索 SSRL,通過大語言模型 (LLM)?內部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩定性。實驗證明,該方法在多種基準測試中優于傳統基于外部搜索引擎的方法,同時首次在 LLM 智能體領域實現了從模擬到真實 (Sim2Real) 的有效遷移。

本文由清華大學、上海人工智能實驗室、上海交通大學等機構聯合完成。第一作者為上海 AI Lab 博士生樊鈺辰,研究方向是 Agent 以及強化學習;通訊作者為清華大學周伯文教授。

此前的 Agentic Search RL 任務大多采用真實搜索引擎,導致訓練效率低,速度慢,穩定性差。ZeroSearch 探索利用另一個模型提供信息的訓練方法,取得了較好的表現。然而,模型依賴自身世界知識能夠達到的上限,以及如何有效利用自身世界知識,降低幻覺仍然是一個值得探究的問題。為研究這些問題,本文引入 SSRL。

SSRL 利用結構化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各個 benchmark 上取得了更好的效果,有效地降低了模型的幻覺。本文接著探索訓練 agent 是否需要真實環境的參與,并發現在接入真實搜索引擎后,經過 SSRL 訓練的模型可以取得更好的效果,體現了 Sim2Real 的有效性。

SSRL 所有訓練數據,訓練細節,以及訓練模型均已開源。

  • Github鏈接: https://github.com/TsinghuaC3I/SSRL
  • 論文鏈接:https://arxiv.org/abs/2508.10874

一句話總結

本研究探索 SSRL,通過大語言模型 (LLM) 內部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩定性。實驗證明,該方法在多種基準測試中優于傳統基于外部搜索引擎的方法,同時首次在 LLM 智能體領域實現了從模擬到真實 (Sim2Real) 的有效遷移。

一、動機

當前 RL 訓練 Search Agent 主要有兩種方式:

1. 全真實搜索 (Full-Real Search):直接調用商業搜索引擎 API 或檢索增強生成 (RAG) 本地知識庫

2. 半真實搜索 (Semi-Real Search):使用輔助 LLM 模擬搜索引擎行為

問題:

  • 高昂成本:商業 API 調用費用昂貴,本地知識庫加重 GPU 負擔,且和真實場景存在差距
  • 訓練效率低下:多輪工具調用導致 rollout 效率降低
  • 訓練不穩定性:外部信息引入導致模型容易崩潰
  • 非端到端訓練:半真實搜索仍需額外微調步驟

綜上所述,目前的 Search Agent 訓練非常昂貴,耗時,且不穩定。

如何能夠降低訓練成本與訓練時間,同時能夠穩定地訓練 Search Agent 呢?

面對這些問題,我們首先進行了對于 LLM 依賴自身世界知識所能達到的效果的上限的探究。我們利用 structured prompt 誘發 LLM 自發地利用世界知識,并且通過 pass@k 證明了其極高的上限。受此啟發,我們嘗試用 RL 進一步強化模型利用自身世界知識的能力,探索 SSRL 的效果。在此基礎上,我們首次在 LLM Agent 領域提出 Sim2Real,并驗證 SSRL 訓練的模型在真實場景的泛化性。

二、觀察:LLM 利用世界知識的上限

對應 Agentic Search 任務 Pass@K 上限很高

此前已經有研究證明 LLM 通過重復采樣的方式可以在數學和代碼取得極高的通過率,然而對于 LLM 利用自身世界知識回答 Search QA 類問題的上限還有待研究。我們首先使用一個 formatted instruction 來顯式地利用模型內部知識(Self-Search)。

我們在大量的模型(包括 Qwen2.5,Qwen3,Llama3.1,Llama3.2)上進行了大量采樣,實驗結果顯示,僅依賴模型內部知識,就可以在所有的 benchmark 上獲得明顯的效果提升,如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 達到了 76% 的正確率,在 BrowseComp 上 pass@256 達到了 10% 的正確率。同時我們發現在這類任務上 Llama 系列效果遠超 Qwen 系列,這和 math 上的結論恰恰相反。

Thinking 越多效果不一定越好

受啟發于 Long-CoT LRM 的驚人表現,我們探究了 Long-CoT 對知識類的問題是否會有更好的表現。我們進行了三種 setting 的檢驗:

  • 對于 reasoning model,我們對是否使用 thinking mode 進行了對比實驗。
  • 對于 sampling strategy,我們對比了是否使用 multi-turn generation 以及 reflection-based generation。

實驗結果顯示,過多的 thinking,或者 multi-turn 的生成在給定相同 token budget 的情況下未必可以取得更好的效果,這也和之前的 reasoning 工作中的結論相左。

Pass@K 上限很高,但 Maj@N 達到上限很難

證明了 Self-Search 具有極高的上限后,我們嘗試使用 Majority Voting 的方法進行投票選擇。實驗結果顯示,僅僅依賴答案進行投票的方式無法逼近模型能力的上限,并且在增加參與 majority voting 的采樣數量時,效果也不會獲得進一步的提升。如何逼近 self-search 的 upper-bound 仍然是一個問題。

三、SSRL:自搜索強化學習

訓練目標優化

標準的搜索 RL Search Agent 目標函數為:

由于 R(檢索信息)來自策略本身,優化目標方程可以簡化為一個標準的 GRPO 優化目標:

關鍵技術設計

1. 信息掩碼(Information Masking)

和之前的 Search RL 工作一樣,我們在訓練時屏蔽 <information> 標簽內的 token,從而強制模型基于查詢和推理生成答案,而非簡單復制。

2. 復合獎勵函數

由于我們沒有人為地干預模型的生成過程,因此需要一個 format reward 去規范模型的格式化輸出,以更好地利用內部知識。同時,我們采用 outcome reward 防止 reward hacking,確保獎勵的有效性。

實驗結果

我們在 Llama 系列和 Qwen2. 5 系列上進行了訓練,實驗結果如下:

可以看到:

  • 利用 SSRL 訓練后的 Llama 系列模型比 Search-R1 和 ZeroSearch 這種依賴外部引擎訓練的模型可以取得更好的效果,然而在 Qwen 系列上,效果還有一定的差距。
  • 使用 SSRL 訓練效率可以提升約 5.6 倍,并且在訓練過程中,Training reward 持續增長,在訓練 2000 多步時也并未觀察到 collapse 現象。
  • 相比于 Base model,Instruct model 表現出更好的能力,我們將其歸因為 SFT 階段的大量信息注入。

四、Sim2Real Generalization

由于 Search 任務是和真實世界高度相關的,因此能夠結合真實搜索去實時地解決問題也是非常重要的。在這個工作中,我們探究了 SSRL 訓練的模型是否具有在真實世界搜索并推理的能力,我們稱為 Sim2Real。

替換 Self-Searched Knowledge 為 Online-Searched Information

首先我們進行實驗,將前 K 個 Self-Searched Knowledge 用在線搜索獲得的結果進行替換,我們發現

  • Sim2Real 會獲得一定程度的效果提升,這顯示了適當引入外部知識可以輔助模型思考。
  • 隨著 K 的增加,Sim2Real 的效果不會持續增長,這也顯示了模型內部知識的一定優越性,即高度壓縮性和靈活性,對于同樣的一個問題,模型 self-search 的知識可能更加貼合。

結合 Self-Generated Knowledge 和 Real-world Knowledge

此前我們已經證明了,真實世界的知識和模型生成的知識都各有其優越性,如何有機地在 SSRL 的背景下利用他們也是一個值得考慮的問題。我們首次提出 entropy-guided search,我們首先提取出 search content,如果呈現熵增趨勢,表明模型具有不確定性,我們應當尋求外部工具的幫助,如果熵減,則使用模型生成的知識。實驗結果如下:

實驗結果顯示,Search 次數相比于之前減少了 20%-42%,而實驗效果可以取得一個 comparable 的表現,但這只是一個初步的嘗試,更精細的結合方法仍是一個問題。

五、SSRL 和 TTRL 的結合

我們嘗試 SSRL 和 TTRL 相結合,證明 SSRL 的泛化性和有效性。可以發現,當使用 TTRL 時,相比于 GRPO-based SSRL,我們可以取得更好的效果,甚至可以獲得 67% 的效果提升。

甚至在最為困難的 BrowseComp 上,我們仍然能夠獲得穩定的增長。然而我們觀察到,使用 TTRL 時,模型會變得過于 confident,模型塌縮到每個問題只會搜索一次,且模型會學會一個捷徑,即先指出最后的答案,再通過 search 去 verify。此外,TTRL 也非常容易崩潰,Training reward 會極速下降到 0。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-11 04:00:00

2021-12-06 17:38:51

強化學習工具人工智能

2021-10-15 10:07:04

機器人人工智能算法

2025-08-29 05:00:00

2020-12-23 06:07:54

人工智能AI深度學習

2024-03-19 00:15:00

機器學習強化學習人工智能

2025-11-07 08:51:41

2025-09-09 09:09:00

2023-12-27 08:22:34

框架3D檢測

2025-03-28 10:16:15

2025-03-24 10:15:00

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-04-18 10:01:41

2020-02-06 13:06:52

人工智能自行車啤酒

2025-05-28 09:15:00

AI視覺模型

2020-11-12 19:31:41

強化學習人工智能機器學習

2025-08-08 09:15:00

2021-09-17 15:54:41

深度學習機器學習人工智能

2025-05-28 02:25:00

點贊
收藏

51CTO技術棧公眾號

99国产精品自拍| 福利片一区二区| 中文字幕一区二区三区在线不卡| 亚洲最大成人免费视频| 国产在线观看成人| 美女毛片一区二区三区四区最新中文字幕亚洲 | 欧美日韩美女在线观看| 视频一区视频二区视频三区视频四区国产| 一区二区三区亚洲视频| 亚洲成人原创| 曰本色欧美视频在线| 免费欧美一级片| 欧美人体一区二区三区| 亚洲码国产岛国毛片在线| 精品一区二区三区自拍图片区| 成人黄色片在线观看| 欧美日韩福利| 自拍偷拍亚洲在线| 草草地址线路①屁屁影院成人| 四虎永久精品在线| 狠狠操狠狠色综合网| 艳色歌舞团一区二区三区| 色噜噜一区二区三区| 激情文学综合插| 日本电影亚洲天堂| 久久黄色免费网站| 日韩国产专区| 亚洲欧美中文日韩在线| 中文字幕制服丝袜| 日韩一级特黄| 欧美性猛片xxxx免费看久爱| 国产一区二区在线视频播放| 91三级在线| 国产精品素人视频| 欧美视频小说| 日产精品久久久久久久性色| 大陆成人av片| 国产二区一区| 亚洲国产日韩在线观看| 国产麻豆午夜三级精品| 国产精品入口福利| 老熟妇一区二区三区| 日韩亚洲国产欧美| 久久久久久久久国产| 久久久久久久久毛片| 婷婷综合网站| 久久综合电影一区| 国产高潮流白浆| 一区二区三区网站| 欧美成人免费一级人片100| 国产成人免费在线观看视频| 日本不卡电影| 色偷偷噜噜噜亚洲男人| 中文字幕 自拍| 精品国产91久久久久久浪潮蜜月| 亚洲男人天堂网| 国产真实乱人偷精品人妻| 啪啪激情综合网| 日韩精品视频免费在线观看| 亚洲av网址在线| 亚洲美女15p| 亚洲欧美中文字幕在线一区| 天堂久久精品忘忧草| 精品高清久久| 色偷偷av一区二区三区乱| chinese全程对白| 午夜日韩av| 国内精品视频在线| 国产成人无码精品| 性色一区二区三区| 国产成人一区三区| 亚洲一卡二卡在线| 国产一区二区三区综合| 99国产在线| 天天色综合av| 国产亚洲一区二区三区四区| 亚洲图片都市激情| a视频在线观看| 亚洲第一福利一区| 黄色影院一级片| 日韩不卡在线| 日韩视频免费观看高清完整版| 日本成人在线免费| 婷婷国产精品| 日韩中文在线观看| 久久久久久久极品内射| 国产精品一页| 91青草视频久久| 天天操天天干天天干| 久久久国际精品| 国产日产欧美一区二区| av老司机免费在线| 在线免费一区三区| 中文字幕制服丝袜| 精品免费av| 久久久久久国产| av首页在线观看| 国产成人av影院| 日本免费一区二区三区| 亚洲区欧洲区| 在线免费精品视频| 精品1卡二卡三卡四卡老狼| 国产亚洲精品美女久久久久久久久久| 久久精品国产综合| 日本熟女毛茸茸| 国产精品一区一区| 欧美一区亚洲二区| 欧美四级在线| 欧美日韩一区二区三区高清 | 精品国产一区久久久| 国产亚洲精品成人| 蜜臀av国产精品久久久久| 国产精品一区二区在线观看| av在线免费一区| 天天综合色天天| 污污的视频免费观看| 伊人成综合网伊人222| 欧美成人性色生活仑片| 成年人av网站| 成人免费三级在线| 中国一级大黄大黄大色毛片| 天天综合网站| 亚洲国产精品高清久久久| 女人18毛片毛片毛片毛片区二 | 81精品国产乱码久久久久久| 国产精品女人久久久| 久久日一线二线三线suv| 国产高清不卡无码视频| 日韩成人一区| 原创国产精品91| 日韩av免费播放| 久久免费午夜影院| 久久久久久久中文| 国产精品18hdxxxⅹ在线| 久久亚洲成人精品| 中文字幕一区二区三区人妻四季| 久久综合久久综合九色| 国产毛片久久久久久国产毛片| 国产精品视频一区视频二区| 日韩在线观看免费| 亚洲一区二区色| 日本一二三不卡| 亚洲视频在线观看一区二区三区| 一本久久青青| 庆余年2免费日韩剧观看大牛| 后进极品白嫩翘臀在线视频| 亚洲最色的网站| 性生交大片免费看l| 午夜欧美精品久久久久久久| 97超碰人人看人人| 青春草视频在线观看| 欧美一卡2卡3卡4卡| 麻豆天美蜜桃91| 国产麻豆精品一区二区| 日韩欧美一级在线| 澳门精品久久国产| 午夜精品一区二区三区在线| 男人的天堂a在线| 婷婷中文字幕一区三区| 日本黄色动态图| 亚洲综合国产| 午夜精品美女久久久久av福利| 亚洲日本天堂| 最近2019免费中文字幕视频三 | 亚洲欧洲高清| 伊人精品在线观看| 97视频免费在线| 自拍偷拍国产精品| 麻豆tv在线观看| 一区二区三区精品视频在线观看| 精品久久精品久久| 欧美大片免费高清观看| 中日韩美女免费视频网站在线观看 | 亚洲无人区码一码二码三码的含义| 日本最新不卡在线| 男女h黄动漫啪啪无遮挡软件| 亚洲精品福利| 97成人精品区在线播放| 免费在线稳定资源站| 欧美在线免费播放| 小泽玛利亚一区| 成人国产精品免费| 可以免费观看av毛片| 久久蜜桃av| 国产精品国色综合久久| 色综合一本到久久亚洲91| 日韩有码在线电影| 三级网站免费观看| 欧美日韩国产电影| 久草精品视频在线观看| 国产三级三级三级精品8ⅰ区| 一级黄色高清视频| 在线综合亚洲| 正在播放一区| 中国av一区| 亚洲综合成人婷婷小说| 伊人久久综合一区二区| 久久精品国产视频| 免费理论片在线观看播放老| 日韩午夜激情av| 久久久久久久亚洲| 亚洲成人一二三| 免费观看特级毛片| 91在线视频免费91| 毛片毛片毛片毛| 免费欧美日韩| 亚洲乱码日产精品bd在线观看| 精品视频99| 久久99导航| 国产一区二区在线观| 国产成人中文字幕| 俺来俺也去www色在线观看| 中文字幕亚洲专区| 亚洲av成人无码久久精品老人 | 五月天视频在线观看| 99亚洲一区二区| 中文字幕在线中文| 成人在线免费观看视频| 美女精品国产| 成人知道污网站| 91免费欧美精品| 四虎成人精品一区二区免费网站| 日本道色综合久久影院| 99久久精品免费看国产小宝寻花| 成年无码av片在线| 五月婷婷在线观看| 在线观看亚洲视频| 国产网站在线播放| 亚洲欧洲在线视频| 天堂av在线7| 亚洲精品电影网| 免费观看黄色av| 亚洲精品一区二区三区精华液| 国产精品无码一区二区桃花视频| 欧美在线免费观看亚洲| 日韩黄色片网站| 色一情一伦一子一伦一区| 日本最新中文字幕| 亚洲图片欧美一区| 久久久久成人片免费观看蜜芽| 亚洲视频香蕉人妖| 亚洲精品久久久久久国| 国产精品国产自产拍在线| 九九热久久免费视频| 中文字幕 久热精品 视频在线| 九九热免费在线| 亚洲国产高清不卡| 后入内射无码人妻一区| 中文字幕欧美一区| 免费在线观看h片| 一区二区不卡在线视频 午夜欧美不卡在| 疯狂试爱三2浴室激情视频| 亚洲色图.com| 免费网站看av| 亚洲成av人片在线观看| 日本va欧美va国产激情| 黑人巨大精品欧美一区二区免费| 中文字幕在线看人| 欧美午夜一区二区三区| 91精品国产乱码久久久| 91精品国产91综合久久蜜臀| 国产丝袜在线视频| 日韩欧美不卡在线观看视频| 风流老熟女一区二区三区| 亚洲成人久久久| 久青青在线观看视频国产| 国产一区二区精品丝袜| 免费黄色电影在线观看| 欧美第一页在线| 手机在线观看av| 国产精品高清在线| 成人av在线播放| 国产亚洲一区在线播放| 最新国产精品视频| 中文字幕一区二区中文字幕 | 欧美激情精品久久久久久黑人 | 国内精品美女在线观看| www在线观看免费| 视频一区欧美精品| 日本高清久久久| 成人手机在线视频| 男人天堂av电影| 亚洲视频香蕉人妖| 色网站在线播放| 欧美精选午夜久久久乱码6080| 性猛交富婆╳xxx乱大交天津 | aaa级精品久久久国产片| 老汉色老汉首页av亚洲| 日韩影院一区| 影音先锋久久| 污污动漫在线观看| 成人免费看的视频| 波多野结衣家庭教师在线观看 | 国产99久久久久久免费看| 欧美丰满嫩嫩电影| 爽爽视频在线观看| 久久夜色精品亚洲噜噜国产mv | 亚洲激情国产| 韩国视频一区二区三区| 国产成人鲁色资源国产91色综| 性农村xxxxx小树林| 中日韩免费视频中文字幕| 免费一级a毛片夜夜看 | 亚洲精品中文字幕在线观看| 一级黄色免费网站| 欧美一卡二卡在线观看| 国内精品在线视频| 国模吧一区二区| 久久99精品久久久野外观看| 欧美一区二区三区四区夜夜大片| 欧美国产三级| 爱爱爱爱免费视频| 久久这里只有精品视频网| 欧美精品入口蜜桃| 欧美日韩高清影院| 酒色婷婷桃色成人免费av网| 韩国三级日本三级少妇99| 日韩三区四区| 日本一区高清不卡| 亚洲中字黄色| 欧美夫妇交换xxx| 亚洲美女一区二区三区| 中文天堂在线播放| 亚洲片国产一区一级在线观看| 麻豆changesxxx国产| 午夜综合激情| 四虎永久免费观看| 亚洲视频 欧洲视频| 精品久久久久久久久久久久久久久久久久 | 中文字幕日韩在线播放| 二区三区不卡| 久久免费一区| 国产视频一区在线观看一区免费| www.啪啪.com| 亚洲超碰精品一区二区| 成人av手机在线| 九九精品在线观看| 国产精品视频一区视频二区| 免费观看黄色大片| 国产一区999| 麻豆精品一区二区三区视频| 欧美一区二区福利在线| 国产精品刘玥久久一区| 91视频免费在线| 欧美在线高清| av电影中文字幕| 亚洲狠狠爱一区二区三区| 高h调教冰块play男男双性文| 久久久久久网址| 久久激情av| 日本成年人网址| 国产亚洲欧美一级| 亚洲精品国产精品乱码视色| 中文字幕日韩精品有码视频| 日本成人在线网站| 成人性做爰片免费视频| 国产精品亚洲一区二区三区在线| 日韩三级在线观看视频| 欧美一二区视频| 成人在线免费观看黄色| 国产一区精品视频| 欧美中文日韩| 日本黄色激情视频| 9191国产精品| 丁香花电影在线观看完整版| 久久99精品久久久久久久久久 | 国产精品一区二区三区成人| 99精品视频在线观看播放| 两性午夜免费视频| 亚洲午夜日本在线观看| 青青草在线视频免费观看| 国产精品嫩草视频| 天天av综合| 亚洲中文字幕无码一区| 色狠狠桃花综合| 成人短视频在线| 极品日韩久久| 免费在线一区观看| 欧美日韩大片在线观看| 日韩成人av在线播放| 国产成人午夜性a一级毛片| 精品嫩模一区二区三区| 91丨porny丨最新| 国产精品久久久久久久免费| 欧美精品中文字幕一区| 日韩动漫一区| 热久久久久久久久| 五月天激情小说综合| 成年人在线观看| 99爱精品视频| 日本怡春院一区二区| 国产一级aa大片毛片| 亚洲欧美日韩综合| 国产精品1区在线| 免费无码av片在线观看| 亚洲免费成人av| av色图一区| 久久精品五月婷婷| 国产伦精品一区二区三区免费| 国产三级av片|