精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UIUC聯(lián)手谷歌發(fā)布Search-R1:大模型學會「邊想邊查」,推理、搜索無縫切換

人工智能 新聞
本文提出了 Search-R1,一種全新的強化學習框架,使大語言模型能夠在生成過程中靈活調用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學習查詢與信息利用策略。

本文的作者來自伊利諾伊大學香檳分校(UIUC)、馬薩諸塞大學(UMass)和谷歌。本文的第一作者為 UIUC 博士生金博文,主要研究方向為與大語言模型相關的智能體、推理和強化學習研究。其余學生作者為 UMass 博士生曾翰偲和 UIUC 博士生岳真銳。本文的通信作者為 UIUC 教授韓家煒。

DeepSeek-R1 展示了強化學習在提升模型推理能力方面的巨大潛力,尤其是在無需人工標注推理過程的設定下,模型可以學習到如何更合理地組織回答。然而,這類模型缺乏對外部數(shù)據(jù)源的實時訪問能力,一旦訓練語料中不存在某些關鍵信息,推理過程往往會因知識缺失而失敗。

與此同時,另一個研究方向——搜索增強生成(Retrieval-Augmented Generation, RAG),試圖通過引入外部搜索引擎緩解上述問題。現(xiàn)有 RAG 方法主要分為兩類:

  • 基于 Prompting 的方法直接在提示詞中引導大模型調用搜索引擎。這種方式雖無需額外訓練,但存在明顯局限:大模型本身可能并不具備如何與搜索引擎交互的能力,例如何時觸發(fā)搜索、搜索什么關鍵詞等,往往導致調用行為不穩(wěn)定或冗余。
  • 基于監(jiān)督微調(SFT)的訓練方法:通過構建高質量的數(shù)據(jù)集,訓練模型學習合理的搜索調用策略。這類方法具有更強的適應性,但卻面臨可擴展性差的問題:一方面,構建高質量、覆蓋豐富推理路徑的搜索數(shù)據(jù)非常昂貴;另一方面,由于搜索操作本身不可微分,無法直接納入梯度下降優(yōu)化流程,阻礙了端到端訓練的有效性。

為此,我們提出了一個新的訓練范式——Search-R1,它基于強化學習,通過環(huán)境交互式學習方式訓練大模型自主掌握推理與搜索交替進行的策略,實現(xiàn)真正意義上的「邊推理,邊搜索」的閉環(huán)智能體。

圖片

  • 論文標題:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.09516
  • 代碼地址:https://github.com/PeterGriffinJin/Search-R1
  • huggingface 主頁:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

圖片

方法

搜索增強的強化學習框架

傳統(tǒng) RL 方法通常讓大模型僅在固定輸入上學習生成答案。而 Search-R1 引入了一個可交互的「搜索引擎模塊」,模型可以在生成過程中隨時發(fā)起搜索請求,獲取外部知識,從而提升推理質量。

圖片

為了避免訓練時對搜索結果本身產生不必要的「記憶」,我們對搜索引擎返回的文本進行了損失屏蔽(loss masking),確保模型僅學習如何在檢索增強背景下進行合理推理,而非簡單復制外部知識。

多輪搜索調用的生成機制

Search-R1 允許模型在回答前進行多輪推理與搜索交替進行。具體流程如下:

  • 模型首先通過 <think>...</think> 標簽進行推理;
  • 如果模型判斷當前知識不夠,會觸發(fā) <search>關鍵詞</search>;
  • 系統(tǒng)自動調用搜索引擎,將搜索結果以 <information>...</information> 的形式插入上下文;
  • 模型根據(jù)新信息繼續(xù)推理,直到輸出 <answer>答案</answer>為止。

整個過程高度模塊化且可擴展,支持多個搜索引擎與自定義檢索策略。

圖片

結構化的訓練模板

我們設計了簡單但有效的訓練模板(instruction),統(tǒng)一所有訓練樣本的格式:

圖片

這種訓練模板(instruction)指導大語言模型以結構化的方式與外部搜索引擎進行交互,同時保留策略空間的靈活性,使模型在強化學習過程中能夠自主探索更優(yōu)的搜索—推理策略。

輕量的獎勵設計

為減少訓練成本與復雜性,我們采用了基于最終回答準確性的獎勵函數(shù),無需構建額外的神經網絡打分模型,提升了訓練效率并降低了策略對獎勵信號偏差的敏感性。

實驗結果

主要性能表現(xiàn)

圖片

  • Search-R1 在所有數(shù)據(jù)集上均取得領先表現(xiàn),其中 Qwen2.5-7B 模型平均相對提升 41%,3B 模型提升 20%,相較 RAG 和 CoT 等方法具有顯著優(yōu)勢;
  • 引入搜索引擎的 RL 優(yōu)于純推理 RL(R1),驗證了搜索在知識稀缺問題中的重要性;
  • 在零樣本和跨任務遷移場景中也具有穩(wěn)健表現(xiàn),如在 PopQA、Musique、Bamboogle 等模型未見過的任務中依然保持顯著優(yōu)勢;
  • 更大的模型對搜索行為更敏感、效果更好,7B 模型相較 3B 展現(xiàn)出更大性能提升。

PPO vs. GRPO

圖片

我們對兩種 RL 優(yōu)化策略進行了系統(tǒng)比較:GRPO 收斂更快,但在訓練后期可能存在不穩(wěn)定性;PPO 表現(xiàn)更穩(wěn)定,最終性能略高于 GRPO,成為默認推薦配置;兩者最終訓練 reward 相近,均適用于 Search-R1 的優(yōu)化目標。

Base 模型 vs. Instruct 模型

圖片

實驗顯示:Instruct 模型初始表現(xiàn)更好,訓練收斂更快;但隨著訓練推進,Base 模型最終可達到相近甚至更優(yōu)的效果;強化學習彌合了兩者在結構化推理任務中的能力差異。

搜索行為與響應結構的動態(tài)學習

圖片

訓練初期模型輸出較短,搜索行為少;隨著訓練推進,模型逐漸學會更頻繁調用搜索,響應長度增加;表明模型逐步掌握了「推理中搜索」的動態(tài)交互式策略。

總結

本文提出了 Search-R1,一種全新的強化學習框架,使大語言模型能夠在生成過程中靈活調用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學習查詢與信息利用策略。

我們在七個問答任務上驗證了其顯著的性能提升,并系統(tǒng)分析了不同訓練策略對搜索增強推理的影響。未來,我們期待將該框架擴展到更多工具與信息源的協(xié)同調用,探索其在多模態(tài)推理任務中的應用潛力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-28 03:00:00

2025-03-21 13:00:54

2025-06-05 03:00:00

AutoRefineRAGLLM

2025-03-27 23:41:35

豆包搜索AI

2025-03-03 09:00:00

2024-09-09 09:00:00

2025-06-23 08:47:00

2025-05-16 08:37:35

2025-03-14 09:02:03

大模型AI技術

2025-03-05 03:00:00

DeepSeek大模型調優(yōu)

2025-02-13 08:51:23

DeepSeek大模型

2025-02-17 08:43:00

模型推理訓練

2020-12-02 10:20:33

Docker命令Linux

2012-05-01 20:26:01

iPhone

2024-05-15 09:17:30

模型AI

2025-06-26 09:13:22

2022-06-06 16:39:58

云邊協(xié)同大會分布式云計算邊緣計算

2009-12-18 11:15:17

ADSL寬帶共享上網

2021-01-19 09:19:33

RPC調用過程框架

2025-10-21 09:06:00

點贊
收藏

51CTO技術棧公眾號

精品国产乱码久久久久久鸭王1 | 亚洲黄色三级| 国产成人精品视频在线观看| 国产女人18毛片水真多18| 在线天堂新版最新版在线8| 国产欧美日韩三级| **亚洲第一综合导航网站| 国产一级生活片| 精品理论电影在线| 日韩欧美一卡二卡| 黄色国产小视频| 亚洲丝袜精品| 久久精品人人做人人爽97| 亚洲一区二区中文| 人妻丰满熟妇av无码区| 欧美黄色一区| 中文字幕亚洲字幕| 亚洲av网址在线| 2019中文亚洲字幕| 色诱亚洲精品久久久久久| 影音先锋男人的网站| 日韩亚洲视频在线观看| 国产成人精品在线看| 国产精品久久久久久久9999 | 高潮一区二区三区乱码| 日韩成人免费看| 韩国福利视频一区| 天天综合天天做| 日本一区二区在线看| 日韩精品在线观看一区| gogo亚洲国模私拍人体| 欧美与亚洲与日本直播| 亚洲一二三四区不卡| 中文字幕中文字幕在线中一区高清| 天天躁日日躁狠狠躁伊人| 国产精品一区二区无线| 国产精品手机播放| 成人免费毛片男人用品| 亚洲狠狠婷婷| 久久久久久97| 青娱乐在线视频免费观看| 久久视频在线| 中文字幕日韩av电影| 亚洲久久久久久久| 亚洲涩涩av| 日韩国产在线播放| 欲求不满的岳中文字幕| 99ri日韩精品视频| 精品国产一区二区亚洲人成毛片 | 精品亚洲二区| 欧美日韩国产高清一区| 欧美特级aaa| av成人在线播放| 在线观看av一区二区| 女人另类性混交zo| 日韩不卡视频在线观看| 在线视频一区二区三区| 日韩av片网站| 色成人综合网| 欧美一级一区二区| 老女人性生活视频| ccyy激情综合| 亚洲韩国日本中文字幕| www.超碰97| 一道本一区二区三区| 亚洲欧美在线免费观看| 欧美熟妇激情一区二区三区| 激情五月综合| 日韩中文字幕第一页| 午夜剧场免费在线观看| 欧美日韩专区| 国产91精品青草社区| 午夜精品免费观看| 久久成人羞羞网站| 91蜜桃网站免费观看| 蜜桃av噜噜一区二区三区麻豆| 不卡视频免费播放| 欧美日韩系列| 免费看美女视频在线网站| 亚洲精品国产品国语在线app| 日韩人妻一区二区三区蜜桃视频| 好吊日av在线| 色婷婷精品久久二区二区蜜臂av| 日日躁夜夜躁aaaabbbb| 亚洲综合网狠久久| 亚洲国产精品成人精品| 国产精品20p| 你懂的国产精品| 欧美综合国产精品久久丁香| 在线观看不卡的av| 成人小视频在线| 天堂一区二区三区| 国产一区久久精品| 欧美午夜性色大片在线观看| 日本三级黄色网址| 免费福利视频一区| 日韩在线免费视频观看| 国产一级特黄毛片| 青青草国产精品97视觉盛宴| 国产精品美女诱惑| 91精品国产91久久久久游泳池 | 久久视频社区| 亚洲人成网站色ww在线| 国产又黄又爽又无遮挡| 久久精品天堂| 成人高清在线观看| av资源种子在线观看| 亚洲国产日韩一区二区| 九色91popny| 精品国内亚洲2022精品成人| 日韩亚洲国产中文字幕| www毛片com| 成人国产免费视频| 国产又大又长又粗又黄| 新片速递亚洲合集欧美合集| 欧美变态tickling挠脚心| 后入内射无码人妻一区| 亚洲视频www| 51国偷自产一区二区三区的来源| 国产女人在线视频| 午夜影视日本亚洲欧洲精品| 999热精品视频| 成久久久网站| 日韩免费观看在线观看| 黄色av中文字幕| 一区二区三区鲁丝不卡| 亚洲精品午夜在线观看| 久久99影视| 55夜色66夜色国产精品视频| 亚洲av无码国产精品永久一区 | 日韩av黄色| 亚洲男人天堂2023| 国产成人在线观看网站| 国产98色在线|日韩| 免费看污污视频| 日韩欧乱色一区二区三区在线| 亚洲午夜精品久久久久久性色 | 夜夜精品视频| 国产欧美精品一区二区三区| 日本性爱视频在线观看| 制服.丝袜.亚洲.另类.中文| 性少妇xx生活| 美日韩一区二区| 色就是色欧美| 国产一区二区精品调教| 国产亚洲欧美另类中文| 日韩欧美在线观看免费| 91麻豆swag| 99爱视频在线| 免费一区二区| 国产aaa精品| jizz日韩| 欧美美女一区二区| 亚洲色偷偷综合亚洲av伊人| 精品一区二区三区影院在线午夜 | 国内精品99| 国产99午夜精品一区二区三区| 污视频网站在线免费| 日韩欧美美女一区二区三区| 久久久久久久中文字幕| 成人久久久精品乱码一区二区三区| 影音先锋成人资源网站| 韩国一区二区三区视频| 久久久久久久久久久免费精品| 精品黑人一区二区三区在线观看 | www.五月婷婷.com| 国产女同性恋一区二区| 九九九九九国产| 欧美日本亚洲韩国国产| 久久99精品久久久久久三级 | jizz欧美性20| 日韩黄色在线观看| 一本—道久久a久久精品蜜桃| 国产精品亚洲欧美一级在线| 欧美激情在线一区| 婷婷五月综合久久中文字幕| 色哦色哦哦色天天综合| 亚洲欧美综合7777色婷婷| 国产精品一二三四| 日韩小视频在线播放| 欧美日韩在线二区| 3d蒂法精品啪啪一区二区免费| 黄色18在线观看| 在线播放国产一区中文字幕剧情欧美| 国产精品爽爽久久久久久| 亚洲高清免费视频| 国产精品免费无码| 国产69精品久久777的优势| 黄色动漫在线免费看| 久久中文字幕av一区二区不卡| 99国精产品一二二线| 黑人巨大亚洲一区二区久| 日韩在线小视频| 99久久国产免费| 欧美性高潮床叫视频| 黑人狂躁日本娇小| 97久久人人超碰| 涩涩网站在线看| 中文在线一区| 美女黄色片网站| 国产精品片aa在线观看| 成人精品一区二区三区| 欧美电影免费观看网站| 欧美成人午夜剧场免费观看| 黄色电影免费在线看| 精品国产一二三区| 国产精品久久欧美久久一区| 日韩欧美在线视频观看| 免费在线视频观看| 国产精品女上位| 真人bbbbbbbbb毛片| 国产一区二区影院| 8x8x最新地址| 久久久一二三| 国产在线精品91| 牛牛国产精品| 一级全黄肉体裸体全过程| 国产精品中文字幕亚洲欧美| 国产精品综合久久久久久| 激情五月综合婷婷| 国产精品亚洲网站| 亚洲电影有码| 国产999视频| 在线最新版中文在线| 国内外成人免费激情在线视频网站| 蜜桃视频在线观看www社区 | 国产网站在线| 欧美高清激情视频| 成人福利网站| 久久亚洲春色中文字幕| 日本综合在线| 中文字幕久久亚洲| 国产一二在线观看| 国产视频欧美视频| 天天躁日日躁狠狠躁喷水| 精品成人私密视频| 亚洲爱情岛论坛永久| 日韩精品资源二区在线| 国产三级三级在线观看| 在线综合视频播放| 91午夜交换视频| 欧美男生操女生| 一本色道久久综合亚洲| 欧美日韩专区在线| 亚洲中文一区二区三区| 欧美老女人在线| 国产手机av在线| 91精品黄色片免费大全| 国产人妻精品一区二区三| 欧美久久久久久久久久| 99久久久久成人国产免费| 91麻豆精品国产91久久久资源速度| 91成人一区二区三区| 欧美日本在线观看| 国产精品热久久| 欧美一级爆毛片| 蜜桃av中文字幕| 日韩av网站在线| 黄色网址在线播放| 色偷偷噜噜噜亚洲男人的天堂| 亚洲s色大片| 美女性感视频久久久| www555久久| 日本高清不卡在线| 成人精品国产亚洲| 亚洲va码欧洲m码| 电影一区二区在线观看| 久久亚洲免费| 日韩久久综合| 91免费版看片| 99国产精品| 香蕉视频禁止18| 国产精品综合视频| 久久午夜夜伦鲁鲁片| 国产欧美精品国产国产专区| www欧美com| 欧美日韩色婷婷| 一道本在线视频| 亚洲精品成人av| 香蕉视频在线看| 午夜精品一区二区三区在线视 | 黄色日韩在线| 国产精品天天av精麻传媒| 国内精品久久久久影院薰衣草| 国产一级免费片| 亚洲国产高清aⅴ视频| 久久久久99精品成人片试看| 精品女同一区二区三区在线播放| 伊人久久国产精品| 亚洲第一精品夜夜躁人人躁| 成人不用播放器| 久久久人成影片一区二区三区观看| 中文字幕21页在线看| 成人黄色影片在线| 美女福利一区| 7777在线视频| 老司机免费视频久久| 亚洲视频在线不卡| 久久精品亚洲精品国产欧美 | 97中文在线观看| 国产伦精品一区二区三区视频| 免费观看国产视频在线| 日韩在线卡一卡二| 欧美成人精品一区二区综合免费| 久久精品一区八戒影视| 久久精品女人毛片国产| 精品1区2区3区| 日本a一级在线免费播放| 欧美老少配视频| 本网站久久精品| 久久久久国产精品视频| 欧美va天堂在线| 中文字幕久久av| 国产亚洲欧美激情| 亚洲综合一二三| 日韩免费看网站| 色网站免费在线观看| 日韩美女av在线免费观看| 99re8这里有精品热视频免费| 国产又爽又黄ai换脸| 日本在线不卡视频一二三区| 免费看黄色aaaaaa 片| 亚洲美女在线一区| 91亚洲国产成人精品一区| 亚洲天堂av综合网| 日本三级一区| 狠狠色综合色区| 亚洲小说欧美另类社区| 欧美人与性动交α欧美精品| 亚洲欧洲国产专区| 自拍偷拍色综合| 亚洲性夜色噜噜噜7777| 春暖花开亚洲一区二区三区| 久久精品国产精品国产精品污| 激情成人综合| 人妻 日韩 欧美 综合 制服| 亚洲综合色婷婷| wwwav在线播放| 欧美成人精品激情在线观看| 国产激情精品一区二区三区| 一级做a爰片久久| 久久99精品视频| 男人av资源站| 91精品国产综合久久香蕉的特点 | 欧美日韩播放| 日韩av播放器| 欧美激情一区二区三区| www.久久视频| 色先锋资源久久综合5566| 欧美日韩卡一| 懂色av一区二区三区四区五区| 麻豆精品国产传媒mv男同| 九一在线免费观看| 欧美精三区欧美精三区| 成人黄色网址| 国产精品theporn88| 在线精品福利| www.自拍偷拍| 欧美视频自拍偷拍| 毛片激情在线观看| 91免费看网站| 亚洲国产精品第一区二区| 国产视频久久久久久| 欧美三级免费观看| 91精彩视频在线观看| 91在线视频一区| 激情综合视频| 亚洲成人黄色av| 欧美日本一区二区三区四区| 在线中文字幕电影| 久久精品五月婷婷| 日韩av二区在线播放| 在线观看美女av| 亚洲精品99久久久久| 日产精品一区| 99亚洲国产精品| 久久免费看少妇高潮| 一级黄在线观看| 91精品国产91久久久久久久久 | 成年丰满熟妇午夜免费视频| 99精品1区2区| 亚洲视频一区二区三区四区| 欧美激情一级欧美精品| 亚洲区小说区图片区qvod按摩 | 在线观看 亚洲| 国产香蕉97碰碰久久人人| 懂色av色香蕉一区二区蜜桃| 婷婷五月综合缴情在线视频| 欧美激情一二三区| 亚洲av无码一区二区三区dv| 国产精品爱啪在线线免费观看| 亚洲激情五月| 国产精品815.cc红桃| 91精品久久久久久蜜臀| 精品国产免费人成网站| 国产免费xxx| 亚洲国产成人在线| 丰满肥臀噗嗤啊x99av| 国产精品在线看| 国产精品婷婷|