精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里發布信息檢索Agent,可自主上網查資料,GAIA基準超越GPT-4o

人工智能 新聞
阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

Agent能“看懂網頁”,像人類一樣上網?

阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

只要輸入指令,它就可以幫你上網搜索、做攻略,實現自主信息檢索代理和類似深度研究模型的推理。

傳統模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。

圖片

WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數,優于基線模型和部分開源框架。

模型和方法均已開源,網友直呼想試:

圖片

WebDancer的秘密武器

不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執行多步驟和復雜推理的長期任務,例如網頁遍歷、信息搜索和問答。

它的“秘密武器”是一種四階段訓練范式,包括瀏覽數據構建、軌跡采樣、針對有效冷啟動的監督微調以及用于改進泛化能力的強化學習。

阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

1、瀏覽數據構建

圖片

這一步的目標是創建覆蓋真實的網頁環境、需要多步交互的復雜QA對。

可以分為兩個網絡數據生成流程,如上圖所示。

在CRAWLQA中,需要先收集知識性網站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

使用預定義規則,就可以利用GPT4o根據收集到的信息生成QA對(1.0版)了。

對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰性的實例。

依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

2、軌跡采樣

圖片

這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執行軌跡。

WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

在思維階段,模型會根據輸入生成推理鏈,然后在動作階段將參數為結構化JSON,最后在觀察階段返回結果(如網頁摘要或搜索片段)。

思維階段生成的思維鏈對智能體執行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

  • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
  • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。

因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監督信號保留在了生成的軌跡中。

隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

3、有監督微調

圖片

在獲得ReAct格式的優質軌跡后,就可以將其無縫整合到智能體的有監督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:

其中tc是任務上下文,為完整的智能體執行軌跡,每個代表思考/行動/觀察,過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

SFT階段為后續的RL階段提供了強大的初始化。

4、強化學習

這一步的目標是優化代理在真實網絡環境中的決策能力和泛化能力。

在SFT階段的基礎上,本階段采用解耦裁剪動態采樣策略優化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

DAPO是一種基于獎勵模型R的策略優化算法,其工作原理如下:

首先,對于每個包含部分答案的階段軌跡,算法生成一組候選執行序列。通過最大化以下目標更新策略:

隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

最后,采用新舊策略的概率比替代固定KL懲罰項:

獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

最終獎勵函數為:

有效性分析

圖片

在GAIA和WebWalkerQA這兩個成熟的基準數據集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優于基線模型和部分開源智能體框架。

可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

閉源代理系統OpenAI DR通過端到端強化學習訓練實現了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。

在兩個更具挑戰性的數據集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現出持續強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。

鑒于智能體環境的動態性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

值得注意的是,經過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

對于語言推理模型(LRMs),雖然經過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:45:30

2024-08-30 14:35:00

2025-06-06 14:17:11

模型訓練AI

2024-11-26 14:30:00

模型數據

2025-08-07 14:05:40

OpenAI大模型開源

2025-06-04 09:05:18

2024-06-21 09:51:17

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

2024-12-18 13:24:30

谷歌AI大語言模型

2024-08-08 14:27:29

2024-05-14 11:29:15

2025-07-07 09:05:00

AI數據模型

2024-08-02 14:58:00

2024-06-21 13:04:43

2024-05-24 14:04:04

2025-01-06 13:15:02

2025-04-08 02:26:00

點贊
收藏

51CTO技術棧公眾號

欧美激情偷拍| 国产精品99999| 亚洲经典自拍| 夜夜嗨av一区二区三区免费区| 北条麻妃av高潮尖叫在线观看| avtt亚洲| 成人h动漫精品一区二| 国产精品777| 国产福利视频网站| 欧美18xxxx| 欧美日韩中文字幕一区| 日韩人妻无码精品久久久不卡| 国产三级在线| 夫妻av一区二区| 国产精品免费一区豆花| 国产在线视频99| 成人精品中文字幕| 精品成人佐山爱一区二区| 黄色一级大片在线观看| 亚洲卡一卡二| 国产精品青草综合久久久久99| 国产精品一区二区三区精品| 黄色大全在线观看| 亚洲青涩在线| 美女福利精品视频| 激情五月深爱五月| 青草久久视频| 欧美成人三级在线| 亚洲77777| 9i看片成人免费高清| 一区二区中文视频| 日韩福利视频| 欧美天堂在线视频| 国产高清亚洲一区| 日韩av快播网址| 国产午夜精品无码| 中文在线日韩| 久久在线观看视频| 欧美熟妇激情一区二区三区| 九九热hot精品视频在线播放 | 欧美视频在线观看视频| 免费黄色在线看| 国产日韩欧美在线一区| 久久久久久99| 天天干天天爱天天操| 国产盗摄一区二区三区| 成人免费xxxxx在线观看| 国产精品无码粉嫩小泬| 亚洲欧美久久| 欧美在线视频播放| 在线观看免费av片| 国产日本精品| 国内精品伊人久久| 日韩黄色a级片| 亚洲成人资源| 69视频在线播放| 成年人视频在线免费看| 9色精品在线| 91极品女神在线| 日韩特黄一级片| 亚洲欧美激情诱惑| 国产精品99蜜臀久久不卡二区| 探花视频在线观看| 日日欢夜夜爽一区| 国产精品男人的天堂| 欧美 亚洲 另类 激情 另类| 日韩vs国产vs欧美| 国产精品视频在线观看| 国产精品久久久久久久免费| 国产麻豆精品95视频| 亚洲一区二区三区成人在线视频精品| 国产成人精品av在线观| 成人黄色在线视频| 免费不卡亚洲欧美| 福利片在线看| 亚洲日本中文字幕区| 成人在线免费观看视频网站| 白白色在线观看| 一本大道久久a久久综合婷婷 | 国产精品一卡二| 国产成人精品免费视频大全最热| 污污网站免费在线观看| 久久精品夜色噜噜亚洲a∨| 亚洲国产一区二区三区在线播 | 国内精品视频在线观看| 色综合亚洲精品激情狠狠| www欧美com| 99精品视频网| 国产精品自在线| 亚洲乱码在线观看| 久久免费电影网| 26uuu成人| 亚洲精品88| 欧美精品色一区二区三区| 91九色蝌蚪porny| 精品久久中文| 久久久久久久久综合| 久久人人爽人人爽人人片av免费| 精品一区二区三区免费观看| 国产伦精品一区二区三毛| 国产黄色片在线播放| 亚洲综合一区二区精品导航| 亚洲精品中文字幕无码蜜桃| 网站一区二区| 伊人久久免费视频| 日韩av在线播| 美腿丝袜亚洲三区| 狠狠色狠狠色综合人人| 老司机av在线免费看| 精品久久久久久亚洲精品| 欧美激情第一区| 久久97视频| 欧美黑人视频一区| 国产又粗又猛又色又| 91麻豆国产精品久久| 久久久天堂国产精品| 高清av一区二区三区| 亚洲国模精品一区| 男人的天堂久久久| 蜜乳av一区二区三区| 久久婷婷国产综合尤物精品| 日韩伦理av| 欧美欧美欧美欧美| 国产美女免费无遮挡| 亚洲大黄网站| 99三级在线| 精品国产白色丝袜高跟鞋| 日本国产一区二区| 久久一区二区电影| 午夜日韩av| 97人人模人人爽人人喊38tv| 黄网页在线观看| 欧美午夜电影网| 精品人妻一区二区三区蜜桃视频| 亚洲精品日本| 国产精品二区在线| 26uuu亚洲电影在线观看| 欧美日韩高清不卡| 91动漫免费网站| 免费观看久久久4p| 日韩欧美在线观看强乱免费| 成人教育av| 亚洲欧美国产日韩天堂区| 久热这里只有精品6| 成人免费视频免费观看| 轻点好疼好大好爽视频| 一区二区三区欧洲区| 九九热这里只有在线精品视| 99热这里只有精品5| 自拍av一区二区三区| 午夜天堂在线视频| 亚洲国产精品久久久天堂| 国产一区二中文字幕在线看| 一级毛片视频在线| 欧美性猛交一区二区三区精品| 国产精品20p| 免费观看成人av| 一区二区三区四区久久| 91丨精品丨国产| 欧美人与性动交| 少妇高潮一区二区三区99小说| 亚洲成av人片一区二区梦乃| 免费无码一区二区三区| 香蕉久久国产| 香蕉久久夜色| 国产精品777777在线播放| 久久综合久中文字幕青草 | 亚洲国产精品va| 婷婷激情五月网| 久久精品亚洲乱码伦伦中文| 亚洲成人福利在线| 中文字幕av亚洲精品一部二部| 成人片在线免费看| 在线观看的黄色| 中文字幕av一区二区三区谷原希美| 国产一区二区小视频| 亚洲永久精品大片| 国产精品福利导航| 日本伊人精品一区二区三区观看方式| 亚洲一区二区三区免费观看| 精品国产一区二区三区2021| 韩国三级日本三级少妇99| 加勒比一区二区三区在线| 欧美日韩久久久| 亚洲一区二区91| 91免费看视频| 中国黄色片一级| 亚洲国产1区| 日本不卡一区| 欧美第一在线视频| 国产成人精品一区| 亚洲七七久久综合桃花剧情介绍| 亚洲精品中文字幕有码专区| 一级片在线观看视频| 亚洲444eee在线观看| www色com| 成人精品免费看| 午夜免费看视频| 亚洲综合99| 一二三在线视频| 精品九九在线| 国产色综合一区二区三区| 成人自拍视频网| 9.1国产丝袜在线观看| 成人免费网址| 亚洲色图17p| 高潮一区二区三区乱码| 欧美亚洲禁片免费| 国产一级特黄aaa大片| 国产精品不卡视频| 中文字幕在线免费看线人| 国产做a爰片久久毛片| 少妇高潮喷水久久久久久久久久| 久久久久久免费视频| 免费在线一区二区| 国产精品白浆| 91观看网站| 偷拍自拍亚洲| 国产精品免费福利| 在线观看欧美日韩电影| 欧美激情视频在线观看| 亚洲xxxxxx| 伊人久久久久久久久久久| 青青青手机在线视频观看| 欧美不卡一二三| 99久久国产热无码精品免费| 欧美日韩亚洲综合一区 | 欧美一区二区在线视频| 高潮无码精品色欲av午夜福利| 欧美日韩性视频在线| 国产在线观看免费视频今夜| 亚洲猫色日本管| 国产综合精品久久久久成人av| 91网站最新网址| 国产chinese中国hdxxxx| 国产精品 日产精品 欧美精品| 中文字幕丰满乱码| 蜜臀av一级做a爰片久久| 国产日韩成人内射视频| 鲁大师影院一区二区三区| 精品视频在线观看一区| 亚洲国产国产亚洲一二三| 青青草视频国产| 欧美日韩亚洲一区三区| 国产又爽又黄ai换脸| 91欧美在线| 欧美aaa在线观看| 亚洲综合五月| 91免费视频黄| 亚洲欧美综合| 日韩人妻无码精品久久久不卡| 欧美色一级片| 国产va亚洲va在线va| 亚洲无吗在线| 青青草视频在线免费播放| 亚洲黄页一区| 日本在线观看a| 日韩av一区二| 伊人网在线综合| 国产一区二区视频在线| 在线视频观看一区二区| 国产成人精品综合在线观看| 日本精品一二三| 91丨九色porny丨蝌蚪| 性久久久久久久久久| 国产拍揄自揄精品视频麻豆| 天天操天天摸天天舔| 亚洲自拍欧美精品| 伊人久久综合视频| 欧美综合视频在线观看| 国产精品久久久国产盗摄| 精品国产精品一区二区夜夜嗨| 天天影院图片亚洲| 在线激情影院一区| 午夜成年人在线免费视频| 97在线看免费观看视频在线观看| 欧美无毛视频| 91色精品视频在线| 久久动漫网址| 亚洲 国产 欧美一区| 欧美a级片网站| 日本毛片在线免费观看| 全部av―极品视觉盛宴亚洲| 超碰人人cao| 久久久久久毛片| 91视频免费在线看| 一本一本久久a久久精品综合麻豆| 伊人精品一区二区三区| 精品国产一区a| www 日韩| 国内精品一区二区三区| 成人在线视频观看| 国产传媒一区| 91综合久久一区二区| 成人性免费视频| 老司机精品视频在线| 蜜臀av粉嫩av懂色av| 国产欧美日韩精品a在线观看| 欧美爱爱小视频| 欧日韩精品视频| 天天射天天操天天干| 久久久www成人免费精品| 丝袜诱惑一区二区| 亚洲综合小说区| 精品一区二区三区的国产在线观看| 久久观看最新视频| 青青草原综合久久大伊人精品优势| 在线观看你懂的视频| 国产欧美一区二区精品久导航 | 情侣偷拍对白清晰饥渴难耐| 午夜精品福利一区二区三区蜜桃| 一区二区日韩视频| 亚洲美女久久久| 久久99亚洲网美利坚合众国| 国产日韩欧美91| 嫩草影视亚洲| 欧美v在线观看| 粉嫩av一区二区三区| 欧美一级片在线视频| 欧美色网一区二区| 九九热视频在线观看| 午夜剧场成人观在线视频免费观看| 91成人在线网站| 视频在线精品一区| 另类亚洲自拍| www.超碰97| 天天综合日日夜夜精品| 亚洲精品无码专区| 久久777国产线看观看精品| 欧美91在线|欧美| 亚洲日本精品| 美女视频网站久久| 日本污视频网站| 欧美这里有精品| av黄色在线观看| 国产精品久在线观看| 欧美猛男男男激情videos| 日本久久久精品视频| 99国内精品久久| 国产微拍精品一区| 亚洲激情视频网| 美女搞黄视频在线观看| 精品在线视频一区二区| 亚洲人成免费| 亚洲黄色在线网站| 欧美三级免费观看| 男人天堂网在线观看| 日本a级片电影一区二区| 日韩影视在线观看| 男人操女人免费| 国产欧美1区2区3区| 中文字幕乱码中文字幕| 日韩一级黄色av| 免费一区二区三区在线视频| 成人小视频在线观看免费| 成人蜜臀av电影| wwwwww国产| 在线播放亚洲激情| 欧美黄色a视频| 国产手机视频在线观看| 国产精品一卡二卡在线观看| 国产乡下妇女做爰视频| 日韩av在线免播放器| 日韩影片中文字幕| 在线不卡视频一区二区| 国产一区二区在线看| 久久黄色免费视频| 日韩精品欧美激情| 91精品店在线| 国产一区二区三区在线免费| 成人动漫一区二区在线| 高清乱码免费看污| 色老头一区二区三区| 少妇精品在线| 成人观看免费完整观看| 国产精品欧美一级免费| 精品久久久免费视频| 96精品视频在线| 久久亚洲国产| 污片免费在线观看| 欧美午夜不卡视频| 大黄网站在线观看| 日韩精品一区二区三区色偷偷| 狠狠色伊人亚洲综合成人| 国产一级在线观看视频| 一区二区三区 在线观看视| 亚洲三区欧美一区国产二区| 日本精品www| 亚洲精品国产成人久久av盗摄 | 免费裸体美女网站| 亚洲视频在线观看三级| 天堂av手机版| 国产日韩欧美在线看| 中文久久精品| 国产麻豆视频在线观看| 日韩精品免费在线视频观看| 国产一区一区| 国产精品拍拍拍| 欧美日韩美女在线观看| 成人日韩欧美|