精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Agent RL和智能體自我進化的關鍵一步:TaskCraft實現復雜智能體任務的自動生成

人工智能 新聞
OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務的自動化生成框架,旨在高效構建具備可擴展難度、多工具協同與可驗證執行路徑的智能體任務實例。

近年來,基于智能體的強化學習(Agent + RL)與智能體優化(Agent Optimization)在學術界引發了廣泛關注。然而,實現具備工具調用能力的端到端智能體訓練,首要瓶頸在于高質量任務數據的極度稀缺。當前如 GAIA 與 BrowserComp 等主流數據集在構建過程中高度依賴人工標注,因而在規模與任務復雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務,GAIA 則僅提供約 500 條多工具協同任務樣本。與基礎大模型訓練中動輒萬級以上的指令數據相比,差距十分顯著。

盡管在基礎模型階段,像 self-instruct 這樣的自監督方法已經借助大語言模型(LLM)成功構建了大規模的指令型數據,有效提升了模型的通用性和泛化能力,但在智能體(Agent)場景下,這類靜態指令數據卻難以滿足實際需求。原因在于,復雜的智能體任務通常需要模型與環境進行持續的動態交互,同時涉及多工具的協同操作和多步驟推理。而傳統的指令數據缺乏這種交互性和操作性,導致其在智能體訓練中遷移性差、適用性有限。

為應對上述挑戰,OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務的自動化生成框架,旨在高效構建具備可擴展難度、多工具協同與可驗證執行路徑的智能體任務實例。TaskCraft 通過統一的流程化建構機制,擺脫了對人工標注的依賴,能夠系統性地產生覆蓋多種工具(如 URL、PDF、HTML、Image 等)的復雜任務場景,并支持任務目標的自動驗證,確保數據質量與執行閉環。 基于該框架,研究團隊構建并開源了一個包含約 41,000 條智能體任務的合成數據集,顯著擴展了現有 Agent 數據資源的規模與多樣性,為后續通用智能體的訓練與評估提供了有力支撐。

圖片

  • 論文標題:TaskCraft: Automated Generation of Agentic Tasks
  • 論文地址:https://arxiv.org/abs/2506.10055
  • Github:https://github.com/OPPO-PersonalAI/TaskCraft
  • 數據集:https://huggingface.co/datasets/PersonalAILab/TaskCraft

數據生成

生成過程主要分為兩大部分:第一部分 生成簡單且可驗證的原子任務;第二部分 通過深度拓展和寬度拓展,不斷構建新的原子任務,使復雜性逐步提升。

原子任務的生成

圖片

原子結構生成示意圖

可以簡單理解為,從原始數據中提取核心問題,然后確保問題必須通過特定工具來解決。整個流程包含以下四個關鍵步驟:

1.收集信息:系統從多種來源(網頁、PDF、圖片等)提取信息。例如,企業財報、一張統計圖或一篇新聞文章。

2.識別關鍵內容: 利用LLM從這些文檔中提取候選結論,比如:2025 年蘋果公司總收入為 383.3 億美元

3.生成問題:LLM需要將這些候選結論轉換為工具回答的問題。例如:“在財務報告《Apple 2025 年度報告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

4.驗證任務:每個原子任務被保留必須滿足以下兩個條件:

  • 必須依賴工具才能解答( LLM 無法直接推導答案)。
  • 必須經過 Agent 驗證,確保能夠順利執行任務。

任務拓展

任務拓展旨在將一個簡單任務逐步演化為更具層次和挑戰性的復雜任務,使 Agent 必須通過多個步驟才能完成任務。拓展方式主要包括深度拓展寬度拓展

圖片

深度拓展示意圖

其中,深度拓展的目標是為了構建可被拆解為一系列相互依賴的任務。每一步都依賴前一步的結果,從而構建出一條多步推理鏈。其主要包括以下四步:

1.確認主任務與拓展標識符:拓展標識符一般是具有強特殊性的文本,往往作為獲取工具上下文的輸入關鍵字。例如對于任務:“電影《星際穿越》的導演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標識符是:《星際穿越》。

2.執行Agent搜索,構造新的輔助原子任務:Search Agent以拓展標識符為線索執行搜索,并從搜索結果中構造一個新的原子任務,其答案即為該拓展標識符。例如:“哪部美國著名科幻電影是在 2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

3.合并輔助原子任務,更新主任務:將輔助原子任務與原主任務進行融合,構建一個邏輯連貫的復合任務。例如:“2014 年 11 月 7 日上映的美國著名科幻電影,它的導演是誰?“(答案:克里斯托弗·諾蘭)

4.驗證任務合理性:為了規避對合并問題的整體驗證,研究者采用了多種規則對合并后的主任務進行語義驗證,包括:超集驗證、關系驗證、信息泄露驗證、替換合理性驗證等。

而寬度拓展則是通過選擇兩個(或多個)結構兼容的原子任務,這些任務應來自同一信息源(如同一篇網頁或 PDF),且答案之間不存在因果依賴。使用 LLM 將多個任務的語義合并成一個自然、流暢且具備完整性的新任務

圖片

寬度拓展示意圖

通過 Prompt Learning 提升任務生成效率

在 TaskCraft 的任務構建流程中,Prompt 的設計起到了至關重要的作用。研究團隊采用了自舉式 few-shot 提示優化機制,基于生成的任務數據對提示進行了迭代優化,從而實現了提示模板的自我進化。如表1,實驗結果顯示,原子任務的生成通過率從初始的 54.9% 提高至 68.1%,同時平均生成時間減少了近 20%。在深度拓展任務中,6 輪任務擴展的成功率由 41% 提升至 51.2%,進一步驗證了生成數據在提升任務構建質量與效率方面的顯著效果。

圖片

表1 Prompt Learning實驗結果

對智能體基礎模型進行SFT訓練

其次,研究團隊進一步評估了 TaskCraft 所生成任務數據在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎,研究者基于三個典型的多跳問答數據集(HotpotQA、Musique 和 Bamboogle)的訓練集,生成了約32k條多跳任務以及軌跡,并利用這些生成數據對模型進行監督微調(SFT)。如表2,實驗結果表明,經過微調后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數據在增強大模型的推理能力與工具調用表現方面具有顯著成效。此外,當這些微調模型與強化學習方法 Search-R1 相結合時,模型性能進一步提升,進一步證明 TaskCraft 所生成的任務數據不僅能用于監督學習,也可作為強化學習的優質訓練起點。

圖片

表2 監督微調效果

此外,你可能會好奇:引入搜索 Agent 是否真的有必要?為此,研究團隊設計了一項對比實驗,比較了兩種任務構建方式的效果:一是直接使用 GPT-4.1 基于某個結論生成任務,另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務。結果如表 3 所示,TaskCraft 構建范式在多項指標上表現更優。

圖片

表3任務構建范式的有效性分析

相比之下,TaskCraft 生成的任務具有顯著更高的通過率,驗證時間更短,且工具使用次數更符合“原子任務”的定義(理論最優為:一次輸入索引 + 一次目標工具調用)。此外,任務的工具調用次數也更穩定,方差更小,反映出 TaskCraft 在保持原子任務難度的一致性方面具備更強的優勢。 

圖片

原子數據域分布

基于 TaskCraft,研究者構建了一個包含約 41,000 個 agentic 任務的大規模數據集,為 AI 智能體的系統化調優與評估提供了堅實的基礎。該數據集覆蓋多個工具使用場景,包括網頁搜索、PDF 閱讀、圖像理解等,任務結構層次豐富,難度可控,支持原子級任務和多跳復雜任務。由于所有任務都附帶了真實的執行軌跡,不僅可以進行監督式微調(SFT),還能為強化學習(RL)提供高質量的訓練數據起點。這使得該數據集可廣泛應用于智能體基礎模型的能力增強、Agent 推理策略的評估,以及多工具調用環境下的泛化能力測試。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-31 02:00:00

智能體Agent人工超級智能

2024-06-13 09:20:26

2025-08-11 09:16:00

2025-09-05 09:54:44

2021-02-07 10:01:31

AI 數據人工智能

2025-10-13 09:46:12

2025-08-18 09:08:00

2025-08-28 07:09:00

智能體AI數據平臺

2025-05-20 08:00:45

2024-10-18 15:20:00

2024-07-23 14:10:48

2024-02-06 12:50:27

模型數據

2025-11-20 10:33:22

2021-09-07 10:06:00

人工智能機器學習技術

2025-06-10 04:00:00

2024-05-11 08:27:41

Agent智能體GPT

2025-04-01 08:05:00

智能體人工智能MCP
點贊
收藏

51CTO技術棧公眾號

视频在线观看91| 精品美女一区| 国产成人av电影免费在线观看| 欧美成aaa人片在线观看蜜臀| av在线免费观看不卡| 日本欧美电影在线观看| 99久免费精品视频在线观看 | segui88久久综合| 久久免费的精品国产v∧| 成人a免费视频| 国产免费无码一区二区视频| 亚洲人成网77777色在线播放| 色综合 综合色| 91香蕉视频网址| 日本在线一二三| 国产盗摄精品一区二区三区在线| 3344国产精品免费看| 手机在线免费看片| 深爱激情久久| 欧美精品一区二区三区蜜桃视频| 99视频免费播放| 欧美xxxx少妇| 中文字幕色av一区二区三区| 久久久久久艹| 亚洲成人第一区| 蜜乳av一区二区| 日韩av片免费在线观看| 久久久久无码精品国产| 欧美黄色大片在线观看| 亚洲精品电影网| 中文字幕无人区二| 国内精品视频| 欧美女孩性生活视频| 99色精品视频| 男人的天堂免费在线视频| 一区二区三区久久久| 亚洲春色综合另类校园电影| 亚洲 欧美 自拍偷拍| 成人免费黄色在线| www日韩av| 精品国自产在线观看| 久久精品国产精品亚洲红杏| 日本中文字幕成人| 精品成人免费视频| 一区二区亚洲精品| 欧美黑人性视频| 私库av在线播放| 欧美成人精品| 久久久成人的性感天堂| 人妻无码一区二区三区免费| 日韩精品二区| 中文字幕精品av| 日本少妇xxxxx| 国产一区二区三区四区五区传媒| 亚洲国产小视频| 午夜一区二区三区免费| 老牛国内精品亚洲成av人片| 亚洲国产成人精品久久| 亚洲天堂美女视频| 偷拍精品福利视频导航| 亚洲欧美一区二区三区情侣bbw | 精品国产99久久久久久宅男i| 99热这里只有精品8| 久久久久久久久久国产精品| 国产一级片久久| 国精品一区二区三区| 欧美国产一区二区三区| 国产亚洲精品久久777777| 亚洲无线一线二线三线区别av| 欧美大秀在线观看| 国产精品 欧美 日韩| 99国产精品久久久久久久| 欧美亚洲国产日韩2020| 欧美特级黄色片| 六月丁香婷婷久久| 成人午夜电影在线播放| 天天操天天操天天操| 久久久九九九九| 亚洲欧洲另类精品久久综合| gogo在线观看| 亚洲大片免费看| 免费观看精品视频| 成年永久一区二区三区免费视频| 欧美一区二视频| 免费不卡的av| 精品视频免费| 久久久久久久999| 黄色av一级片| 久久成人免费电影| 国产精品区免费视频| 久久视频www| 综合久久久久久| 欧美精品久久久久久久久久久| 中文字幕在线中文字幕在线中三区| 欧美亚洲丝袜传媒另类| 国产精欧美一区二区三区白种人| 国产精品15p| 中文字幕日韩电影| 成人免费毛片东京热| 久久av一区| 91精品国自产在线观看 | 久久91超碰青草在哪里看| 日韩一区二区三免费高清| aaaaaav| 欧美国产美女| 日本欧美国产在线| 丰满人妻一区二区三区免费视频 | 色婷婷精品国产一区二区三区| 国产美女av在线| 色网综合在线观看| 亚洲美女精品视频| 99re66热这里只有精品8| 91高清在线免费观看| 国产色在线视频| 国产亚洲欧洲997久久综合| 欧美一区二区视频在线播放| 成人国产激情| 亚洲美女av网站| 免费麻豆国产一区二区三区四区| 日本在线不卡一区| 蜜桃av噜噜一区二区三| 91九色国产在线播放| 在线成人免费视频| 久久成人激情视频| 一本久道久久综合狠狠爱| 91在线网站视频| 1024视频在线| 欧美在线短视频| 欧美色图亚洲激情| 影音先锋久久| 97人人模人人爽视频一区二区| av大片在线播放| 91黄视频在线观看| 久久亚洲AV成人无码国产野外| 欧美日本精品| 91黄色国产视频| 搞黄网站在线观看| 6080国产精品一区二区| 91禁男男在线观看| 麻豆91在线播放免费| 亚洲激情啪啪| 欧美91在线|欧美| 在线视频日韩精品| 无码人妻精品一区二区| 久久青草欧美一区二区三区| 欧美国产激情视频| 亚州精品视频| 欧美专区中文字幕| 久草视频在线看| 色婷婷综合激情| 欧美老熟妇乱大交xxxxx| 奇米亚洲午夜久久精品| 黑人无套内谢中国美女| 97久久中文字幕| 色妞色视频一区二区三区四区| 天天干天天色综合| 久久久精品国产免大香伊| 北条麻妃69av| 国产精品三级| 国产精品伦子伦免费视频| 国产h在线观看| 欧美影院一区二区三区| eeuss中文字幕| 精品一区二区三区视频在线观看| 经典三级在线视频| 这里视频有精品| 77777少妇光屁股久久一区| 日韩大胆人体| 欧美日韩综合在线| 午夜精品一区二区三区视频| 国产成人在线电影| 777精品久无码人妻蜜桃| 一区二区小说| 国产日韩换脸av一区在线观看| 米奇777四色精品人人爽| 欧美一区二区三区啪啪| 日韩成人av毛片| 久久久精品人体av艺术| 中文字幕66页| 在线日韩中文| 四虎影院一区二区三区| 久久久91麻豆精品国产一区| 高清一区二区三区四区五区| 久久视频www| 日韩限制级电影在线观看| 久久免费视频99| 国产日韩影视精品| 粗大的内捧猛烈进出视频| 国产精品久久777777毛茸茸| 一级做a爰片久久| a看欧美黄色女同性恋| 日产精品久久久一区二区福利| 免费观看在线黄色网| 精品国产1区2区3区| 一级久久久久久| 一区二区高清免费观看影视大全| 黄色aaa视频| 国产成人精品亚洲午夜麻豆| 男人搞女人网站| 亚洲午夜视频| 亚洲日本japanese丝袜| 你懂的在线观看一区二区| 国产精品一二三视频| 9lporm自拍视频区在线| 日韩中文娱乐网| 亚洲av毛片成人精品| 欧美夫妻性生活| 亚洲va在线观看| 亚洲制服丝袜av| jizzjizzjizz国产| 91丨九色丨蝌蚪丨老版| 91蝌蚪视频在线| 日韩和欧美的一区| 欧美大片在线播放| 欧美不卡一区| 国产精品无码乱伦| 成人羞羞动漫| 久久久久久精| av成人综合| 97人人模人人爽人人喊38tv| 美女视频一区| 国产精品视频内| 国产超碰精品| 欧美一级片在线播放| 草莓视频丝瓜在线观看丝瓜18| 精品久久久av| 免费在线观看av网站| 一区二区三区精品99久久| 天堂av2024| 欧美一级黄色片| 国产精品视频久久久久久| 欧美在线视频全部完| 国产精品久久久久久久久久精爆| 午夜久久福利影院| 国产一级视频在线| 一区二区三区在线观看国产| 亚洲人做受高潮| 国产精品高潮呻吟| 国产wwwwxxxx| 国产精品黄色在线观看| 你懂得视频在线观看| 国产欧美一区二区精品性色 | 亚洲天堂网在线观看| 天堂在线中文资源| 日韩成人av网址| 香蕉视频成人在线| 国产丝袜一区二区| 青青草视频在线免费观看| 日韩电视剧在线观看免费网站| 黄色小视频免费观看| 精品99一区二区| 天天操天天干天天爱| 精品视频—区二区三区免费| 国产精品国产高清国产| 亚洲欧美国产日韩中文字幕| 男人的天堂在线免费视频| 国产亚洲视频在线观看| 91xxx在线观看| 精品国产一区二区在线| caopon在线免费视频| 欧美日韩高清区| heyzo一区| 欧美在线一区二区视频| 欧美黑人粗大| 国产日韩综合一区二区性色av| 91九色成人| 俄罗斯精品一区二区三区| 欧美成人基地| 日韩免费电影一区二区| 国产精品x453.com| 免费人成自慰网站| 午夜在线精品偷拍| 欧美成人三级在线播放| 国产揄拍国内精品对白| 中文字幕一区二区三区乱码不卡| 9人人澡人人爽人人精品| 摸摸摸bbb毛毛毛片| 亚洲日本一区二区三区| 久久激情免费视频| 色婷婷综合久久久中文字幕| 国产精品高潮呻吟av| 337p日本欧洲亚洲大胆精品 | 一本到在线视频| 精品国产一区二区亚洲人成毛片 | 亚洲大奶少妇| 久久精品国产精品青草色艺| 成人羞羞视频播放网站| 欧日韩免费视频| 日韩激情在线观看| 国产女主播在线播放| 久久久久久电影| 免费中文字幕在线| 色婷婷精品大视频在线蜜桃视频| 6—12呦国产精品| 亚洲国产日韩欧美在线动漫| 在线视频婷婷| 国产91精品久久久久久| 91精品网站在线观看| 欧美1o一11sex性hdhd| 一区二区三区午夜视频| 欧美少妇性生活视频| 国产河南妇女毛片精品久久久| 久操视频免费看| 亚洲一级二级在线| 一卡二卡三卡在线| 亚洲男人的天堂在线| 伊人电影在线观看| 国产精品男人的天堂| 丁香婷婷成人| 伊人久久大香线蕉av一区| 国产精品视频| 欧美性生交xxxxx| 中文字幕视频一区| 日韩成人免费在线观看| 欧洲av在线精品| 欧日韩在线视频| 久久久国产精彩视频美女艺术照福利| 国产精品蜜芽在线观看| 91香蕉国产在线观看| 精品一区在线| 秋霞无码一区二区| 国产精品资源网| 特黄一区二区三区| 色综合久久久久久久| 男人天堂av网| 欧美猛交免费看| 高清一区二区| 影音先锋欧美资源| 免费在线观看视频一区| 丰腴饱满的极品熟妇| 午夜精品福利一区二区三区av| av男人天堂av| 久久精品国产一区| 色综合视频一区二区三区日韩| 色姑娘综合av| 蜜臀av在线播放一区二区三区| 中文字幕在线看高清电影| 欧美性20hd另类| 涩爱av在线播放一区二区| 91精品国产91久久久| 国内自拍欧美| 欧美视频在线观看网站| 成人h动漫精品一区二区| 久久网一区二区| 欧美精品一区二区在线观看| 久色国产在线| 国产一区二区三区免费不卡| 在线国产精品一区| 精品国产人妻一区二区三区| 精品国产户外野外| 色中色在线视频| 91精品国产91| 久久超碰99| 污污网站免费看| 亚洲视频你懂的| 不卡视频在线播放| 韩国国内大量揄拍精品视频| 欧美1区2区3区4区| 久久久久狠狠高潮亚洲精品| 国产午夜亚洲精品午夜鲁丝片| 欧美一区二区三区久久久| 在线日韩精品视频| 亚洲精品大全| 国产xxxx振车| 91美女福利视频| 中文在线免费观看| 久久成年人免费电影| 97视频一区| 男人操女人免费| 中文字幕中文字幕在线一区| a级片免费观看| 91精品国产91久久久久福利| 精品久久久久中文字幕小说| 亚洲理论中文字幕| 天天操天天色综合| 成人在线免费观看| 91视频九色网站| 国产亚洲精品v| 成人黄色短视频| 欧美变态tickling挠脚心| 综合毛片免费视频| 手机成人av在线| 成人免费av网站| 中文字幕+乱码+中文字幕明步| 久久网福利资源网站| 欧美日韩一区二区三区不卡视频| 黄色三级视频片| 一区二区成人在线视频| 精品欧美不卡一区二区在线观看 | 一区二区三区久久精品| 清纯唯美激情亚洲| 女性隐私黄www网站视频| 国产精品久99| 青春有你2免费观看完整版在线播放高清 | 亚洲美女av在线| 亚洲国产中文在线| 五月婷婷深爱五月| 亚洲成人一区二区| 日本在线视频网| 任我爽在线视频精品一|