精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

浙大&通義全面評測智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025

人工智能 新聞
浙大通義聯(lián)合發(fā)布WorfBench——一個(gè)涵蓋多場景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準(zhǔn)量化大模型生成工作流的能力。

大模型智能體正在迅速發(fā)展,能力已不再局限于 API 調(diào)用。

諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執(zhí)行復(fù)雜操作。

在處理這類復(fù)雜任務(wù)的過程中,大模型智能體將問題分解為可執(zhí)行的工作流(Workflow)是關(guān)鍵的一步。然而,這一核心能力目前缺乏完善的評測基準(zhǔn)。

現(xiàn)有的數(shù)據(jù)集和評估框架存在明顯局限性:要么僅關(guān)注規(guī)劃任務(wù)的端到端性能,要么在場景覆蓋范圍、工作流結(jié)構(gòu)的復(fù)雜性以及評估標(biāo)準(zhǔn)的全面性上存在不足。完善的工作流評測基準(zhǔn)對于推動(dòng)大模型智能體在真實(shí)場景中的應(yīng)用和性能提升至關(guān)重要。

為解決上述問題,浙大通義聯(lián)合發(fā)布WorfBench——一個(gè)涵蓋多場景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準(zhǔn)量化大模型生成工作流的能力。這一研究不僅填補(bǔ)了現(xiàn)有評估體系的空白,還為未來大模型智能體在復(fù)雜任務(wù)中的應(yīng)用提供了重要的參考。

該工作已被人工智能頂級會(huì)議ICLR 2025錄用。

WorfBench構(gòu)建與評估

WorfBench利用GPT自動(dòng)化構(gòu)建多場景任務(wù),包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓(xùn)練樣本、2146測試樣本和723個(gè)OOD的評測數(shù)據(jù)集。作者將工作流建模為有向無環(huán)圖(DAG),以更精確地表示現(xiàn)實(shí)世界中的復(fù)雜串行或并行智能體工作流。

為了確保數(shù)據(jù)質(zhì)量,作者引入了節(jié)點(diǎn)鏈作為中間結(jié)構(gòu),并采用拓?fù)渑判颍═opological Sorting)算法對圖結(jié)構(gòu)進(jìn)行質(zhì)量過濾,并在測試集上進(jìn)行人工驗(yàn)證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個(gè)維度對大模型生成的工作流進(jìn)行量化評估,從而精準(zhǔn)衡量模型的線性規(guī)劃和圖規(guī)劃能力。

基準(zhǔn)評測結(jié)果

作者在WorfBench上對18種不同規(guī)模的主流大模型進(jìn)行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實(shí)驗(yàn)結(jié)果顯示,與線性結(jié)構(gòu)相比,模型在圖結(jié)構(gòu)工作流預(yù)測上的能力遠(yuǎn)未達(dá)到現(xiàn)實(shí)需求,即使是性能卓越的GPT-4,其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。

此外,作者還對兩個(gè)開源模型進(jìn)行了訓(xùn)練,并在OOD任務(wù)上評估其泛化能力。結(jié)果表明,盡管在訓(xùn)練集上表現(xiàn)出色,但在未見過的任務(wù)上,模型的泛化能力仍有待提高。這表明,僅通過數(shù)據(jù)擬合目前仍難以實(shí)現(xiàn)結(jié)構(gòu)化工作流規(guī)劃能力的有效學(xué)習(xí)。

工作流生成分析

通過對實(shí)驗(yàn)結(jié)果的深入分析,作者發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關(guān)。例如,部分7B模型在某些任務(wù)上超越了13B模型,這可能與模型訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量有關(guān)。

此外,作者還發(fā)現(xiàn),即使提供標(biāo)簽節(jié)點(diǎn)鏈以簡化圖結(jié)構(gòu)預(yù)測任務(wù),模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復(fù)雜性在于對任務(wù)依賴關(guān)系的理解。

進(jìn)一步的錯(cuò)誤分析顯示,大模型在工作流生成中的典型錯(cuò)誤主要集中在任務(wù)分解的粒度、任務(wù)描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個(gè)方面。這些錯(cuò)誤大多源于模型對環(huán)境知識的缺乏。

因此,未來的研究方向可能包括優(yōu)化提示策略、采用多智能體架構(gòu),以及將世界知識或世界模型更深入地融入大模型中,以提升其對現(xiàn)實(shí)世界的理解能力。

工作流知識增強(qiáng)智能體

作者探討了工作流在智能體規(guī)劃中的重要作用。研究發(fā)現(xiàn),工作流不僅可以作為一種流程先驗(yàn)知識直接指導(dǎo)智能體的規(guī)劃過程,幫助其在復(fù)雜任務(wù)中更高效地執(zhí)行,還可以作為鏈?zhǔn)剿伎迹–hain-of-Thought, CoT)的增強(qiáng)手段,通過為智能體提供更相關(guān)的API選擇,減輕其在多步任務(wù)中的負(fù)擔(dān)。

此外,工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務(wù)執(zhí)行,顯著減少推理時(shí)間,同時(shí)減少智能體在規(guī)劃過程中的步驟數(shù),提升任務(wù)完成效率。這些結(jié)果表明,工作流不僅是連接任務(wù)與具體執(zhí)行動(dòng)作的橋梁,還能顯著提升智能體在復(fù)雜任務(wù)中的表現(xiàn)和效率。

論文鏈接: https://arxiv.org/abs/2410.07869 

代碼鏈接: https://github.com/zjunlp/WorfBench

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-23 08:47:00

2025-05-30 09:17:00

2024-10-17 13:09:14

2025-04-18 09:13:00

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2024-11-04 12:48:12

2025-07-10 08:52:00

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2025-05-22 09:07:00

2024-12-12 08:49:37

2025-04-25 09:05:00

2023-06-05 10:01:18

模型測評

2024-03-11 00:40:00

AI研究

2025-11-06 01:44:00

2025-02-25 10:04:10

2025-09-22 17:07:31

2025-05-15 03:25:00

2025-09-24 13:04:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

日韩视频精品在线| 久久久久久影视| 久久久国产一区二区三区| 天天爽夜夜爽视频| 鲁鲁在线中文| 国产精品视频九色porn| 97久久天天综合色天天综合色hd | 中文字幕日韩高清在线| 午夜av一区二区| 五月天亚洲综合小说网| 超碰人人人人人人| 日日欢夜夜爽一区| 欧美另类在线播放| 蜜臀久久99精品久久久久久宅男| 一区二区三区四区不卡| 蜜臀av午夜精品| 日韩国产欧美三级| 久久久久久久久久久亚洲| 日韩精品无码一区二区三区久久久 | 玖玖玖视频精品| 日韩欧美精品网址| 国产盗摄视频在线观看| 三级av在线播放| 蜜桃一区二区三区在线| 国内精品一区二区三区| 日韩一卡二卡在线观看| 婷婷精品在线观看| 日韩一区二区精品葵司在线| 欧美成人黑人猛交| 国产盗摄精品一区二区酒店| 国产精品伦理一区二区| 欧美成人蜜桃| 日本黄色大片视频| 国产麻豆一精品一av一免费 | 国产精品.xx视频.xxtv| 亚洲第一久久影院| 亚洲成人动漫在线| 欧美jizz18性欧美| 欧美激情综合五月色丁香小说| 国产亚洲情侣一区二区无| 国产免费一区二区三区免费视频| 视频一区二区中文字幕| 97超碰色婷婷| 国产午夜激情视频| 欧美成人日韩| 欧美成人免费播放| 午夜精品福利在线视频| 水蜜桃精品av一区二区| 丝袜亚洲另类欧美重口| 高清国产在线观看| 午夜爽爽爽男女免费观看| 性欧美xxx69hd高清| 亚洲福利视频三区| 蜜臀av性久久久久蜜臀av| 欧美极品视频| 国产精品黄色在线观看| 性刺激综合网| 天堂地址在线www| 国产精品久久久一本精品| 天堂资源在线亚洲视频| 浮生影视网在线观看免费| 99久久国产综合精品女不卡| 精品国产一区二区三区四区vr| 亚洲精品国产手机| 成人黄色av电影| 国产伦精品一区二区三区在线| 亚洲精品综合久久| 成人动漫一区二区在线| 精品国产一区二区三区麻豆免费观看完整版 | 中文字幕一区二区人妻在线不卡| 动漫av在线免费观看| 女厕盗摄一区二区三区| 岛国视频午夜一区免费在线观看| 成人免费观看cn| 综合另类专区| 欧美体内she精视频| 9l视频白拍9色9l视频| 亚洲精品aaa| 日韩欧美不卡在线观看视频| 四虎永久免费观看| 人人精品视频| 一区二区福利视频| 成人免费视频网站入口::| 欧美精品一线| 69av视频在线播放| 国产污视频网站| 蜜臀av性久久久久蜜臀av麻豆| 91久久国产综合久久91精品网站 | 狠狠色综合网站久久久久久久| 污污视频在线免费看| 久久久久国产一区二区三区四区| 亚洲国产精品一区二区第四页av| 成人日批视频| 欧美日韩一区二区免费视频| 日韩大片一区二区| 亚洲国产中文在线| 亚洲免费成人av电影| 一本色道久久88| 在线播放一区| 国产精品国产亚洲伊人久久| 国产裸体永久免费无遮挡| 9久草视频在线视频精品| 亚洲欧洲日韩综合二区| ririsao久久精品一区| 在线观看91视频| 国产清纯白嫩初高中在线观看性色| 九九亚洲视频| 欧美富婆性猛交| 亚洲性猛交富婆| 成人黄色一级视频| 最新精品视频| 亚洲天堂av在线| 日韩三级在线观看| 精品久久久久久久久久久久包黑料 | 亚洲一区二区三区四区视频| 四虎影院在线域名免费观看| 亚洲丝袜精品丝袜在线| 久久久噜噜噜www成人网| 美女精品久久| 色天天综合狠狠色| 国产区一区二区三| 国产精品69毛片高清亚洲| 欧美一区1区三区3区公司 | 亚洲涩涩在线观看| 亚洲另类春色校园小说| 久久6精品影院| 中文文字幕一区二区三三| 99精品黄色片免费大全| 成人在线视频一区二区三区| 激情欧美一区二区三区黑长吊| 日韩精品在线播放| 在线免费观看毛片| 国产精品综合一区二区| 亚洲在线色站| 电影一区二区| 亚洲少妇激情视频| 久久久久久久久久久影院| 成人国产精品视频| 国产黑丝在线一区二区三区| 99精品国产高清一区二区| 老司机免费在线视频| 欧美系列亚洲系列| 中文字幕在线看高清电影| 国产日本精品| 久久国产日韩欧美| 啊啊啊久久久| 亚洲第一中文字幕| 国产大片aaa| 成人免费视频网站在线观看| 2022中文字幕| 天堂精品久久久久| 欧美高清视频免费观看| 亚洲国产精品欧美久久| 一区二区高清在线| 久久久久亚洲AV成人网人人小说| 欧美精品一卡| 国产伦精品一区| 欧美少妇精品| 亚洲毛片在线看| 天天干天天操天天爱| 久久亚洲一区二区三区四区| 777米奇影视第四色| 国产成人影院| 国产欧美韩国高清| 爆操欧美美女| 日韩精品一区二区三区老鸭窝| 久久国产精品波多野结衣av| 处破女av一区二区| 国模无码视频一区二区三区| 九色精品国产蝌蚪| 国产精品网红福利| 最新av在线播放| 精品国产不卡一区二区三区| 亚洲精品午夜国产va久久成人| 91视频你懂的| 中文字幕66页| 国内精品久久久久国产盗摄免费观看完整版 | 日本午夜精品理论片a级app发布| 91丨porny丨在线| av五月天在线| 亚洲一区在线| 国产综合 伊人色| 精品在线播放视频| 香蕉久久精品日日躁夜夜躁| 日av在线播放中文不卡| 在线免费看av| 欧美大片日本大片免费观看| 天天综合天天干| 国产精品美女久久久久aⅴ| 亚洲av无一区二区三区久久| 国产精品美女久久久浪潮软件| 日本中文不卡| 久久99成人| 日本欧美黄网站| 九七久久人人| 精品视频偷偷看在线观看| 一级特黄aa大片| 亚洲444eee在线观看| 综合 欧美 亚洲日本| 粉嫩一区二区三区性色av| aa免费在线观看| 一区二区不卡| 欧美黄色直播| 亚洲午夜精品| 国产精品久久久久秋霞鲁丝| 后进极品白嫩翘臀在线播放| 日韩激情av在线免费观看| 国产又黄又粗又硬| 精品成人乱色一区二区| 无码人妻精品中文字幕| 久久亚洲欧美国产精品乐播| 欧美日韩一区二区区| 日韩中文字幕91| 精品无码av无码免费专区| 日韩激情图片| 国产另类第一区| 青草伊人久久| 国产精品免费一区| 小草在线视频免费播放| 久久国产精品久久久久| av播放在线| 亚洲精品视频在线播放| 亚洲精品喷潮一区二区三区| 欧美精品乱码久久久久久| 国产精品视频123| 五月天精品一区二区三区| 天天爽天天爽天天爽| 久久众筹精品私拍模特| 日本天堂在线播放| 国产精品一色哟哟哟| 成人午夜激情av| 欧美在线综合| 男人天堂1024| 五月激情四射婷婷| 日韩电影在线观看电影| 久久这里只有精品23| 欧美99久久| 熟妇熟女乱妇乱女网站| 色999日韩| 亚洲高清视频在线观看| 欧美精品一区二区三区精品| 欧美国产二区| 亚洲资源网站| 欧美午夜免费| 国内成人自拍| 欧美一区二区高清在线观看| 久久99视频| 欧美在线视频二区| 免费国产自久久久久三四区久久| 韩国成人动漫在线观看| 日韩a级大片| 久久av二区| 亚洲精品推荐| 欧美日韩国产高清视频| 国产欧美日韩影院| 亚洲激情图片| 日本一区二区三区视频| 亚洲看片网站| 国产精品成人a在线观看| 正在播放一区二区三区| 亚洲精品一二三区区别| 日韩成人午夜影院| 黄色综合网站| ww国产内射精品后入国产| 性欧美xxxx大乳国产app| 99热成人精品热久久66| 日日摸夜夜添夜夜添亚洲女人| 亚洲中文字幕久久精品无码喷水| 日本少妇一区二区| 久国产精品视频| 国产99久久久精品| 免费无码一区二区三区| 国产性天天综合网| 日韩精品一区二区三区在线视频| 亚洲人成在线观看一区二区| 国产亚洲第一页| 欧美性猛交xxxxx免费看| 国产成人精品亚洲| 欧美一激情一区二区三区| 蜜臀av免费在线观看| 欧美日韩在线视频观看| 在线视频不卡一区二区| 91九色精品国产一区二区| 国产在线观看欧美| 国产亚洲精品v| 亚洲欧洲日本精品| 丁香婷婷综合网| 欧美成人国产精品一区二区| 中文字幕在线不卡视频| 免费观看一级视频| 在线区一区二视频| 99热这里只有精品66| 日韩精品福利在线| 老司机午夜在线| 57pao国产成人免费| 久久亚洲精品人成综合网| av一区二区三区四区电影| 国产调教一区二区三区| 佐佐木明希av| 久久aⅴ国产紧身牛仔裤| 国内自拍第二页| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 久久一区中文字幕| 天美一区二区三区| 国产亚洲精品免费| 国产精品日日夜夜| 678五月天丁香亚洲综合网| 亚洲欧美日韩免费| 精品国内自产拍在线观看| 男人久久天堂| 国产精品国产精品国产专区蜜臀ah | 日韩精品一级中文字幕精品视频免费观看 | 九九色在线视频| 国产精品久久久久久久久久ktv | 岛国在线视频网站| 国产在线观看不卡| 国产一区二区三区91| a级黄色小视频| 国产乱妇无码大片在线观看| 久久美女免费视频| 午夜精品久久久久久久99水蜜桃| 国产又粗又猛又黄又爽无遮挡| 日韩国产激情在线| 毛片在线导航| 91久久久久久久久| 欧美日韩中文一区二区| 成人观看免费完整观看| 成人免费观看av| 欧美黄色一区二区三区| 欧美精品日韩一本| 午夜小视频在线| 国产国语videosex另类| 亚洲免费福利一区| 一女被多男玩喷潮视频| 风间由美一区二区三区在线观看| 成人性免费视频| 亚洲女同av| 国产精品免费在线 | 成人av午夜电影| 午夜免费激情视频| 91精品在线免费观看| 色网站在线看| 国产免费一区二区三区香蕉精| 国际精品欧美精品| 亚洲精品怡红院| 国产亚洲一二三区| 成年人晚上看的视频| 亚洲欧洲一区二区三区久久| 成人香蕉视频| 日本一区二区三区免费看| 水野朝阳av一区二区三区| 麻豆av免费观看| 一区二区高清| 丰满少妇在线观看| 久久综合九色综合欧美98| 亚洲免费在线视频观看| 亚洲免费中文字幕| 欧美美女日韩| 日韩伦理一区二区三区av在线| 视频在线观看91| 久久精品在线观看视频| 欧美久久高跟鞋激| 91麻豆国产福利在线观看宅福利| 亚洲综合日韩在线| 好看的亚洲午夜视频在线| 影音先锋黄色资源| 一本一道久久a久久精品综合蜜臀| 狠狠v欧美ⅴ日韩v亚洲v大胸| 国产精品观看在线亚洲人成网| 秋霞欧美视频| 夜夜爽久久精品91| 香蕉加勒比综合久久| 每日更新在线观看av| 国产精品扒开腿做爽爽爽男男 | 一区二区av在线| 在线日韩三级| 男女激情免费视频| 91农村精品一区二区在线| 国产又粗又猛又爽又| 免费短视频成人日韩| 少妇久久久久久被弄到高潮| 成人av网在线| 欧美成人精品网站| 欧美成人在线网站| 欧美男人操女人视频| 日本va中文字幕| 亚洲乱码国产乱码精品精98午夜 | 国产suv精品一区二区三区| 久久久久久久久久久久久久av| 国产一区二区三区欧美| 国产精品久久久久久av公交车| 日韩xxxx视频| 国产欧美一二三区| 精品久久国产视频| 日本高清不卡在线| 你懂的国产精品永久在线| 久久人人爽人人爽人人片| 欧美日韩二区三区| h片精品在线观看| 一本一道久久a久久精品综合|