精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調用,網友:Siri也要努力 | 開源

人工智能 新聞
這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。

蘋果團隊,又發布了新的開源成果——一套關于大模型工具調用能力的Benchmark。

這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。

而且還引入了對話交互、狀態依賴等傳統標準中沒有關注到的重要場景。

圖片

這套測試基準名叫ToolSandbox,蘋果基礎模型團隊負責人龐若鳴也參與了研究工作。

ToolSandbox彌補了現有測試標準缺乏場景化評估的不足,縮小了測試條件與實際應用之間的差距。

圖片

而且在交互上,作者讓GPT-4o扮演用戶和被測模型進行對話,從而模擬真實世界中的場景。

比如告訴GPT-4o你不再是一個助理,而是要扮演正在和用戶B對話的用戶A,然后提出一系列具體要求。

圖片

另外,作者也利用ToolSandbox對一些主流模型進行了測試,結果整體上看閉源比開源模型分數更高,其中最強的是GPT-4o。

iOS應用開發者Nick Dobos表示,蘋果的這套標準簡潔明了。

同時他指出,現在ChatGPT面對三個工具就已經有些捉襟見肘,Siri要想管理好手機中幾十上百個應用,也需要提高工具調用能力。

言外之意,ToolSandbox的研究,或許是為了給Siri之后的研發探明方向。

圖片

在場景中測試模型

如前文所述,ToolSandbox采用了場景化、交互式的測試方法。

具體來說,ToolSandbox中一共包括了單/多工具調用、單/多輪對話、狀態依賴、標準化和信息不足等七種類型的近2000個場景。

前面的相對比較好理解,這里針對后面的三種場景類型這里做一下解釋:

  • 狀態依賴:工具的執行依賴于某些全局狀態,需要先通過其他工具對該狀態進行修改;
  • 規范化:將自然語言表達轉換為工具需要的標準形式,過程中可能需要借助其他工具;
  • 信息不足:故意缺失完成任務所需的關鍵工具,考察模型能否識別無法完成的情況。

圖片

在這些場景下,ToolSandbox會關注模型的三個指標:

  • 整體表現,即各類場景下的與預設答案的平均相似度
  • 魯棒性,用多種方式對工具進行魔改、干擾,觀察模型在這種環境下的表現
  • 效率,也就是平均任務完成輪次

工具方面,作者選用了34個可組合的Python函數作為工具,與真實場景的復雜性相當。

其中既有原生Python工具,也集成了部分RapidAPI工具,功能覆蓋搜索、對話、導航、天氣、圖像處理等多個常見領域。

流程上,首先是準備測試場景,研究人員會定義初始世界狀態并存儲,同時使用經過校準的GPT-4o模型生成初始用戶消息。

然后進入交互式執行階段,系統首先初始化Message Bus作為角色間的通信渠道,并配置好扮演用戶的模型以及被測模型。

對話循環開始后,模擬用戶的模型發送初始消息,被測模型接收這條消息并決定下一步行動——直接回復用戶,或調用工具與環境交互。

如果模型選擇調用工具,它會以JSON格式提供必要的參數,執行環境隨后解釋并執行這個調用,可能會更新世界狀態,并處理潛在的并行調用條件。

執行結果返回給被測模型后,被測模型再次決定下一步行動,這個過程持續進行,直到用戶模擬器認為任務完成(或無法完成),此時它會調用end_conversation工具結束對話。

圖片

在整個交互過程中,系統記錄所有的消息和狀態變化,形成一個完整的“對話軌跡”,這個“軌跡”隨后進入評估階段。

評估則使用預定義的“里程碑”和“雷區”來衡量代理模型的表現。

里程碑定義了完成任務的關鍵事件,形成一個有向無環圖來反映時間依賴關系。

系統會尋找軌跡中事件與里程碑之間的最佳匹配,同時保持里程碑的拓撲順序。

雷區則定義了禁止發生的事件,主要用于檢測模型是否在信息不足的情況下產生幻覺。

舉個例子,下圖展示了“不充分信息”場景下一個地雷場(Minefield)評估的例子。

在這個任務中,由于當前時間戳不可用,模型不應該調用timestamp_diff工具,但模型錯誤地猜測了當前時間戳并調用了工具,導致這一輪得分為0。

圖片

最終,系統計算出一個綜合得分,這個得分是平均里程碑匹配分數與雷區懲罰的乘積。

此外,系統還會統計完成任務所需的平均輪次,作為評估模型效率的補充指標。

復雜交互場景仍然是挑戰

從整體上看,閉源模型在工具調用上的表現要好于開源模型。

平均分最高的是GPT-4o,成績是73.0,唯一一個超過了70,且在作者設置的七個場景中的四個里都取得了最高成績。

而且GPT-4o魯棒性也極強,作者用了8種方法對工具進行魔改,GPT-4o對其中的其中都有最高的魯棒性評分。

緊隨其后的是Claude 3-Opus,平均分為69.2,在信息不足 的場景當中表現還超過了GPT-4o,再然后就是GPT和Claude的一些其他版本。

谷歌的Gemini則相對落后,1.5 Pro的成績為60.4,剛剛及格,還不如GPT-3.5,不過在信息不足這個單項上表現不錯。

開源模型的最高平均分就只有31.4了,其中比較有名的Mistral-7B得分是29.8,但在信息不足這個單項上取得了76.8的最好成績。

甚至其中的Gorilla、Command-R等部分開源模型根本無法處理工具響應,或者只能勉強完成單輪工具調用。

圖片

進一步分析表明,開源模型在識別何時該調用工具方面表現不佳,更傾向于將問題當作純文本生成任務。

從任務維度上看,大模型在單/多工具調用和單輪用戶請求上表現優異,但在多輪對話和狀態依賴任務上優勢減弱。

在GPT、Claude、Gemini等家族中,更大的模型在多工具調用和多輪對話任務上的優勢更明顯;但在狀態依賴任務上,中小模型(如GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表現更好。

另外,規范化是所有模型的一大挑戰,尤其是需要借助工具進行規范化的場景,以及時間相關參數的規范化也十分困難。

針對魯棒性的研究表明,模型對工具描述、參數信息等變化的敏感程度差異較大,沒有發現明顯的規律。

效率上,更強的模型通常更高效,但也有例外,比如Claude系列模型的效率普遍優于GPT。

總之,大模型在工具使用方面,應對現實世界的復雜交互場景時仍面臨諸多挑戰。

作者簡介

ToolSandbox團隊成員來自蘋果公司的機器學習、數據科學、基礎大模型等多個團隊。

第一作者是華人機器學習工程師Jiarui Lu,本科畢業于清華大學,就讀期間還在朱軍教授實驗室中擔任研究助理。

隨后,Lu在卡內基梅隆大學取得了機器學習碩士學位,畢業后于2020年加入蘋果公司。

圖片

包括Lu在內,署名的12位作者當中有10位都是華人,而且都有名校背景。

其中也包括基礎大模型團隊負責人龐若鳴(Ruoming Pang)。

圖片

另外,在蘋果工作了8年的工程主管Bernhard Aumayer也參與了這一項目。

圖片

論文地址:https://arxiv.org/abs/2408.04682

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-06 13:00:29

2025-08-07 14:05:40

OpenAI大模型開源

2024-08-09 12:50:02

2025-05-26 08:33:00

2024-06-05 13:09:26

2024-10-17 14:05:34

2024-05-14 11:29:15

2025-01-15 10:28:21

2024-09-06 13:31:31

2025-02-17 09:35:00

ChatGPT模型AI

2024-11-12 14:00:00

AI編程

2024-06-12 11:50:23

2025-10-10 01:00:00

8B模型GPT-4oAgent

2024-07-24 12:40:44

2024-11-04 08:40:00

2025-01-22 16:57:32

字節跳動豆包大模型

2025-04-30 16:48:07

2025-05-15 09:10:00

2025-05-12 08:50:00

點贊
收藏

51CTO技術棧公眾號

色综合久久久久| 成人看片网站| 精品系列免费在线观看| 日韩欧美高清dvd碟片| 久久精品一二三区| 成人在线观看免费完整| 欧美成a人片免费观看久久五月天| 国产精品美女久久久久久久| 亚洲永久在线观看| 久久国产精品免费看| 全球成人免费直播| 日韩欧美一区二区免费| 黄色一级视频片| 亚洲天堂999| 国产精品18hdxxxⅹ在线| 一区二区三区中文字幕精品精品| 精品国产二区在线| 在线免费观看一级片| 亚洲精品色图| 日韩在线www| 中文字幕日韩三级片| 亚洲精品乱码日韩| 欧美色视频日本高清在线观看| 中国一级黄色录像| 邻居大乳一区二区三区| 国产一区二区三区四| 日本视频久久久| 久久久久久久久久91| 四季av在线一区二区三区| 亚洲精品电影在线观看| 色婷婷综合在线观看| 外国电影一区二区| 色综合久久天天| 免费毛片网站在线观看| www.欧美日本韩国| 国产精品麻豆网站| 欧美一区二区在线视频观看| 蜜桃视频久久一区免费观看入口 | 国产一区二区成人| 大乳护士喂奶hd| 色播一区二区| 91精品国产综合久久福利| 日韩一级片播放| 樱花草涩涩www在线播放| 亚洲午夜精品17c| 日本丰满大乳奶| 老司机午夜在线| 国产精品少妇自拍| 神马影院午夜我不卡影院| 青青草观看免费视频在线| 成人av免费在线| 国产福利久久| 亚洲乱码国产乱码精品精软件| 国产一区二区在线看| 成人福利在线观看| 国产免费一区二区三区最新不卡| 美女视频黄a大片欧美| 国产成人高清激情视频在线观看| 亚洲欧美综合另类| 丝袜a∨在线一区二区三区不卡| 欧美在线综合视频| 视频在线精品一区| 成人免费在线电影| 中文字幕av一区二区三区高| 天天操综合520| 男女av一区三区二区色多| 欧美色图在线视频| 男人操女人免费| 亚洲综合电影| 亚洲一区日韩精品中文字幕| 成人毛片网站| 刘亦菲毛片一区二区三区| 成人黄色av电影| 久久福利电影| 国产三级在线观看| 99久久精品国产观看| 欧美激情第六页| 国产免费av高清在线| 久久久久国产成人精品亚洲午夜| 4444kk亚洲人成电影在线| 国产精品人人妻人人爽| 盗摄精品av一区二区三区| 国产乱码精品一区二区三区卡 | 这里只有精品免费| 亚洲妇女无套内射精| 欧美日韩导航| 三级精品视频久久久久| 欧美人妻一区二区| 亚洲一区二区三区免费在线观看 | 亚洲黄网在线观看| 久久成人久久爱| 国产成人精品免费视频大全最热| 日本私人网站在线观看| 中文字幕成人网| 国产精品久久国产| 亚洲www啪成人一区二区| 欧美一级欧美三级| 国产精品揄拍100视频| 999久久久91| 97精品国产97久久久久久春色| 日韩在线播放中文字幕| 久久丁香综合五月国产三级网站| 成人自拍网站| 成年人视频在线观看免费| 一区二区三区.www| 国产精品入口免费软件| 91蜜桃臀久久一区二区| 在线视频欧美日韩| 国产系列精品av| 久久国产精品色婷婷| 久久综合一区二区三区| 黄色av电影在线播放| 精品久久久久久亚洲精品| 亚洲国产成人va在线观看麻豆| 国产精品主播在线观看| 色av中文字幕一区| 日韩在线视频免费播放| 国产在线精品视频| 色播五月综合| 日韩电影毛片| 日韩精品一区二区三区蜜臀| 欧美成人短视频| 国产精品日韩| 成人羞羞视频免费| 国产在线观看a| 国产成人av资源| 91久久精品www人人做人人爽 | 92精品国产成人观看免费| 在线观看日韩羞羞视频| 日本精品一二三区| 亚洲综合在线电影| 亚洲成色999久久网站| 国产三级aaa| 视频一区欧美精品| 久久精品女人的天堂av| 欧美6一10sex性hd| 91精品国模一区二区三区| wwwww黄色| 日韩精品一级中文字幕精品视频免费观看 | 欧美黄色一区二区三区| 捆绑调教美女网站视频一区| 久久99精品久久久久久久青青日本| 草莓福利社区在线| 欧美日韩国产小视频在线观看| 成人做爰69片免费| 乱中年女人伦av一区二区| 亚洲午夜精品久久久久久性色 | 欧美动漫一区二区| 涩涩av在线| 亚洲精品大尺度| 国产三级av片| 2023国产精品| 国产欧美高清在线| 国产欧美一区二区三区精品观看 | 亚洲黄网在线观看| 国产欧美日韩精品在线| 无人在线观看的免费高清视频| 免费欧美一区| 国产精品黄色影片导航在线观看| 黄色av免费在线观看| 在线观看欧美黄色| 亚洲精品自拍视频在线观看| 久久国产精品72免费观看| 丰满女人性猛交| 久久久久久久久久久久电影| 欧美激情亚洲国产| 性xxxxbbbb| 在线观看亚洲精品视频| 91导航在线观看| 国产一区二区三区观看| 欧美图片激情小说| 亚洲最好看的视频| 国产精品午夜一区二区欲梦| 久久99精品久久久久久野外| 日韩小视频在线观看专区| 精品无码人妻一区二区三区品| 成人av一区二区三区| 久久婷婷国产精品| 久久国产精品亚洲人一区二区三区| 成人精品久久久| 国产一线二线在线观看| 亚洲欧美国产制服动漫| 91超薄丝袜肉丝一区二区| 一区二区三区四区五区视频在线观看 | 国产盗摄一区二区三区| 一二三在线视频| 精品亚洲自拍| 国产精品美女视频网站| 日本熟妇成熟毛茸茸| 丁香婷婷综合五月| 欧美国产一区二区在线| 综合图区亚洲| 日韩麻豆第一页| 国产精品国产三级国产普通话对白| 亚洲在线成人精品| 欧美精选一区二区| 美女久久久久久久久久| 精品一区二区三区免费| 国产人妻777人伦精品hd| 欧美精品乱码| 国产精品v欧美精品v日韩| 欧美成a人片在线观看久| 久热国产精品视频| 免费毛片在线| 在线观看成人免费视频| 一区二区三区免费高清视频| 国产日韩成人精品| 亚洲av无码一区东京热久久| 日韩va亚洲va欧美va久久| 日本一级黄视频| 日韩美女一级片| www.亚洲激情.com| 男人操女人免费软件| 91精品电影| 国产精品yjizz| www.久久爱.com| 欧美日本精品在线| 99青草视频在线播放视| 日韩福利在线播放| 性一交一乱一乱一视频| 欧美日韩成人一区| 天天爱天天做天天爽| 五月激情综合网| 九九热国产在线| 亚洲视频在线一区观看| www色com| 久久麻豆一区二区| 久久福利小视频| 国产成人一级电影| 色天使在线观看| 日本亚洲天堂网| 蜜臀久久99精品久久久酒店新书 | 色综合久久天天综线观看| 在线观看免费黄色| 亚洲新声在线观看| 香港三日本三级少妇66| 亚洲成人黄色在线观看| 精品人妻一区二区三区浪潮在线| 欧美日韩国产一二三| 中文字幕在线网站| 在线观看免费视频综合| 四虎影院在线免费播放| 色拍拍在线精品视频8848| 国产黄色片免费看| 午夜精品一区二区三区三上悠亚| 日本一区二区三区久久| 亚洲mv大片欧洲mv大片精品| 波多野结衣家庭教师| 国产精品久久看| 欧洲美熟女乱又伦| 国产日韩欧美一区二区三区综合| 青青草成人免费视频| 99久久精品免费看国产| 日本一区二区在线观看视频| 成人一区二区视频| 国产精品熟妇一区二区三区四区| 国产成人精品综合在线观看| 欧美日韩一区二区区别是什么| 国产精一区二区三区| 国产高清999| 噜噜噜躁狠狠躁狠狠精品视频| 日韩毛片在线免费看| 久久经典综合| 国产视频在线视频| 久久99九九99精品| caoporen国产精品| 欧美大胆成人| 亚洲欧洲在线观看| 黄色片在线免费看| 中文字幕亚洲图片| 蜜桃视频在线观看www社区| 亚洲成a人v欧美综合天堂| 高清视频在线观看一区| 91综合国产| 国产一区视频在线播放| 中文字幕成人| 99久热re在线精品996热视频| 性感美女一区二区在线观看| 国产精品亚洲综合天堂夜夜| 色噜噜狠狠狠综合欧洲色8| 欧美激情第6页| 91精品论坛| 国产日本欧美一区| 视频精品一区| 黄色99视频| av在线不卡顿| www婷婷av久久久影片| 国产精品尤物| 亚洲视频在线观看一区二区三区| 亚洲国产精品一区| 又色又爽又高潮免费视频国产| 日韩电影在线看| 日本网站免费在线观看| 99香蕉国产精品偷在线观看 | 精品人妻无码一区二区三区| 国产农村妇女毛片精品久久麻豆 | 麻豆av电影在线观看| 久久亚洲国产精品| av资源亚洲| 亚洲最大成人在线| 少妇精品久久久| 国产精品日韩三级| 免费成人美女在线观看| 中文字幕 日本| 亚洲欧洲色图综合| 91玉足脚交嫩脚丫在线播放| 欧美精品 日韩| 欧美xxx.com| 欧美激情一级精品国产| 成人交换视频| 欧美大香线蕉线伊人久久| 欧美日本二区| 在线观看国产一级片| 91亚洲精品一区二区乱码| 欧美色图亚洲天堂| 欧美亚日韩国产aⅴ精品中极品| 蜜桃视频污在线观看| 插插插亚洲综合网| 99久久亚洲国产日韩美女| 精品无人区一区二区三区竹菊| 亚洲色图国产| 亚洲一级免费在线观看| 2021中文字幕一区亚洲| 日韩女优在线观看| 欧美zozozo| 超碰在线观看免费版| 国产精品丝袜视频| 九九久久婷婷| 5月婷婷6月丁香| 成人av网站在线观看免费| 看片网站在线观看| 制服丝袜亚洲网站| 97视频在线观看网站| 日本高清不卡在线| 天堂av一区二区三区在线播放| 无码熟妇人妻av在线电影| 国产精品综合视频| 无码黑人精品一区二区| 欧美午夜精品久久久| 日本精品一区二区在线观看| 欧美精品久久一区二区| 在线免费成人| 欧洲美女和动交zoz0z| 日韩高清电影一区| 亚洲а∨天堂久久精品2021| 少妇精品高潮欲妇又嫩中文字幕| 伦理中文字幕亚洲| 91麻豆精品| 黄频视频在线观看| 精品一区二区在线免费观看| 亚洲成a人无码| 亚洲国产美女搞黄色| 高h调教冰块play男男双性文| 久久成人在线视频| 欧美高清一级片| 青青草综合视频| 成人福利视频在线| 日韩久久久久久久久| 亚洲精品久久久久久久久| 欧美 国产 综合| 日韩精品一区第一页| av网站免费在线看| 欧美在线999| 老司机在线永久免费观看| 成人免费在线网址| 中国黄色a级片| 亚洲一区不卡| 999久久久精品视频| 成人性生交大片免费看中文| 国产无遮挡又黄又爽在线观看| 精品欧美乱码久久久久久1区2区| 久久亚洲导航| 精品一区二区久久久久久久网站| 国产欧美日韩精品一区二区免费 | 精品999久久久| 色综合桃花网| 在线视频欧美一区| 国产精品2024| 欧美极品aaaaabbbbb| 日韩av最新在线| 精品捆绑调教一区二区三区| 97精品在线观看| 粉嫩久久久久久久极品| 国产成人a亚洲精v品无码| 97久久超碰国产精品电影| 黄色av一区二区| 色七七影院综合| 人人鲁人人莫人人爱精品| 欧美性受黑人性爽| www..com久久爱| 在线观看不卡的av| 久久免费国产视频| 日韩精品免费一区二区三区| 美女福利视频在线| 亚洲人成小说网站色在线| 亚洲aaaaaaa| 亚洲最大的成人网| 日韩制服丝袜av| 免费在线一区二区三区| 一区二区三区高清国产|