精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型掌握16000+真實世界API了,清華等機構ToolLLM的工具使用能力不輸ChatGPT

人工智能 新聞
本文提出了一個新的框架 ToolLLM,其增強了大型語言模型對 API 的使用。在指令調優數據集 ToolBench 上對 LLaMA 進行微調,得到的 ToolLLaMA 與 ChatGPT 性能相當。

相信大家都已經見識到了,開源大型語言模型(LLMs)及其變體(例如 LLaMA 和 Vicuna)在各種任務上取得了顯著的進展。

然而,盡管 LLM 很強大,但它們在執行更高級任務方面局限性仍然很大,比如讓 LLM 按照人類給出的指令使用外部工具(APIs),很多開源 LLM 就很難辦到。

原因在于當前 LLM 的指令調優技術主要集中在基本語言任務上,缺乏對工具使用方面的探索。這與最先進的閉源模型如 ChatGPT 形成了鮮明的對比,后者已經展示出出色的工具使用能力。

為了讓開源 LLM 更好的使用外部工具,來自清華、人大、耶魯、騰訊、知乎等多家機構的研究者聯合撰寫了論文,他們引入了一個通用工具使用框架 ToolLLM,該框架包括數據構建、模型訓練和評估多項功能。

值得一提的是,該研究從 RapidAPI Hub 收集了 16464 個真實世界的 RESTful API,涵蓋 49 個類別。

該研究在 ToolBench(指令調優數據集)上對 LLaMA 進行微調,得到了 ToolLLaMA。ToolEval(自動評估器)評估顯示,ToolLLaMA 展現出了出色的執行復雜指令和泛化到未知 API 的能力,并且在工具使用方面性能與 ChatGPT 相媲美。

圖片

  • 論文地址:https://arxiv.org/pdf/2307.16789.pdf
  • 項目地址:https://github.com/OpenBMB/ToolBench

方法介紹

論文首先介紹了 ToolBench,這是一個用于工具使用的指令調優數據集,由 ChatGPT 自動創建。具體而言,研究團隊從 RapidAPI Hub 收集了 16464 個涵蓋 49 個類別的真實世界 RESTful API,然后提示 ChatGPT 生成涉及這些 API 的多樣化人類指令,涵蓋單工具和多工具場景。最后,他們使用 ChatGPT 為每個指令搜索有效的解路徑(一系列 API 調用)。為了使搜索過程更加高效,他們開發了一種新穎的基于深度優先搜索的決策樹(DFSDT),使 LLMs 能夠評估多個推理軌跡并擴展搜索空間。

在數據集方面。如圖 1 所示,研究者首先收集了一些高質量的指令調優數據集 ToolBench。該數據集是通過使用最新的 ChatGPT(gpt-3.5-turbo-16k)自動構建的。

圖片

具體而言,ToolBench 的構建包含三個階段:API 收集(API collection)、指令生成、解路徑注釋(solution path annotation)。

API 收集

研究團隊從 RapidAPI 收集了 16464 個 REST(representational state transfer)API。這些 API 涵蓋 49 個不同類別,如社交媒體、電子商務和天氣。對于每個 API,研究團隊都會從 RapidAPI 抓取詳細的 API 文檔,包括功能描述、所需參數、API 調用的代碼片段等。他們希望 LLM 能夠通過理解這些文檔來學習使用 API,從而使模型能夠泛化到訓練過程中未見過的 API。

注:RapidAPI 是一個領先的 API 市場,它將開發者與成千上萬的真實世界 API 連接起來。在這個平臺上,開發者只需注冊一個 RapidAPI 密鑰,就可以發現、測試和連接各種 API。

RapidAPI 的層級結構 (左) 和指令生成過程 (右) 如下圖所示。對于每個工具,研究者會爬取以下信息:工具的名稱和描述,主機的 URL,以及屬于該工具的所有可用 API;對于每個 API,研究者會記錄其名稱、描述、HTTP 方法、必要參數、可選參數、可執行的 API 調用代碼片段等。

圖片

在這一過程中,還需要 API 過濾:最初,該研究從 RapidAPI 收集了 10853 個工具(53190 個 API)。然而,這些 API 的質量和可靠性可能會有很大的差異。為此,他們進行了嚴格的篩選過程,以確保 ToolBench 的最終工具集是可靠且功能正常的。最后只保留了 3451 個高質量的工具 (16464 個 API)。

指令生成

研究團隊首先從整套程序中抽取 API 樣本,然后使 ChatGPT 為這些 API 生成各種指令。為了涵蓋實際場景,他們策劃了涉及單工具和多工具場景的指令,這確保了模型不僅能學會如何與單個工具交互,還能學會如何將它們組合起來完成復雜的任務。

生成高質量的指令需要兩個重要特性:多樣性和多工具使用,以確保 LLM 能夠處理廣泛的 API 使用場景,并反映現實世界中經常需要多種工具相互作用的情況,從而提高 LLM 的實際應用性和靈活性。為此,研究團隊采用了一種自下而上的指令生成方法,即從收集 API 入手,然后精心制作涉及這些 API 的各種指令。

為所有 API 及其組合的指令生成過程如下,具體過程請參閱原文。

圖片

解路徑注釋

研究團隊對這些指令的高質量響應進行注釋。每個響應可能包含多輪模型推理和實時 API 調用,以得出最終答案。由于工具學習本身的難度,即使是最復雜的 LLM(即 GPT-4),對復雜指令的通過率也很低,從而導致數據收集效率低下。為此,研究團隊開發了一種新穎的基于深度優先搜索的決策樹(DFSDT),以增強 LLM 的規劃和推理能力。與傳統的思維鏈(CoT)和 ReACT 相比,DFSDT 使 LLM 能夠評估多種推理路徑,并慎重做出決定,以撤回步驟或沿著有希望的路徑前進。在實驗中,DFSDT 顯著提高了注釋效率,并成功完成了那些用 CoT 或 ReACT 無法回答的復雜指令。

下圖為在模型推理過程中,DFSDT 與傳統的 CoT 或 ReACT 的比較 (左)。

圖片

下表為 ToolBench 與其他研究的比較:

圖片

實驗及結果

本文通過實驗來研究了 ToolLLaMa 的性能,報告了 ToolLLaMa 的評估指標、API retriever 和 DFSDT 的有效性以及實驗和分析結果。

考慮到 API 的時間可變性,為每條測試指令標注固定的真實解路徑是不可行的。此外,確保不同模型在評估過程中使用相同版本的 API 也至關重要。考慮到人工評估可能會耗費大量時間,該研究仿效 AlpacaEval 開發了高效的機器評估工具 ToolEval,其依賴于 ChatGPT 的支持,并包含兩個關鍵評估指標:(1)通過率,用于衡量在有限預算內成功執行指令的能力,以及(2)勝率,用于比較兩條解路徑的質量和有用性。本文證明 ToolEval 與人類評估有很高的相關性,并為工具學習提供了一個強大、可擴展且可靠的評估方式。

圖片

如表 2 所示,在不同類型的指令中,研究團隊的 API 檢索器始終優于 BM25 和 Ada Embedding。較高的 NDCG 得分表明其在 API 檢索方面的有效性。此外,I1 的 NDCG 分數遠高于 I2 和 I3,這意味著單工具指令在 API 檢索方面比多工具指令相對簡單。

圖片

從表 3 可以看出,DFSDT 在所有情況下的性能都明顯優于其余兩種基線方法,這表明 DFSDT 是一種更有效的方法,可以節省解路徑標注的成本。并且與較簡單的指令(I1)相比,DFSDT 對較難指令(即 I2 和 I3)的性能提升更為明顯。這說明,除了效率之外,DFSDT 還能解決那些困難、復雜的指令,而這些指令是普通 ReACT 無論執行多少次都無法回答的。將此類 「困難示例 」納入數據集,可以充分激發工具在這些復雜情況下的使用能力。

圖片

圖片

從表 4 中可以發現:

  • ToolLLaMA 在通過率和獲勝率方面都明顯優于傳統的工具使用方法 ChatGPT-ReACT,并表現出卓越的泛化能力。此外,當 ToolLLaMA 與 DFSDT 結合使用時,其表現也優于 Text-Dainci-003。
  • 雖然研究團隊對 prompt 工程進行了廣泛研究,但 Vicuna 和 Alpaca 都未能通過任何指令,這意味著它們的指令遵循能力并未擴展到工具使用場景。這凸顯了當前主要側重于提高語言技能的指令調優方法的不足。

總體而言,ToolLLaMA 在所有場景中都表現出了競爭力,其通過率略低于 ChatGPT+DFSDT。在獲勝率方面,ToolLLaMA 與 ChatGPT+DFSDT 的能力基本相當,在 I2-Cat 設置中甚至超過了后者。

總之,這些結果表明,ToolBench 可以充分激發 LLM 的工具使用能力,使他們能夠熟練掌握各種指令的未知 API。

在實驗研究團隊對 LLaMA 的所有參數進行了微調,得到了 ToolLLaMA。為了提高參數效率,他們進一步應用了具有代表性的參數效率調整方法 LoRA,并研究了其對性能的影響。下表 5 中的結果表明,參數效率的提高是在性能權衡的基礎上實現的。他們期待未來的嘗試能設計出不犧牲性能的前提下實現參數效率的方法。

圖片

更多詳細內容,請參閱原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-08 14:36:11

模型AI

2024-11-04 12:48:12

2023-06-06 07:03:02

2023-06-20 13:44:49

清華推理

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2023-04-12 16:04:14

模型AI

2023-06-05 12:32:48

模型論文

2025-05-08 09:10:30

2023-08-10 08:46:52

2022-12-29 16:58:31

ChatGPT模型

2025-02-26 14:22:18

2025-04-02 01:25:00

2023-03-29 09:11:55

2023-12-23 23:14:27

模型開源

2025-01-27 12:41:00

2025-02-17 13:00:00

ChatGPT大模型AI

2025-02-17 10:09:54

2023-05-08 12:12:56

2024-01-03 17:40:49

模型AI

2024-05-29 09:34:02

GPTs原生API
點贊
收藏

51CTO技術棧公眾號

大陆av在线播放| 国产精品老女人精品视频| 欧美xxxxx精品| 欧美性xxx| 专区另类欧美日韩| 狠狠色噜噜狠狠色综合久| 在线免费观看av网址| 仙踪林久久久久久久999| 亚洲经典中文字幕| 性生生活大片免费看视频| 丁香影院在线| 国产一区二区三区国产| 91国产精品电影| 亚洲激情图片网| 麻豆视频一区| 欧美日韩国产在线看| 亚洲a∨一区二区三区| 亚洲精品国产一区二| 欧美另类专区| 中文字幕亚洲色图| 亚洲一级片av| 综合久久2019| 国产日产欧美一区| 国产精品久久久久7777婷婷| 久草视频中文在线| 菁菁伊人国产精品| 色综合久久综合网| 水蜜桃亚洲一二三四在线| 丁香六月天婷婷| 精品无人区卡一卡二卡三乱码免费卡 | 日本精品久久久久影院| 亚洲第一成人网站| www.豆豆成人网.com| 午夜精品aaa| 欧美日韩一区二区三区在线观看免| 亚洲 欧美 成人| 亚洲欧洲一区二区天堂久久| 亚洲精品一区二区久| 日本成人xxx| 国产乱码午夜在线视频| 伊人一区二区三区| 日本特级黄色大片| 天堂中文а√在线| 国产成人午夜电影网| 欧美自拍视频在线观看| 亚洲av毛片基地| 免费视频一区三区| 亚洲欧美色婷婷| 国产亚洲色婷婷久久| a在线视频v视频| 国产女人aaa级久久久级| 亚洲va码欧洲m码| 曰批又黄又爽免费视频| 日本视频一区二区三区| 欧美精品videossex性护士| 免费看污片网站| 国产精品自拍区| 欧美成人vr18sexvr| 日韩视频第二页| 成人美女视频| 色综合久久88色综合天天| 成人免费看片视频在线观看| www红色一片_亚洲成a人片在线观看_| 97精品久久久午夜一区二区三区 | 一区二区三区在线高清| 青娱乐国产91| 成人午夜免费福利| 激情五月激情综合网| 成人美女av在线直播| 一级成人黄色片| 日韩高清不卡一区二区三区| 国产精品久久久久久久久免费看| 中文有码在线播放| 亚洲精品社区| 不卡伊人av在线播放| 国产一级久久久久毛片精品| 欧美日韩中字| 萌白酱国产一区二区| 中文在线观看免费网站| 欧美专区18| 国产欧美最新羞羞视频在线观看| 精品人妻一区二区三区免费看| 日本欧美一区二区| 91久久久亚洲精品| 亚洲视频一区在线播放| 免费永久网站黄欧美| 国色天香2019中文字幕在线观看| 性生交大片免费全黄| 国产成人精品三级高清久久91| 丝袜一区二区三区| 久久艹精品视频| 欧美日韩视频| 欧美大片在线看| 中文字幕精品视频在线观看| 性欧美暴力猛交另类hd| 97人人做人人爱| 中文字幕久久熟女蜜桃| 成人视屏免费看| 色之综合天天综合色天天棕色| 你懂的在线看| 亚洲精品美国一| 国产精品亚洲二区在线观看| 国产在线一区不卡| 亚洲天天在线日亚洲洲精| 欧美熟妇一区二区| 欧美91福利在线观看| 日韩av不卡在线| 亚洲男人天堂网址| 国产成都精品91一区二区三| 日韩免费av一区二区三区| 男人天堂亚洲二区| 国产日韩欧美一区二区三区综合| 日日噜噜夜夜狠狠久久丁香五月| 国产在线观看a视频| 亚洲美女在线国产| www.国产亚洲| jizz一区二区三区| 欧美日韩国产欧美日美国产精品| 成人性生活免费看| 亚洲精品一区二区在线看| 美女福利精品视频| 国产第100页| 国产一区在线观看视频| 色婷婷精品国产一区二区三区| free性护士videos欧美| 7777精品伊人久久久大香线蕉超级流畅 | 欧美熟妇交换久久久久久分类| 国产精品主播直播| 亚洲一区二区三区四区中文| 中日韩脚交footjobhd| 91福利在线播放| 亚洲色图偷拍视频| 成人高清电影网站| 国产ts人妖一区二区三区| 动漫av一区二区三区| 久久综合久久99| 国产中文字幕免费观看| 激情亚洲小说| 永久免费看mv网站入口亚洲| 国产精品777777| 精品在线播放免费| 国产一区二区在线网站| 岛国最新视频免费在线观看| 欧美丝袜一区二区| 日本xxx在线播放| 国产乱码精品| 91夜夜未满十八勿入爽爽影院| 在线看av的网址| 欧美日韩视频在线一区二区| 中文字幕精品亚洲| 亚洲第一网站| 国产日韩av在线播放| 成人影院免费观看| 欧美色图在线观看| 欧美爱爱免费视频| 国产不卡视频在线播放| 免费特级黄色片| 欧美黄色录像| 国产成人精品一区二区| yw193.com尤物在线| 欧美情侣在线播放| 一级黄色录像视频| 国产一区二区三区观看| 国产成人永久免费视频| 玖玖精品在线| 欧美日本高清一区| 午夜影院在线视频| 色www精品视频在线观看| 国产7777777| 国产高清不卡二三区| 亚洲成人第一| 欧美经典一区| 国内精久久久久久久久久人| 国产乱码久久久| 亚洲尤物视频在线| 在线视频观看一区二区| av中字幕久久| 亚洲va久久久噜噜噜| 鲁鲁在线中文| 中文在线不卡视频| 性生交生活影碟片| 一区二区三区国产豹纹内裤在线| 88av在线播放| 美女mm1313爽爽久久久蜜臀| 日本老太婆做爰视频| 国产三级精品三级在线观看国产| 日韩免费观看高清| 97超碰资源站在线观看| 欧美一级欧美一级在线播放| 日本 欧美 国产| k8久久久一区二区三区 | 国产一区二区福利视频| 99热亚洲精品| 久久久影院免费| 国产成+人+综合+亚洲欧美丁香花| 五月婷婷丁香网| 欧美日韩免费在线观看| 在线观看免费黄色网址| 老汉av免费一区二区三区 | 亚洲欧美bt| 艳母动漫在线观看| 九九久久电影| 国产精品三级网站| 性开放的欧美大片| 亚洲精品久久在线| av中文在线播放| 26uuu精品一区二区在线观看| 黄色一级片免费的| 久久av在线| 亚洲午夜精品久久| 精品国产亚洲日本| 欧美激情在线狂野欧美精品| yw视频在线观看| 日韩不卡中文字幕| 国产精品午夜一区二区| 香蕉成人伊视频在线观看| 手机av免费看| 美洲天堂一区二卡三卡四卡视频| 一级二级三级欧美| 国产精品中文字幕亚洲欧美| 国产精品亚洲片夜色在线| 日韩激情电影| 中文字幕在线亚洲| 国产高清精品软件丝瓜软件| 夜夜爽夜夜爽精品视频| 性爱在线免费视频| 国产欧美日韩卡一| 亚洲综合色一区| 狠狠色丁香久久婷婷综合_中 | 日韩福利一区| 91国内精品久久| 福利在线播放| 精品视频偷偷看在线观看| 性生活视频软件| 欧美成人一级视频| 亚洲国产综合网| 精品噜噜噜噜久久久久久久久试看 | av电影在线不卡| 久久在线观看免费| 国产色视频一区二区三区qq号| av毛片久久久久**hd| 欧美日韩人妻精品一区在线| 国产jizzjizz一区二区| 国产伦精品一区二区三区妓女下载| 精一区二区三区| 亚洲第一色av| 日韩 欧美一区二区三区| 国产精品第12页| 日韩精品乱码免费| a在线观看免费视频| 毛片av一区二区| av噜噜在线观看| 午夜亚洲影视| 久久久久久久免费视频| 亚洲欧美一区在线| 亚洲精品在线视频观看| 久久精品凹凸全集| 成人在线播放av| 国产一区一区| 国产一区二区三区四区五区在线| 日韩成人精品一区二区三区| 91精品国产综合久久香蕉922| 国产精品日本一区二区不卡视频| 91精品国产91久久久久青草| 精品视频一区二区三区| 国产一级二级三级精品| 中文字幕一区日韩精品| 国产精品综合久久久久久| 日韩精品一页| 高清日韩一区| 啄木系列成人av电影| 国产一区二区三区高清视频| 一区二区美女| 特级毛片在线免费观看| 日韩欧美精品综合| 午夜久久久久久久久久久| 伊人成人在线视频| 日本天堂免费a| 久久精品久久久| 亚洲免费视频一区| 欧美色女视频| 第九区2中文字幕| 91精品秘密在线观看| 久操网在线观看| 美女视频网站久久| 在线观看免费的av| 福利电影一区二区| 手机看片福利视频| 亚洲午夜精品在线| 国产真实夫妇交换视频| 一区二区三区波多野结衣在线观看| 日韩久久久久久久久| 欧美日韩精品综合在线| 日本免费不卡视频| 日韩成人在线播放| 久久久久久国产精品免费无遮挡 | 91免费小视频| 欧美爱爱免费视频| 亚洲另类春色国产| 91久久国产综合久久91| 色哦色哦哦色天天综合| 波多野结衣电车| 欧美三日本三级三级在线播放| 国产成人麻豆免费观看| 精品国内二区三区| 在线国产情侣| 国产精品 欧美在线| 凹凸成人在线| 蜜桃免费一区二区三区| 欧美成人69| 亚洲欧洲日本精品| 国产一区二区视频在线| 国产三级av在线播放| 国产精品第一页第二页第三页| 午夜剧场免费在线观看| 一区二区三区欧美| 日韩免费观看一区二区| 福利视频导航一区| 蜜臀99久久精品久久久久小说| 亚洲第一区中文字幕| 麻豆传媒在线完整视频| 久久久天堂国产精品女人| 性感女国产在线| 国产98在线|日韩| 亚洲精品一区二区在线看| 日韩av高清在线看片| 国产精品1024| 国产女人18水真多毛片18精品| 欧美性xxxxxxxx| 国产午夜视频在线观看| 欧美在线视频免费观看| 欧美高清视频看片在线观看| 国产欧美日韩网站| 成人黄色综合网站| 欧洲性xxxx| 欧美性色综合网| 国产一级免费在线观看| 日本三级久久久| 久久99高清| 欧美在线观看黄| 老**午夜毛片一区二区三区 | 亚洲va久久| 性欧美18一19内谢| 精品一区二区影视| 小向美奈子av| 日韩欧美123| yw视频在线观看| 国产精品自产拍在线观看中文| 国产精品17p| 欧美爱爱视频网站| 国产麻豆视频精品| 国产一级片视频| 日韩成人av在线| 欧美free嫩15| 在线视频精品一区| 丝袜亚洲另类欧美| 免费黄色片网站| 欧美性高跟鞋xxxxhd| 国产高清在线观看| 欧美在线观看日本一区| 亚洲国产中文在线二区三区免| 久久久99精品视频| www.成人网.com| 在线观看你懂的网站| www日韩欧美| 97久久超碰| 无码人妻丰满熟妇区毛片| 国产欧美一区视频| 国产绿帽一区二区三区| 一本一本久久a久久精品牛牛影视| 欧美黄色成人| 日日夜夜精品网站| 久久久久久夜| 综合五月激情网| 日韩精品高清在线| 先锋影音网一区二区| 97干在线视频| 欧美精彩视频一区二区三区| 夜夜嗨aⅴ一区二区三区| 欧美福利视频在线| 国内精品久久久久久99蜜桃| www.cao超碰| 欧美日韩国产激情| 在线观看免费黄视频| 国产精品污www一区二区三区| 午夜精品婷婷| 成人免费看aa片| 日韩欧美国产精品一区| 波多野结衣亚洲| 日本xxxxx18| 国产超碰在线一区| 中文av免费观看| 992tv成人免费视频| 五月天久久久| 天天躁日日躁aaaxxⅹ| 色www精品视频在线观看| 在线三级电影| 亚洲区一区二区三区| 精品一区二区在线视频| 亚洲伦理一区二区三区|