精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多Agent思想顯著提升小模型工具調用能力

發布于 2025-1-13 11:02
瀏覽
0收藏

今天分享一篇阿里的利用Agent思想做工具調用的文章,標題為《Small LLMs Are Weak Tool Learners: A Multi-LLM Agent》。其提出的多LLM代理微調框架,將工具調用拆解為三個agent(Planner、Caller、Summarizer),并結合一個二階段的微調策略。對比單個LLM表現更為出色,性能也更為穩定,并且能夠超過像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調用上的有效性。

除了工具調用,或許本文的方法也可以拓展到問答的其他場景,大家可以參考。

Title: Small LLMs Are Weak Tool Learners: A Multi-LLM Agent URL:?? https://arxiv.org/abs/2401.07324??

Code:?? https://github.com/X-PLUG/Multi-LLM-Agent??

Authors: Weizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, Fei Huang

1.Motivation

多Agent思想顯著提升小模型工具調用能力-AI.x社區


? 外部工具(例如APIs, 函數)的使用要求LLM不僅要了解用戶查詢并準確生成答案,而且要擅長任務計劃、工具調用和結果總結。

? 單個LLM特別是Small LLMs調用外部工具(例如APIs, 函數)的能力以及自主完成各種任務時表現不太好。

? 之前的研究方法主要探索如何訓練并提高單個LLMs的能力,利用多LLM來提高上述能力的工作并不多。

2.Methods

論文通過提出一個新穎的多LLM框架來解決問題,該框架將任務規劃、工具調用和結果總結的能力分解為計劃者、調用者和總結者三個組件。每個組件由專注于特定能力的單個LLM實現,并與其他LLM合作完成任務。此外,論文引入了一個兩階段訓練范式,首先在整個數據集上對背景LLM進行微調,其次使用微調過的LLM對上述三個組件進行初始化,然后再在相應的子任務上進行持續的微調。

2.1 詳細方法和步驟:

? 首先,對整個數據集進行微調,為主干LLM提供對任務的全面理解,而不區分子任務。

? 然后,使用微調過的LLM實例化規劃者、調用者和總結者,分別對應子任務繼續微調。

? 這種模塊化框架促進了單個組件的更新,并且有可能使用更小型的LLMs來構建每個能力。

? 在各種工具使用基準測試中,該多LLM框架超越了傳統的單LLM方法,突出了其在工具學習上的高效性和優勢。

多Agent思想顯著提升小模型工具調用能力-AI.x社區

Figure 2: An illustration of how α-UMi works to complete a task.

規劃器(Planner):α-UMi 框架中的規劃器組件負責生成任務執行的邏輯和計劃。它根據當前系統狀態和用戶指令來決定下一步的操作。規劃器的輸出包括一個理由(Rationale)和一個決策,決策可能是:

? “Next: Caller”:指示調用者(Caller)組件進行下一步操作。

? “Next: Summarizer”:如果已經收集到足夠的信息,指示總結器(Summarizer)組件生成最終答案。

? “Next: Give up”:如果認為任務無法解決,決定放棄執行。

調用者(Caller):根據規劃器的指示和理由,調用者組件負責調用具體的工具或 API。它根據規劃器提供的邏輯生成合法且有用的請求,并從工具中獲取觀察結果(Observation)。

總結器(Summarizer):一旦規劃器決定已經有足夠的信息來解決用戶指令,它會指示總結器生成最終的答案。總結器根據執行軌跡和用戶指令來構建最終的回復,提供給用戶。

2.2 訓練方法

多Agent思想顯著提升小模型工具調用能力-AI.x社區


α-UMi 采用了全局到局部漸進式微調(Global-to-Local Progressive Fine-Tuning,簡稱 GLPFT)策略,用于有效訓練多 LLM 系統,它分為兩個主要階段:

1)全局微調(Global Fine-tuning)

? 在這個階段,首先對一個基礎的大型語言模型(LLM backbone)進行微調,使用的是整個訓練數據集,而不區分子任務,微調的目標是讓模型獲得對整個工具學習任務的綜合理解。

? 經過全局微調后,基礎 LLM 被訓練成能夠依次輸出理由(rationale)、動作(action)和答案(answer)。

2)局部微調(Local Fine-tuning)

? 原始的訓練數據集被重新組織,形成針對每個 LLM 角色(規劃器、調用者和總結器)的特定數據集。

? 接著,分別對規劃器、調用者和總結器進行進一步的微調,以增強它們在各自子任務中的具體能力。

? 在局部微調階段,基礎 LLM 被復制成三個獨立的模型,每個模型專注于一個特定的子任務,每個子任務的專家模型(規劃器、調用者和總結器)能夠在其專門的任務上進行優化,從而提高整體框架的性能。

總結:GLPFT 策略通過分階段的微調方法,使得每個組件模型能夠在其專門的任務上達到更高的性能,同時保持了整個系統的協同工作能力。這種策略有效地提高了模型在工具學習任務中的表現,并充分利用了每個小型 LLM 的潛力。

3.Conclusion

? 在工具使用的任務中,本文提出的多LLM代理微調框架表現出色,能夠超過像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調用上的有效性。

二、詳細內容

1.實驗表現

多Agent思想顯著提升小模型工具調用能力-AI.x社區

實驗設置

?Model Size = 7B / 13B:指的是模型的參數數量,7B 表示 70 億參數,13B 表示 130 億參數。

?Multi-LLM one-stage:在單一階段直接對規劃器、調用者和總結器進行微調的多 LLM 模型。

?α-UMi w/o reuse / w/ reuse:α-UMi 框架的不同版本,其中一個版本在微調過程中重用了用戶指令集(w/ reuse),另一個版本沒有(w/o reuse)。

實驗結論

1)利用α-UMi框架對7B/13B左右的模型微調,效果能超過GPT-4:α-UMi 框架在多個評估指標上超越了傳統的單一大型語言模型(如 ChatGPT 和 GPT-4),特別是在規劃器準確率(Plan ACC)和 Rouge-L 分數(R-L)方面,α-UMi 有了顯著的改進。

2)模型越大,效果越好:使用 13B 參數模型的 α-UMi 版本在大多數指標上表現優于 7B 參數版本,這表明更大的模型容量可以帶來更好的性能。然而,值得注意的是,即使是 7B 參數的 α-UMi 也能在某些情況下超越 13B 參數的單一大型語言模型,這強調了 α-UMi 框架設計的有效性。

3)多階段微調比單階段微調效果更好:與單階段微調的多 LLM(Multi-LLM one-stage)多任務微調的單一大型語言模型(Single-LLM multi-task)相比,α-UMi 展現了更好的性能,說明 GLPFT 策略在提升模型性能方面的有效性。

4)添加用戶指令數據效果更佳:α-UMi w/ reuse(重用用戶指令的版本)在大多數指標上優于 α-UMi w/o reuse(不重用用戶指令的版本),這表明在微調過程中重用用戶指令可以幫助模型更好地學習和適應任務需求。

綜上所述,α-UMi 框架通過其模塊化設計和漸進式微調策略,在工具學習任務上展現了顯著的性能提升,特別是在任務規劃和結果總結方面。此外,該框架的有效性不受模型大小的限制,即使是小型模型也能通過合作達到高性能。

2.ToolBench上的詳細表現

多Agent思想顯著提升小模型工具調用能力-AI.x社區

Table 2: Results of real-time evaluation on ToolBench

主要結論:

1)α-UMi 框架效果非常不錯

? α-UMi(使用 7B 模型)在多數測試組中的通過率(Pass)和勝利率(Win)都超過了 ChatGPT 和 ToolLLaMA,這表明 α-UMi 框架在實時 API 調用任務中表現出色,能夠有效地解決實際問題。

? 在某些測試組中,α-UMi 的通過率與 GPT-4 相當,甚至在 I1-Inst. 和 I2-Inst. 組別中超過了 GPT-4。

2)DFSDT vs ReACT:使用 ReACT 和 DFSDT 策略的模型在不同的測試組中表現出不同的性能。這表明不同的推理策略對于模型解決任務的能力有顯著影響,選擇合適的策略對于提升模型性能至關重要。

3)小模型的工具調用能力也可以做得很不錯:盡管 GPT-4 擁有更大的模型容量,但在某些情況下,α-UMi(7B)的性能與 GPT-4 相當,這表明通過有效的框架設計和微調策略,較小的模型也能實現與大模型相媲美的性能。

總結:α-UMi 框架在實時工具調用任務中的有效性和競爭力,也表明通過選擇合適的推理策略和優化的微調方法,可以顯著提升模型(特別是小模型)在實際應用中的性能。

3.訓練數據量對不同框架工具調用能力的影響

多Agent思想顯著提升小模型工具調用能力-AI.x社區

Figure 4: Results of data scaling law study on ToolBench with different evaluation metrics

評估指標

?Plan ACC(規劃器準確率):衡量規劃器在決策下一步行動時的準確性。

?Act. EM(動作實體匹配):衡量調用者在調用 API 時參數匹配的準確性。

?Hallu.(幻覺率):衡量模型在生成 API 名稱時是否產生了不存在的實體。

?Arg. F1(參數 F1 分數):衡量 API 調用中參數準確性的指標。

結論α-UMi 框架性能不錯,效果較為穩定,性能隨數據量的增加穩步提升。隨著訓練數據的增加,α-UMi 框架在多個評估指標上的性能得到了顯著提升,尤其是在任務規劃和 API 調用方面。

三、總結

結論1: 多LLM代理框架(例如本文的Planner、Caller、Summarizer)能夠克服傳統單個LLM在工具學習方面的性能限制,通過模塊化的方法分解任務,可以利用小型LLMs構建特定能力,并且更容易更新和維護。

結論2: 多階段微調比單階段微調效果更好。單階段微調的多 LLM(Multi-LLM one-stage)多任務微調的單一大型語言模型(Single-LLM multi-task)相比,α-UMi 展現了更好的性能,說明 GLPFT 策略在提升模型性能方面的有效性。

結論3: 添加用戶指令數據微調效果更佳:α-UMi w/ reuse(重用用戶指令的版本)在大多數指標上優于 α-UMi w/o reuse(不重用用戶指令的版本),這表明在微調過程中重用用戶指令可以幫助模型更好地學習和適應任務需求。

本文轉載自??NLP PaperWeekly??,作者: NLP PaperWeekly ????

收藏
回復
舉報
回復
相關推薦
国产人妻互换一区二区| 国产精品一区二区久久国产| 变态另类丨国产精品| 日韩欧美看国产| 自拍av一区二区三区| 狠狠色综合欧美激情| 中文字幕欧美色图| 一区二区毛片| 欧美另类高清videos| 三级男人添奶爽爽爽视频| 国产成人免费| 亚洲va欧美va国产va天堂影院| 视频一区二区在线| 五月天福利视频| 国产又黄又大久久| 国产精品成人v| 精品亚洲永久免费| 久久人人99| 精品国产乱码久久久久久牛牛| 亚洲少妇第一页| 都市激情国产精品| 亚洲日本在线视频观看| 日本一区二区在线| 四虎精品成人影院观看地址| 国产乱码字幕精品高清av| 国产成人精品视频| 日韩精品在线不卡| 欧美日韩国产在线一区| 精品国产一区久久久| 免费一级做a爰片久久毛片潮| av成人app永久免费| 欧美美女网站色| 欧美在线观看视频网站| 亚洲电影观看| 午夜在线电影亚洲一区| 人人妻人人澡人人爽欧美一区| 成人h小游戏| 久久综合九色综合久久久精品综合| 91国产丝袜在线放| 一级特黄aaa大片| 日本vs亚洲vs韩国一区三区 | 日韩精品一区二区三区四区视频 | 本网站久久精品| 精品国产91久久久久久| 亚洲美免无码中文字幕在线| 青青青草视频在线| 一区二区在线免费观看| 干日本少妇视频| 午夜av在线播放| 一区二区三区欧美激情| 国产资源第一页| 91极品在线| 一区二区三区精品| 免费特级黄色片| 手机av在线播放| 亚洲一区在线观看网站| 亚洲人成无码网站久久99热国产| 国产羞羞视频在线播放| 亚洲福利视频一区二区| 成年人午夜视频在线观看| 51漫画成人app入口| 五月开心婷婷久久| 逼特逼视频在线| 99久久精品一区二区成人| 在线区一区二视频| 精品综合久久久久| 视频在线观看免费影院欧美meiju| 日韩一区和二区| 熟妇高潮一区二区| 猛男gaygay欧美视频| 亚洲人成77777在线观看网| 手机看片福利视频| 亚洲精品国产成人影院| 国内精品久久影院| 超碰在线观看91| 另类专区欧美蜜桃臀第一页| 91亚色免费| 香蕉视频黄在线观看| 中文一区在线播放| 成人精品视频在线播放| 樱花草涩涩www在线播放| 欧美视频中文字幕| 免费看的av网站| 网曝91综合精品门事件在线| 一区二区中文字幕| 青青操视频在线播放| 亚洲免费网站| 91老司机精品视频| 亚洲欧美日本在线观看| 亚洲欧洲三级电影| 国产极品在线视频| 国产日本亚洲| 日韩精品有码在线观看| 激情无码人妻又粗又大| 最新亚洲视频| 91在线无精精品一区二区| 亚洲成人黄色片| 亚洲国产高清不卡| 欧美成人高潮一二区在线看| 免费一级欧美在线观看视频| 亚洲成人精品在线| 国产又粗又硬又长又爽| 麻豆9191精品国产| 成人三级视频在线观看一区二区| 搞黄视频免费在线观看| 亚洲午夜电影在线观看| 一级黄色在线播放| 国产精品最新| 538国产精品一区二区免费视频| 国产精品国产三级国产普通话对白| av在线一区二区三区| 一区二区不卡在线观看| 欧美日韩国产观看视频| 欧美变态口味重另类| 日本女人性生活视频| 久久午夜精品| 精品国产一区二区三区麻豆小说 | 手机精品视频在线| 国产伦精品一区二区三区视频 | 亚洲天堂网在线观看| 日韩高清精品免费观看| 国产伦精品一区二区三区免费| 日日夜夜精品网站| 成人免费网站视频| 亚洲国产精品电影| 国产大片中文字幕| 国产成人av自拍| 亚洲第一综合网站| 日韩一区二区三区四区五区 | 国产农村妇女精品一区二区| 91视频网页| 91网址在线观看| 91精品国产入口| 久久久久久久久久97| 免费看欧美女人艹b| 日韩av不卡在线播放| 性欧美videohd高精| 亚洲片在线观看| 在线观看日本视频| 久久网这里都是精品| 亚洲色欲综合一区二区三区| 日韩av网站在线免费观看| 97在线视频一区| 天天影院图片亚洲| 色婷婷综合久久久中文一区二区| 疯狂揉花蒂控制高潮h| 亚洲综合另类| 日韩免费一区二区三区| 99欧美精品| 久久精品99国产精品酒店日本 | 日韩国产中文字幕| 日本中文字幕在线| 欧美国产激情二区三区| 欧美男女交配视频| 五月天综合网站| 7777奇米亚洲综合久久| 19禁羞羞电影院在线观看| 精品亚洲aⅴ在线观看| 亚洲国产无线乱码在线观看| 国产精品美女久久福利网站| 图片区乱熟图片区亚洲| 亚洲东热激情| 欧美高清性xxxxhdvideosex| 天堂久久午夜av| 色天天综合狠狠色| 精品人妻一区二区三区换脸明星| 夜夜爽夜夜爽精品视频| 久久偷拍免费视频| 日韩成人精品在线观看| 天天综合五月天| 国产精品高潮呻吟久久久久| 欧美在线激情视频| 日本在线人成| 欧美精品一区二区三区久久久| 视频一区二区三区四区五区| 日本一区二区三区四区在线视频| 奇米777在线| 亚洲中字黄色| 亚洲一区二区三区免费观看| 99香蕉久久| 国产精品黄视频| 天堂va在线| 亚洲一二在线观看| 丰满少妇一级片| 在线影院国内精品| 欧美国产日韩综合| 日本一二三四高清不卡| www.17c.com喷水少妇| 免费日本视频一区| aa在线观看视频| 在线观看免费一区二区| 久久亚洲一区二区| 日韩激情精品| 国产精欧美一区二区三区| 牛牛电影国产一区二区| 一区二区三区国产视频| 亚洲精品一区二区三区新线路| 色久综合一二码| 久久人人爽人人爽人人| 日本一区二区三级电影在线观看| 激情av中文字幕| 麻豆一区二区99久久久久| 麻豆tv在线播放| 亚洲欧美偷拍自拍| 亚洲精品影院| 丝袜连裤袜欧美激情日韩| 亚洲影影院av| 国产精品久久久久久吹潮| 26uuu另类亚洲欧美日本老年| 激情成人四房播| 最新日韩中文字幕| 蜜桃视频在线观看网站| 亚洲国产成人一区| 亚洲欧美激情另类| 欧美一区二区三区小说| 日本三级一区二区三区| 日韩欧美有码在线| 日韩免费av片| 亚洲最新视频在线播放| 欧美人禽zoz0强交| 日韩一区在线免费观看| 妖精视频在线观看免费| 日本一区二区三区国色天香| 欧美图片第一页| 91色综合久久久久婷婷| 91黄色免费视频| 成人一区二区三区视频| 91精品人妻一区二区三区四区| 国产最新精品免费| 黄色一级片免费的| 久久99国产精品久久| 国产成人黄色网址| 美日韩一区二区三区| 免费看黄色一级大片| 日本成人在线不卡视频| 九色91popny| 麻豆成人av在线| 久久久精品三级| 蜜桃视频第一区免费观看| av网站在线不卡| 六月丁香综合在线视频| 国产精品久久久久久9999| 狠狠久久亚洲欧美| 波多野结衣在线免费观看| 国产麻豆精品在线| 亚洲综合中文网| 成人激情黄色小说| 国产精品边吃奶边做爽| 国产日韩欧美亚洲| 91在线无精精品白丝| 国产精品久久久久久久久免费丝袜| 肉色超薄丝袜脚交69xx图片| 综合久久久久久久| 天天干中文字幕| 亚洲成人av资源| 人人爽人人爽人人片av| 欧美亚洲图片小说| 国产剧情久久久| 日韩精品一区二区三区视频 | 久久视频这里只有精品| 污污的网站在线免费观看| 欧美激情性做爰免费视频| 国产高清中文字幕在线| 国产成人91久久精品| 国产成人午夜性a一级毛片| 亚洲伊人一本大道中文字幕| 老司机在线精品视频| 日韩精品一区二区三区四区五区| 日韩啪啪电影网| 欧美久久在线观看| 石原莉奈在线亚洲三区| 中文字幕日韩综合| 成人av在线资源网| 欧美一区二区三区粗大| 一区二区日韩av| 探花视频在线观看| 91精品国产综合久久精品性色| 黄色小视频免费在线观看| 亚洲欧美另类在线观看| 精品视频在线一区二区| 51午夜精品视频| 国产一区二区三区免费观看在线| 国产伦精品一区二区三区免费视频| 国产欧美一区二区三区精品观看| 中文视频一区视频二区视频三区 | 欧美亚洲日本在线观看| 国产精品123区| 在线观看国产精品一区| 一区二区三区不卡在线观看| 波多野结衣大片| 精品国产一区二区三区久久久蜜月| 黄色在线观看网| 欧美精品一区二区免费| av在线不卡精品| 国产一区自拍视频| 91精品国产自产拍在线观看蜜| 浮妇高潮喷白浆视频| 国产精品正在播放| 人与嘼交av免费| 亚洲大片在线观看| 国产日韩欧美视频在线观看| 亚洲一区999| 超碰在线99| 999精品在线观看| 91欧美在线| 国产无套粉嫩白浆内谢的出处| 福利视频网站一区二区三区| а天堂中文在线资源| 色综合久久中文字幕| 亚洲免费成人在线| 日韩中文字幕视频在线| 日韩影片中文字幕| 精品日韩美女| 今天的高清视频免费播放成人| 日韩va在线观看| 欧美国产日产图区| 亚洲黄网在线观看| 亚洲精品视频在线播放| 超黄网站在线观看| 99高清视频有精品视频| 国产精品二区不卡| 浓精h攵女乱爱av| 欧美激情综合在线| 丁香社区五月天| 日韩av最新在线观看| 激情影院在线| 成人在线观看av| 午夜日韩电影| 18深夜在线观看免费视频| 亚洲视频免费观看| 国产精品探花视频| 日韩中文字幕亚洲| 亚洲男女网站| 黄色www在线观看| 国产综合成人久久大片91| 国产精品精品软件男同| 欧美美女黄视频| 免费av毛片在线看| 91久久久久久久一区二区| 91久久高清国语自产拍| 亚洲色图偷拍视频| 亚洲色图在线视频| va婷婷在线免费观看| 欧美日韩国产91| 99re热精品视频| 日韩av在线第一页| 91麻豆成人久久精品二区三区| 波多野结衣视频网站| 精品一区二区电影| 精品欧美日韩精品| 午夜视频久久久| 老色鬼精品视频在线观看播放| 成人欧美一区二区三区黑人一| 欧美精品v国产精品v日韩精品| h网站久久久| 黑人另类av| 日本美女一区二区| 天海翼在线视频| 日韩精品一区二区三区视频 | 91牛牛免费视频| 国产精品mv在线观看| 久久久久久久无码| 在线日韩av片| 在线欧美三级| 欧美成人免费在线| 久久精品av麻豆的观看方式| 久久久久久福利| 日韩精品中文字幕有码专区| 国产国产一区| 真实国产乱子伦对白视频| 91丨porny丨首页| 中文字幕人妻色偷偷久久| 伦理中文字幕亚洲| 日韩欧美国产大片| 一区二区三区 欧美| 亚洲一区在线观看视频| 国产高清视频在线观看| 91影院在线免费观看视频| 亚洲精品一二| 日本少妇aaa| 亚洲福利视频在线| av久久网站| 97超碰在线人人| 国产精品你懂的在线| 亚洲精品久久久久久久久久久久久久 | 91猫先生在线| 最近中文字幕一区二区三区| 日韩一级免费视频| 成人黄色免费片| 国产日韩一区二区三区在线播放 | 午夜精品123| 美女黄视频在线观看| 久久99精品久久久久久水蜜桃| 麻豆精品一区二区三区| a v视频在线观看| 久久综合国产精品台湾中文娱乐网| 亚洲成在人线免费观看| 中文字幕99页| 欧美精品一二三四| 欧美色网一区|