精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型不會用工具?人大Tool-Light:不存在的!

發布于 2025-10-9 07:57
瀏覽
0收藏

大語言模型(LLM)通過借助外部工具推理(TIR),能夠完成許多超越自身固有知識和能力的任務。然而,未經專門訓練的 LLM 在調用外部工具時,往往會出現許多次優行為。如何讓 LLM 高效準確地完成 TIR 任務仍是一個開放性的挑戰。為了解決這一問題,人大提出了Tool-Light,這是一個旨在鼓勵 LLMs 高效準確地執行 TIR 任務的框架。在十個具有挑戰性的數據集上的測試結果充分說明了 Tool-Light 的有效性,它能夠顯著提高模型執行 TIR 任務的效率。

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

論文標題:Towards Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
論文鏈接:https://arxiv.org/pdf/2509.23285v2
代碼倉庫:https://github.com/asilverlight/Tool-Light
開源模型:https://huggingface.co/zhangboguodong/Tool-Light-Qwen2.5-7B-it

前置實驗:揭示工具調用和信息熵的關系

受到一些已有工作的啟發,我們首先從信息熵的角度,對 TIR 這一任務進行了初步分析。我們發現:

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

Tool-Light前置實驗

  • 當模型接收到工具調用結果時,其輸出信息熵會先上升,然后波動,并在下一次工具調用到來之前急劇下降。
  • 對于同一樣本,低熵鏈的工具調用次數往往更少,并且隨著推理的進行,這種特性變得越來越明顯。

基于這一特性,我們特別設計了數據采樣方法以及篩選方法,致力于獲得高質量的訓練數據。

Tool-Light:借助自進化的偏好學習引導模型高效完成 TIR 任務

我們提出了 Tool-Light 框架。這是一個面向檢索和代碼執行工具,從數據端和算法端兩個方面,充分優化模型執行 TIR 任務行為的框架。具體來說,我們的貢獻如下:

  • 我們首次從信息熵的角度分析了 TIR 這一范式,并基于信息熵提出了一種高效的數據采樣方法。該方法僅在推理鏈路的高熵位置進行采樣,能夠在降低推理成本的同時獲得高質量的訓練數據
  • 我們提出了一種兩階段的 TIR 訓練流程,包括SFT自進化的 DPO 訓練。其中我們將第二階段分為了預對齊的 DPO 訓練自進化的 DPO 對齊兩個部分。該方法將數據采樣和訓練過程交替進行,逐步有針對性地提升模型的能力。
  • 我們在十個具有挑戰性的數據集(包括數學推理任務和實體檢索任務)上測試了訓練后模型的性能,結果顯示在 Tool-Light 框架下訓練的模型能夠更加高效準確地完成 TIR 任務。

熵引導的采樣策略

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

熵采樣

我們設計了兩種采樣策略,一種是直接采樣,即針對某個問題從頭采樣出多條推理鏈路。另一種是熵引導的采樣策略。這種方法的流程如下:

  • 針對每個問題,執行一次 TIR 過程獲得一條推理鏈路。
  • 計算該鏈路中,每次獲取完工具執行結果后,推理部分的前10、20、30、40、50個 token 的熵值。
  • 取整條鏈路中熵值最大的k個位置,然后在這些位置上接續進行重復采樣,獲得多條推理鏈路。

這種方法能夠保證采樣的多樣性,同時能夠降低推理成本,將原來的線性級別推理成本降低為對數級別推理成本。

兩階段的 TIR 訓練流程

我們的訓練流程一共有兩個階段,包括一個 SFT 階段以及一個自進化的 DPO 訓練階段。其中自進化的 DPO 訓練階段又分為一次預對齊的 DPO 訓練以及若干輪自進化的 DPO 對齊。

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

兩階段訓練流程

首先,我們精心構造出數據源 ,并在此基礎上執行 SFT 訓練,得到訓練好的模型 。隨后進行預對齊的 DPO 訓練,我們使用 ,基于前述兩種采樣策略對  重新進行采樣,并設計了如下的準則1來篩選出 DPO 訓練數據:

  • 區分難易樣本:

困難樣本:正確軌跡數量小于等于50%的樣本

簡單樣本:正確軌跡數量大于50%的樣本

  • 區分正負樣本:

正樣本:具有最少工具調用次數和最低熵的正確軌跡

負樣本:工具調用次數多于正樣本的錯誤軌跡

使用采好的 DPO 數據再次訓練 ,得到 。隨后進行多輪自進化的 DPO 對齊。我們使用  再次采樣,并設計了如下的準則2來篩選出 DPO 對齊數據:

  • 困難樣本:

正樣本:推理鏈路最長的正確軌跡

負樣本:推理鏈路最短的錯誤軌跡

  • 簡單樣本:

負樣本:工具調用次數最多的錯誤軌跡

正樣本:工具調用次數少于負樣本且熵最低的正確軌跡

我們交替進行數據采樣和自進化 DPO 對齊,直到模型收斂,得到最終訓練好的模型 。

在困難推理任務上的實驗結果

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

實驗結果

為了充分評估 Tool-Light 框架的有效性,我們選取了十個具有挑戰性的困難推理任務,包括數學推理任務(AIME24、AIME25、AMC23、MATH、MATH500、GSM8K)和實體檢索任務(HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle)。

從實驗結果可以發現:

  • 外部工具帶來的幫助:相較于直接推理的方法,引入外部工具整體上看會給模型性能帶來較大提升,但未經訓練的模型無法很好地利用外部工具。
  • 訓練對 TIR 任務至關重要:訓練后的模型在專業領域任務上的能力得到了很大提升,但僅針對專一任務進行訓練可能會降低模型在其他任務上的泛化性。
  • 高效準確使用工具的重要性:Tool-Light 框架在提升模型的 TIR 能力之外,還教會了模型高效合理地使用工具進行推理。相較于已有 Baseline 方法,在Tool-Light 框架下訓練的模型性能又有了一個提升。

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

實驗結果

我們還測評了 Tool-Light 方法調用工具的高效性、必要性,以及推理鏈長度分布情況:

  • 高效性:衡量模型調用工具的效率,值越高代表工具調用的效率越高
  • 必要性:衡量模型避免工具使用不足的情況,值越高代表模型越能在需要時果斷調用工具
  • 長度分布:衡量模型是否有冗余思考的現象

整體上看,Tool-Light 方法在高效性和必要性指標上都達到了最優,這表明我們設計的訓練框架相較于已有方法,很大程度上規避了 TIR 過程中的次優行為,成功讓模型學會了正確合理的工具使用以及思維方式。


大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

消融實驗

Tool-Light 框架在不同進化輪數和采樣策略下的消融實驗結果。“1/1 data ratio”代表使用兩種采樣策略得到的數據量比例為1:1,“p-r”“n-r”分別代表隨機篩選正例和隨機篩選負例

本文轉載自??PaperAgent??

已于2025-10-9 07:57:05修改
收藏
回復
舉報
回復
相關推薦
97久久超碰国产精品| 欧美成人一品| 欧美日韩精品一区二区三区四区| 亚洲国产欧美日韩| 91精品国产乱码久久久| 午夜日韩在线| 国产亚洲欧美视频| 亚洲一区二区三区四区精品| 极品视频在线| 国产精品久久久久久久久搜平片 | 一级片中文字幕| 97欧美在线视频| 日韩电影网在线| www.亚洲自拍| 欧美电影免费看| 亚洲精品成人悠悠色影视| 免费在线成人av电影| 99这里有精品视频| 欧美aⅴ一区二区三区视频| 久久99久国产精品黄毛片入口| 中国美女乱淫免费看视频| 国产精品亚洲四区在线观看| 色综合久久久久| 国产一线二线三线女| 求av网址在线观看| 久久精品免视看| 成人动漫在线观看视频| 中文在线观看av| 国产精品外国| 国模视频一区二区三区| 国产高潮流白浆| 日韩大片在线播放| 亚洲日韩中文字幕在线播放| 91视频在线免费| 精品视频一二| 欧美精品久久99久久在免费线| av片中文字幕| free性护士videos欧美| 一区二区三区蜜桃| 国产一区一区三区| 午夜精品一区| 国产农村妇女精品| 久久久水蜜桃| 外国精品视频在线观看 | 美女隐私在线观看| 亚洲国产精品高清| 亚洲精品欧美精品| av在线播放网| 国产精品日产欧美久久久久| 日韩黄色影视| 在线观看免费网站黄| 中文字幕av一区 二区| 日韩欧美亚洲v片| 岛国大片在线观看| 国产欧美精品国产国产专区| 日本在线观看一区| 成人av毛片| 国产精品久久久久久久久免费樱桃| 日韩免费电影一区二区三区| 成人在线免费公开观看视频| 亚洲国产精品传媒在线观看| 一本一生久久a久久精品综合蜜| h视频在线播放| 国产精品第五页| 日韩视频在线免费播放| 2024短剧网剧在线观看| 亚洲一区欧美一区| 日韩中文字幕三区| 激情亚洲影院在线观看| 欧美日韩国产综合一区二区| 天天久久综合网| 国产一区二区三区亚洲| 亚洲国产美女精品久久久久∴| 日本护士做爰视频| 欧美人与拘性视交免费看| 国产一区二区三区毛片| 国产又色又爽又高潮免费| 亚洲国产精品91| 午夜精品福利在线观看| 成人av网站在线播放| 久久国产成人午夜av影院| 91亚洲精品在线| 日本久久一级片| 国产无人区一区二区三区| 一区二区三区在线视频111| 精品国产99久久久久久| 午夜视频在线观看一区二区| 日韩 欧美 高清| 国产一精品一av一免费爽爽| 亚洲精品狠狠操| 东京热无码av男人的天堂| 欧美一区成人| 国产va免费精品高清在线观看 | 日韩一区二区三区视频在线| 精品人妻伦一二三区久| 日韩精品一卡| 97在线观看免费| 中文字幕黄色av| 成人网在线播放| 亚洲精品国产一区| 美女91在线看| 欧美一级一区二区| 免费看黄色av| 日韩视频精品在线观看| 成人日韩在线电影| 好男人免费精品视频| 亚洲精品ww久久久久久p站| 日批视频在线免费看| 久久av网站| 一区二区在线免费视频| 国产精品第九页| 久久国产三级精品| 麻豆传媒一区| 丁香花在线高清完整版视频| 欧美亚洲动漫另类| 中文字幕精品视频在线| 久久久久久久久久久妇女| 日本午夜人人精品| 日韩性xxxx| 一区二区三区不卡在线观看 | 日本成人在线不卡| 本网站久久精品| 亚洲欧美日韩精品| 日本少妇全体裸体洗澡| 国产一区二区三区观看| 婷婷久久青草热一区二区| 日本不卡网站| 亚洲成人中文字幕| 欧美日韩激情在线观看| 国产在线播精品第三| 先锋影音网一区| 成人日韩精品| 亚洲视频在线观看免费| 免费看日韩毛片| av一区二区三区黑人| www婷婷av久久久影片| 只有精品亚洲| www.欧美三级电影.com| 最近中文字幕av| 国产色爱av资源综合区| 日韩 欧美 高清| 国产精品手机在线播放| 情事1991在线| 嫩草在线播放| 欧美午夜精品久久久久久久| 亚洲欧美在线不卡| 亚洲视频大全| 免费在线观看91| 三上悠亚国产精品一区二区三区| 日韩精品一区二区三区第95| 91精品国产综合久久久蜜臀九色| 成人免费av资源| 日本男女交配视频| 哺乳一区二区三区中文视频| 国模精品一区二区三区色天香| 成人毛片在线免费观看| 亚洲国产视频直播| 超碰男人的天堂| 久久午夜av| 少妇精品久久久久久久久久| 欧美高清xxx| 中文字幕精品久久久久| 国产特级aaaaaa大片| 亚洲永久精品国产| 日本japanese极品少妇| 久久久久久久欧美精品| 亚洲一区二区三区乱码| 久久久91麻豆精品国产一区| 欧美国产日韩视频| 五月婷婷在线播放| 91激情在线视频| √天堂中文官网8在线| 国产传媒久久文化传媒| 日韩精品 欧美| 国内亚洲精品| 91在线|亚洲| 91吃瓜在线观看| 国产亚洲成av人片在线观看桃| 怡红院男人的天堂| 亚洲精品亚洲人成人网在线播放| 天堂www中文在线资源| 久久精品五月| 成人免费看片视频在线观看| 欧美国产不卡| 国产精品一区二区3区| 怡红院av在线| 亚洲视频精品在线| 精品黑人一区二区三区在线观看| 五月综合激情日本mⅴ| 成年人视频软件| 丁香网亚洲国际| 欧美午夜性生活| 欧美日韩视频一区二区三区| 农村寡妇一区二区三区| 国产精品亚洲欧美日韩一区在线| 97久久久久久| 黄色免费在线观看| 亚洲嫩模很污视频| 国产免费久久久| 在线免费观看日本一区| 久青草视频在线观看| 国产欧美综合色| 亚洲中文字幕无码av| 美女久久久精品| 自慰无码一区二区三区| 综合一区在线| 亚洲乱码一区二区三区| 激情小说亚洲色图| 亚洲曰本av电影| 亚洲成人av观看| 91av视频在线观看| 亚洲大胆人体大胆做受1| 亚洲色图偷窥自拍| 香蕉av在线播放| 日韩一区二区三区电影| 最近中文字幕av| 欧美日韩性视频在线| 69av视频在线| 亚洲欧洲成人av每日更新| free性中国hd国语露脸| 丁香天五香天堂综合| 亚洲va在线va天堂va偷拍| 日韩专区中文字幕一区二区| 春日野结衣av| 一区二区91| 久久国产精品网| 综合天堂av久久久久久久| 亚洲欧美久久234| 精品国产aⅴ| 欧美黑人3p| 欧美挤奶吃奶水xxxxx| 国产福利不卡| 91嫩草精品| 国产高清一区视频| 涩爱av色老久久精品偷偷鲁| 91精品视频一区| 成人免费91| 91在线视频免费| 激情综合婷婷| 91亚洲永久免费精品| 精品国产乱码久久久久久樱花| 国产一区二区在线免费| 欧美日韩国产网站| 国产精品视频精品| 亚洲精品三区| 91在线观看免费高清| 久久久久久爱| 国产福利一区二区三区在线观看| 成功精品影院| 精品视频第一区| 免费成人网www| 五码日韩精品一区二区三区视频| 欧洲激情视频| 亚洲一区综合| 亚洲天堂一区二区三区四区| 日本高清xxxx| 亚洲网站视频| 日日橹狠狠爱欧美超碰| 久久天堂精品| 久久久久久久久久久久久久久国产| 狠狠色丁香婷婷综合| 国产老头和老头xxxx×| 成人一区在线观看| 国产精品无码网站| 国产欧美1区2区3区| 激情五月激情综合| 一区二区三区日韩精品视频| 国产成人精品a视频一区| 欧美日韩国产综合新一区 | 99热播精品免费| 成人精品视频在线| 77成人影视| 免费毛片一区二区三区久久久| 欧美日韩一二三四| 国产女人18毛片| 中日韩视频在线观看| 亚洲高清在线免费观看| 狠狠色丁香婷综合久久| 欧美xxxxx少妇| 国产拍欧美日韩视频二区| 成人在线观看高清| 婷婷久久综合九色综合绿巨人 | 亚洲精品999| av在线中文| 欧美极品xxxx| 91tv亚洲精品香蕉国产一区| 亚洲一区二区三区毛片| 欧美尿孔扩张虐视频| 亚洲一区二区三区涩| 欧美午夜不卡影院在线观看完整版免费| 国产精品久久中文字幕| 另类调教123区| 99久久免费看精品国产一区| 日本一区二区三区四区 | 99亚洲视频| 日韩欧美国产片| 99re视频精品| 日韩一级片大全| 色哟哟日韩精品| 亚洲国产中文字幕在线| 在线观看日韩www视频免费| 超碰在线中文字幕| 成人h视频在线观看播放| 羞羞答答一区二区| 欧美a级免费视频| 欧美aaaaa成人免费观看视频| 麻豆精品国产传媒av| 中文字幕亚洲成人| 午夜精品久久久久久久蜜桃| 日韩欧美中文字幕公布| 成人h小游戏| 日产精品99久久久久久| 91精品久久久久久综合五月天| 亚洲精品二区| 欧美亚洲视频| 稀缺小u女呦精品呦| 亚洲欧美一区二区三区孕妇| 狠狠躁夜夜躁人人爽视频| 日韩电影中文字幕| 日本h片在线观看| 91色视频在线导航| 日韩在线观看一区| 欧美日韩亚洲一二三| 99riav久久精品riav| 亚洲精品午夜久久久久久久| 欧美一区二区视频在线观看2020| av成人手机在线| 国产成人aa精品一区在线播放| 国产精品美女在线观看直播| 法国空姐在线观看免费| 精品一区二区三区视频| 网爆门在线观看| 欧美视频日韩视频在线观看| 韩国三级在线观看久| 国产成人在线视频| 久久99国产成人小视频| 无码播放一区二区三区| 不卡av免费在线观看| 精品一区免费观看| 精品99一区二区三区| 国产盗摄精品一区二区酒店| 翡翠波斯猫1977年美国| 欧美视频四区| 李丽珍裸体午夜理伦片| 偷窥少妇高潮呻吟av久久免费| 丰满熟妇人妻中文字幕| 久久久久成人网| 免费萌白酱国产一区二区三区| 无码专区aaaaaa免费视频| 99精品视频在线观看免费| 91美女免费看| 一区二区欧美亚洲| 国产激情欧美| 欧美少妇一区二区三区| 国产成人av一区二区三区在线 | 清纯唯美一区二区三区| 日韩成人av影视| 国产wwwwxxxx| 日韩一级大片在线| 国产后进白嫩翘臀在线观看视频| 国产精品一区二| 久久久久久穴| 人人澡人人澡人人看| 欧美成人三级电影在线| 国产在线美女| 色就是色欧美| 国产乱人伦精品一区二区在线观看| 精品99在线观看| 日韩av一区在线| 欧美日韩国产网站| 欧美少妇在线观看| 91欧美一区二区| 亚洲最新av网站| 欧美激情一区二区三区久久久 | 尤物国产精品| 成人性生交大片免费| 亚洲天堂一区在线| 色视频www在线播放国产成人| 国产免费区一区二区三视频免费 | 国产一区 二区 三区一级| 国产在线视频第一页| 亚洲欧美日韩成人| 国内精品视频| 99热成人精品热久久66| 1024国产精品| 亚洲 美腿 欧美 偷拍| 国产精品自拍视频| 一区在线播放| 天堂av网手机版| 精品国产乱码久久久久久久| 成人午夜精品| 日韩 欧美 视频| 国产精品三级久久久久三级| 亚洲美女综合网| 国产精品免费一区豆花| 亚洲精华国产欧美| 久久久99999| 国产亚洲精品久久| 国产精品男女| 伊人五月天婷婷|