大模型不會用工具?人大Tool-Light:不存在的!
大語言模型(LLM)通過借助外部工具推理(TIR),能夠完成許多超越自身固有知識和能力的任務。然而,未經專門訓練的 LLM 在調用外部工具時,往往會出現許多次優行為。如何讓 LLM 高效準確地完成 TIR 任務仍是一個開放性的挑戰。為了解決這一問題,人大提出了Tool-Light,這是一個旨在鼓勵 LLMs 高效準確地執行 TIR 任務的框架。在十個具有挑戰性的數據集上的測試結果充分說明了 Tool-Light 的有效性,它能夠顯著提高模型執行 TIR 任務的效率。

論文標題:Towards Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
論文鏈接:https://arxiv.org/pdf/2509.23285v2
代碼倉庫:https://github.com/asilverlight/Tool-Light
開源模型:https://huggingface.co/zhangboguodong/Tool-Light-Qwen2.5-7B-it前置實驗:揭示工具調用和信息熵的關系
受到一些已有工作的啟發,我們首先從信息熵的角度,對 TIR 這一任務進行了初步分析。我們發現:

Tool-Light前置實驗
- 當模型接收到工具調用結果時,其輸出信息熵會先上升,然后波動,并在下一次工具調用到來之前急劇下降。
- 對于同一樣本,低熵鏈的工具調用次數往往更少,并且隨著推理的進行,這種特性變得越來越明顯。
基于這一特性,我們特別設計了數據采樣方法以及篩選方法,致力于獲得高質量的訓練數據。
Tool-Light:借助自進化的偏好學習引導模型高效完成 TIR 任務
我們提出了 Tool-Light 框架。這是一個面向檢索和代碼執行工具,從數據端和算法端兩個方面,充分優化模型執行 TIR 任務行為的框架。具體來說,我們的貢獻如下:
- 我們首次從信息熵的角度分析了 TIR 這一范式,并基于信息熵提出了一種高效的數據采樣方法。該方法僅在推理鏈路的高熵位置進行采樣,能夠在降低推理成本的同時獲得高質量的訓練數據。
- 我們提出了一種兩階段的 TIR 訓練流程,包括SFT和自進化的 DPO 訓練。其中我們將第二階段分為了預對齊的 DPO 訓練和自進化的 DPO 對齊兩個部分。該方法將數據采樣和訓練過程交替進行,逐步有針對性地提升模型的能力。
- 我們在十個具有挑戰性的數據集(包括數學推理任務和實體檢索任務)上測試了訓練后模型的性能,結果顯示在 Tool-Light 框架下訓練的模型能夠更加高效準確地完成 TIR 任務。
熵引導的采樣策略

熵采樣
我們設計了兩種采樣策略,一種是直接采樣,即針對某個問題從頭采樣出多條推理鏈路。另一種是熵引導的采樣策略。這種方法的流程如下:
- 針對每個問題,執行一次 TIR 過程獲得一條推理鏈路。
- 計算該鏈路中,每次獲取完工具執行結果后,推理部分的前10、20、30、40、50個 token 的熵值。
- 取整條鏈路中熵值最大的k個位置,然后在這些位置上接續進行重復采樣,獲得多條推理鏈路。
這種方法能夠保證采樣的多樣性,同時能夠降低推理成本,將原來的線性級別推理成本降低為對數級別推理成本。
兩階段的 TIR 訓練流程
我們的訓練流程一共有兩個階段,包括一個 SFT 階段以及一個自進化的 DPO 訓練階段。其中自進化的 DPO 訓練階段又分為一次預對齊的 DPO 訓練以及若干輪自進化的 DPO 對齊。

兩階段訓練流程
首先,我們精心構造出數據源 ,并在此基礎上執行 SFT 訓練,得到訓練好的模型 。隨后進行預對齊的 DPO 訓練,我們使用 ,基于前述兩種采樣策略對 重新進行采樣,并設計了如下的準則1來篩選出 DPO 訓練數據:
- 區分難易樣本:
困難樣本:正確軌跡數量小于等于50%的樣本
簡單樣本:正確軌跡數量大于50%的樣本
- 區分正負樣本:
正樣本:具有最少工具調用次數和最低熵的正確軌跡
負樣本:工具調用次數多于正樣本的錯誤軌跡
使用采好的 DPO 數據再次訓練 ,得到 。隨后進行多輪自進化的 DPO 對齊。我們使用 再次采樣,并設計了如下的準則2來篩選出 DPO 對齊數據:
- 困難樣本:
正樣本:推理鏈路最長的正確軌跡
負樣本:推理鏈路最短的錯誤軌跡
- 簡單樣本:
負樣本:工具調用次數最多的錯誤軌跡
正樣本:工具調用次數少于負樣本且熵最低的正確軌跡
我們交替進行數據采樣和自進化 DPO 對齊,直到模型收斂,得到最終訓練好的模型 。
在困難推理任務上的實驗結果

實驗結果
為了充分評估 Tool-Light 框架的有效性,我們選取了十個具有挑戰性的困難推理任務,包括數學推理任務(AIME24、AIME25、AMC23、MATH、MATH500、GSM8K)和實體檢索任務(HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle)。
從實驗結果可以發現:
- 外部工具帶來的幫助:相較于直接推理的方法,引入外部工具整體上看會給模型性能帶來較大提升,但未經訓練的模型無法很好地利用外部工具。
- 訓練對 TIR 任務至關重要:訓練后的模型在專業領域任務上的能力得到了很大提升,但僅針對專一任務進行訓練可能會降低模型在其他任務上的泛化性。
- 高效準確使用工具的重要性:Tool-Light 框架在提升模型的 TIR 能力之外,還教會了模型高效合理地使用工具進行推理。相較于已有 Baseline 方法,在Tool-Light 框架下訓練的模型性能又有了一個提升。

實驗結果
我們還測評了 Tool-Light 方法調用工具的高效性、必要性,以及推理鏈長度分布情況:
- 高效性:衡量模型調用工具的效率,值越高代表工具調用的效率越高
- 必要性:衡量模型避免工具使用不足的情況,值越高代表模型越能在需要時果斷調用工具
- 長度分布:衡量模型是否有冗余思考的現象
整體上看,Tool-Light 方法在高效性和必要性指標上都達到了最優,這表明我們設計的訓練框架相較于已有方法,很大程度上規避了 TIR 過程中的次優行為,成功讓模型學會了正確合理的工具使用以及思維方式。

消融實驗
Tool-Light 框架在不同進化輪數和采樣策略下的消融實驗結果。“1/1 data ratio”代表使用兩種采樣策略得到的數據量比例為1:1,“p-r”“n-r”分別代表隨機篩選正例和隨機篩選負例
本文轉載自??PaperAgent??

















