大模型不會用工具？人大Tool-Light：不存在的！

發布于 2025-10-9 07:57

瀏覽

0收藏

大語言模型（LLM）通過借助外部工具推理（TIR），能夠完成許多超越自身固有知識和能力的任務。然而，未經專門訓練的 LLM 在調用外部工具時，往往會出現許多次優行為。如何讓 LLM 高效準確地完成 TIR 任務仍是一個開放性的挑戰。為了解決這一問題，人大提出了Tool-Light，這是一個旨在鼓勵 LLMs 高效準確地執行 TIR 任務的框架。在十個具有挑戰性的數據集上的測試結果充分說明了 Tool-Light 的有效性，它能夠顯著提高模型執行 TIR 任務的效率。

大模型不會用工具？人大Tool-Light：不存在的！-AI.x社區

論文標題：Towards Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
論文鏈接：https://arxiv.org/pdf/2509.23285v2
代碼倉庫：https://github.com/asilverlight/Tool-Light
開源模型：https://huggingface.co/zhangboguodong/Tool-Light-Qwen2.5-7B-it

前置實驗：揭示工具調用和信息熵的關系

受到一些已有工作的啟發，我們首先從信息熵的角度，對 TIR 這一任務進行了初步分析。我們發現：

大模型不會用工具？人大Tool-Light：不存在的！-AI.x社區

Tool-Light前置實驗

當模型接收到工具調用結果時，其輸出信息熵會先上升，然后波動，并在下一次工具調用到來之前急劇下降。
對于同一樣本，低熵鏈的工具調用次數往往更少，并且隨著推理的進行，這種特性變得越來越明顯。

基于這一特性，我們特別設計了數據采樣方法以及篩選方法，致力于獲得高質量的訓練數據。

Tool-Light：借助自進化的偏好學習引導模型高效完成 TIR 任務

我們提出了 Tool-Light 框架。這是一個面向檢索和代碼執行工具，從數據端和算法端兩個方面，充分優化模型執行 TIR 任務行為的框架。具體來說，我們的貢獻如下：

我們首次從信息熵的角度分析了 TIR 這一范式，并基于信息熵提出了一種高效的數據采樣方法。該方法僅在推理鏈路的高熵位置進行采樣，能夠在降低推理成本的同時獲得高質量的訓練數據。
我們提出了一種兩階段的 TIR 訓練流程，包括SFT和自進化的 DPO 訓練。其中我們將第二階段分為了預對齊的 DPO 訓練和自進化的 DPO 對齊兩個部分。該方法將數據采樣和訓練過程交替進行，逐步有針對性地提升模型的能力。
我們在十個具有挑戰性的數據集（包括數學推理任務和實體檢索任務）上測試了訓練后模型的性能，結果顯示在 Tool-Light 框架下訓練的模型能夠更加高效準確地完成 TIR 任務。

熵引導的采樣策略

大模型不會用工具？人大Tool-Light：不存在的！-AI.x社區

熵采樣

我們設計了兩種采樣策略，一種是直接采樣，即針對某個問題從頭采樣出多條推理鏈路。另一種是熵引導的采樣策略。這種方法的流程如下：

針對每個問題，執行一次 TIR 過程獲得一條推理鏈路。
計算該鏈路中，每次獲取完工具執行結果后，推理部分的前10、20、30、40、50個 token 的熵值。
取整條鏈路中熵值最大的k個位置，然后在這些位置上接續進行重復采樣，獲得多條推理鏈路。

這種方法能夠保證采樣的多樣性，同時能夠降低推理成本，將原來的線性級別推理成本降低為對數級別推理成本。

兩階段的 TIR 訓練流程

我們的訓練流程一共有兩個階段，包括一個 SFT 階段以及一個自進化的 DPO 訓練階段。其中自進化的 DPO 訓練階段又分為一次預對齊的 DPO 訓練以及若干輪自進化的 DPO 對齊。

大模型不會用工具？人大Tool-Light：不存在的！-AI.x社區

兩階段訓練流程

首先，我們精心構造出數據源，并在此基礎上執行 SFT 訓練，得到訓練好的模型。隨后進行預對齊的 DPO 訓練，我們使用，基于前述兩種采樣策略對重新進行采樣，并設計了如下的準則1來篩選出 DPO 訓練數據：

區分難易樣本：

困難樣本：正確軌跡數量小于等于50%的樣本

簡單樣本：正確軌跡數量大于50%的樣本

區分正負樣本：

正樣本：具有最少工具調用次數和最低熵的正確軌跡

負樣本：工具調用次數多于正樣本的錯誤軌跡

使用采好的 DPO 數據再次訓練，得到。隨后進行多輪自進化的 DPO 對齊。我們使用再次采樣，并設計了如下的準則2來篩選出 DPO 對齊數據：

困難樣本：

正樣本：推理鏈路最長的正確軌跡

負樣本：推理鏈路最短的錯誤軌跡

簡單樣本：

負樣本：工具調用次數最多的錯誤軌跡

正樣本：工具調用次數少于負樣本且熵最低的正確軌跡

我們交替進行數據采樣和自進化 DPO 對齊，直到模型收斂，得到最終訓練好的模型。

在困難推理任務上的實驗結果

大模型不會用工具？人大Tool-Light：不存在的！-AI.x社區

實驗結果

為了充分評估 Tool-Light 框架的有效性，我們選取了十個具有挑戰性的困難推理任務，包括數學推理任務（AIME24、AIME25、AMC23、MATH、MATH500、GSM8K）和實體檢索任務（HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle）。

從實驗結果可以發現：

外部工具帶來的幫助：相較于直接推理的方法，引入外部工具整體上看會給模型性能帶來較大提升，但未經訓練的模型無法很好地利用外部工具。
訓練對 TIR 任務至關重要：訓練后的模型在專業領域任務上的能力得到了很大提升，但僅針對專一任務進行訓練可能會降低模型在其他任務上的泛化性。
高效準確使用工具的重要性：Tool-Light 框架在提升模型的 TIR 能力之外，還教會了模型高效合理地使用工具進行推理。相較于已有 Baseline 方法，在Tool-Light 框架下訓練的模型性能又有了一個提升。

大模型不會用工具？人大Tool-Light：不存在的！-AI.x社區