登頂開源SOTA！上交大&小紅書LoopTool實現工具調用任務的「數據進化」

2025-11-20 08:35:59

上海交通大學與小紅書團隊提出了 LoopTool：一個自動的（autonomous）、模型感知（model-aware）、迭代式（iterative）的數據進化框架，首次實現了工具調用任務的數據–模型閉環優化。

在過去兩年，大語言模型 (LLM) + 外部工具的能力，已成為推動 AI 從 “會說” 走向 “會做” 的關鍵機制 —— 尤其在 API 調用、多輪任務規劃、知識檢索、代碼執行等場景中，大模型要想精準調用工具，不僅要求模型本身具備推理能力，還需要借助海量高質量、針對性強的函數調用訓練數據。

然而，現有數據生成與訓練流程多數是 “靜態” 的 —— 數據在訓練前一次性生成，無法感知到模型能力的改變。模型在微調或強化學習過程中也無法為數據生成提供正向反饋。這不僅可能導致模型對已掌握的簡單任務重復學習、浪費算力，同時留下一些難點樣本長期缺乏優化；此外，很多現有流程依賴昂貴的閉源 API 生成與評估數據，開源替代往往帶入大量噪聲標簽，降低訓練效果。

為解決這一系列問題，上海交通大學與小紅書團隊提出了 LoopTool：一個自動的（autonomous）、模型感知（model-aware）、迭代式（iterative）的數據進化框架，首次實現了工具調用任務的數據–模型閉環優化。團隊僅依靠開源模型 Qwen3-32B 作為數據生成器與判別器，在無閉源 API 依賴的情況下，讓一個 8B 規模的 LoopTool 模型在工具調用表現上顯著超越其 32B 數據生成器，并在 BFCL-v3 與 ACEBench 公開榜單上取得同規模模型的最佳成績。與此同時，訓練后的 LoopTool-32B 模型也在這兩個榜單上登頂，達到了目前開源模型的最佳成績，進一步驗證了閉環迭代優化在不同模型規模上的通用性與有效性。

論文地址：https://arxiv.org/pdf/2511.09148
代碼地址：https://github.com/Rednote-DeepExperience/LoopTool

背景：工具調用的瓶頸

論文指出，工具增強型 LLM 已經在多領域證明了其巨大價值，例如：API 調用，知識庫查詢、搜索引擎交互，面向代碼和多模態的任務執行，復雜知識問答與數學問題。但要讓模型穩健地使用工具則應持續提供與其當前水平匹配，高質量且多樣化的訓練數據。目前主流方法（如 ToolLLM、APIGen 系列）采用 “先生成全量數據，再訓練模型” 的靜態流程，缺乏對模型學習狀態與短板的實時反饋，且現階段對模型工具調用能力的學習也多采用監督式微調的方法，使模型難以泛化到更多的工具類別上。

進一步地如果使用閉源生成 / 評估模型（如 GPT 系列），API 成本高且難以大規模迭代；改用開源模型則往往引入標簽錯誤（參數不全、函數調用不符合任務要求等），會造成訓練信號噪聲累積甚至誤導。

方法：LoopTool 的閉環數據進化

LoopTool 的核心思想是：讓數據生成、標簽修正與模型訓練形成一個自動化的閉環，并由模型性能反饋驅動下一輪數據優化。它包括種子數據構建與迭代優化閉環兩大階段，后者又細分為四個核心模塊。

自動化工具增強數據構建（Seed Generation）

在迭代開始前，需要構建一個高質量、多樣化的種子數據集。研究團隊同時收集開源的各領域的 API 文獻，同時也設計了兩個分層樹結構來輔助合成部分 API。合成過程基于語義樹 (Context Tree) 和約束樹 (Constraint Tree)，語義樹描述領域主題與細化功能層級；約束樹給出 API 結構限制，如命名規則、參數類型數量、返回格式等，通過在每棵樹中獨立抽取路徑并合并，生成符合功能意圖和結構規范的 API 定義，輔以規則驗證確保生成 API 的一致性與語義完整性。

隨后，這些 API 被置入多智能體工具調用對話生成 (Multi-Agent Tool-Use Dialogue Simulation) 流程線中。Planner Agent 基于抽樣的工具子集規劃整體任務流程與對話輪次；User Agent 根據規劃在每一輪中發起請求、澄清條件、補充參數；Assistant Agent 結合當前上下文選擇合適的工具，準備并執行具體的工具調用；Tool Agent 依據 API 規范模擬執行結果或者通過真實工具后端返回有效響應。所有生成的對話經規則驗證（API 語法、參數類型、schema 匹配）以及 LLM 驗證（Qwen3-32B 判斷邏輯一致性與語境相關性）兩階段篩選，確保了首輪訓練的種子集數據的質量和多樣性。

基于閉環迭代的模型訓練與數據演化

1. GRPO 強化學習訓練 (GRPO Training for Tool Calling)

樣本構造：對于每一個多輪對話樣本，可以切分出多個工具調用的監督樣本 , 其中為工具集，為上下文，為目標調用。模型輸出包含推理軌跡 <think>...</think> 與工具調用的 JSON 結構 <tool_call>...</tool_call>。
獎勵函數：二值獎勵，指的是模型輸出的工具名和參數與真實的數據標簽完全匹配。
優化目標。在訓練過程中，為了鼓勵模型的探索，這里設置 β 為 0。

2. 貪婪能力探測 (Greedy Capability Probing, GCP)

GRPO 在極易或極難樣本上的更新幅度有限。為識別真正有學習價值的樣本，GCP 直接用當前策略貪婪解碼全數據集，判定出哪些樣本：（1）已掌握（預測與標簽匹配）；（2）失敗（預測不匹配）；（3）邊界（高困惑度 PPL，模型信心低），高 PPL 樣本被保留到下輪訓練中，這些樣本盡管預測正確，但接近決策邊界，具有高學習價值。

3. 判別引導標簽校驗 (Judgement-Guided Label Verification, JGLV)

對于預測和標簽不匹配的樣本，使用開源模型 Qwen3-32B 作為評判者，比較模型預測與原標簽孰優孰劣，分類為：（1）PRED_WRONG：模型預測錯；（2）LABEL_WRONG：標簽錯，用模型預測替換標簽；（3）BOTH_CORRECT：標簽與預測均對，擇高 PPL 保留；（4）BOTH_WRONG：全部丟棄。

不同于直接讓 LLM 生成新標簽，JGLV 以比較判別模式運行，減少生成噪聲的風險，并隨著模型水平的迭代提升，逐漸用更優預測反向優化訓練集。

4. 錯誤驅動數據擴展 (Error-Driven Data Expansion, EDDE)

針對通過 JGLV 驗證的錯誤種子樣本，EDDE 模塊進行結構保持與情境多樣化生成，具體而言分析原始錯誤案例的結構模式與潛在誤區，構造出保持任務難度但在情境和參數上經過多樣化改造的新樣本，這些合成數據經過與種子階段相同的雙重驗證后，被并入下一輪訓練集。

閉環迭代更新

新一輪訓練的數據集因此由四部分組成：高困惑度樣本、經過判別修正的錯誤種子樣本、錯誤驅動生成的新數據以及原始種子集中未使用的子樣本。這樣的設計保證每一輪訓練都在最新的模型能力診斷結果與高價值樣本的驅動下進行，形成訓練–測評–修正–擴展的完整閉環，不斷推動模型將 “薄弱環節” 轉化為新能力點。

實驗結果

實驗設置

研究團隊選用了開源的 Qwen3-8B 模型以及 Qwen3-32B 模型作為迭代訓練的基礎模型，對于 8B 模型進行了 4 次迭代訓練，對于 32B 模型進行了單次的迭代訓練。為了系統性評測模型在工具調用方面的能力，選用了 BFCL-v3 和 ACEBench 作為主要的評測框架，同時也測試了訓練后模型在編程，數學等問題上的通用能力以及在下游應用任務下的能力。

總體性能對比

BFCL-v3 涵蓋了單輪、多輪調用場景，對模型的工具調用能力進行多維評估。在該榜單上，LoopTool-8B 總體準確率達到 74.93%，在所有 8B 規模開源模型中排名第一，較原始 Qwen3-8B 提升了 +8.59 個百分點，單輪調用準確率和 Live 執行準確率均為最高。更具代表性的是，該模型在總體性能上超越了用作數據生成與評判的 Qwen3-32B。LoopTool-32B 則在榜單上以 79.32% 的總體準確率位列第一，在單輪調用上達到最優成績，且多輪場景表現也優異。

ACEBench 細分為 Normal, Sepcial, Agent 三類場景。評測結果顯示，LoopTool-8B 以 73.4% 總體分數奪得同規模第一，比原始 Qwen3-8B 高出 6.3 分，在多類評測中均保持相對均衡優勢。LoopTool-32B 達到了開源模型榜單中的第一，僅次于 GPT-4o 模型的表現。

迭代訓練對比分析：持續挖掘弱點，避免停滯

為了進一步對比 LoopTool 迭代優化和靜態訓練的差別，研究團隊設置了對照實驗，對比 LoopTool-8B 與靜態數據訓練的結果。結果顯示，在 BFCL-v3 中，LoopTool 的性能隨迭代逐步提升，從初始模型到第 4 輪迭代持續增長，而靜態訓練在第二輪后即出現平穩，甚至因數據分布與模型能力越來越不匹配而下滑。

消融實驗解析

為了評估 LoopTool 每個核心模塊的貢獻，論文在 BFCL-v3 基準上進行了多組消融對比，分別針對高困惑度樣本篩選 (High-PPL)、判決引導標簽校正 (JGLV)、以及錯誤驅動數據擴展 (EDDE) 模塊。

高困惑度樣本的重要性：移除高 PPL 樣本 (w/o High-PPL) 會導致整體精度顯著下降，尤其是多輪任務 (Multi-Turn)。即使用高 PPL 樣本替代 EDDE 樣本 (HighPPL-Replace) 也能維持接近完整配置的效果，驗證了高 PPL 案例 —— 即模型低置信度、接近決策邊界的樣本 —— 在推動能力提升方面的重要作用。
標簽校正的必要性：跳過 JGLV 校正 (w/o JGLV) 會顯著降低精度，噪聲或錯誤標簽不僅無法被糾正，還會在被 EDDE 擴展成新樣本后進一步污染訓練數據，造成性能劣化。
錯誤驅動擴展的有效性：移除 EDDE (Remove EDDE) 同樣導致準確率下滑。進一步測試發現，僅重復原始錯誤種子無法讓模型有效掌握這類難點，而 EDDE 生成的結構相似但具備情境多樣性的挑戰樣本，則能顯著提升模型在這些 “困難樣本” 上的表現。

模型規模擴展研究

作者還測試了 LoopTool 在不同規模模型上的表現，范圍涵蓋 0.6B 到 8B 參數量，并在 BFCL-v3 上進行兩輪迭代訓練。

結果清晰顯示：模型規模越大，初始迭代 (Iteration 1) 和優化迭代 (Iteration 2) 階段的準確率都更高。大模型在迭代中獲得的絕對性能提升也更明顯 —— 0.6B 模型僅提升 +0.70 個百分點，而 8B 模型則提升了 +1.80 個百分點。這種趨勢源于 GRPO 強化學習依賴模型在探索中識別正確工具調用軌跡的能力。更大規模的模型往往能更早發現有效解法，從而更大化迭代式數據精煉的優勢。

通用能力和下游任務：不僅是工具調用的高手

為了確保閉環優化不會讓模型在非工具領域上的性能退化，作者在六個不同通用任務上測試并比較了 LoopTool 模型與原始模型：包括 MMLU-redux（綜合常識）、IFEval（指令跟隨）、LiveCodeBench（代碼生成）、Math-500、AIME24、AIME25（數學競賽題）。結果表明，LoopTool-8B 在全部任務上匹配或超越原模型，尤其在指令跟隨 (+1.40) 與代碼生成 (+3.84) 上提升顯著，說明閉環數據演化不僅增強了工具調用，還提升了泛化推理與復雜任務處理能力。LoopTool-32B 則在數學任務上超越原始模型，在其他任務上與原始模型持平。

進一步地，團隊借助了 DeepAgent 框架來評測模型在下游工具使用場景下解決現實問題的能力，包括以下評測基準:

API-Bank: 評估 LLM 在規劃、檢索和調用 API 方面的能力。涉及 73 個 API 工具，領域涉及賬號管理、健康管理、智能家居、日程管理、金融管理等。
Spotify: RestBench 的一個子場景模擬了 Spotify 音樂播放器，包含 57 個問題和 40 個本地工具，平均需要 2.6 次連續 API 調用才能完成任務。
GAIA: 針對通用人工智能助手的復雜基準測試。要求 LLM 靈活運用廣泛的通用工具集，包括網頁瀏覽、代碼執行、多模態處理和文件處理。

評測結果表明，LoopTool 工具使用能力的提升，有效地增強了對實際問題的解決能力。

結語

LoopTool 呈現了一個完全自動化、模型感知的閉環管道，將數據合成、標簽校正以及基于 GRPO 的模型訓練緊密結合，形成迭代優化循環，用于增強大型語言模型的工具使用能力。整個過程完全依賴開源模型完成數據生成與評估，不僅降低了成本，還確保了數據的高質量與多樣性。在多輪迭代中，LoopTool 不斷針對模型的薄弱點合成更具挑戰性的樣本，同時校正噪聲標簽，讓訓練數據隨著模型能力的提升而動態進化。經過 LoopTool 迭代訓練的 8B 與 32B 模型在公開的測評榜單中達到了新的 SOTA 成績。LoopTool 不僅證明了模型閉環進化的有效性，也驗證了開源框架在無依賴閉源 API 的條件下仍能達到乃至超越更大規模模型的表現。

責任編輯：張燕妮來源：機器之心

AI 語言模型數據