北航、北郵、北交大與百度聯合團隊推出基于規劃者的復雜工具增強型大語言模型推理框架,超越反應式ReAct
眾所周知,當前大語言模型(LLMs)在知識本質上是靜態的,缺乏與外部世界的直接交互能力。
這一局限性使得 LLM 在面對多步驟、跨工具的復雜任務時常常力不從心。為了解決這一問題,研究者們提出了“工具增強”范式,即讓 LLM 能夠調用外部API 或工具,從而從單純的文本生成器轉變為能夠執行復雜任務的智能代理。
在這一范式下,諸如ReAct 框架、HuggingGPT以及多智能體協作框架等方法相繼涌現。它們通過將推理與行動交織在一起,使模型能夠在任務執行過程中動態調用工具。
然而,這些方法在處理復雜任務時仍存在顯著不足。尤其是 ReAct 的逐步推理模式,容易陷入所謂的“局部最優陷阱”,模型在每一步的決策中只考慮局部最優,而缺乏全局規劃視角,導致整體執行效率和準確性下降。
針對這一問題,北航、北郵、北交大與百度聯合團隊提出了一個全新的Planner-Centric Plan-Execute 框架。該框架的核心在于引入一個專門的 Planner 模型,將復雜任務轉化為 有向無環圖(DAG)的全局計劃。

圖1:簡單任務與復雜任務的示例。一個簡單的查詢會產生一個基本的并行DAG,而一個涉及嵌套邏輯的復雜查詢會被轉換為一個更復雜的多級DAG。
通過這種方式,模型能夠在任務執行前明確工具選擇與依賴關系,從而突破 ReAct 的局部最優瓶頸,實現更高效、更魯棒的復雜任務推理。
研究團隊由產學研多方合作完成,學術成員來自北京航空航天大學、北京郵電大學、北京交通大學,而產業力量則由 百度公司的研究團隊主導。
團隊的核心研究人員包括Xiaolong Wei, Yuehu Dong, Xingliang Wang, Xingyu Zhang, Zhejun Zhao, Dongdong Shen, Long Xia, Dawei Yin,他們在大語言模型、工具增強推理、智能搜索與推薦系統等領域均有深厚積累。這種跨學術與產業的合作模式,為框架的提出與驗證提供了堅實的理論與應用基礎。
1.現有方法的局限性
在工具增強 LLM 的研究中,ReAct 框架是最具代表性的早期嘗試之一。它通過逐步推理與工具調用的交替,使模型能夠在執行過程中動態調整。
然而這種方式在簡單任務中尚能奏效,但在復雜任務中卻容易陷入局部最優。模型往往在局部決策中表現良好,卻無法保證整體任務的最優執行。
為改善這一問題,研究者們提出了樹搜索與規劃提示等方法。樹搜索通過探索多條推理路徑來避免單一線性推理的局限,而規劃提示則試圖在任務開始時引導模型進行更合理的推理。
這些方法仍未能從架構層面解決問題。它們依舊依賴于逐步擴展或啟發式探索,缺乏真正的全局規劃能力。
更為關鍵的是,這些方法在計算開銷上存在巨大挑戰。樹搜索需要生成并遍歷大量推理分支,導致 LLM 調用次數成倍增加,計算成本高昂。對于需要實時響應或大規模應用的場景,這種方法難以落地。
綜上所述,現有方法的主要局限在于:
- 缺乏全局規劃能力,無法在任務執行前形成整體視圖;
- 忽視復雜任務中的并行性與依賴關系;
- 計算開銷過高,難以在實際應用中保持效率。
正是在這一背景下,Planner-Centric Plan-Execute 框架的提出顯得尤為重要。它通過引入全局 DAG 規劃,從根本上解決了上述問題,為工具增強型 LLM 的復雜任務推理提供了新的解決路徑。
2.規劃者中心框架(Planner-Centric Framework)
在復雜任務推理中,傳統的 ReAct 框架依賴逐步推理與工具調用的交替,雖然在簡單任務中能夠奏效,但在復雜任務場景下容易陷入局部最優。
為突破這一瓶頸,研究團隊提出了規劃者中心框架(Planner-Centric Framework),其核心思想是將 規劃與執行解耦。

圖2:該圖說明了提出的框架。(a)訓練過程顯示了團隊創建訓練數據集的自動化管道,然后通過微調和強化學習(GRPO)訓練Planner模型。(b)執行過程演示了經過訓練的Planner如何接受用戶查詢,生成可并行執行的計劃作為有向無環圖(DAG),并編排工具以產生最終答案。
在這一框架中,專門的Planner 模型負責將自然語言查詢轉化為一個 有向無環圖(DAG)。在該圖中:
- 節點(Vertices)代表工具選擇,即模型需要調用的具體工具;
- 邊(Edges)代表工具之間的依賴關系,明確了執行順序與數據流轉。
這種結構化的規劃方式使得模型能夠在任務執行前形成全局視圖,避免了逐步推理中可能出現的局部最優陷阱。同時,DAG 的設計天然支持 并行化執行,能夠在多個工具之間同時展開計算,從而顯著提升效率。
更重要的是,Planner 模型通過優化節點選擇與邊依賴預測,提升了工具調用的準確性與魯棒性。
研究團隊將這一問題形式化為一個結構化預測任務:給定自然語言查詢 Q 和工具集 T,模型需要生成一個執行計劃 G=(V,E),其中 V?TV表示工具集合,E表示依賴關系。目標是找到最優策略 θ?,最大化計劃效用函數 U(G)。其數學公式如下:

其中,Me表示 Planner 模型,U(?)為獎勵函數,用于衡量生成計劃的質量。
通過這種形式化建模,Planner 模型不僅能夠生成結構正確的 DAG,還能在復雜任務中實現更高的全局規劃意識。相比傳統的逐步推理方法,這一框架的優勢在于:
- 避免局部最優陷阱:不再依賴單步決策,而是從全局視角生成完整計劃。
- 支持并行化執行:DAG 結構允許多個工具同時運行,提升效率。
- 提升工具選擇與依賴建模的準確性:通過節點與邊的優化預測,使得工具調用更符合任務邏輯。
這一框架的提出,標志著工具增強型 LLM 從“反應式推理”邁向“全局規劃式推理”,為復雜任務的自動化執行提供了新的范式。
3.ComplexTool-Plan 基準
在提出規劃者中心框架的同時,研究團隊也意識到一個關鍵問題:要訓練和評估能夠生成復雜全局計劃的模型,必須有一個高質量的數據集。
現有的工具調用基準大多偏向線性或簡單任務,缺乏對復雜非線性規劃的系統支持。為此,團隊構建了ComplexTool-Plan 基準,這一基準不僅是訓練的基礎,也是評估復雜任務規劃能力的重要標準。
數據集的構建過程分為三個階段。首先是Workflow Generation。研究者利用強大的LLM(如 DeepSeek-V3)生成結構復雜、邏輯一致的工作流,并以有向無環圖(DAG)的形式呈現。這一步確保了數據集中存在多樣化的任務結構,而不僅僅是單一的線性調用。
接下來是Query Reverse-Engineering。在這一階段,研究團隊讓教師模型根據生成的 DAG 工作流反向生成自然語言查詢。這樣,數據集中的每一個復雜計劃都對應一個真實的用戶查詢,使得訓練過程更貼近實際應用場景。
最后是Intent Analysis & Re-planning。由于反向生成的查詢可能存在模糊或不完整的情況,團隊再次利用教師模型進行意圖分析,并重新規劃,確保最終的 DAG 與查詢完全一致。這一過程相當于質量過濾,保證了數據集的高保真度。
在規模與特征方面,ComplexTool-Plan 基準涵蓋了 4,535 個工具 API,并根據任務復雜度劃分為 Easy、Medium、Hard三個等級。數據集不僅支持監督微調(SFT),還為 強化學習(RL)提供了專門的訓練樣本,能夠滿足不同階段的模型優化需求。
這一基準的意義在于,它填補了復雜非線性規劃評估的空白。過去的工具調用基準往往只考察模型在單工具或簡單多工具場景下的表現,而 ComplexTool-Plan 則系統化地引入了多層依賴、并行執行和復雜邏輯,使得模型的規劃能力能夠得到更全面的檢驗。它不僅是訓練數據集,更是推動工具增強型 LLM 向更高層次發展的關鍵基石。
4.兩階段訓練策略
在規劃者中心框架的設計中,如何讓模型真正具備復雜任務的全局規劃能力,是一個核心挑戰。研究團隊提出了兩階段訓練策略,通過監督微調與強化學習的結合,使 Planner 模型既能快速掌握基礎規劃技能,又能在復雜場景中不斷優化策略。
第一階段是Supervised Fine-Tuning (SFT)。研究者選擇了 Qwen3 系列模型(涵蓋 0.6B、1.7B、4B、8B 等不同規模)作為基礎模型,并在構建好的 ComplexTool-Plan 數據集上進行監督微調。
這個階段的目標是讓模型能夠在冷啟動時快速學習如何生成符合邏輯的 DAG 計劃,掌握工具選擇與依賴關系的基本模式。通過最小化負對數似然損失,模型逐步逼近訓練數據中的“標準答案”,為后續的優化打下堅實基礎。
第二階段是Group Relative Policy Optimization (GRPO),即強化學習優化。與傳統的策略梯度方法不同,GRPO 更適合處理復雜、多維度的獎勵信號。
在這一階段,研究團隊引入了分層獎勵函數,從結構正確性到規劃保真度,再到完美匹配獎勵,逐層引導模型改進。
獎勵函數的設計尤為關鍵。它采用了一個分層 fail-fast 策略:
- 如果生成的計劃存在嚴重結構錯誤(如語法錯誤或循環),立即給予大幅負獎勵(-10.0);
- 如果計劃存在語義缺陷(如節點不連通),則給予較輕的懲罰(-2.0);
- 如果計劃結構正確,則進入正向獎勵階段:根據邊級 F1 分數給予獎勵,并在計劃完全匹配時額外加分(+5.0)。
整個獎勵范圍設定在[-10, 10],提供了豐富而細膩的學習信號。這樣的設計不僅能讓模型明確區分錯誤的嚴重程度,還能在逐步逼近完美解的過程中獲得持續激勵。
這一分層獎勵機制的效果十分顯著。它有效避免了所謂的“獎勵黑客”現象,即模型通過投機取巧的方式規避懲罰而不真正解決問題。
相反,Planner 模型在這種訓練框架下能夠逐步提升復雜任務的規劃質量,尤其是在工具選擇和依賴建模方面表現出更高的準確性與魯棒性。

圖3:此圖表顯示了三個任務難點:簡單、中等和困難。較難的任務有更多可用的工具可供選擇(藍色),也需要使用更多的工具(橙色)。
通過兩階段訓練策略,研究團隊成功讓 Planner 模型從“模仿者”成長為“優化者”。它不僅能在監督數據上表現良好,還能在強化學習的驅動下不斷提升全局規劃能力。這一過程為復雜工具增強型 LLM 的落地應用提供了堅實的技術保障。
5.實驗與結果
為了驗證規劃者中心框架的有效性,研究團隊在ComplexTool-Plan和 StableToolBench兩個基準上進行了系統性實驗。這些實驗不僅考察了模型在規劃質量上的表現,也評估了其在端到端任務執行中的效率與準確性。
在ComplexTool-Plan的評估中,研究者從三個維度進行考察:
- 節點選擇:衡量模型在工具選擇上的準確性,即是否能夠正確識別任務所需的工具。
- 邊依賴:衡量模型在依賴關系建模上的能力,即工具之間的調用順序是否合理。
- DAG 精確匹配:最嚴格的指標,要求生成的有向無環圖在節點和邊上都與標準答案完全一致。
實驗結果顯示,隨著模型規模的增加以及強化學習階段的引入,規劃質量顯著提升。尤其是在最具挑戰性的Hard 集合上,Qwen3-8B (SFT+RL)的表現遠超 GPT-4o 與Claude-3.7 等強大基線模型。這一結果表明,規劃者中心框架在復雜任務場景下具備更強的全局規劃能力。
在StableToolBench的端到端評估中,研究團隊進一步驗證了框架在實際任務執行中的效果。結果顯示,Planner 與 GPT-4o 執行器結合后,整體 SoPR(Solvable Pass Rate) 提升至 59.8%,顯著超越了 GPT-4 (ReAct) 的 48.2%。這意味著框架不僅在規劃階段表現優異,在最終任務完成率上也實現了突破。
更令人關注的是效率指標。傳統的迭代方法往往需要多次嘗試才能完成復雜任務,而規劃者中心框架平均僅需2.29 步即可完成任務。這種效率上的優勢,源于 DAG 規劃的并行化特性和更精準的工具依賴建模。相比之下,迭代方法在復雜任務中往往冗余操作過多,導致時間和計算資源的浪費。

表:StableToolBench基準上的端到端任務求解結果。該表將團隊的Qwen3模型與GPT系列和其他開源方法在各種任務復雜性上進行了比較。研究團隊的Qwen3系列,特別是8B型號,在絕對成功率(SoPR)和相對于GPT3.5的勝率(ReAct)(SoWR)方面,在所有開源基線中表現最佳。
綜合來看,實驗結果充分證明了規劃者中心框架在復雜任務中實現了準確性與效率的雙重突破。它不僅能夠生成更高質量的全局計劃,還能在實際執行中以更少的步驟完成任務。
這一成果為工具增強型 LLM 的發展提供了新的方向,也為未來在企業級自動化、跨領域智能代理等應用場景的落地奠定了堅實基礎。
6.貢獻與價值
這項研究的學術貢獻首先體現在框架的提出上。團隊提出了Planner-Centric Plan-Execute 框架,通過將復雜任務轉化為有向無環圖(DAG),實現了規劃與執行的解耦。這一架構突破了傳統 ReAct 框架的局部最優限制,為工具增強型大語言模型提供了全新的全局規劃思路。
其次,研究團隊構建了ComplexTool-Plan 基準。這一數據集不僅涵蓋了4,535 個工具 API,還按照任務復雜度劃分為 Easy、Medium、Hard 三個等級,支持監督微調與強化學習訓練。它填補了復雜非線性規劃評估的空白,為后續研究提供了堅實的實驗平臺。
第三,團隊提出了創新性的兩階段訓練策略(SFT+GRPO)。通過監督微調實現冷啟動,再結合強化學習中的分層獎勵函數,模型能夠在結構正確性、規劃保真度和完美匹配等多個維度上逐步優化。這一策略有效避免了獎勵黑客問題,使模型在復雜任務中表現出更高的規劃質量與魯棒性。
在應用價值方面,Planner-Centric 框架更適合 企業級復雜任務自動化,能夠在跨工具、多任務場景下實現并行執行,顯著提升效率。它為智能代理的產業落地提供了新范式,尤其在需要多工具協作的場景中,如智能搜索、跨境電商、企業自動化和政府服務,具有廣闊的應用前景。
未來的發展方向主要集中在幾個方面。首先是進一步優化Planner 模型,提升其在跨領域工具調用中的泛化能力,使其能夠適應更多樣化的任務環境。其次是擴展ComplexTool-Plan 數據集,涵蓋更多真實場景與多模態工具,從而讓模型在更復雜的應用環境中得到訓練與驗證。
在產業應用層面,這一框架有望在智能搜索、跨境電商、企業自動化和政府服務等領域發揮作用,推動智能代理的實際落地。學術研究方面,Planner-Centric 框架可以與 多智能體協作和主動推理框架結合,進一步提升復雜任務的解決能力。
Beyond ReAct的意義在于,它標志著工具增強型大語言模型從局部反應式推理邁向了 全局規劃式推理。這一轉變不僅是技術上的突破,更是為未來智能代理的發展奠定了新的基石。
從價值定位來看,Planner-Centric 框架不僅提升了復雜任務的執行效率與準確性,還為產業落地提供了更強的可擴展性與魯棒性。它的提出意味著工具增強型 LLM 已經進入了一個新的階段,能夠更好地應對現實世界中的復雜挑戰。(END)
參考資料:???https://arxiv.org/abs/2511.10037??
本文轉載自??波動智能??,作者:FlerkenS

















