LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本 精華
智能體人工智能的夢(mèng)想遭遇瓶頸
我們正站在計(jì)算領(lǐng)域新時(shí)代的風(fēng)口——智能體人工智能(Agentic AI)時(shí)代。這個(gè)夢(mèng)想簡(jiǎn)單卻意義深遠(yuǎn):大語(yǔ)言模型(LLMs)不僅能響應(yīng)我們的查詢(xún),還能主動(dòng)代表我們實(shí)現(xiàn)目標(biāo)。我們?cè)O(shè)想這樣的智能體:它們能研究復(fù)雜主題、規(guī)劃精密的旅行行程、調(diào)試代碼,并通過(guò)與世界的動(dòng)態(tài)多步交互管理我們的數(shù)字生活。
在過(guò)去一年里,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)一直是推動(dòng)我們邁向這一未來(lái)的核心引擎。通過(guò)讓模型從“試錯(cuò)”中學(xué)習(xí),并以獎(jiǎng)勵(lì)為引導(dǎo),我們見(jiàn)證了模型掌握了靜態(tài)模仿學(xué)習(xí)無(wú)法實(shí)現(xiàn)的復(fù)雜推理能力。
但當(dāng)我們?cè)噲D將這些智能體從“單步任務(wù)”(如解決一道數(shù)學(xué)題)推向混亂、開(kāi)放的“多輪交互場(chǎng)景”時(shí),卻迎面撞上了一個(gè)殘酷的現(xiàn)實(shí):當(dāng)前訓(xùn)練這些智能體的方法效率極低,且受限于兩個(gè)相互關(guān)聯(lián)的根本性問(wèn)題,這使得發(fā)展陷入停滯:
- 極致低效問(wèn)題(高昂成本):訓(xùn)練智能體需要讓其“展開(kāi)軌跡”(rollout)——即執(zhí)行一整套動(dòng)作以完成任務(wù)。當(dāng)前方法需要采樣數(shù)千條獨(dú)立的完整軌跡,這一過(guò)程消耗的計(jì)算資源(tokens、API 調(diào)用、時(shí)間)堪稱(chēng)天文數(shù)字。成本之高,使得構(gòu)建和迭代高性能智能體的能力僅掌握在少數(shù)資金雄厚的實(shí)驗(yàn)室手中。
- 獎(jiǎng)勵(lì)盲區(qū)問(wèn)題(稀疏監(jiān)督):在多輪任務(wù)中,智能體可能需要執(zhí)行數(shù)十個(gè)步驟——思考、搜索、觀(guān)察、再思考。但反饋往往只在任務(wù)最終階段出現(xiàn):“你找到了正確答案”(正向獎(jiǎng)勵(lì))或“你失敗了”(零獎(jiǎng)勵(lì))。這個(gè)單一、稀疏的信號(hào)無(wú)法說(shuō)明“在之前數(shù)十個(gè)步驟中,哪些是出色的決策,哪些是失誤”。模型本質(zhì)上是“蒙眼學(xué)習(xí)”,導(dǎo)致訓(xùn)練不穩(wěn)定,且常常學(xué)會(huì)“無(wú)用的捷徑”而非穩(wěn)健的問(wèn)題解決策略。
這種“成本高昂”與“監(jiān)督稀疏”的雙重困境已成為行業(yè)瓶頸。如果訓(xùn)練智能體的過(guò)程本身既緩慢、昂貴又不精確,我們又如何構(gòu)建下一代復(fù)雜的人工智能體?
來(lái)自廈門(mén)大學(xué)、阿里巴巴集團(tuán)和南方科技大學(xué)的研究人員發(fā)表了一篇具有突破性的新論文——《面向大語(yǔ)言模型智能體強(qiáng)化學(xué)習(xí)的樹(shù)搜索方法》(Tree Search for LLM Agent Reinforcement Learning),為這一問(wèn)題提供了強(qiáng)大而簡(jiǎn)潔的解決方案。他們提出了一種新方法:基于樹(shù)的組相對(duì)策略?xún)?yōu)化(Tree-based Group Relative Policy Optimization, Tree-GRPO),從根本上重新思考了強(qiáng)化學(xué)習(xí)的訓(xùn)練流程。通過(guò)將低效的線(xiàn)性“鏈”轉(zhuǎn)化為智能的、分支式的“樹(shù)”,該技術(shù)不僅效率大幅提升,還能自然地將稀疏的結(jié)果獎(jiǎng)勵(lì)轉(zhuǎn)化為我們迫切需要的、逐步式的豐富過(guò)程信號(hào)。
這并非簡(jiǎn)單的增量改進(jìn),而是一場(chǎng)范式革命——它可能開(kāi)啟智能體人工智能的下一波浪潮。讓我們深入探究。
當(dāng)前方法的缺陷:“鏈”的桎梏
要理解 Tree-GRPO 的精妙之處,首先需要認(rèn)識(shí)到當(dāng)前主流方法——基于鏈的軌跡展開(kāi)(chain-based rollouts)——的嚴(yán)重局限性。
想象一下,你試圖教一個(gè)人工智能體穿越復(fù)雜的迷宮尋找一塊奶酪,而它能獲得的唯一反饋只有最終的“找到奶酪”或“未找到奶酪”。
基于鏈的方法就像“派100個(gè)獨(dú)立的探索者進(jìn)入迷宮”:每個(gè)探索者從起點(diǎn)出發(fā),自主選擇一系列轉(zhuǎn)彎方向,最終要么找到奶酪,要么走進(jìn)死胡同。
這種方法的缺陷顯而易見(jiàn):
首先,高度冗余。如果迷宮的前5個(gè)轉(zhuǎn)彎是一條無(wú)分支的通道,那么100個(gè)探索者都會(huì)獨(dú)立走一遍這條通道。你在計(jì)算資源和時(shí)間上的投入,都耗費(fèi)在了“重復(fù)執(zhí)行相同初始步驟”上——這正是“高昂成本”問(wèn)題的核心。每一次“軌跡展開(kāi)”都是一條完整、昂貴的“思考-行動(dòng)-觀(guān)察”(Thought-Action-Observation)循環(huán)鏈。
其次,反饋對(duì)學(xué)習(xí)“路徑”幾乎無(wú)用。如果第57號(hào)探索者經(jīng)過(guò)30步找到奶酪,而第58號(hào)探索者經(jīng)過(guò)28步失敗,我們無(wú)法知道“第57號(hào)探索者到底做對(duì)了什么”:是第3步的轉(zhuǎn)彎?第17步?還是第29步?最終的獎(jiǎng)勵(lì)信號(hào)會(huì)平等地作用于鏈中的每一個(gè)步驟——出色的決策和愚蠢的失誤得到的“credit(功勞)或blame(過(guò)錯(cuò))”完全相同。這就是“稀疏監(jiān)督”:模型難以將“成功/失敗”歸因于特定決策,導(dǎo)致訓(xùn)練極不穩(wěn)定且效率低下。甚至可能學(xué)會(huì)“偏好較短但失敗的路徑”(只因耗時(shí)更少),而非嘗試更長(zhǎng)、更復(fù)雜但可能成功的路徑。
這正是強(qiáng)化學(xué)習(xí)中長(zhǎng)時(shí)程任務(wù)(long-horizon tasks)的核心挑戰(zhàn):隨著步驟數(shù)量的增加,單個(gè)動(dòng)作與最終結(jié)果之間的關(guān)聯(lián)會(huì)呈指數(shù)級(jí)減弱。標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法難以彌合這種“時(shí)間信用分配差距”(temporal credit assignment gap)。
那么,如何解決這一問(wèn)題?如果我們不派100個(gè)獨(dú)立探索者,而是派一個(gè)“協(xié)同合作的團(tuán)隊(duì)”呢?
新范式:通過(guò) Tree-GRPO 從每一個(gè)“岔路口”學(xué)習(xí)
Tree-GRPO 的研究者提出了一個(gè)簡(jiǎn)單卻深刻的問(wèn)題:為何要浪費(fèi)時(shí)間重復(fù)探索相同路徑?如果能共享探索過(guò)程,并從每個(gè)決策點(diǎn)實(shí)時(shí)學(xué)習(xí),會(huì)怎樣?
這正是從“鏈”到“樹(shù)”的理念轉(zhuǎn)變。
回到迷宮的例子:Tree-GRPO 的方法就像“派一個(gè)保持實(shí)時(shí)溝通的探索團(tuán)隊(duì)”。團(tuán)隊(duì)先一起走過(guò)初始通道(執(zhí)行共享的“前綴”步驟),當(dāng)遇到第一個(gè)岔路口時(shí),他們會(huì)分成兩組:
- A組向左走;
- B組向右走。
他們繼續(xù)探索:A組遇到下一個(gè)岔路口時(shí)再次分組。最終,B組的某個(gè)子團(tuán)隊(duì)找到了奶酪——這個(gè)成功信號(hào)會(huì)立即向上“匯報(bào)”。
此時(shí),神奇的事情發(fā)生了:在第一個(gè)岔路口,我們獲得了極具價(jià)值的信息——“向右走的路徑最終成功,而向左走的路徑?jīng)]有”。我們?cè)凇皼Q策發(fā)生的步驟”上,直接創(chuàng)建了一個(gè)偏好信號(hào)(preference signal)。

大語(yǔ)言模型多輪智能體強(qiáng)化學(xué)習(xí)中基于鏈和基于樹(shù)的采樣策略對(duì)比。樹(shù)結(jié)構(gòu)具有兩大優(yōu)勢(shì):(i)更低的軌跡展開(kāi)成本(無(wú)論是 tokens 還是工具調(diào)用);(ii)更高的性能。
這正是 Tree-GRPO 的核心思路:它用“樹(shù)搜索過(guò)程”替代了“獨(dú)立的鏈?zhǔn)讲蓸印保删哂小肮蚕砬熬Y”的交錯(cuò)軌跡。正如論文首圖所強(qiáng)調(diào)的,這帶來(lái)了兩大突破性?xún)?yōu)勢(shì):
- 更低的軌跡展開(kāi)成本:通過(guò)共享初始步驟(樹(shù)的“主干”),在生成同等數(shù)量的多樣化軌跡時(shí),tokens 和工具調(diào)用的總消耗量大幅減少——用更少的成本實(shí)現(xiàn)了更多的探索。
- 通過(guò)過(guò)程信號(hào)實(shí)現(xiàn)更高性能:樹(shù)結(jié)構(gòu)本身成為了“學(xué)習(xí)工具”。每一個(gè)分支點(diǎn)都是“比較機(jī)會(huì)”:通過(guò)將最終結(jié)果獎(jiǎng)勵(lì)從“樹(shù)葉”反向傳播到“樹(shù)干”,我們可以比較“兄弟分支”的質(zhì)量。這一過(guò)程將“單一稀疏的結(jié)果獎(jiǎng)勵(lì)”轉(zhuǎn)化為“豐富的細(xì)粒度過(guò)程監(jiān)督信號(hào)”(process supervision signals)。模型不僅學(xué)習(xí)“最終答案是什么”,更學(xué)習(xí)“在每個(gè)步驟中如何做出更好的決策以達(dá)成目標(biāo)”。
這種簡(jiǎn)潔的設(shè)計(jì)同時(shí)解決了智能體強(qiáng)化學(xué)習(xí)的兩大核心問(wèn)題。但在實(shí)際中,它是如何實(shí)現(xiàn)的?讓我們揭開(kāi)其技術(shù)面紗。
技術(shù)深度解析:Tree-GRPO 的內(nèi)部機(jī)制
Tree-GRPO 的真正創(chuàng)新在于幾個(gè)關(guān)鍵設(shè)計(jì)決策——這些決策讓“樹(shù)搜索用于大語(yǔ)言模型智能體訓(xùn)練”變得切實(shí)可行且高效。
“智能體步驟”:完美的樹(shù)節(jié)點(diǎn)定義
此前,將樹(shù)搜索用于大語(yǔ)言模型訓(xùn)練的嘗試,往往將“樹(shù)節(jié)點(diǎn)”定義在極細(xì)的粒度上(如單個(gè) token 或一個(gè)句子)。雖然這種方式靈活性最高,但并不適合智能體任務(wù)——智能體的“決策”并非在 token 層面做出,而是在“動(dòng)作層面”。
Tree-GRPO 的研究者提出了一個(gè)關(guān)鍵洞見(jiàn):對(duì)于智能體任務(wù),最具語(yǔ)義意義的單元是完整的思考-行動(dòng)-觀(guān)察(Thought-Action-Observation, TAO)循環(huán)。
因此,在 Tree-GRPO 中,樹(shù)的每個(gè)節(jié)點(diǎn)都代表一個(gè)完整的智能體交互步驟。

不同層級(jí)下基于鏈和基于樹(shù)的軌跡展開(kāi)對(duì)比。左:基于鏈的軌跡展開(kāi);中:節(jié)點(diǎn)對(duì)應(yīng) tokens/句子的樹(shù)搜索;右(本文方法):節(jié)點(diǎn)對(duì)應(yīng)完整智能體步驟的樹(shù)搜索。
這一設(shè)計(jì)堪稱(chēng)精妙:它讓“搜索樹(shù)的結(jié)構(gòu)”與“智能體的實(shí)際決策過(guò)程”完全對(duì)齊。當(dāng)模型從“兩個(gè)分支的偏好對(duì)比”中學(xué)習(xí)時(shí),它學(xué)習(xí)的是“偏好某一完整思考過(guò)程及后續(xù)動(dòng)作”,而非“偏好某一不完整的想法或句子”。這提供的學(xué)習(xí)信號(hào)遠(yuǎn)比“對(duì)比不完整內(nèi)容”更清晰、更穩(wěn)定,同時(shí)也讓“成本約束”(無(wú)論是 tokens 還是工具調(diào)用數(shù)量)變得明確且可控。
正如論文所述,軌跡展開(kāi)過(guò)程采用“初始化-再擴(kuò)展”(initialize-then-expand)策略,適用于并行化大語(yǔ)言模型推理引擎:
- 初始化:針對(duì)給定任務(wù)提示,生成 M 條獨(dú)立的完整軌跡(鏈),作為 M 棵獨(dú)立樹(shù)的初始“主干”。
- 采樣與擴(kuò)展:迭代地從現(xiàn)有樹(shù)中選擇節(jié)點(diǎn),將“從根節(jié)點(diǎn)到該節(jié)點(diǎn)的上下文”作為新提示,由大語(yǔ)言模型生成從該節(jié)點(diǎn)開(kāi)始的后續(xù)完整軌跡,在樹(shù)上創(chuàng)建新分支。對(duì) N 個(gè)節(jié)點(diǎn)重復(fù) L 次這一過(guò)程,最終生成豐富、多樣的分支路徑。
這種實(shí)用的實(shí)現(xiàn)方式,能夠高效生成大量相關(guān)樣本,為下一個(gè)關(guān)鍵創(chuàng)新——“優(yōu)勢(shì)估計(jì)”(advantage estimation)奠定基礎(chǔ)。
雙基線(xiàn)的力量:樹(shù)內(nèi)優(yōu)勢(shì)與樹(shù)間優(yōu)勢(shì)
現(xiàn)在,我們有了“布滿(mǎn)分支軌跡的樹(shù)”,每條軌跡的終點(diǎn)都帶有“結(jié)果獎(jiǎng)勵(lì)”。如何將這種結(jié)構(gòu)轉(zhuǎn)化為“學(xué)習(xí)信號(hào)”?
Tree-GRPO 基于組相對(duì)策略?xún)?yōu)化(Group Relative Policy Optimization, GRPO) 構(gòu)建——該技術(shù)不通過(guò)“獨(dú)立的評(píng)論者模型”(如 PPO 中的 critic)估計(jì)“動(dòng)作優(yōu)勢(shì)”,而是通過(guò)“將動(dòng)作與一組其他候選動(dòng)作的平均獎(jiǎng)勵(lì)對(duì)比”來(lái)計(jì)算。核心問(wèn)題是:“該選擇哪個(gè)‘組’作為對(duì)比基準(zhǔn)?”
Tree-GRPO 巧妙地定義了兩個(gè)不同的“對(duì)比組”,構(gòu)建出穩(wěn)健且穩(wěn)定的學(xué)習(xí)目標(biāo):
- 樹(shù)內(nèi)優(yōu)勢(shì)(Intra-Tree Advantage):這是“過(guò)程監(jiān)督”的核心。對(duì)于任意一條軌跡(從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑),其優(yōu)勢(shì)通過(guò)“與同一棵樹(shù)內(nèi)的其他軌跡對(duì)比”來(lái)計(jì)算——這正是“步驟級(jí)偏好信號(hào)”的來(lái)源。在某個(gè)分支點(diǎn),“最終獲得高獎(jiǎng)勵(lì)的路徑”相對(duì)于“最終獲得低獎(jiǎng)勵(lì)的兄弟分支”,會(huì)具有正向優(yōu)勢(shì)。論文證明,這一目標(biāo)在數(shù)學(xué)上等價(jià)于“執(zhí)行步驟級(jí)直接偏好優(yōu)化(Direct Preference Optimization, DPO)”,但無(wú)需“手動(dòng)構(gòu)建偏好對(duì)”——它是一種從“樹(shù)結(jié)構(gòu)”中自然涌現(xiàn)的“隱式偏好學(xué)習(xí)機(jī)制”。
- 樹(shù)間優(yōu)勢(shì)(Inter-Tree Advantage):雖然樹(shù)內(nèi)優(yōu)勢(shì)擅長(zhǎng)“細(xì)粒度學(xué)習(xí)”,但穩(wěn)定性不足——單棵樹(shù)的軌跡數(shù)量可能很少,導(dǎo)致“平均獎(jiǎng)勵(lì)”作為基準(zhǔn)的可靠性較低。為解決這一問(wèn)題,Tree-GRPO 還會(huì)“將每條軌跡與‘同一提示下生成的所有樹(shù)的所有軌跡’對(duì)比”,計(jì)算其優(yōu)勢(shì)。這提供了一個(gè)更穩(wěn)定的“全局基準(zhǔn)”。

Tree-GRPO 訓(xùn)練流程概述。軌跡展開(kāi)以“樹(shù)搜索”方式進(jìn)行,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的思考-行動(dòng)-觀(guān)察步驟。組相對(duì)優(yōu)勢(shì)在“樹(shù)內(nèi)”和“樹(shù)間”兩個(gè)層面進(jìn)行估計(jì)。Tree-GRPO 通過(guò)“樹(shù)結(jié)構(gòu)”構(gòu)建“步驟級(jí)過(guò)程監(jiān)督信號(hào)”,且軌跡展開(kāi)成本更低。
任意給定軌跡的“最終優(yōu)勢(shì)估計(jì)值”,即為其“樹(shù)內(nèi)優(yōu)勢(shì)”與“樹(shù)間優(yōu)勢(shì)”之和:

驚人結(jié)果:用“少得多的成本”實(shí)現(xiàn)“多得多的價(jià)值”
Tree-GRPO 在11個(gè)數(shù)據(jù)集上的實(shí)證評(píng)估結(jié)果令人驚嘆。實(shí)驗(yàn)一致表明,這種“基于樹(shù)的方法”優(yōu)于傳統(tǒng)“基于鏈的方法”——尤其在“關(guān)鍵場(chǎng)景”(長(zhǎng)時(shí)程、低預(yù)算任務(wù))中優(yōu)勢(shì)更為顯著。
在低預(yù)算、多跳場(chǎng)景中的絕對(duì)優(yōu)勢(shì)
最顯著的結(jié)果出現(xiàn)在“多跳問(wèn)答(multi-hop QA)任務(wù)”中——這類(lèi)任務(wù)需要復(fù)雜的多輪推理和工具使用,正是“基于鏈的強(qiáng)化學(xué)習(xí)”最薄弱的領(lǐng)域。

單跳問(wèn)答和多跳問(wèn)答的整體性能,包含各數(shù)據(jù)集的精確匹配(EM)分?jǐn)?shù)。最佳結(jié)果以粗體標(biāo)注。
觀(guān)察小模型的表現(xiàn),差異堪稱(chēng)天壤之別:對(duì)于 Qwen2.5-1.5b 模型(通義千問(wèn)2.5系列1.5B參數(shù)模型),在多跳任務(wù)中,標(biāo)準(zhǔn)的“基于鏈的 GRPO”幾乎無(wú)法超越基線(xiàn)模型(baseline)——它根本無(wú)法學(xué)習(xí)復(fù)雜的推理能力。相比之下,Tree-GRPO 實(shí)現(xiàn)了高達(dá)69%的相對(duì)提升。這一結(jié)果表明:Tree-GRPO 提供的“過(guò)程監(jiān)督”,對(duì)于“教小模型掌握復(fù)雜智能體行為”至關(guān)重要。
這一發(fā)現(xiàn)具有關(guān)鍵意義:通過(guò) Tree-GRPO 這類(lèi)更智能的訓(xùn)練方法,我們可以在“更小、更高效、更易獲取的模型”中解鎖強(qiáng)大的智能體能力。若能高效訓(xùn)練,你可能無(wú)需“超大前沿模型”就能構(gòu)建實(shí)用的智能體。
前所未有的樣本效率
Tree-GRPO 優(yōu)越性的最有力證據(jù),體現(xiàn)在“受限預(yù)算下的性能”上。研究者測(cè)試了兩種方法在不同“軌跡展開(kāi)預(yù)算”(從每個(gè)提示2次到16次)下的表現(xiàn)。

不同訓(xùn)練預(yù)算下的性能(訓(xùn)練預(yù)算定義為“每個(gè)提示對(duì)應(yīng)的完整智能體軌跡展開(kāi)次數(shù)”)。基準(zhǔn)模型為 Qwen2.5–3b(通義千問(wèn)2.5系列3B參數(shù)模型)。最佳結(jié)果以粗體標(biāo)注。
表格中的結(jié)果令人震驚:
在每個(gè)提示僅2次軌跡展開(kāi)的高度受限預(yù)算下,基于鏈的方法在多跳任務(wù)中基本無(wú)法學(xué)習(xí)。而 Tree-GRPO 則表現(xiàn)出色,實(shí)現(xiàn)了112%的相對(duì)提升。
更令人印象深刻的是:使用“每個(gè)提示4次軌跡展開(kāi)”的 Tree-GRPO,其性能超過(guò)了使用“每個(gè)提示16次軌跡展開(kāi)”的基于鏈的方法。請(qǐng)仔細(xì)思考這一結(jié)果:它用“四分之一的計(jì)算成本”實(shí)現(xiàn)了“更優(yōu)的性能”。
這并非單純的學(xué)術(shù)成果——它具有深遠(yuǎn)的實(shí)際意義:開(kāi)發(fā)和微調(diào)高性能大語(yǔ)言模型智能體的成本可能降低至原來(lái)的1/4,速度提升4倍,這將大幅降低“研究者和企業(yè)參與智能體開(kāi)發(fā)”的門(mén)檻。一篇研究論文竟能改變整個(gè)領(lǐng)域的“經(jīng)濟(jì)成本結(jié)構(gòu)”。
超越數(shù)字:為何 Tree-GRPO 能培養(yǎng)“更聰明的智能體”
Tree-GRPO 的價(jià)值遠(yuǎn)不止“性能指標(biāo)的提升”——它從根本上改變了“智能體的學(xué)習(xí)內(nèi)容”。
由于“基于鏈的強(qiáng)化學(xué)習(xí)”依賴(lài)稀疏獎(jiǎng)勵(lì),難以進(jìn)行“信用分配”,因此往往會(huì)導(dǎo)致“智能體偏向選擇較短軌跡”:模型會(huì)“求穩(wěn)”,避免“長(zhǎng)而復(fù)雜的推理鏈”——因?yàn)椤霸诼L(zhǎng)步驟中犯錯(cuò)的風(fēng)險(xiǎn)太高”,而最終獎(jiǎng)勵(lì)的不確定性又太大。這導(dǎo)致智能體“輕易放棄”或“走不合理的捷徑”。
而 Tree-GRPO 憑借其“內(nèi)置的過(guò)程監(jiān)督”,徹底改變了這一動(dòng)態(tài):通過(guò)獎(jiǎng)勵(lì)“優(yōu)質(zhì)的中間決策”,它鼓勵(lì)智能體“探索更長(zhǎng)、更復(fù)雜的推理路徑”。論文通過(guò)“訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)與動(dòng)作數(shù)量的分析”,為這一“行為轉(zhuǎn)變”提供了證據(jù)。

基于樹(shù)和基于鏈的強(qiáng)化學(xué)習(xí)在獎(jiǎng)勵(lì)和動(dòng)作數(shù)量上的對(duì)比。
如圖所示,用 Tree-GRPO 訓(xùn)練的智能體,不僅“最終獎(jiǎng)勵(lì)更高”,還學(xué)會(huì)了“執(zhí)行更多動(dòng)作”(即調(diào)用更多工具)。它不再是“猜測(cè)答案”,而是在學(xué)習(xí)“探索的過(guò)程”——培養(yǎng)了解決“真正難題”所需的“堅(jiān)持性”。
這一區(qū)別至關(guān)重要:我們需要的不是“擅長(zhǎng)匹配最終答案模式”的智能體,而是“擅長(zhǎng)‘找到答案’這一過(guò)程”的智能體。通過(guò)提供“過(guò)程級(jí)監(jiān)督”,Tree-GRPO 直接優(yōu)化了“這種更理想、更穩(wěn)健的智能形式”。
你正在研究哪些“需要多步探索過(guò)程才能找到答案”的問(wèn)題?
結(jié)論:未來(lái)是“分支式”的
《Tree Search for LLM Agent Reinforcement Learning》是一篇罕見(jiàn)的“理論簡(jiǎn)潔優(yōu)美、實(shí)踐變革性強(qiáng)”的研究論文。它用“一個(gè)強(qiáng)大的想法”(將線(xiàn)性鏈轉(zhuǎn)化為分支樹(shù)),同時(shí)解決了“智能體人工智能的成本與監(jiān)督雙重困境”。
通過(guò)這一創(chuàng)新,Tree-GRPO 為“智能體開(kāi)發(fā)”指明了清晰的前進(jìn)方向:用更低的成本、更快的速度,構(gòu)建更強(qiáng)大的智能體。
核心要點(diǎn):
- 問(wèn)題所在:用傳統(tǒng)“基于鏈的強(qiáng)化學(xué)習(xí)”訓(xùn)練大語(yǔ)言模型智能體,成本極高,且在長(zhǎng)時(shí)程任務(wù)中效果差——根源是“采樣冗余”和“獎(jiǎng)勵(lì)稀疏”。
- 解決方案:Tree-GRPO 用“樹(shù)搜索采樣”替代“鏈?zhǔn)杰壽E展開(kāi)”,軌跡共享“公共前綴”;樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的“思考-行動(dòng)-觀(guān)察”步驟。
- 雙重優(yōu)勢(shì):這種樹(shù)結(jié)構(gòu)(1)效率極高,大幅降低 tokens 和工具調(diào)用成本;(2)自然生成“過(guò)程監(jiān)督”——通過(guò)對(duì)比不同分支,無(wú)需額外標(biāo)注即可獲得“步驟級(jí)偏好信號(hào)”。
- 實(shí)驗(yàn)結(jié)果:Tree-GRPO 顯著優(yōu)于基于鏈的方法,尤其在“小模型”和“低預(yù)算”場(chǎng)景中;它能用“四分之一的計(jì)算成本”實(shí)現(xiàn)“更優(yōu)性能”。
- 深遠(yuǎn)影響:這項(xiàng)工作不僅提升了性能,更培養(yǎng)了“更聰明、更具堅(jiān)持性的智能體”——它們學(xué)習(xí)的是“問(wèn)題解決的過(guò)程”;它讓“復(fù)雜智能體人工智能的開(kāi)發(fā)”變得對(duì)所有人更易獲取。
構(gòu)建“真正自主、實(shí)用的人工智能體”是一段漫長(zhǎng)的旅程,充滿(mǎn)復(fù)雜挑戰(zhàn)。但像 Tree-GRPO 這樣的創(chuàng)新,讓前進(jìn)的道路變得清晰。未來(lái)并非“一條直線(xiàn)”,而是“分支不斷擴(kuò)展、可能性持續(xù)增多的樹(shù)”。而現(xiàn)在,我們終于有了“從每一個(gè)分支中學(xué)習(xí)”的方法。
你怎么看?這是否是“讓智能體人工智能開(kāi)發(fā)民主化”的突破性成果?歡迎在評(píng)論區(qū)分享你的想法。
參考文獻(xiàn)
Ji, Y., Ma, Z., Wang, Y., Chen, G., Chu, X., & Wu, L. (2025). Tree Search for LLM Agent Reinforcement Learning. arXiv:2509.21240v1.
本文轉(zhuǎn)載自AIGC深一度,作者:tangbasky

















