從失敗中學(xué)習(xí)：Google 提出 ReasoningBank 讓 LLM 智能體真正“吃一塹長一智”

作者：肆零柒 2025-10-16 02:00:00

LLM 智能體為何總在重復(fù)犯錯？Google 與 UIUC 聯(lián)合提出 ReasoningBank，通過結(jié)構(gòu)化推理記憶，讓智能體從失敗中學(xué)習(xí)，實現(xiàn)持續(xù)自進化。本文解析其機制、效果與實踐路徑。

大家好，我是肆〇柒。今天要和大家分享一項來自 Google Cloud AI Research 與伊利諾伊大學(xué)香檳分校（UIUC）等機構(gòu)的最新研究成果——ReasoningBank。這項工作直面當(dāng)前 LLM 智能體在持久任務(wù)中記不住教訓(xùn)、重復(fù)犯錯的根本瓶頸，提出了一種全新的記憶框架：不僅能從成功中提煉策略，更能從失敗中提取預(yù)防性教訓(xùn)，讓智能體實現(xiàn)“越用越聰明”的自進化能力。

想象一下，你每天使用的智能助手總是忘記昨天學(xué)會的操作，每次都要重新學(xué)習(xí)如何完成相同的任務(wù)。在WebArena測試中，當(dāng)用戶詢問"我在這個網(wǎng)站上首次購買的日期是什么"時，基線智能體反復(fù)犯同一個錯誤——僅查看"Recent Orders"表格而忽略"View All"鏈接，錯誤地將最近訂單日期報告為首次購買日期。這不僅是個別案例，而是系統(tǒng)性缺陷：無記憶基線在多網(wǎng)站任務(wù)（Multi）子集中成功率僅40.5%，意味著超過一半的任務(wù)無法完成。這種"無記憶學(xué)習(xí)"導(dǎo)致智能體"注定會重復(fù)過去的錯誤，拋棄從相關(guān)問題中獲得的寶貴見解"，而ReasoningBank通過從成功與失敗經(jīng)驗中提煉可泛化的推理策略，實現(xiàn)了隨任務(wù)數(shù)量增加而持續(xù)提升的成功率，如下圖所示，展示了真正的"吃一塹長一智"能力。

ReasoningBank誘導(dǎo)可重用推理策略

現(xiàn)有記憶機制為何失效：不只是技術(shù)問題，更是思維局限

當(dāng)前智能體記憶系統(tǒng)的實踐主要集中在兩種方法上：Trajectory Memory存儲完整交互歷史，如Figure 1所示的原始軌跡；Workflow Memory則僅存儲成功的工作流程，如AWM方法所采用的。然而，這些方法存在根本性局限，不僅影響技術(shù)性能，更反映了對智能體學(xué)習(xí)本質(zhì)的理解偏差。

它們?nèi)狈μ釤捀呒墶⒖赊D(zhuǎn)移推理模式的能力，過度關(guān)注"做了什么"而非"為什么這樣做"。更為關(guān)鍵的是，現(xiàn)有方法過度強調(diào)成功經(jīng)驗，導(dǎo)致智能體自身失敗中蘊含的寶貴教訓(xùn)很大程度上被忽視。這就像一個只記住考試正確答案卻不懂解題思路的學(xué)生，遇到新題型時依然束手無策。

這種局限性在實際性能中的影響遠超表面數(shù)字。在WebArena Admin子集測試中，ReasoningBank達到51.1%的成功率，明顯優(yōu)于僅存儲成功工作流程的AWM方法（46.7%）。但更重要的是，這個4.4%的差距意味著什么？在實際應(yīng)用中，它代表著每100次任務(wù)嘗試，ReasoningBank能多完成4-5個任務(wù)，對于高價值業(yè)務(wù)場景，這可能直接轉(zhuǎn)化為數(shù)百萬的收益提升。

尤為引人注目的是，當(dāng)任務(wù)需要跨網(wǎng)站知識時，AWM方法的性能反而下降，在WebArena Multi子集中從44.1%降至40.8%，表明其記憶機制在泛化方面存在嚴(yán)重不足。論文將這些現(xiàn)有方法描述為被動記錄而非為未來決策提供可操作、可泛化的指導(dǎo)，無法為智能體提供真正有效的決策支持。這就像一個只會機械重復(fù)過去行為的工人，面對新挑戰(zhàn)時毫無應(yīng)變能力。

ReasoningBank的解決方案：從"做了什么"到"為什么這樣做"

ReasoningBank的核心創(chuàng)新在于從存儲"做了什么"轉(zhuǎn)向存儲"為什么這樣做"和"如何避免失敗"。如下圖所示，其工作流程包括三個關(guān)鍵步驟：記憶檢索、記憶提取和記憶整合。首先，當(dāng)面對新任務(wù)時，智能體使用gemini-embedding-001進行相似度搜索，檢索最相關(guān)的記憶項；然后，通過特定提示詞引導(dǎo)模型從軌跡中提煉可泛化的推理策略；最后，將新經(jīng)驗添加到記憶庫中，形成閉環(huán)學(xué)習(xí)過程。

ReasoningBank工作流程

記憶項采用結(jié)構(gòu)化三要素設(shè)計：標(biāo)題作為核心策略的簡潔標(biāo)識（如"優(yōu)先考慮用戶賬戶部分獲取個人數(shù)據(jù)"）；描述提供策略適用場景的一句話總結(jié)；內(nèi)容則記錄提煉的推理步驟和決策依據(jù)。這種設(shè)計使記憶項既可被人類理解，又能被機器有效利用。論文通過以下示例展示了具體的系統(tǒng)指令模板，區(qū)分了成功軌跡（分析為何成功）和失敗軌跡（反思原因并提取教訓(xùn)）的不同處理方式。

記憶提取系統(tǒng)指令

上圖清晰展示了成功軌跡的提取指令要求模型首先思考軌跡為何成功，然后總結(jié)關(guān)鍵見解，而失敗軌跡的提取指令則要求反思并思考軌跡為何失敗，然后總結(jié)你學(xué)到了什么教訓(xùn)或預(yù)防未來失敗的策略。這種差異化處理確保了ReasoningBank能夠從兩種經(jīng)驗中提取有價值的信號，而非僅關(guān)注成功案例。

關(guān)鍵突破在于ReasoningBank同時利用成功與失敗經(jīng)驗。下圖展示了LLM-as-a-judge機制的詳細工作原理，該機制將任務(wù)分為三類：信息尋求、網(wǎng)站導(dǎo)航和內(nèi)容修改，并要求模型輸出兩行格式化響應(yīng)：思考過程和狀態(tài)（"success"或"failure"）。

LLM-as-a-judge系統(tǒng)指令

論文指出，通過這一機制，智能體能夠在沒有真實標(biāo)簽可用的測試時學(xué)習(xí)范式中自我判斷軌跡的成功或失敗。下圖的消融研究表明，在WebArena-Shopping子集測試中，僅使用成功軌跡時ReasoningBank達到46.5%的成功率，而納入失敗軌跡后進一步提升至49.7%，證實了ReasoningBank可以將失敗轉(zhuǎn)化為建設(shè)性信號而非噪聲。

引入故障軌跡以增強記憶歸納的消融實驗結(jié)果

下圖揭示了一個令人興奮的現(xiàn)象：記憶項會隨時間自然進化。最初，智能體只能記住簡單的執(zhí)行策略，如"尋找導(dǎo)航鏈接"；隨后發(fā)展為原子自省，如"重新驗證標(biāo)識符以減少簡單錯誤"；再到適應(yīng)性檢查，如"利用搜索或過濾器確保完整性"；最終形成組合策略，如"交叉參考任務(wù)要求并重新評估選項"。這種進化不是人為設(shè)計的，而是從經(jīng)驗中自然涌現(xiàn)的——就像人類專家從新手成長為大師的過程。

記憶項的演化過程

MaTTS——記憶與擴展的協(xié)同：解鎖智能體的全部潛力

測試時擴展（TTS）通過分配更多推理時計算資源來提升智能體性能，但普通TTS無法有效利用擴展產(chǎn)生的豐富信號（擴展閱讀??《Test-Time Scaling：挖掘大型語言模型推理潛能（3萬字綜述）》）。下圖清晰展示了MaTTS w/o aggregation（vanilla TTS）與記憶感知測試時擴展（MaTTS）的本質(zhì)區(qū)別。在WebArena-Shopping子集上，無記憶的TTS僅將成功率從39.0%微弱提升至42.2%，且表現(xiàn)不穩(wěn)定；而結(jié)合ReasoningBank的MaTTS則實現(xiàn)了顯著且穩(wěn)定的性能提升。

普通TTS與MaTTS對比

MaTTS提供兩種互補的擴展模式：并行擴展為同一查詢生成多條軌跡，通過自對比（self-contrast）提煉可靠記憶。下圖左側(cè)展示了這一過程，模型被引導(dǎo)直接比較和對比軌跡，識別導(dǎo)致成功的一致模式和導(dǎo)致失敗的錯誤。在k=5時，并行擴展達到55.1%的成功率，優(yōu)于順序擴展的54.5%。順序擴展則通過自精煉（self-refinement）過程迭代優(yōu)化單條軌跡，利用中間推理信號豐富記憶。它在小k值時優(yōu)勢明顯，但隨k增大收益快速飽和，因為一旦模型明確成功或失敗，進一步的精煉幾乎不會帶來新的見解。

MaTTS系統(tǒng)指令

下圖詳細展示了縮放因子k對MaTTS性能的影響。在并行擴展中，隨著k從1增加到5，成功率從49.7%穩(wěn)步提升至55.1%；而在順序擴展中，提升幅度相對較小，從49.7%增至54.5%。這種差異表明，在具備更強記憶機制（如ReasoningBank）的情況下，順序精煉在小k值時帶來更高收益，但其優(yōu)勢會迅速飽和，而并行擴展則能持續(xù)提供多樣化的探索路徑。

MaTTS縮放因子k效果

下圖的量化證據(jù)揭示了記憶與擴展的協(xié)同效應(yīng)：ReasoningBank使Best-of-3（BoN）性能從49.7%提升至52.4%，而Synapse僅從40.6%提升至42.8%，AWM甚至從44.4%降至41.2%。同時，ReasoningBank在Pass@1指標(biāo)上也從49.7%提升至50.8%，表明高質(zhì)量記憶能夠利用擴展的多樣性提取建設(shè)性的對比信號。在論文中，將這種相互增強的關(guān)系描述為一個強大的正反饋循環(huán)，其中高質(zhì)量記憶將擴展的探索引向更有希望的路徑，而生成的豐富經(jīng)驗又鍛造出更強的記憶，確立了記憶驅(qū)動的體驗擴展作為智能體的新的擴展維度。

WebArenaShopping 子集上 MaTTS 在不同記憶機制（k = 3）下的快照：研究者對全部 3 條軌跡計算 BoN，并隨機抽取 1 條軌跡計算 Pass@1

下圖的Pass@k分析進一步揭示了MaTTS的優(yōu)勢："MaTTS不僅在小k值時保持高效（k=2時達51.3），還能隨著擴展持續(xù)強勁增長，k=5時達到62.1"，而MaTTS w/o aggregation僅達到55.1%，MaTTS w/o memory則僅為52.4%。這一數(shù)據(jù)表明，記憶感知的擴展能夠"解鎖智能體系統(tǒng)更多潛力，鼓勵多樣化生成以獲得更好的Pass@k性能"。

Pass@k分析

實證效果與實際應(yīng)用價值：不只是數(shù)字，更是實際影響

在多個基準(zhǔn)測試中，ReasoningBank展現(xiàn)出顯著優(yōu)勢。WebArena測試顯示（下表），ReasoningBank在Gemini-2.5-pro backbone上達到53.9%的總體成功率，比無記憶基線高7.2個百分點；在更具挑戰(zhàn)性的多網(wǎng)站任務(wù)（Multi）子集中，提升幅度達4.6個百分點。這些數(shù)字背后意味著什么？在實際應(yīng)用中，每100次任務(wù)嘗試，ReasoningBank能多完成7次任務(wù)，對于高價值業(yè)務(wù)場景，這可能直接轉(zhuǎn)化為數(shù)百萬的收益提升。

ReasoningBank 在 WebArena 基準(zhǔn)上的實驗結(jié)果：在 5 個子任務(wù)上，分別測試了 3 種不同骨干大模型的成功率（SR↑）與平均步數(shù)（Step↓）

Mind2Web的跨域測試結(jié)果（下表）表明，ReasoningBank將元素準(zhǔn)確率（EA）從35.8%提升至40.6%，動作F1值從37.9%提升至41.3%，任務(wù)級成功率（SR）從1.0%提升至1.6%。這些提升在跨域場景中尤為顯著，證實了其在高泛化要求場景中的優(yōu)勢。在軟件工程領(lǐng)域，SWE-Bench-Verified測試（Table 2）顯示，ReasoningBank將問題解決率從54.0%提升至57.4%，同時將平均交互步數(shù)從21.1減少至19.8。

在 Mind2Web 基準(zhǔn)的“跨任務(wù)、跨網(wǎng)站、跨域”泛化測試中，結(jié)果如下（↑ 表示越高越好）：EA（元素準(zhǔn)確率）：預(yù)測元素完全正確的比例； AF1（動作 F1）：預(yù)測動作（含操作類型與元素）的 F1 得分；SSR（步驟成功率）：單步操作全部正確的比例； SR（任務(wù)成功率）：整個任務(wù)所有步驟均正確的比例，即“一步錯、任務(wù)敗”

三個關(guān)鍵案例生動展示了ReasoningBank的實際價值。Figure 14呈現(xiàn)了"查詢最早訂單"任務(wù)：基線智能體僅查看"Recent Orders"表格，錯誤地報告最近訂單日期；而ReasoningBank利用記憶項找到"View All"鏈接，正確識別出最早的訂單日期。Figure 15展示了導(dǎo)航密集型購物任務(wù)的效率對比：基線智能體在尋找"Men"過濾器時陷入低效瀏覽，耗時29步；ReasoningBank則直接應(yīng)用存儲的類別過濾推理，僅用10步完成任務(wù)。這種效率提升不是抽象的數(shù)字，而是用戶等待時間的顯著減少和系統(tǒng)資源的節(jié)省。

ReasoningBank有效利用記憶項

上圖的深度分析揭示了ReasoningBank在不同場景下的效率優(yōu)勢。

在Shopping領(lǐng)域，ReasoningBank在成功案例中平均減少2.1步（從6.8降至4.7，26.9%的相對減少），而在失敗案例中僅減少1.4步（從8.7降至7.3，16.1%的相對減少）。

在Admin領(lǐng)域，成功案例減少1.4步（從8.4降至7.0，16.7%的相對減少），失敗案例減少0.9步（從10.4降至9.5，8.7%的相對減少）。

在Gitlab領(lǐng)域，成功案例減少1.0步（從8.6降至7.6，11.6%的相對減少），失敗案例僅減少0.2步（從15.7降至15.5，1.3%的相對減少）。

在Reddit領(lǐng)域，成功案例減少1.1步（從6.1降至5.0，18.0%的相對減少），失敗案例減少0.8步（從7.6降至6.8，10.5%的相對減少）。

這種一致的模式表明ReasoningBank"主要通過加強智能體遵循有效推理路徑的能力來幫助其以更少的交互達到解決方案，而非簡單地截斷失敗軌跡"。

ReasoningBank提升效率

下圖的消融研究表明，檢索1個最相關(guān)經(jīng)驗即可獲得最佳性能（49.7%），增加至2個反而降至46.0%，3個降至45.5%，4個降至44.4%。這一發(fā)現(xiàn)證實"記憶的相關(guān)性和質(zhì)量比單純的數(shù)量更為關(guān)鍵"，對實際部署具有重要指導(dǎo)意義：在實施ReasoningBank時，應(yīng)優(yōu)先確保記憶項的質(zhì)量而非數(shù)量。這就像經(jīng)驗豐富的專家往往只需一個關(guān)鍵提示就能解決問題，而新手則可能被過多信息干擾。

記憶檢索數(shù)量影響

從研究到實踐的路徑

MaTTS系統(tǒng)指令

實施ReasoningBank需關(guān)注幾個關(guān)鍵實踐點。下圖提供的系統(tǒng)指令模板為記憶提取提供了具體指導(dǎo)，區(qū)分了成功軌跡（分析為何成功）和失敗軌跡（反思原因并提取教訓(xùn)）的不同處理方式。上圖詳細描述了LLM-as-a-judge機制，用于判斷軌跡成功或失敗，其系統(tǒng)指令將任務(wù)分為信息尋求、網(wǎng)站導(dǎo)航和內(nèi)容修改三種類型，并要求模型輸出兩行格式化響應(yīng)：思考過程和狀態(tài)（"success"或"failure"）。

記憶提取系統(tǒng)指令

技術(shù)挑戰(zhàn)主要集中在記憶項質(zhì)量控制和失敗經(jīng)驗的有效利用上。論文描述了LLM-as-a-judge機制如何確保信號可靠性，上圖面板專門設(shè)計了針對失敗軌跡的提取提示，引導(dǎo)模型反思并思考軌跡為何失敗，然后總結(jié)你學(xué)到了什么教訓(xùn)或預(yù)防未來失敗的策略。記憶存儲實現(xiàn)方面，ReasoningBank 以 JSON 格式維護，每個條目包含任務(wù)查詢、原始軌跡和相應(yīng)記憶項。所有記憶項均按照{(diào)title, description, content}的模式存儲。每個給定查詢的嵌入預(yù)先計算并存儲在另一個JSON文件中，以便進行高效的相似性搜索。這種輕量級的實現(xiàn)方式使ReasoningBank易于集成到現(xiàn)有系統(tǒng)中。

明確的商業(yè)價值

在WebArena測試中，ReasoningBank將成功率提高7.2-8.3個百分點，同時減少16.0%的交互步驟。這意味著更少的用戶等待時間和更低的計算資源消耗，直接轉(zhuǎn)化為商業(yè)價值。在跨域測試中，提升幅度尤為顯著，表明其特別適合需要持續(xù)交互和泛化能力的任務(wù)，如Web導(dǎo)航和軟件工程。在WebArena-Shopping子集上，ReasoningBank使成功率從39.0%提升至49.7%，而增加計算資源（MaTTS）后進一步提升至55.1%，展示了"記憶驅(qū)動的體驗擴展"帶來的復(fù)合價值。

新視角與新方向

論文在結(jié)論部分指出，ReasoningBank為構(gòu)建適應(yīng)性和終身學(xué)習(xí)的智能體提供了一條實用路徑，確立了記憶驅(qū)動的體驗擴展作為智能體的新的擴展維度。未來的實踐研究，可以包括"組合式記憶"（compositional memory）和"高級記憶架構(gòu)"（advanced memory architectures），為研究智能體的自我進化提供了新視角。

構(gòu)建真正自進化的智能體系統(tǒng)

ReasoningBank的核心價值在于將記憶轉(zhuǎn)化為智能體的進化能力，使其能夠從失敗中學(xué)習(xí)并隨時間發(fā)展出越來越復(fù)雜、涌現(xiàn)的推理策略。通過建立"記憶驅(qū)動的體驗擴展作為智能體的新的擴展維度"，它為解決LLM智能體在持久角色中"拋棄寶貴見解并重復(fù)過去錯誤"的根本缺陷提供了可行路徑。

這一方法對Web自動化和軟件工程等領(lǐng)域具有創(chuàng)新的低成本落地的參考價值。在Web導(dǎo)航中，它提升了復(fù)雜任務(wù)的成功率，減少了用戶等待時間；在軟件工程中，它提高了問題解決率，減少了開發(fā)人員干預(yù)。實踐啟示明確：不應(yīng)只存儲成功經(jīng)驗，失敗同樣寶貴；提煉"為什么"比記錄"做了什么"更有價值；記憶與計算資源擴展應(yīng)協(xié)同設(shè)計。

隨著智能體系統(tǒng)在現(xiàn)實世界中扮演越來越持久的角色，ReasoningBank代表了向"自進化智能體系統(tǒng)"邁進的關(guān)鍵一步。論文在結(jié)論部分指出，它為構(gòu)建適應(yīng)性和終身學(xué)習(xí)的智能體提供了一條實用路徑。也正如這篇論文標(biāo)題所示，通過"Scaling Agent Self-Evolving with Reasoning Memory"，我們正逐步實現(xiàn)真正能夠從經(jīng)驗中學(xué)習(xí)、隨時間不斷進化的智能體系統(tǒng)。

責(zé)任編輯：龐桂玉來源：覺察流