告別「一條路走到黑」:通過自我糾錯,打造更聰明的Search Agent
為了同時解決知識的實時性和推理的復雜性這兩大挑戰,搜索智能體(Search Agent)應運而生。它與 RAG 的核心區別在于,Search Agent 能夠通過與實時搜索引擎進行多輪交互來分解并執行復雜任務。這種能力在人物畫像構建,偏好搜索等任務中至關重要,因為它能模擬人類專家進行深度、實時的資料挖掘。
但 Search Agent 經常面臨著一個棘手的瓶頸:缺乏過程中的自我糾錯能力?,F有的智能體一旦在推理早期因一個模糊的查詢而走上錯誤的路徑,就會基于這個錯誤結果繼續執行,引發連鎖式錯誤(Cascading Errors),最終導致整個任務失敗。
為了攻克這一難題,騰訊內容算法中心聯合清華大學,近期提出 ReSeek 框架,它不是對 RAG 的簡單改進,而是對 Search Agent 核心邏輯的一次重塑。
ReSeek 的關鍵在于引入了動態自我修正機制,允許智能體在執行過程中主動評估每一步行動的有效性。一旦發現路徑無效或信息錯誤,它就能及時回溯并探索新的可能性,從而避免「一條路走到黑」。

- 論文地址:https://arxiv.org/pdf/2510.00568
- 開源模型及數據集地址:https://huggingface.co/collections/TencentBAC/reseek
- Github 地址:https://github.com/TencentBAC/ReSeek
連鎖式錯誤:一步錯,步步錯
連鎖式錯誤指的是,智能體在多步推理鏈的早期,哪怕只犯了一個微小的錯誤,也會像推倒第一塊多米諾骨牌一樣,導致后續所有步驟都建立在錯誤的基礎之上,最終使整個任務走向完全失敗。
這個過程可以分解為以下幾個階段:
- 初始偏差:任務起點是「美國上一任總統哪一年出生的」?智能體沒有先去識別 「上一任總統」是誰,而是直接將整個模糊問題扔給搜索引擎,這種跳過推理、依賴直接搜索的策略就是最初的偏差。
- 錯誤固化:搜索結果中可能同時出現了「特朗普」「總統」和「出生年份」等信息,智能體從中錯誤地提取并認定了「上一任總統就是特朗普」,它沒有停下來驗證這個信息的準確性,而是將這個未經證實的猜測固化為后續步驟不可動搖的事實依據。
- 無效執行:智能體基于「上一任總統是特朗普」這個前提,去執行搜索「特朗普的出生年份」的指令。接著智能體抓取了年份「1946」(這是特朗普的出生年份),這個執行步驟本質上是一次無效執行。
- 任務失敗:最終,智能體給出了一個完全錯誤的答案:「美國上一任總統出生于 1946 年?!惯@個結果與事實(正確應為 1942 年)完全不符,它錯誤地將一個人的信息安在了另一個人身上,直接導致了任務的徹底失敗。

根源何在?「執行者」而非「思考者」
為什么當前的搜索智能體會如此脆弱?根源在于它們在設計上更偏向一個「忠實的執行者」,而非一個「批判性的思考者」。
- 缺乏反思機制:智能體遵循一個線性的「思考 - 行動」循環(Think-Act Loop),但缺少一個關鍵的「反思 - 修正」環節(Reflect-Correct Loop)。它不會在得到中間結果后,與最初的目標和約束條件進行比對和審視,評估當前路徑的合理性。
- 對中間結果的「盲信」:智能體將每一步的輸出都視為不容置疑的「事實」,并將其直接作為下一步的輸入。這種對中間結果的過度自信,使其無法從錯誤的路徑中抽身。
因此,當前搜索智能體的脆弱性在于其推理鏈的剛性。它擅長沿著一條既定路線走到底,卻不具備在發現路走不通時,掉頭或另尋他路的能力。要讓智能體真正變得魯棒和可靠,未來的關鍵突破方向在于:賦予智能體自我反思和動態糾錯的能力,讓它從一個只會「一條路走到黑」的執行者,進化成一個懂得「三思而后行、及時止損」的思考者。
讓 Agent 具備元認知能力
為了賦予智能體自我反思和動態糾錯的能力,團隊擴展了 Agent 動作空間,引入了一個核心的 JUDGE 動作。該動作在每次信息獲取后被調用,用于評估新信息的有效性。
這個機制的關鍵在于對歷史信息的選擇性關注 (selective attention to history),而非復雜的狀態回溯。在每個時間步 t,智能體首先執行一個動作(如 Search)并獲得一個觀察結果
。隨后,它執行 JUDGE 動作,輸出一個判斷
。這個判斷將決定
是否被納入后續決策的上下文中。
具體而言,智能體在生成下一步動作
時所依賴的上下文
是動態構建的:

這里
表示到上一步為止的有效軌跡歷史,
是指示函數,
代表上下文的拼接操作。
當 JUDGE 的判斷
不為 'bad' 時,當前觀察到的信息
會被追加到歷史中,為后續決策提供證據。反之,若判斷為 'bad',該信息將被忽略,智能體將僅基于之前的有效歷史
進行下一步規劃。這一機制使得智能體能夠主動過濾掉無效或誤導性的信息,并在一個已知的「好」狀態上重新嘗試,從而有效阻斷錯誤鏈條。

自我糾錯的獎勵函數設計
為了讓策略網絡學會做出準確的判斷,JUDGE 動作需要有效的學習信號。為此,團隊設計了一個密集的中間獎勵函數
,專門用于訓練智能體的自我評估能力。
其核心思想是:當智能體的判斷
與一個客觀的「理想判斷」
一致時,給予正獎勵;反之則給予懲罰。

這里的挑戰在于如何確定理想判斷
。團隊通過一個外部的重排模型(Reranker)來近似生成該標準。具體來說,計算當前觀察信息
與問題標準答案(Ground-Truth Answer)之間的語義相關性得分
。該得分隨后被映射到一個離散的標簽('good' 或 'bad'),作為
的近似。
這種獎勵塑造(Reward Shaping)策略為智能體提供了密集的、步進式的反饋,引導其逐步學會如何準確評估信息價值,從而使 JUDGE 動作真正有效。
FictionalHot 基準的構建
為了公正且嚴格地評估智能體的真實推理能力,團隊構建了 FictionalHot 數據集。其核心目標是創建一個封閉世界(closed-world)的評測環境,以消除預訓練模型因「記憶」了訓練數據而帶來的評估偏差(即「數據污染」問題)。
構建流程如下:
- 采樣與改寫:從現有的問答數據集中采樣種子問題,并利用大模型對問題進行改寫,將其中所有真實世界的實體(人名、地名、事件等)替換為虛構實體,同時保持原問題復雜的推理結構不變。
- 生成虛構知識:為每一個虛構實體生成對應的、維基百科風格的說明文檔。這些文檔是解決新問題的唯一事實來源。
- 構建封閉知識庫:將這些生成的虛構文檔注入到一個標準的維基百科語料庫中,形成一個封閉且受控的知識環境。
通過這種設計,FictionalHot 迫使智能體必須依賴其程序化的搜索、整合與推理能力來解決問題,而不是依賴其參數中存儲的先驗知識。這樣能夠更干凈、更準確地評估 ReSeek 框架在提升智能體核心能力方面的真實效果。

多數研究實驗設置不一致
當前,對 Search Agent 的評估面臨著實驗設置的不一致的挑戰?,F有研究在多個關鍵方面存在差異:
- 知識庫 (Corpus): 使用的知識源各不相同,從靜態的維基百科快照(如 2018、2019 年版)到無法復現的實時互聯網,差異巨大。
- 測試集 (Test Sets): 有的研究使用涵蓋多種任務的廣泛測試集(如 NQ, TriviaQA 等,集合 A),有的則專注于需要復雜推理的多跳問答任務(如 HotpotQA, Musique 等,集合 B)。
- 訓練方式 (Training Regimes): 模型的訓練策略也五花八門,從完全不訓練,到在單個或多個不同數據集上進行訓練。
- 評估指標 (Metrics): 評估標準同樣不統一,涵蓋了從精確匹配(Exact Match)和 F1 分數,到使用大模型作為評判者(LLM-as-a-judge, LJ)等多種方式。

為了確保公平的比較,Reseek 采用了最普遍的訓練方法,在 NQ 和 TriviaQA 的訓練集上進行訓練,并采用精確匹配(Exact Match, EM)作為主要評估指標。該模型在 7 個主流的公開問答數據集上進行了測試,涵蓋了從簡單事實查詢到復雜多跳推理(如 HotpotQA)的各種任務。
此外,Reseek 還在自建的 FictionalHot 數據集上進行了測試。該數據集通過虛構內容,徹底杜絕了 “數據污染” 問題,能夠更公平地評估模型的真實推理能力。
主要結果
實驗結果表明,ReSeek 在 3B 和 7B 參數規模上均達到了業界領先的平均性能。該模型在 HotpotQA 和 Bamboogle 等需要復雜多跳推理的基準上優勢尤為突出,這證明了其自我糾錯范式在處理復雜問題上的高效性。
在 FictionalHot 基準上的測試揭示了一個關鍵現象:模型規模(7B vs. 3B)對性能的影響顯著減小。這表明 FictionalHot 成功地消除了模型因規模增大而產生的記憶優勢,從而能夠更準確地衡量其程序化推理能力,凸顯了該基準的評估價值。

交互輪次越多,模型效果越好?
為了分離行動預算(action budget)的影響并檢驗模型的迭代式自我糾錯能力,團隊對最大交互輪數(turns)進行了消融實驗。此處的「交互輪數」定義為模型為單個查詢可執行的最大動作次數。該設置旨在驗證額外的動作步驟能否幫助模型復核證據、修正假設,或者其性能是否在一次「搜索 - 回答」的最小循環后即已飽和。
如下圖,基線模型(baselines)的性能從一輪增至兩輪時有顯著提升,但在三輪和四輪時幾乎停滯,這與其典型的兩步工作流(搜索后回答)相符。
相比之下,ReSeek 的性能從一輪到四輪單調遞增,展現了更強的自我糾錯能力:當交互輪數更充裕時,它會在不確定時重新查詢證據、優化規劃并修正答案。平均性能也印證了這一趨勢,ReSeek 取得了最高的平均分,證明該方法能將更多的交互預算轉化為真實的性能增益,而非冗余操作。

JUDGE 機制到底有沒有用?
為了更深入地理解判斷器(Judge)機制在具體案例中的作用,而不僅僅是看最終的宏觀分數,團隊對其行為進行了細致的逐例分析。根據判斷器干預所產生的實際效果,將其分為三類(見下圖):
- 積極影響 (藍色): 這類情況代表判斷器的干預帶來了明確的好處。例如:(1) 當模型狀態能夠導向正確答案時,判斷器正確地給出了「是」的信號;(2) 當檢索到的信息不包含答案時,判斷器正確地給出「否」的信號,成功阻止了模型被錯誤信息干擾。
- 負面影響 (紅色): 這類情況代表了判斷器的干預起到了反作用。具體來說,就是判斷器發出了「是」的信號(認為當前信息足以回答問題),但模型最終還是給出了錯誤答案。
- 中性影響 (綠色): 其余所有情況歸為此類,表示判斷器的作用不明確或為中性。
分析結果非常清晰:在全部的測試上,「積極影響」 的比例都非常高,穩定在 40-50% 之間。相比之下,「負面影響」的比例最低,通常不到 25%。正面與負面影響之間的這種顯著差距,充分證明了該設計的有效性。這一質性證據表明,判斷器是整個框架中一個可靠且高效的關鍵組件。

展望
ReSeek 框架的核心價值在于為復雜的業務場景提供高可靠性的決策支持。在需要實時數據或熱點理解等領域,簡單的「檢索 - 生成」已無法滿足需求。這些任務不僅要求信息實時,更要求推理過程的嚴謹無誤。ReSeek 的自我糾錯機制,正是為了解決這一痛點,通過賦予 Agent「反思」和「修正」的能力,顯著降低因單點錯誤導致全盤失敗的風險,提升復雜任務的成功率。
當然,通往通用智能 Agent 的道路充滿挑戰。當前的訓練數據還不充分,距離實際落地還有一定距離,還面臨一些有待解決問題和算法挑戰, 相信在未來,Search Agent 能夠作為一種基本的 Agent 范式,服務于每一位用戶。
























