Agentic Deep Research新范式,推理能力再突破,可信度增加,螞蟻安全團隊出品
盡管 LLM 的能力與日俱增,但其在復雜任務上的表現仍受限于靜態的內部知識。為從根本上解決這一限制,突破 AI 能力界限,業界研究者們提出了 Agentic Deep Research 系統,在該系統中基于 LLM 的 Agent 通過自主推理、調用搜索引擎和迭代地整合信息來給出全面、有深度且正確性有保障的解決方案。
OpenAI 和 Google 的研究者們總結了 Agentic Deep Researcher 的幾大優勢:(1)深入的問題理解能力(Comprehensive Understanding):能夠處理復雜、多跳的用戶提問;(2)強大的信息整合能力(Enhanced Synthesis):能夠將廣泛甚至沖突的信息源整合為合理的輸出;(3)減輕用戶的認知負擔(Reduced User Effort):整個 research 過程完全自主,不需要用戶的過多干預。
現存最先進的 Agentic Deep Research 系統往往基于由可驗證結果獎勵指導的強化學習訓練,盡管該訓練范式帶來了顯著的性能收益,但仍存在以下核心問題:
- 梯度沖突(Gradients Conflicts):在基于可驗證結果獎勵的強化學習范式中,即使中間的推理過程或研究策略是有效的,只要最終答案錯誤,整個推理軌跡都會受到懲罰。這種粗粒度的獎勵設計在中間推理步驟與最終答案之間引入了潛在的梯度沖突,阻礙了模型發現更優的推理能力和研究策略,從而限制了其泛化能力
- 獎勵稀疏(Reward sparsity):基于結果的強化學習僅依賴最終答案生成獎勵,導致每個訓練樣本只能提供稀疏的反饋信號。這嚴重限制了策略優化的效率,因為它增加了對更大規模訓練數據和更長訓練周期的依賴。
以上兩個限制限制了 Agentic Deep Research 系統的性能上線,為決解這兩大限制,來自螞蟻安全與智能實驗室團隊提出了 Atom-Searcher,進一步推動了 Agentic Deep Research 系統的性能邊界。

- 論文標題:Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
- 論文:https://arxiv.org/abs/2508.12800
- Github: https://github.com/antgroup/Research-Venus
- Huggingface: https://huggingface.co/dikw/Atom-Searcher

方法介紹
本研究提出了一種創新性的 Agentic Deep Research 系統訓練框架 Atom-Searcher,結合監督微調(SFT)與基于細粒度獎勵的強化學習構建強大的 Agentic Deep Research 系統。
與現存 Agentic Deep Research 訓練框架相比,Atom-Searcher 創新地提出了 Atomic Thought 推理范式,引導 LLM 進行更加深入、可信和可解釋的推理;然后引入 Reasoning Reward Model(RRM)對 Atomic Thought 式的推理過程進行監督,構建細粒度的 Atomic Thought Reward(ATR);進而提出一種課程學習啟發的獎勵融合策略將 ATR 與可驗證結果獎勵進行聚合;最后基于聚合獎勵進行強化學習訓練。

Atomic Thought 推理范式

針對 Agentic Deep Research 系統中 LLM 生成的推理軌跡(<think>)包含過多冗余 tokens 且推理深度欠缺的問題,Atomic Thought 范式將 <think> 分解為更加細粒度的 “功能單元”,如 <Verification>、<hypothesis > 等,該范式有助于引導 LLM 的推理過程更加符合人的認知行為,且高度模塊化的方式能大大減少無意義 tokens。更進一步,為激發 LLM 自主將 < think > 分解為 Atomic Thoughts(<Verification>、<hypothesis > 等)的能力,作者們精心構建了 1000k 高質量 Atomic Thought 指令微調數據,對 LLM 進行 SFT。
細粒度 Atomic Thought Reward 構建
在 Agentic Deep Research 系統中,直接使用 Reasoning Reward Model(RRM)對推理過程進行監督,往往因為 < think > 中的低信噪比(過多冗余 tokens)而效果不佳。而 Atomic Thought 的提出,很好地解決了該問題,除了減少了 < think > 中的冗余 tokens,Atomic Thoughts(<Verification>、<hypothesis > 等)還為 RRM 提供了監督錨點,清晰的模塊化結構使得 RRM 能夠準確地評估每個功能單元的質量。因此,作者們引入 RRM 對 Atom-Thoughts 進行監督,從而得到細粒度的 Atomic Thought Reward,用于緩解強化學習訓練中的梯度沖突和獎勵稀疏問題。
課程學習啟發的獎勵聚合策略
基于可驗證結果的獎勵的 Agentic Deep Research 系統之所以存在梯度沖突問題,是由于基于結果的獎勵在 token 級別的獎勵分配上過于粗糙。具體來說,它將中間推理步驟的正確性完全歸因于最終答案,常常在不考慮各步驟實際貢獻的情況下對其進行獎勵或懲罰。這種錯位在優化過程中會引發梯度沖突。為解決這一問題,我們將 ATR 與結果獎勵相結合,利用 ATR 作為輔助信號來校準結果獎勵,從而緩解梯度沖突。
然而,使用靜態的獎勵加權系數無法與訓練動態保持一致。具體而言,在訓練初期,模型能力尚有限,難以生成完全正確的答案,但更有可能探索出對最終正確解有貢獻的有用 “原子思維”。如果此階段僅依賴基于結果的獎勵,這些有益的原子思維可能因最終答案錯誤而遭到不公正的懲罰;相反,一些有害的原子思維也可能被錯誤地強化,導致嚴重的梯度沖突,因而需要 ATR 進行較強的校準。隨著訓練的推進,模型能力逐步提升,其推理軌跡與正確答案的對齊程度也日益提高。因此,梯度沖突逐漸減弱,而來自 ATR 的過度校準可能會引入不必要的噪聲,反而損害最終的準確性。
強化學習訓練
基于混合獎勵,本文采用了 GRPO 算法進行強化學習訓練。并使用了 Loss Masking 策略保證訓練的穩定性。具體而言,在原始的 GRPO 框架中,損失函數會計算整個推理路徑中所有 token 的梯度。但在 Atom-Searcher 中,模型的輸出路徑包含由外部環境檢索得到的內容(如搜索結果),這些內容不是模型生成的,也不可訓練。為了避免模型在訓練時被這些靜態、不可控的內容誤導,本文采用了 Loss Masking 機制,將檢索結果部分的 token 排除在損失計算之外。
實驗效果
主實驗
Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表現均十分亮眼。在 In-Domain Benchmarks (NQ、 TQ、HotpotQA、2Wiki)上 Atom-Searcher 相較于最優 baseline——DeepResearcher 取得了 8.5% 的平均性能提升,在 Out-of-Domain Benchmarks(Musique、 Bamboogle、 PopQA)上 Atom-Searcher 相較于最優 baseline——DeepResearcher 取得了 2.5% 的性能提升。

消融實驗
作者們證明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的貢獻,并證明了相較于傳統的 < think > 推理范式 Atomic Thought 范式為 RRM 提供了有效的監督錨點,從而帶來了性能提升

案例分析
作者們通過案例分析對比了 Atom-Searcher 與最優 baseline——DeepResearcher 的推理過程。展示了 Atom-Searcher 的優勢:(1)Atom-Searcher 在其推理過程中自主生成了 Atomic Thoughts,展現出更接近人類的認知行為,例如問題分析、提出解決方案假設、預測錯誤以及規劃下一步操作,使其推理過程更加深入且清晰;(2)Atom-Searcher 會觸發更多的搜索調用,從而獲取更豐富的外部信息,以確保答案的正確性。這些優勢表明,Atom-Searcher 在更復雜的 Deep Research 任務中具有巨大潛力。

























