NeurIPS 2025 Spotlight | 讓檢索、推理真正「合體」的小而強模型,AceSearcher來了
如何讓一個并不巨大的開源大模型,在面對需要多步檢索與復雜邏輯整合的問題時,依然像 “冷靜的研究員” 那樣先拆解、再查證、后歸納,最后給出可核實的結論?
近期,來自埃默里大學,佐治亞理工大學,羅格斯大學,紐約州立大學奧爾巴尼分校,得克薩斯大學西南醫學中心的研究團隊發布 AceSearcher 模型,一個讓同一語言模型在推理時兼任 “問題分解者(Decomposer)” 與 “答案求解者(Solver)” 的合作式自博弈框架:它以兩階段訓練(SFT→RFT)為骨架,把 “會拆題、會找料、會整合” 的完整能力鏈擰成了一根繩。更重要的是,這不是單純的 “又一個新模型”,而是一個更優的框架:它把公開的推理數據集引入到檢索增強的訓練流程中,讓模型真正學會如何把推理與檢索結合起來,顯著提升了復雜檢索任務的效果。
在三大類推理密集任務、十個數據集上,它拿到了平均 EM +7.6% 的優勢;32B 版本在文檔級金融推理上,表現可對標 685B 的 DeepSeek-V3,但參數量卻不到 5%。

- 論文題目:AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
- 接收會議:NeurIPS 2025 Spotlight
- 論文地址:https://arxiv.org/pdf/2509.24193
- 模型 / 數據集地址:https://huggingface.co/AceSearcher
- 代碼地址:https://github.com/ritaranx/AceSearcher/
把人類的 “拆解 — 檢索 — 整合” 過程,規約成一個統一策略
現實世界的問題,常常不是 “一問一答” 能解決:線索散落在不同文檔,需要多跳檢索把證據拼齊,還要在此基礎上進行跨段落乃至跨文檔的整合推理。傳統 RAG 在這里容易 “卡殼”—— 單步檢索召回不足、推理鏈整合不穩、推理時擴展又容易帶來延遲和資源開銷。
AceSearcher 的關鍵,是把這一流程變成一個單模型、雙角色的閉環:
- 分解者
:把原始問題
拆成子問題序列
,以子問題為查詢錨點,逐跳拉起相關證據; - 求解者
:在每一跳證據
上產出中間答案
,最終基于
匯總出答案
。
直觀來說:分解更好 → 檢索更準 → 整合更穩 → 答案更對。AceSearcher 就是沿著這條因果鏈,推動
與
在一個模型體內彼此成就。

AceSearcher 到底 “練” 了什么?
一、Stage I:監督微調(SFT)——“打底三件套”:會搜、會拆、會想
SFT 階段的訓練集是一個覆蓋面很廣的混合拼盤(約 18 萬樣本),包括:
1. 上下文豐富的 QA(NQ、SQuAD、DROP、NarrativeQA、Quoref、ROPES、FEVER、TAT-QA),讓模型學會在證據上作答;
2. 問題分解數據(GSM8K、ConvFinQA、StrategyQA),讓模型學會把復雜問題拆成子目標;
3. 鏈式推理數據(GSM8K、TabMWP、IfQA、MathInstruct 等 CoT/PoT),讓模型形成多步推理的 “肌肉記憶”。
這一步的關鍵是:AceSearcher 首次系統地把這些公開的推理數據集,與檢索增強任務結合起來。我們希望模型不僅學會了 “如何在上下文中找答案”,更學會了 “如何通過推理去驅動檢索、再通過檢索去支撐推理”。這是它與以往 RAG 方法最大的差別之一。
二、Stage II:偏好強化微調(RFT)—— 只看 “最終答案”,也能學會 “更好的過程”
現實里很難拿到 “中間推理步驟” 的標注。AceSearcher 的 RFT 階段因此選擇只用最終答案來給獎勵:
- 在 RAG 環境(HotpotQA、2WikiMHQA、HOVER 等)下,
先采樣 m 條分解路徑,每條分解上
再采樣
條完整解答軌跡; - 在上下文推理環境(GSM8K、TabMWP、ConvFinQA 等)下,
仍負責拆題,
在表格 / 文本等上下文上生成中間答案與最終解; - 獎勵基于 EM(Exact Match) 與格式校驗,對整條軌跡
評分; - 把 “最好 vs 最差” 的分解、子問答、最終回答構造成偏好對,合并成
,用 DPO(Direct Preference Optimization) 類目標訓練;并采用在線多輪迭代(第 t 輪用當前策略采樣偏好,再更新到 t+1 輪)。
實現上還有兩個細節很 “工程”:
- 控制長度與成本:中間子問題階段只產出短答案,僅在最終回答處生成較完整的推理;
- 檢索預算分配:總檢索配額 N=15,如果分解出 n 個子問題,則每個子問題最多分到
個文檔,以免某一步 “吃太多”。
在這里,利用推理數據集預訓練出來的 “分解與推理能力”,在 RFT 階段通過最終答案獎勵被進一步固化和遷移到復雜檢索任務,形成了推理與檢索的真正耦合。

評測設置:任務譜系、檢索器與指標
論文的評測覆蓋三個任務大類,共十個公開數據集:
- 多跳問答:2WikiMHQA、HotpotQA、Bamboogle、MusiQue;
- 多跳事實驗證:HOVER、ExFEVER;
- 文檔級金融 / 數學推理:我們使用 DocMath-Eval 基準,包含 TAT-QA、FinQA、MultiHiertt、TAT-HQA 等任務。
實驗結果分析:既要 “能搜會拆”,也要 “合并同類項”
1)多跳 QA / 事實驗證:平均提升 7.6%,小中模型亦能 “越級”
在六個數據集的綜合評測中(2WikiMHQA、HotpotQA、Bamboogle、MusiQue、HOVER、ExFEVER),AceSearcher 全面優于近期開源 / 閉源基線;其中 32B 版本的綜合得分達到 60.7,相對多種強基線的平均 EM 最高可增 7.6%。更具代表性的是 “參數效率”:1.5B 版本已可對標 / 超越 8B 級基線,8B 版本還壓過 70B 級模型。

2)文檔級推理:32B ≈ DeepSeek-V3@685B(≈1/20 參數)
在 DocMath-Eval 上,AceSearcher-32B 的平均準確率與 DeepSeek-V3(685B) 幾乎持平;14B 版本還超過了若干 72B 級模型;8B 相對同量級 / 略大模型亦有明顯優勢。這表明 “分解→檢索→整合” 的統一范式,能在長文檔與表格混合的復雜情境里保持穩健的泛化。

3)效率與可擴展性:少量數據就能 “拉滿”,推理 - 時間性價比更優
- 數據效率:SFT 只取 2K 樣本時,性能已可追平如 Search-R1 等強基線;RFT 追加 5K 提示后進一步拉升。
- 推理效率:雖然比分步 RAG 多了 “分解 + 多跳” 的環節,但相對樹搜索 / 思維鏈擴展等方法,AceSearcher 在相近推理時間下拿到更高分。

消融:為什么一定要 “分解 + 求解” 都練?
系統消融清晰地回答了這個問題:
- 缺哪樣都不行:去掉 RFT 或 SFT,成績明顯下滑;把
替換成 “凍結” 的通用指令模型,也會失分; - 只練上下文 QA 遠遠不夠:不加入 “分解 / 推理” 類數據,泛化與魯棒性都不如 “全配方”;
- RL 替代方案不如在線迭代 DPO 穩定:RAFT、REST-EM、離線 DPO、迭代 SimPO 都做了橫比,AceSearcher 綜合更優。
這背后,其實是
與
的正反饋回路:好分解讓好檢索與好整合更容易發生,而持續的最終答案獎勵又把這條路走得更穩。這再次印證:AceSearcher 的貢獻不僅是性能超越,更是框架的超越。它證明了推理與檢索不該被割裂開來,而應在一個統一框架中通過數據與優化手段協同提升。

未來:從 “固定檢索器” 到 “聯合優化”,再到更廣的任務譜系
AceSearcher 證明了:聰明的訓練范式勝過盲目擴參。接下來有三條有潛力的路:
1. 檢索 - 推理聯合優化:目前檢索器固定,未來可嘗試把檢索表征、重排與生成策略聯學,進一步提高 “證據命中→推理穩定” 的閉環質量;
2. 極端時延場景的工程優化:在保持性能的前提下做緩存、動態步長與早停機制;
3. 更廣任務類型:從多跳問答 / 事實驗證 / 長文檔,擴展到對話式信息采集、實時工具使用、跨模態檢索等。




































