NeurIPS 2025 Spotlight | 讓檢索、推理真正「合體」的小而強模型，AceSearcher來了

2025-10-24 13:00:19

近期，來自埃默里大學，佐治亞理工大學，羅格斯大學，紐約州立大學奧爾巴尼分校，得克薩斯大學西南醫學中心的研究團隊發布 AceSearcher 模型。

如何讓一個并不巨大的開源大模型，在面對需要多步檢索與復雜邏輯整合的問題時，依然像 “冷靜的研究員” 那樣先拆解、再查證、后歸納，最后給出可核實的結論？

近期，來自埃默里大學，佐治亞理工大學，羅格斯大學，紐約州立大學奧爾巴尼分校，得克薩斯大學西南醫學中心的研究團隊發布 AceSearcher 模型，一個讓同一語言模型在推理時兼任 “問題分解者（Decomposer）” 與 “答案求解者（Solver）” 的合作式自博弈框架：它以兩階段訓練（SFT→RFT）為骨架，把 “會拆題、會找料、會整合” 的完整能力鏈擰成了一根繩。更重要的是，這不是單純的 “又一個新模型”，而是一個更優的框架：它把公開的推理數據集引入到檢索增強的訓練流程中，讓模型真正學會如何把推理與檢索結合起來，顯著提升了復雜檢索任務的效果。

在三大類推理密集任務、十個數據集上，它拿到了平均 EM +7.6% 的優勢；32B 版本在文檔級金融推理上，表現可對標 685B 的 DeepSeek-V3，但參數量卻不到 5%。

論文題目：AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
接收會議：NeurIPS 2025 Spotlight
論文地址：https://arxiv.org/pdf/2509.24193
模型 / 數據集地址：https://huggingface.co/AceSearcher
代碼地址：https://github.com/ritaranx/AceSearcher/

把人類的 “拆解 — 檢索 — 整合” 過程，規約成一個統一策略

現實世界的問題，常常不是 “一問一答” 能解決：線索散落在不同文檔，需要多跳檢索把證據拼齊，還要在此基礎上進行跨段落乃至跨文檔的整合推理。傳統 RAG 在這里容易 “卡殼”—— 單步檢索召回不足、推理鏈整合不穩、推理時擴展又容易帶來延遲和資源開銷。

AceSearcher 的關鍵，是把這一流程變成一個單模型、雙角色的閉環：

分解者：把原始問題拆成子問題序列，以子問題為查詢錨點，逐跳拉起相關證據；
求解者：在每一跳證據上產出中間答案，最終基于匯總出答案。

直觀來說：分解更好 → 檢索更準 → 整合更穩 → 答案更對。AceSearcher 就是沿著這條因果鏈，推動與在一個模型體內彼此成就。

AceSearcher 到底 “練” 了什么？

一、Stage I：監督微調（SFT）——“打底三件套”：會搜、會拆、會想

SFT 階段的訓練集是一個覆蓋面很廣的混合拼盤（約 18 萬樣本），包括：

1. 上下文豐富的 QA（NQ、SQuAD、DROP、NarrativeQA、Quoref、ROPES、FEVER、TAT-QA），讓模型學會在證據上作答；

2. 問題分解數據（GSM8K、ConvFinQA、StrategyQA），讓模型學會把復雜問題拆成子目標；

3. 鏈式推理數據（GSM8K、TabMWP、IfQA、MathInstruct 等 CoT/PoT），讓模型形成多步推理的 “肌肉記憶”。

這一步的關鍵是：AceSearcher 首次系統地把這些公開的推理數據集，與檢索增強任務結合起來。我們希望模型不僅學會了 “如何在上下文中找答案”，更學會了 “如何通過推理去驅動檢索、再通過檢索去支撐推理”。這是它與以往 RAG 方法最大的差別之一。

二、Stage II：偏好強化微調（RFT）—— 只看 “最終答案”，也能學會 “更好的過程”

現實里很難拿到 “中間推理步驟” 的標注。AceSearcher 的 RFT 階段因此選擇只用最終答案來給獎勵：

在 RAG 環境（HotpotQA、2WikiMHQA、HOVER 等）下，先采樣 m 條分解路徑，每條分解上再采樣條完整解答軌跡；
在上下文推理環境（GSM8K、TabMWP、ConvFinQA 等）下，仍負責拆題，在表格 / 文本等上下文上生成中間答案與最終解；
獎勵基于 EM（Exact Match）與格式校驗，對整條軌跡評分；
把 “最好 vs 最差” 的分解、子問答、最終回答構造成偏好對，合并成，用 DPO（Direct Preference Optimization）類目標訓練；并采用在線多輪迭代（第 t 輪用當前策略采樣偏好，再更新到 t+1 輪）。

實現上還有兩個細節很 “工程”：

控制長度與成本：中間子問題階段只產出短答案，僅在最終回答處生成較完整的推理；
檢索預算分配：總檢索配額 N=15，如果分解出 n 個子問題，則每個子問題最多分到個文檔，以免某一步 “吃太多”。

在這里，利用推理數據集預訓練出來的 “分解與推理能力”，在 RFT 階段通過最終答案獎勵被進一步固化和遷移到復雜檢索任務，形成了推理與檢索的真正耦合。

評測設置：任務譜系、檢索器與指標

論文的評測覆蓋三個任務大類，共十個公開數據集：

多跳問答：2WikiMHQA、HotpotQA、Bamboogle、MusiQue；
多跳事實驗證：HOVER、ExFEVER；
文檔級金融 / 數學推理：我們使用 DocMath-Eval 基準，包含 TAT-QA、FinQA、MultiHiertt、TAT-HQA 等任務。

實驗結果分析：既要 “能搜會拆”，也要 “合并同類項”

1）多跳 QA / 事實驗證：平均提升 7.6%，小中模型亦能 “越級”

在六個數據集的綜合評測中（2WikiMHQA、HotpotQA、Bamboogle、MusiQue、HOVER、ExFEVER），AceSearcher 全面優于近期開源 / 閉源基線；其中 32B 版本的綜合得分達到 60.7，相對多種強基線的平均 EM 最高可增 7.6%。更具代表性的是 “參數效率”：1.5B 版本已可對標 / 超越 8B 級基線，8B 版本還壓過 70B 級模型。

2）文檔級推理：32B ≈ DeepSeek-V3@685B（≈1/20 參數）

在 DocMath-Eval 上，AceSearcher-32B 的平均準確率與 DeepSeek-V3（685B）幾乎持平；14B 版本還超過了若干 72B 級模型；8B 相對同量級 / 略大模型亦有明顯優勢。這表明 “分解→檢索→整合” 的統一范式，能在長文檔與表格混合的復雜情境里保持穩健的泛化。