揭秘Fathom-DeepResearch：4B小模型如何實現(xiàn)媲美GPT-4o的深度研究能力

作者：ChallengeHub 2025-10-28 02:11:00

這篇論文要解決的核心問題就是：如何讓小型語言模型（只有40億參數(shù)）也能像人類研究員一樣，通過聯(lián)網(wǎng)搜索、多輪推理，最終生成一份詳實的研究報告？

揭秘Fathom-DeepResearch：讓小模型也能做深度研究的秘密武器

論文鏈接：https://arxiv.org/pdf/2509.24107v1
代碼鏈接：https://github.com/FractalAIResearchLabs/Fathom-DeepResearch

一、研究背景：為什么我們需要更聰明的搜索助手？

想象一下，你想了解一個復(fù)雜的問題，比如"某個體育賽事的歷史背景和相關(guān)人物"，你會怎么做？可能需要在搜索引擎上反復(fù)查詢，打開無數(shù)網(wǎng)頁，然后自己整理信息。現(xiàn)在的大語言模型雖然很聰明，但在處理這類需要深度調(diào)研的任務(wù)時，還是有點力不從心。

這篇論文要解決的核心問題就是：如何讓小型語言模型（只有40億參數(shù)）也能像人類研究員一樣，通過聯(lián)網(wǎng)搜索、多輪推理，最終生成一份詳實的研究報告？

目前的開源系統(tǒng)面臨幾個痛點：

訓(xùn)練數(shù)據(jù)不夠硬核：現(xiàn)有的數(shù)據(jù)集（如TriviaQA）問題太簡單，模型甚至不用搜索就能答對
工具調(diào)用不穩(wěn)定：模型在多輪搜索中容易"失控"，要么重復(fù)調(diào)用同一個搜索，要么亂調(diào)用
缺乏綜合能力：大多數(shù)系統(tǒng)只擅長回答封閉式問題（有標(biāo)準(zhǔn)答案的），但對開放式探索性問題（需要綜合多方信息）表現(xiàn)不佳

圖片

作者的核心貢獻可以概括為三個關(guān)鍵創(chuàng)新：

DuetQA數(shù)據(jù)集：通過多智能體自我對弈生成了5000個高質(zhì)量問答對，每個問題都必須通過實時搜索才能回答（不能靠模型的記憶蒙混過關(guān)）
RAPO算法（獎勵感知策略優(yōu)化）：這是對現(xiàn)有強化學(xué)習(xí)算法GRPO的改進，解決了多輪工具調(diào)用時訓(xùn)練不穩(wěn)定的問題，讓模型能穩(wěn)定地進行超過20次工具調(diào)用
可控的步驟級獎勵機制：不僅獎勵"答對了"，還細(xì)致地評估每一步搜索是否有價值——是探索新信息還是在重復(fù)無用功，從而引導(dǎo)模型形成更高效的搜索策略

二、相關(guān)工作：站在巨人的肩膀上

論文梳理了當(dāng)前深度搜索領(lǐng)域的幾類工作：

閉源商業(yè)系統(tǒng)

如OpenAI的DeepResearch、Google的Gemini等，表現(xiàn)強勁但不開源，普通研究者無法復(fù)現(xiàn)和改進。

開源嘗試

包括WebSailor、Jan-Nano、ZeroSearch等模型，雖然做出了努力，但在復(fù)雜任務(wù)上與閉源系統(tǒng)還有明顯差距。這些系統(tǒng)普遍存在的問題是：

訓(xùn)練數(shù)據(jù)質(zhì)量不高，很多問題可以通過簡單的一兩次搜索解決
強化學(xué)習(xí)訓(xùn)練不穩(wěn)定，模型容易學(xué)壞（比如瘋狂重復(fù)調(diào)用工具但不產(chǎn)生有用結(jié)果）
缺乏對長鏈推理的有效控制機制

現(xiàn)有數(shù)據(jù)集的局限

像HotpotQA、2WIKI這類多跳問答數(shù)據(jù)集，雖然標(biāo)榜"多跳推理"，但實際上很多問題可以通過模型的內(nèi)部知識直接回答，或者只需要訪問維基百科就夠了。真實世界的搜索場景要復(fù)雜得多——信息分散在各種網(wǎng)站上，存在噪音，需要交叉驗證。

圖片

三、核心方法：兩階段訓(xùn)練+智能獎勵設(shè)計

Fathom-DeepResearch系統(tǒng)由兩個核心模型組成：

3.1 Fathom-Search-4B：會搜索的推理模型

這個模型的任務(wù)是像偵探一樣在互聯(lián)網(wǎng)上尋找證據(jù)。它有兩個工具：

search_urls（網(wǎng)頁搜索）：輸入查詢詞，返回相關(guān)網(wǎng)頁列表及摘要
query_url（定向提取）：打開某個網(wǎng)頁，根據(jù)特定目標(biāo)提取有用信息

訓(xùn)練分兩個階段進行：

Stage 1：學(xué)會基本的搜索能力
在DuetQA數(shù)據(jù)集上訓(xùn)練10個epoch，使用RAPO算法。這個階段的重點是讓模型學(xué)會：

正確使用工具（格式規(guī)范）
能夠通過搜索找到答案
避免訓(xùn)練崩潰（GRPO容易出現(xiàn)的問題）

訓(xùn)練目標(biāo)函數(shù)結(jié)合了格式獎勵和答案準(zhǔn)確性：

Stage 2：學(xué)會高效的長鏈推理
繼續(xù)訓(xùn)練2個epoch，但這次使用了可控的步驟級獎勵。這個階段的數(shù)據(jù)混合了DuetQA、數(shù)學(xué)推理數(shù)據(jù)和MuSiQue多跳問答。

關(guān)鍵創(chuàng)新在于獎勵函數(shù)的設(shè)計。系統(tǒng)會用GPT-4.1給每個工具調(diào)用打標(biāo)簽：

對于search_urls：

UNIQUESEARCH（探索新信息）：搜索之前沒見過的實體或事實
REDUNDANTSEARCH（重復(fù)搜索）：和之前的查詢高度相似

對于query_url：

EXPLORATION（探索）：第一次訪問某個網(wǎng)頁
VERIFICATION（驗證）：交叉驗證已有信息（允許有限次數(shù)）
REDUNDANTQUERY（冗余查詢）：超過驗證次數(shù)限制的重復(fù)查詢

基于這些標(biāo)簽，獎勵函數(shù)變成：

3.2 RAPO：讓訓(xùn)練不再崩潰的秘密

回放緩沖：為每個問題維護一個"最佳答案庫"。如果某次訓(xùn)練所有嘗試都失敗了，就從庫里抽一個成功案例混進去，避免方差歸零。

圖片

從圖中可以看到，GRPO的熵值和梯度范數(shù)快速下降（意味著模型失去探索能力），而RAPO能保持穩(wěn)定的訓(xùn)練信號。

3.3 Fathom-Synthesizer-4B：會寫報告的綜合模型

第二個模型的任務(wù)是把搜索軌跡變成一份可讀的研究報告。它采用"先規(guī)劃后撰寫"的策略：

規(guī)劃階段（在標(biāo)簽內(nèi)，用戶看不到）：

問題分解：把大問題拆成若干子問題
證據(jù)映射：將搜索到的每個網(wǎng)址和內(nèi)容對應(yīng)到相關(guān)章節(jié)
洞察策略：規(guī)劃如何從證據(jù)中提煉觀點

撰寫階段（生成實際報告）：

執(zhí)行摘要：總覽全文
主體章節(jié)：按照分解的子問題組織，每個關(guān)鍵論斷都標(biāo)注引用來源
引用列表：列出所有引用的網(wǎng)址

訓(xùn)練數(shù)據(jù)（DeepResearch-SFT）從GPT-5蒸餾而來，包含2500個開放式問題及其完整的規(guī)劃+報告對。為了處理長文本，使用YaRN技術(shù)將Qwen3-4B的上下文窗口從40K擴展到65K。

圖片

四、實驗效果：小模型也能打敗大模型

4.1 深度搜索任務(wù)上的表現(xiàn)

在五個主流深度搜索基準(zhǔn)測試上（SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue），F(xiàn)athom-Search-4B取得了開源模型中的最佳成績：

SimpleQA（真實世界問答）：90.0%準(zhǔn)確率，超過了所有開源競爭對手，甚至比GPT-4o（搜索版）還高5.6個百分點
WebWalker（長鏈推理）：50.0%準(zhǔn)確率，比第二名II-Search-4B高出9.2個百分點
FRAMES（多幀推理）：64.8%準(zhǔn)確率，顯著領(lǐng)先

更有意思的是，在一些任務(wù)上，這個40億參數(shù)的小模型甚至能接近甚至超越o3這樣的超大模型（無搜索版本）。

4.2 通用推理能力依然強勁

為了驗證模型沒有"偏科"（只會搜索不會推理），作者還在四個通用推理基準(zhǔn)上測試了Fathom-Search-4B：

GPQA-Diamond（研究生級科學(xué)問題）：60.1%
MedQA（醫(yī)學(xué)問答）：75.4%
AIME-25（數(shù)學(xué)競賽）：70.0%

這些成績證明，模型在獲得搜索能力的同時，原有的推理能力沒有退化。

圖片

從工具調(diào)用分布圖可以看出，DuetQA數(shù)據(jù)集確實更"硬核"——o3模型在這個數(shù)據(jù)集上平均需要3.3次搜索才能答對，分布呈長尾；而在SimpleQA上平均只需1.9次。這證明了數(shù)據(jù)集設(shè)計的有效性。

4.3 深度研究報告生成

在DeepResearch-Bench（開放式研究報告生成基準(zhǔn)）上，F(xiàn)athom-DeepResearch的整體得分為45.47，超過了Claude-3.7、Perplexity Deep Research、Grok等商業(yè)系統(tǒng)，僅次于Gemini-2.5-Pro和OpenAI DeepResearch。

具體指標(biāo)上：

RACE綜合評分：45.47（考察全面性、深度、可讀性）
引用準(zhǔn)確率：56.1%（保證引用的來源真實可靠）
有效引用數(shù)：38.3（足夠的證據(jù)支撐）

考慮到這是一個40億參數(shù)的開源模型，這個成績相當(dāng)亮眼。

圖片

左圖展示了準(zhǔn)確率與工具調(diào)用次數(shù)的關(guān)系，右圖展示了準(zhǔn)確率與回答長度的關(guān)系。可以看到Fathom-Search-4B（Stage-2）在準(zhǔn)確率和效率上都取得了最佳平衡。

4.4 消融實驗：每個組件都很重要

RAPO vs GRPO：如表3所示，使用RAPO訓(xùn)練的模型在所有任務(wù)上都優(yōu)于GRPO，且平均生成長度更短（5000 vs 9000 tokens），說明RAPO既提升了準(zhǔn)確率，又提高了效率。

可控步驟級獎勵的作用：如表4所示，引入步驟級獎勵后，WebWalker任務(wù)的準(zhǔn)確率從43.2%提升到50.0%，同時平均生成長度從5500增加到14500 tokens。這說明模型學(xué)會了在需要時進行更深入的探索。

圖片

從訓(xùn)練曲線可以看出：

使用可控步驟級獎勵時，模型的回答長度穩(wěn)步增長到14000 tokens，說明學(xué)會了長鏈推理
使用普通獎勵時，長度在6000 tokens就飽和了，無法進一步提升
RAPO相比GRPO，訓(xùn)練過程更平滑，沒有大幅波動

五、論文總結(jié)：開源深度研究的新里程碑

這篇論文的核心價值在于：證明了小型語言模型（40億參數(shù)）通過精心設(shè)計的訓(xùn)練流程，也能在復(fù)雜的深度研究任務(wù)上與大型商業(yè)模型一較高下。

三個關(guān)鍵要素缺一不可：

高質(zhì)量數(shù)據(jù)：DuetQA通過多智能體自我對弈，生成了真正需要聯(lián)網(wǎng)搜索才能回答的問題，避免了模型"走捷徑"
穩(wěn)定訓(xùn)練：RAPO算法解決了多輪工具調(diào)用場景下的訓(xùn)練不穩(wěn)定問題，讓長鏈推理成為可能
智能獎勵：步驟級獎勵機制不僅關(guān)注最終答案，還細(xì)致評估每一步操作的價值，引導(dǎo)模型形成高效的搜索策略

局限性也值得注意：作者坦誠地指出，當(dāng)前系統(tǒng)在測試時的可擴展性有限——雖然訓(xùn)練時能學(xué)會長鏈推理，但推理時的表現(xiàn)提升有限。此外，同步訓(xùn)練流程在大規(guī)模應(yīng)用時效率不高，未來需要轉(zhuǎn)向異步框架。

從工程實踐角度看，這個工作的意義在于：降低了深度研究能力的門檻。以前只有資源雄厚的大公司才能訓(xùn)練出具備這種能力的模型，現(xiàn)在普通研究者和開發(fā)者也能在40億參數(shù)規(guī)模上實現(xiàn)類似功能。這對于推動AI民主化、加速相關(guān)應(yīng)用落地都有重要價值。

未來的研究方向可能包括：如何進一步提升測試時的可擴展性？如何在更小的模型（比如10億參數(shù)）上實現(xiàn)類似能力？如何讓系統(tǒng)更好地處理多模態(tài)信息（圖表、視頻等）？這些都是值得探索的問題。

責(zé)任編輯：武曉燕來源： ChallengeHub