揭秘Fathom-DeepResearch:4B小模型如何實現(xiàn)媲美GPT-4o的深度研究能力
揭秘Fathom-DeepResearch:讓小模型也能做深度研究的秘密武器

- 論文鏈接:https://arxiv.org/pdf/2509.24107v1
- 代碼鏈接:https://github.com/FractalAIResearchLabs/Fathom-DeepResearch
一、研究背景:為什么我們需要更聰明的搜索助手?
想象一下,你想了解一個復(fù)雜的問題,比如"某個體育賽事的歷史背景和相關(guān)人物",你會怎么做?可能需要在搜索引擎上反復(fù)查詢,打開無數(shù)網(wǎng)頁,然后自己整理信息。現(xiàn)在的大語言模型雖然很聰明,但在處理這類需要深度調(diào)研的任務(wù)時,還是有點力不從心。
這篇論文要解決的核心問題就是:如何讓小型語言模型(只有40億參數(shù))也能像人類研究員一樣,通過聯(lián)網(wǎng)搜索、多輪推理,最終生成一份詳實的研究報告?
目前的開源系統(tǒng)面臨幾個痛點:
- 訓(xùn)練數(shù)據(jù)不夠硬核:現(xiàn)有的數(shù)據(jù)集(如TriviaQA)問題太簡單,模型甚至不用搜索就能答對
- 工具調(diào)用不穩(wěn)定:模型在多輪搜索中容易"失控",要么重復(fù)調(diào)用同一個搜索,要么亂調(diào)用
- 缺乏綜合能力:大多數(shù)系統(tǒng)只擅長回答封閉式問題(有標(biāo)準(zhǔn)答案的),但對開放式探索性問題(需要綜合多方信息)表現(xiàn)不佳
圖片
作者的核心貢獻可以概括為三個關(guān)鍵創(chuàng)新:
- DuetQA數(shù)據(jù)集:通過多智能體自我對弈生成了5000個高質(zhì)量問答對,每個問題都必須通過實時搜索才能回答(不能靠模型的記憶蒙混過關(guān))
- RAPO算法(獎勵感知策略優(yōu)化):這是對現(xiàn)有強化學(xué)習(xí)算法GRPO的改進,解決了多輪工具調(diào)用時訓(xùn)練不穩(wěn)定的問題,讓模型能穩(wěn)定地進行超過20次工具調(diào)用
- 可控的步驟級獎勵機制:不僅獎勵"答對了",還細(xì)致地評估每一步搜索是否有價值——是探索新信息還是在重復(fù)無用功,從而引導(dǎo)模型形成更高效的搜索策略
二、相關(guān)工作:站在巨人的肩膀上
論文梳理了當(dāng)前深度搜索領(lǐng)域的幾類工作:
閉源商業(yè)系統(tǒng)
如OpenAI的DeepResearch、Google的Gemini等,表現(xiàn)強勁但不開源,普通研究者無法復(fù)現(xiàn)和改進。
開源嘗試
包括WebSailor、Jan-Nano、ZeroSearch等模型,雖然做出了努力,但在復(fù)雜任務(wù)上與閉源系統(tǒng)還有明顯差距。這些系統(tǒng)普遍存在的問題是:
- 訓(xùn)練數(shù)據(jù)質(zhì)量不高,很多問題可以通過簡單的一兩次搜索解決
- 強化學(xué)習(xí)訓(xùn)練不穩(wěn)定,模型容易學(xué)壞(比如瘋狂重復(fù)調(diào)用工具但不產(chǎn)生有用結(jié)果)
- 缺乏對長鏈推理的有效控制機制
現(xiàn)有數(shù)據(jù)集的局限
像HotpotQA、2WIKI這類多跳問答數(shù)據(jù)集,雖然標(biāo)榜"多跳推理",但實際上很多問題可以通過模型的內(nèi)部知識直接回答,或者只需要訪問維基百科就夠了。真實世界的搜索場景要復(fù)雜得多——信息分散在各種網(wǎng)站上,存在噪音,需要交叉驗證。
圖片
三、核心方法:兩階段訓(xùn)練+智能獎勵設(shè)計
Fathom-DeepResearch系統(tǒng)由兩個核心模型組成:
3.1 Fathom-Search-4B:會搜索的推理模型
這個模型的任務(wù)是像偵探一樣在互聯(lián)網(wǎng)上尋找證據(jù)。它有兩個工具:
- search_urls(網(wǎng)頁搜索):輸入查詢詞,返回相關(guān)網(wǎng)頁列表及摘要
- query_url(定向提取):打開某個網(wǎng)頁,根據(jù)特定目標(biāo)提取有用信息
訓(xùn)練分兩個階段進行:
Stage 1:學(xué)會基本的搜索能力
在DuetQA數(shù)據(jù)集上訓(xùn)練10個epoch,使用RAPO算法。這個階段的重點是讓模型學(xué)會:
- 正確使用工具(格式規(guī)范)
- 能夠通過搜索找到答案
- 避免訓(xùn)練崩潰(GRPO容易出現(xiàn)的問題)
訓(xùn)練目標(biāo)函數(shù)結(jié)合了格式獎勵和答案準(zhǔn)確性:

Stage 2:學(xué)會高效的長鏈推理
繼續(xù)訓(xùn)練2個epoch,但這次使用了可控的步驟級獎勵。這個階段的數(shù)據(jù)混合了DuetQA、數(shù)學(xué)推理數(shù)據(jù)和MuSiQue多跳問答。
關(guān)鍵創(chuàng)新在于獎勵函數(shù)的設(shè)計。系統(tǒng)會用GPT-4.1給每個工具調(diào)用打標(biāo)簽:
對于search_urls:
- UNIQUESEARCH(探索新信息):搜索之前沒見過的實體或事實
- REDUNDANTSEARCH(重復(fù)搜索):和之前的查詢高度相似
對于query_url:
- EXPLORATION(探索):第一次訪問某個網(wǎng)頁
- VERIFICATION(驗證):交叉驗證已有信息(允許有限次數(shù))
- REDUNDANTQUERY(冗余查詢):超過驗證次數(shù)限制的重復(fù)查詢
基于這些標(biāo)簽,獎勵函數(shù)變成:

3.2 RAPO:讓訓(xùn)練不再崩潰的秘密

回放緩沖:為每個問題維護一個"最佳答案庫"。如果某次訓(xùn)練所有嘗試都失敗了,就從庫里抽一個成功案例混進去,避免方差歸零。
圖片
從圖中可以看到,GRPO的熵值和梯度范數(shù)快速下降(意味著模型失去探索能力),而RAPO能保持穩(wěn)定的訓(xùn)練信號。
3.3 Fathom-Synthesizer-4B:會寫報告的綜合模型
第二個模型的任務(wù)是把搜索軌跡變成一份可讀的研究報告。它采用"先規(guī)劃后撰寫"的策略:
規(guī)劃階段(在標(biāo)簽內(nèi),用戶看不到):
- 問題分解:把大問題拆成若干子問題
- 證據(jù)映射:將搜索到的每個網(wǎng)址和內(nèi)容對應(yīng)到相關(guān)章節(jié)
- 洞察策略:規(guī)劃如何從證據(jù)中提煉觀點
撰寫階段(生成實際報告):
- 執(zhí)行摘要:總覽全文
- 主體章節(jié):按照分解的子問題組織,每個關(guān)鍵論斷都標(biāo)注引用來源
- 引用列表:列出所有引用的網(wǎng)址
訓(xùn)練數(shù)據(jù)(DeepResearch-SFT)從GPT-5蒸餾而來,包含2500個開放式問題及其完整的規(guī)劃+報告對。為了處理長文本,使用YaRN技術(shù)將Qwen3-4B的上下文窗口從40K擴展到65K。
圖片
四、實驗效果:小模型也能打敗大模型
4.1 深度搜索任務(wù)上的表現(xiàn)
在五個主流深度搜索基準(zhǔn)測試上(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue),F(xiàn)athom-Search-4B取得了開源模型中的最佳成績:
- SimpleQA(真實世界問答):90.0%準(zhǔn)確率,超過了所有開源競爭對手,甚至比GPT-4o(搜索版)還高5.6個百分點
- WebWalker(長鏈推理):50.0%準(zhǔn)確率,比第二名II-Search-4B高出9.2個百分點
- FRAMES(多幀推理):64.8%準(zhǔn)確率,顯著領(lǐng)先
更有意思的是,在一些任務(wù)上,這個40億參數(shù)的小模型甚至能接近甚至超越o3這樣的超大模型(無搜索版本)。
4.2 通用推理能力依然強勁
為了驗證模型沒有"偏科"(只會搜索不會推理),作者還在四個通用推理基準(zhǔn)上測試了Fathom-Search-4B:
- GPQA-Diamond(研究生級科學(xué)問題):60.1%
- MedQA(醫(yī)學(xué)問答):75.4%
- AIME-25(數(shù)學(xué)競賽):70.0%
這些成績證明,模型在獲得搜索能力的同時,原有的推理能力沒有退化。
圖片
從工具調(diào)用分布圖可以看出,DuetQA數(shù)據(jù)集確實更"硬核"——o3模型在這個數(shù)據(jù)集上平均需要3.3次搜索才能答對,分布呈長尾;而在SimpleQA上平均只需1.9次。這證明了數(shù)據(jù)集設(shè)計的有效性。
4.3 深度研究報告生成
在DeepResearch-Bench(開放式研究報告生成基準(zhǔn))上,F(xiàn)athom-DeepResearch的整體得分為45.47,超過了Claude-3.7、Perplexity Deep Research、Grok等商業(yè)系統(tǒng),僅次于Gemini-2.5-Pro和OpenAI DeepResearch。
具體指標(biāo)上:
- RACE綜合評分:45.47(考察全面性、深度、可讀性)
- 引用準(zhǔn)確率:56.1%(保證引用的來源真實可靠)
- 有效引用數(shù):38.3(足夠的證據(jù)支撐)
考慮到這是一個40億參數(shù)的開源模型,這個成績相當(dāng)亮眼。
圖片
左圖展示了準(zhǔn)確率與工具調(diào)用次數(shù)的關(guān)系,右圖展示了準(zhǔn)確率與回答長度的關(guān)系。可以看到Fathom-Search-4B(Stage-2)在準(zhǔn)確率和效率上都取得了最佳平衡。
4.4 消融實驗:每個組件都很重要
RAPO vs GRPO:如表3所示,使用RAPO訓(xùn)練的模型在所有任務(wù)上都優(yōu)于GRPO,且平均生成長度更短(5000 vs 9000 tokens),說明RAPO既提升了準(zhǔn)確率,又提高了效率。
可控步驟級獎勵的作用:如表4所示,引入步驟級獎勵后,WebWalker任務(wù)的準(zhǔn)確率從43.2%提升到50.0%,同時平均生成長度從5500增加到14500 tokens。這說明模型學(xué)會了在需要時進行更深入的探索。
圖片
從訓(xùn)練曲線可以看出:
- 使用可控步驟級獎勵時,模型的回答長度穩(wěn)步增長到14000 tokens,說明學(xué)會了長鏈推理
- 使用普通獎勵時,長度在6000 tokens就飽和了,無法進一步提升
- RAPO相比GRPO,訓(xùn)練過程更平滑,沒有大幅波動
五、論文總結(jié):開源深度研究的新里程碑
這篇論文的核心價值在于:證明了小型語言模型(40億參數(shù))通過精心設(shè)計的訓(xùn)練流程,也能在復(fù)雜的深度研究任務(wù)上與大型商業(yè)模型一較高下。
三個關(guān)鍵要素缺一不可:
- 高質(zhì)量數(shù)據(jù):DuetQA通過多智能體自我對弈,生成了真正需要聯(lián)網(wǎng)搜索才能回答的問題,避免了模型"走捷徑"
- 穩(wěn)定訓(xùn)練:RAPO算法解決了多輪工具調(diào)用場景下的訓(xùn)練不穩(wěn)定問題,讓長鏈推理成為可能
- 智能獎勵:步驟級獎勵機制不僅關(guān)注最終答案,還細(xì)致評估每一步操作的價值,引導(dǎo)模型形成高效的搜索策略
局限性也值得注意:作者坦誠地指出,當(dāng)前系統(tǒng)在測試時的可擴展性有限——雖然訓(xùn)練時能學(xué)會長鏈推理,但推理時的表現(xiàn)提升有限。此外,同步訓(xùn)練流程在大規(guī)模應(yīng)用時效率不高,未來需要轉(zhuǎn)向異步框架。
從工程實踐角度看,這個工作的意義在于:降低了深度研究能力的門檻。以前只有資源雄厚的大公司才能訓(xùn)練出具備這種能力的模型,現(xiàn)在普通研究者和開發(fā)者也能在40億參數(shù)規(guī)模上實現(xiàn)類似功能。這對于推動AI民主化、加速相關(guān)應(yīng)用落地都有重要價值。
未來的研究方向可能包括:如何進一步提升測試時的可擴展性?如何在更小的模型(比如10億參數(shù))上實現(xiàn)類似能力?如何讓系統(tǒng)更好地處理多模態(tài)信息(圖表、視頻等)?這些都是值得探索的問題。





































