3B小模型吊打32B大模型？BAAI 的新研究 InfoSeek 數據煉金術

作者：肆零柒 2025-09-19 11:09:40

當業界還在堆參數時，BAAI用一套開源框架證明：數據質量才是AI的勝負手。3B小模型性能反超32B大模型，這不是奇跡，而是“層次化約束”數據合成的必然結果。本文解度InfoSeek，看BAAI如何重新定義深度研究。

大家好，我是肆〇柒。今天，我們來了解一項來自北京智源人工智能研究院（BAAI）的創新工作——InfoSeek。說不定你也想過，一個參數量僅為30億（3B）的小模型，為何能在復雜研究任務上碾壓320億（32B）參數的大模型？答案不在于模型架構的玄學，而在于BAAI團隊創新的“數據煉金術”。他們將海量網頁轉化為一種名為“層次化約束滿足問題”（HCSP）的高純度燃料，讓小模型爆發出驚人的深度研究能力。接下來，讓我們一起了解一下這個創新研究。

性能對比圖

當看到這張性能對比圖時，即使是經驗豐富的AI研究者也會感到震驚：一個僅含30億參數的InfoSeeker-3B模型，竟然在復雜任務上大幅超越了參數量高達320億的Qwen3-32B模型，甚至與Gemini 2.5 Pro等商業大模型性能相當。這一結果徹底顛覆了"模型越大越好"的傳統認知，引發了業界對深度研究能力本質的重新思考。

InfoSeeker-3B的性能提升并非偶然。正如技術報告所揭示的，其背后隱藏著一種全新的數據合成方法——InfoSeek，它通過精準捕捉深度研究任務的本質結構，為模型提供了高質量的訓練信號。這一發現表明，在大型語言模型(LLM)的發展道路上，數據質量可能比模型規模更為關鍵。下面就一起瞅瞅這一"數據煉金術"的工作原理。

傳統數據的根本性局限

當前主流的問答數據集，如Natural Questions(NQ)、HotpotQA和WebWalkerQA等，雖然在單跳和多跳問題上表現出色，卻難以捕捉真實深度研究任務的復雜性。這些數據集的局限性主要體現在三個方面：

首先，它們的結構過于扁平。現有基準測試無法充分反映真實深度研究任務的層次化特性，正如技術報告所指出的，"existing benchmarks fail to capture this complexity"。單跳問題僅需滿足并行約束，多跳問題則依賴線性推理鏈，但真實研究往往需要同時處理多層次、相互依賴的約束網絡。

其次，這些數據集缺乏足夠的深度。多跳問題通常只需要簡單的線性推理，而深度研究則要求模型能夠系統性地分解復雜問題，協調多步推理，并整合來自不同來源的證據。這種能力在傳統數據集中難以得到充分訓練。

更為嚴重的是，近期合成的數據集常常引入"捷徑推理"和"知識泄露"問題。當模型發現可以通過參數化記憶而非真正推理來回答問題時，其深度研究能力的培養就會受到嚴重阻礙。技術報告中提到，當讓Qwen2.5-32B模型直接回答InfoSeek問題時，它只能正確回答2%的問題，而傳統數據集中的問題則容易得多。

經典QA數據集與深度研究數據合成方法對比

通過上表的對比可以看出，InfoSeek在問題復雜度和開源狀態上具有顯著優勢。它不僅是首個專注于深度研究場景的大規模數據集，還能夠生成具有可控復雜度的層次化約束滿足問題，并支持針對不同研究需求的便捷擴展。這一突破填補了高質量、結構化深度研究數據集的空白，為訓練真正具備深度研究能力的模型提供了必要條件。

InfoSeek數據煉金術：從網頁到HCSP的轉化

HCSP：深度研究問題的數學本質

要理解InfoSeek的創新之處，必須先明確深度研究問題的數學本質。InfoSeek將具有可驗證答案的深度研究問題形式化為層次化約束滿足問題(Hierarchical Constraint Satisfaction Problem, HCSP)，這一定義與傳統的約束滿足問題(CSP)和多跳問題(MHP)有著本質區別。

約束滿足問題可以理解為多個獨立條件的交集。例如，要找出"在1938年獲得普林斯頓大學博士學位、出生于倫敦、畢業于劍橋大學的人"，模型只需將三個條件的候選集取交集，即可得到"Alan Turing"這一答案。這類問題雖然需要整合多源信息，但所有約束都是并行且獨立的。

多跳問題則要求模型按順序執行多個推理步驟。例如，從"破解Enigma密碼的科學家"出發，先找到"Alan Turing"，再確定其出生地"London"，最后得出國家"England"。這類問題需要線性推理鏈，但每一步的推理相對簡單。

約束滿足問題、多跳問題與層次化約束滿足問題對比

上圖清晰展示了三種問題類型的本質區別。層次化約束滿足問題(HCSP)的創新在于，它構建了一個樹狀推理網絡——每個中間節點本身就是一個約束滿足問題，高層結論的有效性完全依賴于所有低層約束的滿足。以圖中Alan Turing案例為例，要確定"出生于一個人口超過500萬、官方語言為英語的歐洲城市"這一模糊描述，不僅需要驗證該城市的人口和語言特征，還需確認該城市與Alan Turing的其他關聯(如畢業院校、博士學位等)。這種層次化結構更接近真實研究過程：科學家在探索未知時，往往需要同時處理多個相互依賴的子問題，而非簡單地按順序解決。

雙智能體協同：Planner與Browser的精密配合

InfoSeek的數據合成過程采用雙智能體協同工作的方式，從大規模網頁數據中自動構建研究樹，這一設計是其能夠生成高質量HCSP的關鍵。兩個智能體各司其職，形成了一種高效的分工協作機制。

Planner作為全局規劃者，負責維護研究樹的整體構建進度，根據全局復雜度目標選擇目標節點和具體操作。它需要在順序推理和并行推理之間取得平衡，確保研究樹在深度和廣度上均衡發展。Planner的決策直接影響問題的復雜度和結構，是控制合成數據質量的關鍵環節。

Browser則作為執行者，負責具體執行Planner選擇的操作。它通過瀏覽選定節點的網頁，提取候選超鏈接(增加深度)或原子聲明(添加約束)，并驗證相關內容的相關性。Browser的工作確保了合成問題的證據鏈可靠且可驗證，為后續訓練提供了堅實基礎。

這兩個智能體的工作流程高度結構化：從Action 1開始初始化研究錨點，隨后交替執行Action 2(模糊父節點)和Action 3(樹結構擴展)，最終以Action 4(問題生成與終止)結束。整個過程中，每一步擴展都記錄明確的證據軌跡，確保問題的可驗證性。這種雙智能體架構不僅提高了數據合成的效率，還保證了生成問題的結構質量和復雜度控制。

四步煉金：從網頁到HCSP的完整轉化

InfoSeek的數據合成過程可概括為四個關鍵步驟，這些步驟共同構成了從原始網頁到結構化HCSP的完整轉化路徑。

第一步是初始化研究錨點。InfoSeek使用維基百科和網頁作為底層知識庫，篩選有效實體作為研究樹的根節點。具體而言，它從維基百科知識庫中采樣一個有效實體作為最終答案，并創建一個初始頂點r形成最基礎的研究樹。隨后，Browser執行第一次擴展，選擇一個相關實體創建子節點w及其連接邊，為后續層次化推理奠定基礎。

第二步是模糊父節點技術，這是InfoSeek的核心創新。Planner首先識別出當前約束不足以唯一確定的節點v，然后Browser從v的網頁中選擇k個聲明，這些聲明共同唯一確定v。關鍵設計在于確保候選集之間不存在包含關系，防止問題過早收斂。例如，將"Alan Turing"模糊為"出生于一個人口超過500萬、官方語言為英語的歐洲城市"，既保證了問題的挑戰性，又確保了答案的唯一性。這一技術使得每個中間節點本身成為一個有效的約束滿足問題，為層次化推理創造了必要條件。

第三步是樹結構擴展，用于增加研究樹的深度。Planner選擇垂直擴展，從現有實體節點v提取超鏈接(如"v由w發現")，創建新的子節點w，從而延長邏輯依賴鏈。這種擴展增加了研究樹的高度，提升了推理步驟的復雜度，使問題更接近真實研究場景。值得注意的是，每次擴展都基于實際網頁內容，確保了問題的真實性和可驗證性。

第四步是問題生成與終止，只有當研究樹達到目標復雜度且所有節點有足夠約束時才會觸發。Planner基于完整的研究樹構建最終問題，要求模型必須遍歷整個層次結構才能得到答案。這一設計確保了每個合成問題都強制模型進行真正的層次化推理，避免了"捷徑推理"的可能性。

雙重驗證確保數據價值

InfoSeek不僅關注數據規模，更重視數據質量，通過雙重驗證機制確保合成數據既"真難"又"真可解"。

難度驗證環節讓Qwen2.5-32B模型直接回答這些問題，結果表明模型僅能正確回答2%的問題。這一極低的準確率證實了數據集的高難度，也說明這些問題無法通過參數化記憶解決，必須進行真正的推理。InfoSeek移除了這些簡單樣本，確保數據集具有足夠的挑戰性。

可驗證性驗證則更為嚴格。InfoSeek將真實網頁與干擾文檔混合，讓Gemini 2.5 Flash API基于這些材料推導答案。這一過程過濾掉答案錯誤、多解或無法解決的問題，有效防止了"答案不唯一"(underdetermined issue)和"過早收斂"(overdetermined issue)現象。只有那些在提供完整證據鏈時能得出唯一正確答案的問題才會被保留。

這種雙重驗證機制確保了InfoSeek數據集的質量：問題足夠復雜，需要真正的層次化推理；同時又有明確的解決路徑，確保模型能夠通過正確推理得到答案。這種"高難度-高可解性"的平衡，正是訓練高質量深度研究能力的關鍵。

規模與成本：可擴展性的實證

InfoSeek不僅在質量上表現出色，在規模和成本方面也具有顯著優勢。根據下表的數據，InfoSeek包含52,138個樣本，總數據整理成本僅為571.8美元，這一成本效益比在同類數據集中極為突出。

構建的研究樹數據，按頂點數量分析其成本、失敗率（Qwen2.5-72B，CoT）及 token 長度

數據分布顯示，4-6個頂點的問題占比超過90% （15,263 + 15,051 + 17,714 = 47,928），這反映了深度研究問題的典型復雜度。更為重要的是，失敗率與頂點數量呈現強正相關：3頂點問題的失敗率為88.1%，而7+頂點問題的失敗率高達94.1%。這一趨勢證實了InfoSeek的合成過程"能有效控制推理復雜度"，為不同難度級別的訓練提供了精確的調控手段。

這種可擴展性不僅體現在數據規模上，還體現在方法論層面。InfoSeek提供了一套完整的開源框架，使研究者能夠"便捷且可擴展地構建數據集"。通過調整研究樹的復雜度參數，研究者可以針對特定需求生成不同難度級別的問題，為深度研究能力的系統性培養提供了靈活工具。

從數據到模型：InfoSeeker的訓練秘籍

革命性工作流：小模型處理復雜任務的秘訣

InfoSeeker的工作流程設計是其能夠以小博大的關鍵。與傳統方法相比，這一工作流通過幾個創新點解決了小模型處理復雜任務的核心挑戰。

"思考先行"(Think Before Action)是整個工作流程的基石。每個推理回合開始時，模型首先在<think>和</think>標記之間進行結構化思考，這一設計強制模型反思已有信息并規劃必要信息。這種結構化思考避免了盲目搜索的陷阱，引導模型生成更有針對性的查詢，使推理過程更加穩健。實踐證明，這一看似簡單的流程設計，是小模型能夠處理復雜深度研究任務的關鍵創新點之一。

并行多查詢搜索是InfoSeeker的另一大亮點。與傳統的順序單查詢策略不同，InfoSeeker在單步內生成多個多樣化查詢（標記為<search>和</search>），從多角度全面解決當前信息需求。這種并行化方法不僅擴大了信息覆蓋范圍，還加速了探索過程，有效避免了"上下文臃腫"問題。在多輪推理中，傳統方法的上下文會迅速膨脹，導致模型失去焦點，而InfoSeeker通過并行多查詢保持了上下文的緊湊性。

提煉智能體(Refiner Agent)進一步優化了信息處理效率。對于每個查詢返回的top-k結果，Refiner Agent生成簡潔摘要，提取關鍵證據并與查詢意圖對齊。InfoSeeker實踐中采用Qwen2.5-7B-Inst作為基礎模型，這一選擇既保證了效率，又確保了摘要質量。通過提煉智能體，InfoSeeker能夠"高效利用多查詢搜索中的海量信息"，同時保持工作上下文的緊湊和可操作性。

最終，當積累足夠信息或達到最大搜索步驟時，模型輸出最終答案（標記為<answer>和</answer>）。這一結構化輸出確保了答案的可驗證性，也為后續訓練提供了清晰的監督信號。

這一工作流設計解決了傳統方法中的核心瓶頸：隨著搜索深度增加，上下文迅速膨脹導致模型失去焦點。InfoSeeker通過并行多查詢與提煉智能體的組合，實現了高召回率與緊湊上下文的平衡，使3B參數的小模型也能處理復雜的深度研究任務。

兩輪訓練：漸進式能力提升

InfoSeeker采用"兩輪訓練"策略實現能力躍升，這是小模型突破性能瓶頸的關鍵。這一策略的核心思想是通過漸進式難度提升，讓模型從基礎能力逐步發展到高級推理。

第一輪訓練使用24K高質量軌跡進行監督微調(SFT)和強化學習(RL)。這些軌跡通過拒絕采樣獲得，僅保留成功完成任務且答案正確的推理路徑。訓練在單個8×H100節點上僅需2小時，即可獲得InfoSeeker-3B-SFT-Round1。這一階段主要培養模型的基礎推理和搜索能力，使其掌握"思考先行"、"并行多查詢"等核心工作流程。

第二輪訓練則聚焦于能力深化。從55K源樣本中精選17K更難樣本（保留模型失敗的14K樣本），通過拒絕采樣生成3,450高質量軌跡。這些軌跡具有"多輪搜索、更精細的任務分解和更準確的逐步推理"的特點，針對性強化模型的深度研究能力。特別值得注意的是，第二輪訓練專門針對模型在第一輪中表現薄弱的領域，實現能力的精準提升。

這種漸進式訓練策略解決了小模型訓練中的一個核心挑戰：復雜多步推理任務的探索空間巨大，直接強化學習在稀疏獎勵和組合行動空間下往往不穩定且效率低下。通過先建立基礎能力，再逐步增加難度，InfoSeeker避免了"一步到位"訓練導致的優化困難，使小模型能夠穩步提升其深度研究能力。

GRPO算法：精準強化的核心

算法設計上，GRPO采用PPO的裁剪代理目標，同時結合KL散度懲罰，既保留了PPO的優點，又避免了價值模型的復雜性和不穩定性。這種設計特別適合大規模訓練，使InfoSeeker能夠在有限計算資源下實現高效的強化學習。

獎勵設計簡潔而有效：僅當格式和提取答案都正確時給予獎勵。這種二元獎勵設計提供了清晰的優化信號，避免了過度復雜化獎勵函數可能導致的優化方向模糊問題。技術報告強調，這種"相對直接的獎勵"足以引導模型優化，因為模型在SFT階段已具備基本能力，RL階段主要聚焦于強化推理和精確查詢能力。

訓練策略上，InfoSeeker從SFT檢查點開始RL訓練，專注于強化模型的推理和精確查詢能力。特別地，在第二輪訓練中，系統從原始55K數據池中選擇17K更難樣本，進一步提升模型能力。這種針對性強化使InfoSeeker-3B能夠在復雜任務上實現性能飛躍，甚至超越參數量大10倍的模型。

元信息：通往更高級優化的橋梁

InfoSeek的一個戰略優勢是其保留了中間步驟和檢索標簽等元信息。這些元信息不僅是訓練數據，更是通往更高級優化的橋梁，為未來研究提供了豐富可能性。

支持復合獎勵設計是元信息的首要價值。傳統強化學習通常只關注最終答案的正確性，而忽略了中間步驟的質量。通過利用InfoSeek保留的中間步驟信息，研究者可以設計更精細的獎勵函數，例如基于證據質量、推理步驟合理性的獎勵，從而更全面地優化模型能力。

實現軌跡級探索是元信息的另一重要應用。傳統方法通常優化單步決策，而忽略了整個推理路徑的質量。元信息使研究者能夠評估和優化完整的推理軌跡，確保模型不僅在最終答案上表現良好，還在整個推理過程中保持邏輯一致性和證據可靠性。

更為深遠的是，這些元信息為未來高級優化策略提供了基礎。例如，可以基于證據質量動態調整權重，或在訓練中引入對抗性驗證來檢測推理漏洞。技術報告指出，InfoSeek不僅是一個靜態數據集，而是一個"可進化的研究平臺"。隨著研究深入，這些元信息將釋放更大價值，推動深度研究能力的持續提升。

SFT軌跡數據統計

上圖展示了SFT軌跡數據的統計特征，揭示了高質量軌跡的關鍵屬性：成功軌跡通常具有更長的搜索步驟、更精細的任務分解和更準確的逐步推理。這一發現不僅驗證了InfoSeek數據質量的有效性，還為未來優化提供了明確方向——強化這些關鍵特征將有助于進一步提升模型性能。

實驗驗證：數據質量決定模型上限

核心證據：數據集對比實驗

不同訓練數據集性能對比

上表的實驗結果提供了最直接的證據：使用InfoSeek訓練的模型在BrowseComp-Plus基準上達到16.5%的準確率，而使用NQ+HQA訓練的模型僅有3.0%。這一5.5倍的性能差距，直接證明了InfoSeek數據質量的決定性作用。

深入分析表明，NQ+HQA數據缺乏層次化結構，無法培養真正的深度研究能力。這些數據集中的問題大多可以通過簡單的線性推理或并行約束解決，而無需真正的層次化推理。相比之下，InfoSeek數據強制模型遍歷完整層次，培養系統化分解問題和整合多源證據的能力。

這一結果驗證了一個核心論點：數據質量決定模型上限。即使使用相同的模型架構和訓練方法，高質量數據也能帶來質的飛躍。InfoSeeker-3B的成功表明，通過精心設計的數據合成方法，我們可以系統性地培養模型的深度研究能力，而不僅僅是依靠模型規模的擴大。

全面領先：傳統基準的泛化能力

單跳與多跳QA基準性能比較

上表展示了InfoSeeker-3B在多個基準上的全面優勢。在單跳和多跳QA基準上，InfoSeeker-3B均在所有基線模型中表現最佳，包括基于檢索增強生成(RAG)的方法和近期的智能體搜索方法。

在單跳任務上，InfoSeeker-3B在Natural Questions(NQ)、TriviaQA(TQA)和PopQA基準上達到或接近最佳結果，證明了其基礎事實檢索能力的強大。在多跳任務上，它在HotpotQA(HQA)、2Wiki、Musique(MSQ)和Bamboogle等復雜基準上顯著領先，尤其在Bamboogle上達到39.8%的準確率，遠超其他3B級模型。

這一全面領先表明，深度研究能力訓練不僅提升復雜任務表現，還增強了基礎推理能力。高質量結構化數據的泛化效應遠超預期，使模型在各類任務上都表現出色。這種能力遷移現象說明，深度研究訓練培養的是更通用的推理能力，而非僅限于特定任務的技巧。

成本效益：小模型的崛起

InfoSeeker-3B最令人矚目的是其成本效益：僅3B參數的模型，通過InfoSeek數據集訓練后，性能超越參數量10倍的Qwen3-32B，甚至與Gemini 2.5 Pro等商業大模型性能相當。

這一發現具有深遠的行業影響。首先，它證明了"模型小型化"路徑的可行性，為資源受限場景提供了高性能解決方案。在邊緣計算、移動設備等資源有限的環境中，小型高效模型具有明顯優勢。其次，它挑戰了"更大即更好"的傳統認知，將研發重點從單純擴大模型規模轉向優化數據質量和訓練方法。最后，它為開源社區提供了與商業模型競爭的可能路徑，降低了AI研發的門檻。

技術報告中的數據表明，InfoSeeker-3B在BrowseComp-Plus基準上達到16.5%的準確率，大幅超越Qwen3-32B的3.5%和SearchR1-32B的3.9%。這一結果不僅證明了數據質量的重要性，還展示了小模型通過高質量訓練實現性能飛躍的可能性。

數據，新時代的"石油"

InfoSeek的突破性研究成果揭示了一個核心認知：在大型語言模型時代，高質量、結構化的數據比單純的模型規模更為重要。正如技術報告所言，InfoSeek不僅是一個數據集，更是"實現高質量數據集構建的方法論，具有對結構復雜性的明確控制和原則性可擴展性"。

其開源價值尤為突出：InfoSeek完全開源（代碼、數據、框架），為社區提供了"挖掘數據金礦的工具"，實現了"便捷且可擴展的數據集構建"。這種開放性將加速深度研究能力的普及，推動整個領域向前發展。通過InfoSeek，研究者可以系統性地生成具有可控復雜度的深度研究問題，為模型訓練提供高質量信號。

層次化約束滿足問題(HCSP)框架有望引領深度研究任務的新標準，數據合成技術將成為AI研究的核心競爭力。誰能夠更好地設計和合成數據，誰就能在AI競賽中占據先機。InfoSeek標志著AI研究正從"模型驅動"向"數據驅動"的范式轉變，而這一轉變才剛剛開始。

在這個數據為王的時代，InfoSeek告訴我們：真正的煉金術不在于點石成金，而在于從海量信息中提煉出結構化知識，讓小模型也能釋放大智慧。深度研究能力將成為下一代AI系統的核心特征，而InfoSeek所開創的數據合成方法，將成為這一變革的關鍵推動力。

數據，正成為新時代的"石油"。而InfoSeek，則為我們提供了開采這一寶貴資源的先進工具。需要更進一步了解這個研究和項目的同學，可以移步到下放的參考資料中，有論文、有開源倉庫、還有 infoseek 的開源數據集。

責任編輯：龐桂玉來源：覺察流

3B小模型 32B大模型開源框架