DeepAnalyze:讓大模型成為真正的數據科學家
數據分析報告通常需要人類分析師花費數天甚至數周才能完成。而現在,一個只有8B參數的大模型模型,就能自動完成從原始數據到專業分析報告的全過程。
數據科學的"自動駕駛"難題:想象一下,你手里有一堆CSV文件和數據庫,需要從中挖掘商業洞察、生成可視化圖表、建立預測模型,最后寫成一份完整的分析報告。這個過程涉及數據清洗、探索分析、建模、可視化等多個環節,每一步都需要專業知識和反復試錯。
這正是"自動數據科學"要解決的核心挑戰:能否讓大模型像人類數據科學家一樣,自主完成整個數據分析流程?
目前的大模型數據分析工具主要有兩類:一類是專門處理單一任務的模型(比如只做表格問答或代碼生成),另一類是基于預設流程的大模型助手(比如用GPT-4配合固定的工作流程)。但它們都有致命缺陷——無法真正"自主思考",只能按部就班執行人類設定的步驟。
圖片
DeepAnalyze:從"助手"到"專家":DeepAnalyze是首個專門為自動數據科學設計的"agent模型"。與傳統方法最大的不同在于,它具備兩項關鍵能力:
1. 自主編排能力:能理解復雜任務需求,自動規劃并協調一系列相互依賴的操作,而不需要人類預先定義工作流程。
2. 適應性優化能力:能在真實環境中與數據交互,根據反饋不斷調整策略,就像人類數據科學家在分析中會反復嘗試和修正。
圖片
五種核心動作:DeepAnalyze設計了五種基本動作來與數據環境互動:
?分析(Analyze):進行規劃、推理、自我驗證
?理解(Understand):讀取和理解數據庫、表格等結構化數據
?編碼(Code):生成Python代碼處理數據
?執行(Execute):運行代碼并收集環境反饋
?回答(Answer):產生最終輸出
圖片
模型會自動在這些動作之間切換,無需人工干預。
像培養人類專家一樣訓練大模型:訓練DeepAnalyze面臨兩大難題:獎勵稀疏(任務太難,模型在早期很難成功,缺少正向反饋)和軌跡稀缺(缺少高質量的問題解決示例數據)。
圖片
論文的解決方案是"課程式agent訓練",模仿人類數據科學家的學習路徑:
第一階段:單項能力訓練:就像學生先學習數學、編程、統計等基礎課程,模型首先在推理、結構化數據理解、代碼生成等單項能力上進行訓練。
第二階段:綜合能力訓練:在掌握基礎技能后,通過強化學習讓模型在真實環境中執行復雜任務。這個階段采用混合獎勵機制:
?對有標準答案的任務,根據準確性和交互質量評分
?對開放式研究任務,從報告的實用性、豐富性、合理性、可解釋性和可讀性五個維度評估
圖片
數據合成:創造訓練樣本:由于高質量的數據科學訓練數據極為稀缺,團隊開發了數據驅動的軌跡合成框架:
?推理軌跡合成:用先進的大模型模型提取推理過程,并通過關鍵詞引導進行優化
?交互軌跡合成:構建多agent系統(提問者、解決者、檢查者),自動生成完整的問題解決過程
最終構建了包含約50萬樣本的訓練數據集DataScience-Instruct-500K。
實驗結果:在12個數據科學基準測試中,僅有80億參數的DeepAnalyze-8B,超越了大多數基于最先進商業模型(如GPT-4-Turbo、Claude 3.5 Sonnet)的系統。
圖片
端到端數據科學流程:在DataSciBench測試中,DeepAnalyze-8B的表現僅次于GPT-4o,但不需要任何外部編排框架就能完成復雜任務。
圖片
深度數據研究:研究團隊構建了新基準DABStep-Research來評估深度研究能力。結果顯示,DeepAnalyze-8B在五類任務(數據準備、分析、洞察提取、報告生成、開放式研究)中全面領先所有對比系統。
特別值得注意的是,商業模型在開放式研究任務上表現明顯下滑,而DeepAnalyze-8B在沒有明確指導的情況下仍能出色完成。它生成的報告在內容深度和結構化呈現上,已經接近專業分析師的水平。
其他能力表現
?代碼生成:在DS-1000基準上超越GPT-4-Turbo
?表格問答:超越此前最佳模型Reasoning-Table
?數據分析和建模:在DSBench上達到與基于多種先進商業模型的系統相當的性能
DeepAnalyze標志著數據科學領域從"基于工作流的助手"向"agent模型"的范式轉變。它不只是執行預設步驟的工具,而是能夠自主思考、探索和優化的大模型數據科學家。
更重要的是,這項工作實現了數據科學界長期以來的目標:從原始數據自動提取可操作的洞察。研究團隊已開源模型、代碼和訓練數據,為下一代智能數據系統(包括數據發現、數據治理、數據生態系統和數據管理)鋪平了道路。
論文標題:DeepAnalyze: Agentic Large Language Models for Autonomous Data Science























