VLM進行上下文長度擴展和壓縮;長文本多模型集成框架
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
2025-10-19|RUC, THU|??52
??http://arxiv.org/abs/2510.16872v1???
???https://huggingface.co/papers/2510.16872???
???https://github.com/ruc-datalab/DeepAnalyze??
研究背景與意義

- 背景簡述
當前數據科學領域追求實現從數據源到分析報告的全流程自動化,即“自主數據科學”。這一目標旨在減少人工干預,提高數據處理和洞察的效率與質量。然而,傳統方法多依賴預定義工作流,難以應對復雜、多階段且多樣化的結構化數據任務。
- 意義闡明
解決這一難題不僅能夠顯著提升數據科學的自動化水平,還能推動開放式數據研究的發展,滿足更高層次的分析需求。通過賦予大語言模型(LLMs)具備自主編排和自適應優化能力,可實現跨任務、跨階段的智能數據處理,推動數據科學進入新的智能化時代。
研究方法與創新




- 技術描述
本文提出了DeepAnalyze-8B,一種基于代理訓練范式的端到端大語言模型,專門設計用于自主執行復雜數據科學任務。該模型通過模擬人類數據科學家的學習軌跡,采用課程化訓練策略,逐步習得數據準備、分析、建模、可視化及報告生成等多項能力。
- 創新點突出
a.代理訓練范式:引入agentic訓練框架,使模型能夠在真實環境中自主規劃和執行多階段任務,提升任務的整體協同性和執行效率。
b.數據驅動的軌跡合成:設計了基于高質量訓練數據的軌跡合成方法,保證訓練過程的連貫性和多樣性,增強模型泛化能力。
c.自主編排與自適應優化能力:模型不僅能理解用戶意圖,還能動態調整執行策略,基于環境反饋迭代優化行動,突破傳統LLM在結構化數據任務中的局限。
d.輕量級高效:僅用8B參數規模,即實現了較大模型的性能,降低了部署和應用門檻。
- 理論基礎討論
該方法融合了強化學習、模仿學習和大語言模型的預訓練優勢,構建了一個能夠持續學習和適應復雜多變數據任務的智能系統,理論上支持從特定任務向通用數據科學能力的遷移。
實驗設計與結果分析


- 實驗設計
通過多場景數據科學任務測試,包括數據準備、分析問答、建模評估及開放式研究任務,全面驗證DeepAnalyze-8B的能力。對比對象涵蓋當前主流的基于工作流的自動化數據分析代理及部分大型專有LLMs。
- 結果分析
實驗結果顯示,DeepAnalyze-8B在準確性、任務完成度及多任務適應能力上均顯著優于對比模型。其在開放式數據研究中的表現尤為突出,能夠生成高質量、分析深刻的研究報告。
- 統計顯著性
通過多次重復實驗,結果具有統計學顯著性,證明模型的穩定性和可靠性。
- 多場景表現
該模型在不同數據結構和任務復雜度下均表現出良好的泛化能力,顯示出強大的實用價值和推廣潛力。
結論與展望
- 總結貢獻
本文成功提出并實現了首個面向自主數據科學的agentic大語言模型DeepAnalyze-8B,突破了傳統LLM在結構化數據多階段任務中的瓶頸,實現了從數據源到分析報告的全流程自動化。公開開源模型和數據,為后續研究提供了寶貴資源。
- 局限分析
盡管性能優異,但模型仍受限于訓練數據覆蓋范圍和環境復雜度,部分極端或高度專業化任務尚需人工干預或進一步優化。
- 方法展望
未來工作將聚焦于增強模型的跨領域適應性、引入更豐富的反饋機制及多模態數據處理能力,進一步推動自主數據科學向更高智能化和泛化方向發展。
本文轉載自??AI研究前瞻??,作者:胡耀淇

















