上交、清華、微軟、上海AI Lab等聯合發布數據分析智能體綜述,LLM化身數據分析師,讓數據自己「說話」
傳統數據分析方法依賴人工拼接的流程,如編寫SQL、調用Python腳本及手動解讀數據,不僅耦合度高且擴展性差,難以應對動態、多模態的復雜數據。而大語言模型與智能體的出現,將數據分析從「規則執行」推向「語義理解」,使機器能夠真正解讀數據內在邏輯與關系,從而靈活完成查詢、建模與報告生成等多樣化任務。
近日,由上海交通大學、清華大學、微軟雷德蒙德研究院、上海 AI Lab 等機構研究者聯合撰寫的最新綜述論文系統回顧了大語言模型在數據分析領域的整體演進:從傳統規則化流程到智能協作,從單模態到多模態融合,并提出構建「通用數據分析智能體(General Data Analyst Agent)」的新范式。

- 論文標題:LLM/Agent-as-Data-Analyst
- 論文地址:https://arxiv.org/abs/2509.23988
- Github 項目主頁:https://github.com/weAIDB/awesome-data-llm
本文綜述了大語言模型(LLM)與智能體(Agent)在數據分析領域的最新進展,重點討論結構化、半結構化、非結構化及異構數據上的關鍵技術與演化趨勢,并總結出語義理解、自主管道、自動工作流、工具協作與面向開放世界五大方向。還提出了在可擴展性、評估體系與實際落地等方面的未來挑戰,旨在推動通用數據分析智能體的發展與應用。

圖 1:大語言模型進行數據分析的技術演進示意圖
經過系統的調研與分析,研究團隊總結出 LLM/Agent 技術在數據分析領域的四個核心演進方向:
- 從字面理解 → 語義推理:模型不再只「看數據」,而是真正「理解數據」,能洞察語義、推理邏輯。
- 從封閉工具 → 自由協作:模型能調用外部 API 與知識庫,與各類工具協同完成復雜任務。
- 從封閉數據 → 開放域分析:針對沒有結構約束的數據進行分析,擺脫原有工具限制,可以從數據中分析獲得更有價值的結論。
- 從靜態工作流 → 動態生成:智能體可自動構建分析流程與管道,讓數據處理更高效、更靈活。
- 從人工 Agent 框架 → 自動生成框架:智能體可以智能構建為某個工作服務的智能體,更靈活的實現 Agent 工作流。
這五大趨勢共同指向一個方向——讓數據分析真正從「規則系統」邁向「智能體系統」,讓模型不止是工具,而成為數據智能時代的思考者與合作者。

圖 2:LLM/Agent-as-Data-Analyst 技術總覽,涵蓋本文具體討論的四大數據模態:結構化數據、半結構化數據、非結構化數據和異構化數據。
圖 2 展示了該綜述的主要研究內容,首先從不同數據類別進行介紹,包括結構化數據、半結構化數據、非結構化數據以及異構數據,針對不同數據類型,針對不同任務或技術展開。
- 結構化數據:(1)關系型數據分析:由 NL2SQL 向多樣化的 NL2Code、ModelQA 過渡,研究方向包括語義對齊與模式鏈接、多步分解與檢索增強推理、端到端表格問答(TableGPT、ReAcTable);(2)圖數據分析:以 NL2GQL 為代表,研究重點在圖查詢生成、語義級圖推理與代理式操作(如 R3-NL2GQL、GraphGPT),逐步實現從代碼級到語義級的自動理解與執行。
- 半結構化數據:(1)標記語言理解:任務包含標記抽取(如 Evaporate)、標記查詢(如 XPath Agent)、以及結構語義理解(如 MarkupLM)。技術路線從模板 + 規則驅動向基于 LLM 的數據抽取與查詢轉變,強調樹結構建模、層級編碼、工具增強等;(2)半結構化表格理解:核心任務涵蓋表格結構化表示(如 ST-Raptor)、模型驅動轉換(如 TabFormer)、表格提示壓縮(如 HySem)與查詢推理(如 CoS)。
- 非結構化數據:(1)文檔理解:使用 OCR 等技術將文檔轉換為純文本格式(ZenDB、QUEST),結合 RAG 等技術進行理解;從 OCR 模板式到 VLM 轉變(DocLLM、DocOwl2、DLAFormer),任務包括版面識別、RAG 檢索問答、摘要生成與多文檔推理。(2)圖表理解:將圖像解析與自然語言推理結合(ChartQA、Chart-of-Thought),支持描述生成、問答與可視化推理。(3)視頻與 3D 模型分析:實現時序定位、行為識別、三維語義融合(Video-LLaMA、LLMI3D)。
- 異構數據:跨模態整合多源數據湖,支撐統一語義查詢與多模態推理。主要子任務包括模態對齊、自然語言檢索接口、異構分析智能體(HetAgent、XMODE)。
不同于以往聚焦單一任務或單一模態的研究,這篇綜述首次從全模態與全流程視角系統梳理了 LLM/Agent 在數據分析領域的整體格局,提出了構建「通用數據分析智能體(General Data Analyst Agent)」的五項核心設計原則。它不僅總結了當前研究的關鍵能力與趨勢,也揭示了可擴展性、魯棒性與開放域適配等未來挑戰。歡迎感興趣的讀者閱讀、討論和引用該論文。



























