馴服復雜表格:九天重磅開源,開啟「人與表格對話」智能新時代
7 月 26 日,在 WAIC 2025 世界人工智能大會上,中國移動九天人工智能研究院全面開源九天結構化數據大模型 “數據 - 模型 - 測評” 三位一體的完整模型體系,包括了結構化數據體系、TReB 標準化測評框架、支持微調及推理全流程模型。
中國移動希望通過開源共享,降低結構化數據智能應用的技術門檻與研發成本,助力結構化數據大模型的行業演進,推動行業形成協同創新生態,讓結構化數據價值在千行百業高效釋放。
全方位、多維度、深層次結構化數據體系
表格數據以其結構化、緊湊的特性,承載著海量關鍵數據,是結構化數據大模型的核心訓推數據。
為了支撐模型在表格推理任務上的性能提升,中國移動九天人工智能研究院首創搭建面向表格數據的全方位多維度深層次數據體系?;诒砀衲芰θ采w、各能力獨立不交叉原則,通過開源表格數據收集、實際網絡表格爬取和特定領域復雜表格定制等手段,重新整合吸納多源數據,進行數據清洗、質量判定、全流程多階段數據篩查,最終形成了涵蓋表格推理 6 大能力和 34 項子任務的千萬級數據體系。
具體來說,中國移動收集和整理了 39 個公開數據集和一部分真實的互聯網數據,包括 Web of Science、Wiki、Google Scholar 和 GitHub 等,涵蓋了超過 300 個不同領域,如通信、氣象、學術、制造業、金融、教育和醫療等。
除此之外,針對現有數據集中表格格式單一、推理任務步數少等問題,中國移動基于自研的復雜推理數據集構造方案,模擬現實世界中的復雜多步表格推理問題,實現了已有表格推理能力擴增,即增加表格高級數據分析能力。

結構化數據體系
全面且可靠的開源基準 TReB
中國移動將此次開源的結構化數據大模型評測基準命名為 TReB,是由中國移動九天人工智能研究院精心打造的綜合性模型評測體系,旨在全方位、多維度地衡量大模型的表格推理能力。
它主要提供兩個部分:
- 全面的數據體系,結合了經過清理的公開表格推理數據集、真實的網絡表格和專有的復雜數據,涵蓋表格推理的 26 項任務,并采用了嚴格的數據清洗流程,保證每一個表格和問答對的質量;
- 一個專為評估大模型在表格推理任務而設計的強大測評框架。它集成了三種獨特的思維鏈推理模式和可靠的評估指標,從而實現精準且多維度的評估。
目前,TReB 的數據集已經在 HuggingFace 和 Modelscope 平臺上面向全社會開放,測評代碼也已經在 GitHub 和 Gitee 上開源。
- HuggingFace地址:https://huggingface.co/datasets/JT-LM/JIUTIAN-TReB
- Modelscope地址:https://modelscope.cn/datasets/JiuTian-AI/JIUTIAN-TReB
- GitHub地址:https://github.com/JT-LM/jiutian-treb
- Gitee地址:https://gitee.com/CMCC-jiutian/jiutian-treb

TReB 開源評測基準
打造結構化數據智能雙引擎
九天結構化數據大模型是在中國移動自研的九天基礎語言大模型的基礎上精調訓練而成,專為結構化數據智能處理而設計優化。
中國移動九天人工智能研究院此次開源了結構化數據大模型的完整模型,涵蓋模型權重、微調及推理代碼、技術報告等,助力結構化數據智能賦能關鍵行業,推動模型能力在各垂直領域規模化落地。
九天結構化數據大模型完全基于國產 GPU 集群進行訓練、推理,具備多表關聯分析、可交互式可視化、智能數據大屏生成等智能數據分析功能,真正實現 “讓數據說話”。
與語言基礎大模型相比,九天結構化數據大模型引入了結構化數據感知機制,能夠深入理解結構化數據特點,進而使模型能夠基于數據本質進行推理建模。
在處理結構化數據分析推理任務時,九天結構化數據大模型首次引入面向結構化數據的深度思考機制。該機制通過深度解析數據,并模擬人類分析師的遞進式推理思維,逐步推導邏輯推理鏈,不僅使模型能深入洞察數據本質 —— 理解字段間業務邏輯、數據分布及隱含特性,基于數據內在 “語言” 精準建模,更賦予其駕馭復雜關聯的能力 —— 主動分析多表關聯邏輯,進行多表聯合推理,這確保面對多表關聯等復雜任務時,能結合數據特點進行深度推理,生成更精準、可信的分析代碼與洞察,顯著提升分析的準確性和可解釋性。
九天結構化數據大模型提出了交互閉環推理架構,針對結構化數據實現工作流優化。模型推理過程中與沙箱環境交互聯動,通過動態調用、實時反饋的閉環機制,實現數據觀察、數據分析、代碼生成與執行結果的協同演進,極大提升了結構化數據分析的準確性和可解釋性。同時,模型內置多智能體協作機制,各智能體承擔專項任務并不斷優化,最終實現多智能體分工配合、協同交互,構建出類人類專家協同的數據分析流程,賦能結構化數據處理更高效、更智能。


結構化數據可交互式可視化示例

結構化數據看板可視化示例
解鎖高效化、精準化、可視化的卓越數據分析能力
九天結構化數據大模型在最新的開源評測基準 TReB 中進行測試,結果如圖所示。TReB 包含表格推理的 26 項任務,可以系統評估模型在表格理解、表格基礎操作、表格計算操作、數據分析和高級數據分析的能力??梢钥吹剑盘旖Y構化數據大模型(JT-DA-8B)在各項能力上與其他的開源模型相比都呈現出更加優秀的性能。

九天結構化數據大模型測評結果
在實際應用的過程中,九天結構化數據大模型可以幫助用戶更快更準地進行數據感知與理解、數據查詢、計算、可視化分析等操作。對于專業的數據分析人員來說,應用九天結構化數據大模型可以大幅減少分析數據的繁瑣流程,提高數據分析效率。對于非專業人士來說,在日常的工作生活中,應用九天結構化數據大模型可以快速讓其具備專業數據分析師的能力,自動化解決數據分析問題。
目前,九天結構化數據大模型已經在煥新社區、Huggingface 和 Modelscope 等社區完成模型開源,全面向社會開放(https://huggingface.co/JT-LM/JT-DA-8B/, https://modelscope.cn/models/JiuTian-AI/JT-DA-8B/),標志著結構化數據大模型完成從模型研發到生態賦能的關鍵跨越。

目前,九天結構化數據大模型已通過國家網信辦境內深度合成服務算法備案,并已在能源、交通、物流等行業場景中發揮重要作用,例如:
在工業生產運行場景中,模型通過對裝置關鍵運行參數的實時預測和分析,實現多樣化的生產預警場景覆蓋,提升專業人員操作效率和生產過程安全性,優化生產運行管理效率。

在物流倉儲調度場景,通過對出入庫貨物流量進行精準預測,九天結構化數據大模型能夠為倉儲管理人員提供科學的決策支持,幫助其動態優化庫存布局與資源配置,從而顯著提升倉儲作業效率與運營效益。

未來,中國移動將持續深耕人工智能與行業融合應用,持續開源結構化數據大模型體系,加快推動結構化數據智能技術的規?;涞?,共同探索結構化數據智能的無限可能,助力千行百業邁向高質量數字化轉型新階段。



















