上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格

發(fā)布于 2025-9-16 07:32

瀏覽

0收藏

一、半結(jié)構(gòu)化的痛點

上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格-AI.x社區(qū)

在真實業(yè)務(wù)中，80% 以上的“表格”并非標(biāo)準(zhǔn)的關(guān)系型二維表，而是帶有合并單元格、層級標(biāo)題、嵌套子表、行列交叉說明的半結(jié)構(gòu)化表格。布局五花八門、結(jié)構(gòu)復(fù)雜多變，讓自動化數(shù)據(jù)處理變得異常困難。典型場景包括：

醫(yī)院 EMR 里的檢驗報告單
券商 PDF 年報里的財務(wù)報表
Excel 里的項目進(jìn)度橫道圖
電商后臺的訂單匯總表

這些表格無法用固定 schema 建模，卻承載了高價值知識。過去，只能依賴業(yè)務(wù)專家“肉眼”檢索，耗時且易錯。

二、已有的技術(shù)路線回顧

上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格-AI.x社區(qū)

技術(shù)路線	代表工作	主要瓶頸
NL2SQL	OpenSearch-SQL、PETSQL	必須先轉(zhuǎn)成結(jié)構(gòu)化表，合并單元格被打碎，行列語義丟失
NL2Code	ReAcTable、TAT-LLM	依賴 Pandas 的行列索引，無法表達(dá)“跨子表”關(guān)系
多模態(tài) VLM	TableLLaVA、mPLUG-DocOwl	表格轉(zhuǎn)圖片→100+ 行就超出視覺窗口；文字密集時OCR 噪音大
直接 LLM 提示	GPT-4o、DeepSeek-V3	線性化 HTML/JSON 后“迷失在中間”，對層級標(biāo)題、合并單元格 hallucination 嚴(yán)重

結(jié)論：在“布局理解”與“內(nèi)容檢索”兩個核心環(huán)節(jié)，現(xiàn)有方法均出現(xiàn)結(jié)構(gòu)性信息損耗，導(dǎo)致問答精度卡在 60% 左右。

上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格-AI.x社區(qū)

三、ST-Raptor方案

ST-Raptor試圖解決半結(jié)構(gòu)化表格以下三個痛點：

如何在不破壞布局的前提下，讓大模型“看懂”復(fù)雜表格？
如何讓模型像業(yè)務(wù)人員一樣，先定位標(biāo)題、再交叉比對、最后匯總答案？
如何在多跳推理鏈條中自動校驗，避免一步錯步步錯？

3.1 ST-Raptor 的核心創(chuàng)新有六點：

HO-Tree 表達(dá)：首次提出“層級-正交”雙樹結(jié)構(gòu)，把任意半結(jié)構(gòu)化表格無損壓縮成一棵樹，節(jié)點=單元格，邊=層級/并列關(guān)系。
原子操作集：設(shè)計 9 種樹原語（取父節(jié)點、取子樹、條件過濾、數(shù)值計算…），把“表格問答”形式化為“樹遍歷腳本”。
問題分解+對齊：LLM 先將復(fù)雜問句拆成單跳子問句，再通過嵌入相似度把操作參數(shù)對齊到樹節(jié)點，解決“指代漂移”。
雙向驗證：

正向——每步執(zhí)行后檢查返回節(jié)點是否為空、是否偏離問題語義；
反向——用最終答案反生成多套等價問句，若原始問句與反生成問句的腳本差異大則打低置信度。

基準(zhǔn) SSTQA：采集 102 張真實業(yè)務(wù)表、764 問，** nesting 深度、合并單元格密度、問題類型**均超出現(xiàn)有數(shù)據(jù)集一個量級。
效果：在 SSTQA 上比 GPT-4o 絕對提升 10.23%，在 Hard 表上領(lǐng)先 20%+；消融實驗表明** HO-Tree 結(jié)構(gòu)建模單點貢獻(xiàn) 15.15%**。

3.2 ST-Raptor架構(gòu)

上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格-AI.x社區(qū)

ST-Raptor 框架共 4 個模塊，流水線如圖 3 所示。下文按“建樹→問句解析→腳本執(zhí)行→答案驗證”四段展開。

3.3 HO-Tree：一張表就是一片“森林”

上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格-AI.x社區(qū)

3.3.1 形式化定義

對任意半結(jié)構(gòu)化表 T，將其拆成元數(shù)據(jù)樹 MTree與數(shù)據(jù)樹 BTree，再建立“葉-層”指針，形成 HO-Tree：

MTree 節(jié)點 = 表頭、子表標(biāo)題、合并格；
BTree 節(jié)點 = 純內(nèi)容單元格；
邊語義 = 層級包含或正交并列；
指針：MTree 的葉節(jié)點 → BTree 的對應(yīng)層，實現(xiàn)“標(biāo)題列”到“數(shù)據(jù)列”的硬鏈接。

例：圖 4 右下角“TD Tech”表，可遞歸解析為L4(Header-Orthogonal-Subtables) → L3(Orthogonal-Subtables) → [L2(Header-Multiple-Values)]最終得到 3 層嵌套 HO-Tree。

3.3.2 建樹算法（Algorithm 1）

上交&清華開源ST-Raptor：無需SQL、無需OCR，直接對話任意復(fù)雜表格-AI.x社區(qū)

輸入：Excel/PDF/HTML 原始表輸出：HO-Tree 森林

步驟 0：VLM 截圖識別

headless 瀏覽器渲染 → 高清圖 → InterVL2-26B 提示詞：“請給出這張表如果存成 JSON 可能出現(xiàn)的所有 key” → 拿到候選標(biāo)題集合 C。

步驟 1：Embedding 對齊

用 Multilingual-E5 對所有單元格做 embedding，與 C 做余弦相似度，≥閾值 τ=0.82者標(biāo)記為標(biāo)題格。

步驟 2：表格分區(qū)（TablePart）

原則 P1：若合并格跨整行/列 → 頂級標(biāo)題，下方或右側(cè)劃為子表；
原則 P2：若同時出現(xiàn)頂對齊與左對齊標(biāo)題，格多者建 MTree，另一方入 BTree；
原則 P3：檢測到正交子表 → 遞歸切片。

步驟 3：DFS 組裝

對每片子表，按 L1-L4 類型執(zhí)行 ConsTree：– L1、L2 → 單層樹；– L3、L4 → 節(jié)點 value 字段再掛一棵子 HO-Tree，實現(xiàn)無限級嵌套。

復(fù)雜度：最壞掃描全表 2 次，**O(N·M)**，N、M 為行列數(shù)；嵌入比對可 GPU 批量化，102 張表平均 2.3 s 完成森林構(gòu)建。

3.4 原子操作集：9 個“樹 API”搞定 95% 查詢

作者從 2 萬張真實問句中歸納出 9 種高頻操作，分為 4 類：

類別	操作	說明	示例
數(shù)據(jù)檢索	CHL(V)	取 V 的所有子節(jié)點	CHL(“Employee Info”)→[Mark, Jone, Ray…]
	FAT(V)	取父節(jié)點	FAT(“Mark”)→“Research 1”
	EXT(V1,V2)	交叉檢索	EXT(“Level”,“A+”)→[Mark, Jone]
數(shù)據(jù)操作	Cond(D,func)	過濾	Cond(EXT(…), λx: x>30)
	Math(D,func)	聚合	Math(CHL(“Age”), max)
	Cmp(D1,D2,func)	比較	Cmp(EXT(2022), EXT(2023), >)
對齊	Align(P,HO-Tree)	把自然語言 P 對齊到節(jié)點	Align(“highest paid”→“Salary”
推理	Rea(Q,D)	LLM 總結(jié)/判斷	Rea(“是否盈利”, D)→“是”