上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格
一、半結(jié)構(gòu)化的痛點

在真實業(yè)務(wù)中,80% 以上的“表格”并非標(biāo)準(zhǔn)的關(guān)系型二維表,而是帶有合并單元格、層級標(biāo)題、嵌套子表、行列交叉說明的半結(jié)構(gòu)化表格。 布局五花八門、結(jié)構(gòu)復(fù)雜多變,讓自動化數(shù)據(jù)處理變得異常困難。 典型場景包括:
- 醫(yī)院 EMR 里的檢驗報告單
- 券商 PDF 年報里的財務(wù)報表
- Excel 里的項目進(jìn)度橫道圖
- 電商后臺的訂單匯總表
這些表格無法用固定 schema 建模,卻承載了高價值知識。過去,只能依賴業(yè)務(wù)專家“肉眼”檢索,耗時且易錯。
二、已有的技術(shù)路線回顧

技術(shù)路線 | 代表工作 | 主要瓶頸 |
NL2SQL | OpenSearch-SQL、PETSQL | 必須先轉(zhuǎn)成結(jié)構(gòu)化表,合并單元格被打碎,行列語義丟失 |
NL2Code | ReAcTable、TAT-LLM | 依賴 Pandas 的行列索引,無法表達(dá)“跨子表”關(guān)系 |
多模態(tài) VLM | TableLLaVA、mPLUG-DocOwl | 表格轉(zhuǎn)圖片→100+ 行就超出視覺窗口;文字密集時OCR 噪音大 |
直接 LLM 提示 | GPT-4o、DeepSeek-V3 | 線性化 HTML/JSON 后“迷失在中間”,對層級標(biāo)題、合并單元格** hallucination 嚴(yán)重** |
結(jié)論:在“布局理解”與“內(nèi)容檢索”兩個核心環(huán)節(jié),現(xiàn)有方法均出現(xiàn)結(jié)構(gòu)性信息損耗,導(dǎo)致問答精度卡在 60% 左右。


三、ST-Raptor方案
ST-Raptor試圖解決半結(jié)構(gòu)化表格以下三個痛點:
- 如何在不破壞布局的前提下,讓大模型“看懂”復(fù)雜表格?
- 如何讓模型像業(yè)務(wù)人員一樣,先定位標(biāo)題、再交叉比對、最后匯總答案?
- 如何在多跳推理鏈條中自動校驗,避免一步錯步步錯?
3.1 ST-Raptor 的核心創(chuàng)新有六點:
- HO-Tree 表達(dá):首次提出“層級-正交”雙樹結(jié)構(gòu),把任意半結(jié)構(gòu)化表格無損壓縮成一棵樹,節(jié)點=單元格,邊=層級/并列關(guān)系。
- 原子操作集:設(shè)計 9 種樹原語(取父節(jié)點、取子樹、條件過濾、數(shù)值計算…),把“表格問答”形式化為“樹遍歷腳本”。
- 問題分解+對齊:LLM 先將復(fù)雜問句拆成單跳子問句,再通過嵌入相似度把操作參數(shù)對齊到樹節(jié)點,解決“指代漂移”。
- 雙向驗證:
- 正向——每步執(zhí)行后檢查返回節(jié)點是否為空、是否偏離問題語義;
- 反向——用最終答案反生成多套等價問句,若原始問句與反生成問句的腳本差異大則打低置信度。
- 基準(zhǔn) SSTQA:采集 102 張真實業(yè)務(wù)表、764 問,** nesting 深度、合并單元格密度、問題類型**均超出現(xiàn)有數(shù)據(jù)集一個量級。
- 效果:在 SSTQA 上比 GPT-4o 絕對提升 10.23%,在 Hard 表上領(lǐng)先 20%+;消融實驗表明** HO-Tree 結(jié)構(gòu)建模單點貢獻(xiàn) 15.15%**。
3.2 ST-Raptor架構(gòu)

ST-Raptor 框架共 4 個模塊,流水線如圖 3 所示。下文按“建樹→問句解析→腳本執(zhí)行→答案驗證”四段展開。
3.3 HO-Tree:一張表就是一片“森林”

3.3.1 形式化定義
對任意半結(jié)構(gòu)化表 T,將其拆成元數(shù)據(jù)樹 MTree與數(shù)據(jù)樹 BTree,再建立“葉-層”指針,形成 HO-Tree:
- MTree 節(jié)點 = 表頭、子表標(biāo)題、合并格;
- BTree 節(jié)點 = 純內(nèi)容單元格;
- 邊語義 = 層級包含或正交并列;
- 指針:MTree 的葉節(jié)點 → BTree 的對應(yīng)層,實現(xiàn)“標(biāo)題列”到“數(shù)據(jù)列”的硬鏈接。
例:圖 4 右下角“TD Tech”表,可遞歸解析為L4(Header-Orthogonal-Subtables) → L3(Orthogonal-Subtables) → [L2(Header-Multiple-Values)]最終得到 3 層嵌套 HO-Tree。
3.3.2 建樹算法(Algorithm 1)

輸入:Excel/PDF/HTML 原始表輸出:HO-Tree 森林
步驟 0:VLM 截圖識別
- headless 瀏覽器渲染 → 高清圖 → InterVL2-26B 提示詞:“請給出這張表如果存成 JSON 可能出現(xiàn)的所有 key” → 拿到候選標(biāo)題集合 C。
步驟 1:Embedding 對齊
- 用 Multilingual-E5 對所有單元格做 embedding,與 C 做余弦相似度,≥閾值 τ=0.82者標(biāo)記為標(biāo)題格。
步驟 2:表格分區(qū)(TablePart)
- 原則 P1:若合并格跨整行/列 → 頂級標(biāo)題,下方或右側(cè)劃為子表;
- 原則 P2:若同時出現(xiàn)頂對齊與左對齊標(biāo)題,格多者建 MTree,另一方入 BTree;
- 原則 P3:檢測到正交子表 → 遞歸切片。
步驟 3:DFS 組裝
- 對每片子表,按 L1-L4 類型執(zhí)行 ConsTree:– L1、L2 → 單層樹;– L3、L4 → 節(jié)點 value 字段再掛一棵子 HO-Tree,實現(xiàn)無限級嵌套。
復(fù)雜度:最壞掃描全表 2 次,**O(N·M)**,N、M 為行列數(shù);嵌入比對可 GPU 批量化,102 張表平均 2.3 s 完成森林構(gòu)建。
3.4 原子操作集:9 個“樹 API”搞定 95% 查詢
作者從 2 萬張真實問句中歸納出 9 種高頻操作,分為 4 類:
類別 | 操作 | 說明 | 示例 |
數(shù)據(jù)檢索 | CHL(V) | 取 V 的所有子節(jié)點 | CHL(“Employee Info”)→[Mark, Jone, Ray…] |
FAT(V) | 取父節(jié)點 | FAT(“Mark”)→“Research 1” | |
EXT(V1,V2) | 交叉檢索 | EXT(“Level”,“A+”)→[Mark, Jone] | |
數(shù)據(jù)操作 | Cond(D,func) | 過濾 | Cond(EXT(…), λx: x>30) |
Math(D,func) | 聚合 | Math(CHL(“Age”), max) | |
Cmp(D1,D2,func) | 比較 | Cmp(EXT(2022), EXT(2023), >) | |
對齊 | Align(P,HO-Tree) | 把自然語言 P 對齊到節(jié)點 | Align(“highest paid”→“Salary” |
推理 | Rea(Q,D) | LLM 總結(jié)/判斷 | Rea(“是否盈利”, D)→“是” |
腳本示例:“部門 A 與 C 中評級高于 A 的員工共幾人?”→ 分解為
- SQ1: Count(Cond(EXT(Department, A), Level>A))
- SQ2: Count(Cond(EXT(Department, C), Level>A))
- SQ3: Math([SQ1, SQ2], sum)
3.5 問題分解與操作-表對齊

3.5.1 分解策略
- 采用 few-shot 提示:動態(tài)檢索與當(dāng)前問句最相似的 3 個示例(embedding 相似度),連同 HO-Tree 的元信息一起喂給 DeepSeek-V3。
- 要求模型輸出“子問句 + 依賴關(guān)系圖”,保證下游可并行可串行。
3.5.2 對齊策略
- 對操作中的每個參數(shù) p,用 E5 編碼后與 HO-Tree 所有節(jié)點做最近鄰搜索,Top1 置信度<0.75 時觸發(fā)人工模板兜底。
- 連續(xù)值列額外用規(guī)則正則提取范圍,解決“大于 30 歲”這類閾值描述。
3.6 雙向驗證:讓模型“自檢”
3.6.1 正向驗證(Forward)
- 每步執(zhí)行完檢查:
返回節(jié)點非空;
節(jié)點類型與問題期望一致(數(shù)值/文本/日期);
行號/列號未越界。
- 任一失敗 → 重生成操作,最多重試 3 次,仍失敗則返回“無法回答”。
3.6.2 反向驗證(Backward)
- 用最終答案 A 反生成 5 個等價問句(few-shot 提示)。
- 對這 5 個問句再走一遍完整 pipeline,得到 5 個腳本。
- 用最長公共子序列(LCS)計算與原始腳本的相似度,平均相似度<0.6 時置信度=0,系統(tǒng)輸出“可疑答案”標(biāo)記。
四、可落地的工業(yè)實踐建議
- 數(shù)據(jù)入口:直接解析 Excel/PDF,無需人工整理成數(shù)據(jù)庫;
- 質(zhì)檢場景:把 HO-Tree 腳本固化成規(guī)則,每晚批量跑,異常答案自動告警;
- 交互分析:在前端嵌入“子問句+中間表”展開,業(yè)務(wù)人員可點選修正,形成人機(jī)協(xié)同閉環(huán);
五、個人總結(jié):為什么值得一讀
ST-Raptor 給出了一個“把視覺布局壓縮成可計算結(jié)構(gòu)”的完整范式:
- HO-Tree讓“合并單元格”第一次擁有了無損的代數(shù)表達(dá);
- 原子操作把表格問答從“黑盒提示”變成白盒腳本,可調(diào)試、可驗證;
- 雙向自檢機(jī)制對幻覺“零容忍”,讓大模型在嚴(yán)肅場景落地成為可能。
如果你正在做文檔智能、財務(wù)審核、醫(yī)療質(zhì)控、報表自動化等方向,這篇論文提供了從模型到 benchmark 再到工程細(xì)節(jié)值得細(xì)細(xì)品味。
本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI

















