精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格

發(fā)布于 2025-9-16 07:32
瀏覽
0收藏

一、半結(jié)構(gòu)化的痛點

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

在真實業(yè)務(wù)中,80% 以上的“表格”并非標(biāo)準(zhǔn)的關(guān)系型二維表,而是帶有合并單元格、層級標(biāo)題、嵌套子表、行列交叉說明的半結(jié)構(gòu)化表格。 布局五花八門、結(jié)構(gòu)復(fù)雜多變,讓自動化數(shù)據(jù)處理變得異常困難。 典型場景包括:

  • 醫(yī)院 EMR 里的檢驗報告單
  • 券商 PDF 年報里的財務(wù)報表
  • Excel 里的項目進(jìn)度橫道圖
  • 電商后臺的訂單匯總表

這些表格無法用固定 schema 建模,卻承載了高價值知識。過去,只能依賴業(yè)務(wù)專家“肉眼”檢索,耗時且易錯。

二、已有的技術(shù)路線回顧

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

技術(shù)路線

代表工作

主要瓶頸

NL2SQL

OpenSearch-SQL、PETSQL

必須先轉(zhuǎn)成結(jié)構(gòu)化表,合并單元格被打碎,行列語義丟失

NL2Code

ReAcTable、TAT-LLM

依賴 Pandas 的行列索引,無法表達(dá)“跨子表”關(guān)系

多模態(tài) VLM

TableLLaVA、mPLUG-DocOwl

表格轉(zhuǎn)圖片→100+ 行就超出視覺窗口;文字密集時OCR 噪音大

直接 LLM 提示

GPT-4o、DeepSeek-V3

線性化 HTML/JSON 后“迷失在中間”,對層級標(biāo)題、合并單元格** hallucination 嚴(yán)重**

結(jié)論:在“布局理解”與“內(nèi)容檢索”兩個核心環(huán)節(jié),現(xiàn)有方法均出現(xiàn)結(jié)構(gòu)性信息損耗,導(dǎo)致問答精度卡在 60% 左右。

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

三、ST-Raptor方案

ST-Raptor試圖解決半結(jié)構(gòu)化表格以下三個痛點:

  1. 如何在不破壞布局的前提下,讓大模型“看懂”復(fù)雜表格?
  2. 如何讓模型像業(yè)務(wù)人員一樣,先定位標(biāo)題、再交叉比對、最后匯總答案?
  3. 如何在多跳推理鏈條中自動校驗,避免一步錯步步錯?

3.1 ST-Raptor 的核心創(chuàng)新有六點:

  1. HO-Tree 表達(dá):首次提出“層級-正交”雙樹結(jié)構(gòu),把任意半結(jié)構(gòu)化表格無損壓縮成一棵樹,節(jié)點=單元格,邊=層級/并列關(guān)系。
  2. 原子操作集:設(shè)計 9 種樹原語(取父節(jié)點、取子樹、條件過濾、數(shù)值計算…),把“表格問答”形式化為“樹遍歷腳本”
  3. 問題分解+對齊:LLM 先將復(fù)雜問句拆成單跳子問句,再通過嵌入相似度把操作參數(shù)對齊到樹節(jié)點,解決“指代漂移”
  4. 雙向驗證
  • 正向——每步執(zhí)行后檢查返回節(jié)點是否為空、是否偏離問題語義;
  • 反向——用最終答案反生成多套等價問句,若原始問句與反生成問句的腳本差異大則打低置信度。
  1. 基準(zhǔn) SSTQA:采集 102 張真實業(yè)務(wù)表、764 問,** nesting 深度、合并單元格密度、問題類型**均超出現(xiàn)有數(shù)據(jù)集一個量級。
  2. 效果:在 SSTQA 上比 GPT-4o 絕對提升 10.23%,在 Hard 表上領(lǐng)先 20%+;消融實驗表明** HO-Tree 結(jié)構(gòu)建模單點貢獻(xiàn) 15.15%**。

3.2 ST-Raptor架構(gòu)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

ST-Raptor 框架共 4 個模塊,流水線如圖 3 所示。下文按“建樹→問句解析→腳本執(zhí)行→答案驗證”四段展開。

3.3 HO-Tree:一張表就是一片“森林”

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

3.3.1 形式化定義

對任意半結(jié)構(gòu)化表 T,將其拆成元數(shù)據(jù)樹 MTree數(shù)據(jù)樹 BTree,再建立“葉-層”指針,形成 HO-Tree:

  • MTree 節(jié)點 = 表頭、子表標(biāo)題、合并格;
  • BTree 節(jié)點 = 純內(nèi)容單元格;
  • 邊語義 = 層級包含或正交并列;
  • 指針:MTree 的葉節(jié)點 → BTree 的對應(yīng)層,實現(xiàn)“標(biāo)題列”到“數(shù)據(jù)列”的硬鏈接

:圖 4 右下角“TD Tech”表,可遞歸解析為L4(Header-Orthogonal-Subtables) → L3(Orthogonal-Subtables) → [L2(Header-Multiple-Values)]最終得到 3 層嵌套 HO-Tree。

3.3.2 建樹算法(Algorithm 1)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

輸入:Excel/PDF/HTML 原始表輸出:HO-Tree 森林

步驟 0:VLM 截圖識別

  • headless 瀏覽器渲染 → 高清圖 → InterVL2-26B 提示詞:“請給出這張表如果存成 JSON 可能出現(xiàn)的所有 key” → 拿到候選標(biāo)題集合 C

步驟 1:Embedding 對齊

  • 用 Multilingual-E5 對所有單元格做 embedding,與 C 做余弦相似度,≥閾值 τ=0.82者標(biāo)記為標(biāo)題格。

步驟 2:表格分區(qū)(TablePart)

  • 原則 P1:若合并格跨整行/列 → 頂級標(biāo)題,下方或右側(cè)劃為子表;
  • 原則 P2:若同時出現(xiàn)頂對齊與左對齊標(biāo)題,格多者建 MTree,另一方入 BTree;
  • 原則 P3:檢測到正交子表 → 遞歸切片。

步驟 3:DFS 組裝

  • 對每片子表,按 L1-L4 類型執(zhí)行 ConsTree:– L1、L2 → 單層樹;– L3、L4 → 節(jié)點 value 字段再掛一棵子 HO-Tree,實現(xiàn)無限級嵌套

復(fù)雜度:最壞掃描全表 2 次,**O(N·M)**,N、M 為行列數(shù);嵌入比對可 GPU 批量化,102 張表平均 2.3 s 完成森林構(gòu)建。

3.4 原子操作集:9 個“樹 API”搞定 95% 查詢

作者從 2 萬張真實問句中歸納出 9 種高頻操作,分為 4 類:

類別

操作

說明

示例

數(shù)據(jù)檢索

CHL(V)

取 V 的所有子節(jié)點

CHL(“Employee Info”)→[Mark, Jone, Ray…]


FAT(V)

取父節(jié)點

FAT(“Mark”)→“Research 1”


EXT(V1,V2)

交叉檢索

EXT(“Level”,“A+”)→[Mark, Jone]

數(shù)據(jù)操作

Cond(D,func)

過濾

Cond(EXT(…), λx: x>30)


Math(D,func)

聚合

Math(CHL(“Age”), max)


Cmp(D1,D2,func)

比較

Cmp(EXT(2022), EXT(2023), >)

對齊

Align(P,HO-Tree)

把自然語言 P 對齊到節(jié)點

Align(“highest paid”→“Salary”

推理

Rea(Q,D)

LLM 總結(jié)/判斷

Rea(“是否盈利”, D)→“是”

腳本示例:“部門 A 與 C 中評級高于 A 的員工共幾人?”→ 分解為

  1. SQ1: Count(Cond(EXT(Department, A), Level>A))
  2. SQ2: Count(Cond(EXT(Department, C), Level>A))
  3. SQ3: Math([SQ1, SQ2], sum)

3.5 問題分解與操作-表對齊

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對話任意復(fù)雜表格-AI.x社區(qū)

3.5.1 分解策略

  • 采用 few-shot 提示:動態(tài)檢索與當(dāng)前問句最相似的 3 個示例(embedding 相似度),連同 HO-Tree 的元信息一起喂給 DeepSeek-V3。
  • 要求模型輸出“子問句 + 依賴關(guān)系圖”,保證下游可并行可串行

3.5.2 對齊策略

  • 對操作中的每個參數(shù) p,用 E5 編碼后與 HO-Tree 所有節(jié)點做最近鄰搜索,Top1 置信度<0.75 時觸發(fā)人工模板兜底
  • 連續(xù)值列額外用規(guī)則正則提取范圍,解決“大于 30 歲”這類閾值描述

3.6 雙向驗證:讓模型“自檢”

3.6.1 正向驗證(Forward)

  • 每步執(zhí)行完檢查:

返回節(jié)點非空;

節(jié)點類型與問題期望一致(數(shù)值/文本/日期);

行號/列號未越界。

  • 任一失敗 → 重生成操作,最多重試 3 次,仍失敗則返回“無法回答”。

3.6.2 反向驗證(Backward)

  • 用最終答案 A 反生成 5 個等價問句(few-shot 提示)。
  • 對這 5 個問句再走一遍完整 pipeline,得到 5 個腳本。
  • 用最長公共子序列(LCS)計算與原始腳本的相似度,平均相似度<0.6 時置信度=0,系統(tǒng)輸出“可疑答案”標(biāo)記。

四、可落地的工業(yè)實踐建議

  • 數(shù)據(jù)入口:直接解析 Excel/PDF,無需人工整理成數(shù)據(jù)庫
  • 質(zhì)檢場景:把 HO-Tree 腳本固化成規(guī)則,每晚批量跑,異常答案自動告警
  • 交互分析:在前端嵌入“子問句+中間表”展開,業(yè)務(wù)人員可點選修正,形成人機(jī)協(xié)同閉環(huán)

五、個人總結(jié):為什么值得一讀

ST-Raptor 給出了一個“把視覺布局壓縮成可計算結(jié)構(gòu)”的完整范式:

  • HO-Tree讓“合并單元格”第一次擁有了無損的代數(shù)表達(dá)
  • 原子操作把表格問答從“黑盒提示”變成白盒腳本,可調(diào)試、可驗證;
  • 雙向自檢機(jī)制對幻覺“零容忍”,讓大模型在嚴(yán)肅場景落地成為可能

如果你正在做文檔智能、財務(wù)審核、醫(yī)療質(zhì)控、報表自動化等方向,這篇論文提供了從模型到 benchmark 再到工程細(xì)節(jié)值得細(xì)細(xì)品味。

??https://arxiv.org/pdf/2508.18190??

??https://github.com/weAIDB/ST-Raptor??

本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI

標(biāo)簽
已于2025-9-16 09:28:24修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
精品久久久久久久中文字幕| 欧美亚洲自偷自偷| 91精品综合久久久久久| 亚洲精品少妇一区二区| 好男人www在线视频| 午夜在线一区| 久久国产精品久久久久久| 国产精品影片在线观看| 2025国产精品自拍| 精品无人区一区二区| 欧美在线视频不卡| 国产视频在线观看网站| 天天干天天操天天爱| 成人欧美大片| 成人v精品蜜桃久久一区| 91精品国产自产91精品| www.99re6| 美女视频亚洲色图| 欧美夫妻性生活| 黑人糟蹋人妻hd中文字幕| av在线影院| 久久亚洲精品国产精品紫薇| 亚洲字幕一区二区| 久久精品无码av| 欧美视频成人| 日韩中文字幕国产精品| 中文字幕一区二区人妻在线不卡| 美女国产精品久久久| 在线精品视频一区二区三四| 久久99久久久久久| 久久综合之合合综合久久| 日韩在线一区二区三区| 久久久爽爽爽美女图片| 亚洲一级二级片| 加勒比久久综合| 日韩大陆毛片av| 视频区 图片区 小说区| 精品亚洲a∨| 欧美性猛交99久久久久99按摩| 狠狠噜天天噜日日噜| 欧美尤物美女在线| 久久久99免费| 狼狼综合久久久久综合网| 亚洲精品久久久久久动漫器材一区| 日本一区中文字幕| 国产成人免费av电影| 丰满少妇乱子伦精品看片| 国产精品啊啊啊| 久久成人精品电影| 污污的视频在线免费观看| 日韩成人免费| 最近中文字幕2019免费| 手机看片日韩av| 精品国精品国产自在久国产应用| 亚洲欧美国产精品久久久久久久 | 国产精品久久久久久久久久精爆| 黄色成人在线网站| 欧美二区乱c黑人| 永久免费看黄网站| 欧美日韩免费| 久久免费观看视频| 日韩成人免费观看| 精品久久久久成人码免费动漫| 国模精品视频| 亚洲成在线观看| av一区二区三区免费观看| 超碰免费公开在线| 亚洲最大成人网4388xx| 国产精品一区av| 免费一区二区三区在在线视频| 国产又大又粗又硬| 国产一区激情在线| 亚洲一区精品电影| 精品人妻一区二区三区四区不卡| 国产成人在线色| 国产精品亚洲一区| 午夜小视频在线播放| 久久久av毛片精品| 亚洲在线欧美| 色呦呦视频在线观看| 亚洲成人777| 无码无遮挡又大又爽又黄的视频| 福利一区在线| 日韩网站在线看片你懂的| 无码人妻一区二区三区精品视频| 国产精品日本一区二区三区在线 | k8久久久一区二区三区| 精品无人区一区二区三区| 欧美孕妇孕交xxⅹ孕妇交| 久久久国产精品不卡| 亚洲第一导航| 婷婷久久青草热一区二区| 黄色av免费播放| 第一sis亚洲原创| 欧美成人在线网站| 国产一级做a爰片在线看免费| 在线综合亚洲| 日韩精品在线影院| 日本韩国欧美精品大片卡二| 日韩aaaaaa| 在线播放一区| 91成人精品网站| 亚洲专区在线播放| www.66久久| 自拍偷拍亚洲色图欧美| 黄在线观看免费网站ktv| 欧美午夜精品一区| 丰满的少妇愉情hd高清果冻传媒| 涩涩视频网站在线观看| 91麻豆精品国产| 欧美18—19性高清hd4k| 伊人精品成人久久综合软件| 国产精品久久久久久久久久新婚| 国产婷婷在线视频| 国产亲近乱来精品视频| 亚洲熟妇无码av在线播放| 成人h在线观看| 欧美性猛交xxxx免费看漫画| 午夜免费视频网站| 欧美精品一区二区久久| 久久久久久国产精品三级玉女聊斋 | 日韩中文字幕一区二区高清99| 亚洲嫩模很污视频| 国产一级视频在线播放| 精品在线观看视频| 欧美一区二区福利| 色吊丝在线永久观看最新版本| 亚洲欧美在线另类| 免费看污黄网站| 桃花岛tv亚洲品质| 亚洲国产中文字幕久久网| 日本成人精品视频| 青青草精品视频| 久久深夜福利免费观看| a级片在线观看免费| 美女一区二区三区| 热re99久久精品国99热蜜月 | 视频一区视频二区在线观看| 国内成+人亚洲+欧美+综合在线 | 欧美理论电影| 欧洲精品中文字幕| 四虎精品永久免费| 亚洲国产乱码最新视频| 亚洲免费黄色录像| 色综合蜜月久久综合网| 国产精品av在线播放| 日本福利在线观看| 亚洲高清久久久| 亚洲成人精品在线播放| 欧美一区二区三区另类| 亚洲精品免费在线视频| 天堂а√在线资源在线| 欧美日韩一区久久| 任你操精品视频| 久久91精品国产91久久小草| 亚洲精品一区二区三区四区五区| 欧美亚洲大片| 在线视频中文亚洲| 亚洲视频一区二区三区四区| 欧美激情一区不卡| 国产九九在线视频| 91欧美在线| 91香蕉亚洲精品| 深夜国产在线播放| 亚洲国产成人在线视频| 成人免费区一区二区三区| 久久综合久久鬼色| 国产一级特黄a大片免费| 欧美日韩中文一区二区| 国产精品一区二区久久久久| 含羞草www国产在线视频| 日韩三级视频在线看| 日本熟妇成熟毛茸茸| 26uuu色噜噜精品一区二区| 熟女性饥渴一区二区三区| 麻豆mv在线观看| 亚洲国产精品嫩草影院久久| 五月天激情国产综合婷婷婷| 国产亚洲精品久| 激情黄色小视频| 亚洲视频精品| 久久99精品久久久久久三级 | 日韩电影中文字幕在线观看| 精品欧美一区二区三区免费观看| 91亚洲精品久久久蜜桃| www.日日操| 久久中文字幕一区二区| 欧美日韩成人在线播放| 天堂成人在线| 亚洲最大的成人av| 三级黄色片网站| 秋霞电影一区二区| 久久久天堂国产精品| 国产一区调教| 国产乱子轮精品视频| 视频在线观看成人| 国产成人视屏| 国产亚洲va综合人人澡精品| 45www国产精品网站| 黄色电影免费在线看| 欧美日韩成人在线| 久久久久无码国产精品| 久久免费视频一区| 一级日本黄色片| 小嫩嫩精品导航| 亚洲av首页在线| 日韩精品亚洲aⅴ在线影院| 国产视频福利一区| 91资源在线观看| 欧美日本国产视频| 久久久久久久久久久久久久免费看 | 高清欧美一区二区三区| 都市激情一区| 精品国产91久久久久久久妲己 | 丝袜诱惑制服诱惑色一区在线观看| 中文字幕99| 精品在线观看入口| 国产厕所精品在线观看| 欧美日韩精品一区二区三区视频| 欧美二区乱c黑人| 欧美jizzhd69巨大| 亚洲精品丝袜日韩| 亚洲精品久久久久久久久久| 欧美日韩在线观看一区二区| 在线视频一区二区三区四区| 亚洲在线视频网站| 来吧亚洲综合网| 国产区在线观看成人精品| 国产一卡二卡三卡四卡| 久久精品国产亚洲高清剧情介绍 | 日韩av大全| 欧洲亚洲成人| 国产一区高清视频| 草草影院在线| 久久国产精品久久久久| av大片在线看| 亚洲欧美一区二区精品久久久 | 国产午夜精品全部视频在线播放| 性猛交xxxx乱大交孕妇印度| 欧美精品日韩一本| 国产一级精品毛片| 色综合久久久久久久久| 中国一级特黄毛片| 亚洲国产精品麻豆| 久久av高潮av无码av喷吹| 风间由美性色一区二区三区| 中文字幕亚洲影院| 狠狠色狠狠色综合日日91app| 香蕉视频网站入口| 久久青草久久| 少妇高清精品毛片在线视频| 国产精品视频| 欧美国产激情视频| 国产日韩精品视频一区二区三区 | 视频一区中文字幕国产| 成人在线免费观看av| 一区二区黄色| 五月天国产视频| 久久视频在线| 亚洲 日韩 国产第一区| 伊甸园亚洲一区| 久久涩涩网站| 亚洲婷婷影院| 欧美日韩在线精品| 欧美天天综合| 亚洲午夜在线观看| 在线观看成人毛片| 亚洲欧美成人一区二区三区| 色老板免费视频| 国产精品一区二区av白丝下载 | 日韩女优电影在线观看| 国产精品伦一区二区三区| 91精品国产综合久久久蜜臀图片| 国产美女无遮挡永久免费| 91精品国产一区二区人妖| 国产人妻精品一区二区三区| 欧美成人乱码一区二区三区| 天天操天天操天天干| 夜夜嗨av一区二区三区中文字幕 | 欧美在线观看天堂一区二区三区| 中文字幕久精品免| 欧美另类视频| 日韩国产欧美亚洲| 日韩精品1区2区3区| www.国产福利| 99久久夜色精品国产网站| 欧美亚一区二区三区| 国产精品乱码一区二三区小蝌蚪| 538任你躁在线精品视频网站| 亚洲高清免费视频| 波多野结衣视频在线观看| 91精品国产综合久久久蜜臀粉嫩| 蜜桃av中文字幕| 亚洲人成人99网站| 成人a在线视频免费观看| 久久久亚洲精品视频| 欧美极品免费| 97久久天天综合色天天综合色hd| 少妇精品导航| 在线观看成人av| 中文精品视频| 午夜宅男在线视频| 一区二区三区四区五区精品视频| 色婷婷综合久久久久中文字幕| 老司机精品视频导航| 久久免费精品国产| 中文字幕免费不卡| 久久久久亚洲av无码专区| 日本久久电影网| 黄色片免费观看视频| 欧美视频一二三区| 欧美一区二区三区成人片在线| 国产亚洲精品综合一区91| 女囚岛在线观看| 国产精品无码专区在线观看| 加勒比色综合久久久久久久久| 亚洲精品白虎| 亚洲影音先锋| 麻豆免费在线观看视频| 国产精品网友自拍| 中文字幕在线观看视频网站| 日韩一区二区在线免费观看| fc2在线中文字幕| 91国产精品电影| 麻豆精品久久| 一区二区三区精品国产| 视频在线观看一区| 中文字幕免费在线播放| 亚洲免费在线视频| 中文字幕+乱码+中文乱码www| 亚洲精品一区中文| 黄页在线观看免费| 91最新在线免费观看| 日韩国产一区二区| 无码人妻精品一区二区三区在线| 高清不卡在线观看av| 久久av红桃一区二区禁漫| 日本高清不卡在线观看| 香蕉视频黄在线观看| 久久久亚洲成人| 草草视频在线一区二区| 成年人视频大全| 国产综合久久久久影院| 男人的午夜天堂| 欧美乱熟臀69xxxxxx| av在线免费观看网站| 国产成人精品久久| 免费精品国产的网站免费观看| 久久综合色视频| 日韩av电影天堂| 亚洲午夜久久久久久久久红桃 | 黄色www网站| 成人成人成人在线视频| 精品国产欧美日韩不卡在线观看| 一区二区三区日韩在线观看| 国产又粗又猛视频免费| 中文字幕在线观看亚洲| 欧美系列精品| 亚洲一区美女| 精品在线播放免费| 波多野结衣不卡视频| 欧美一区二区精美| 亚洲综合图区| 国产高清自拍一区| 影音先锋久久久| 特大黑人巨人吊xxxx| 欧美性生交大片免费| 九色在线观看| 国产美女被下药99| 亚洲精品va| 秘密基地免费观看完整版中文 | 中文字幕乱码视频| 伊人久久久久久久久久久| 国产一区二区色噜噜| 亚洲综合网中心| 国产乱码精品一区二区三区忘忧草 | 一区二区三区四区国产精品| 亚洲黄色小说网| 97av在线视频| 欧美天天综合| 国产成人精品综合久久久久99| 亚洲成av人在线观看| 欧美欧美欧美| 成人性生交大片免费看小说| 狠狠色综合网| 国产精品无码久久久久一区二区| 欧美性受xxxx| dy888亚洲精品一区二区三区| 国产欧美日韩亚洲| 日韩精品五月天| 国产探花在线免费观看| 亚洲国产精品久久久久| 成人看片网页| 大桥未久一区二区三区| 99re视频这里只有精品| 亚洲最新av网站| 久久久综合免费视频| 精品国产欧美日韩| 麻豆精品国产传媒| 在线精品视频免费观看|