LLM遇上表格:4類表示、5大任務、3大機會
1. 表格讓大模型頭疼?
文本是線性的,而表格是二維、結構多變、目的多樣的——從嚴謹的數據庫到多層嵌套的 Excel,再到 Wikipedia 的 Infobox。把 LLM 處理表格的“痛苦”總結為三點:
痛點 | 概況 |
任務單一 | 90% 的 Benchmark 都在考「檢索+簡單數學」,真正需要推理的很少 |
輸入復雜就崩 | 長表、多表、層級表、跨文檔表,人類 80+ 分,SOTA 模型 50 分不到 |
表示不統一 | 同一張表換個 JSON / HTML / Markdown,性能就能掉 5 個點 |

左側用Text-To-Sql可解決,相比之下,右側展示的是需要高級推理或涉及復雜輸入的任務。

大模型表格處理任務的工作流
2. 先把“表”說清楚:四種輸入表示法
把 LLM 能“吃進”的表格表示分成 4 大類(對應 Figure 4):

表示方式 | 優點 | 缺點 | 典型 Benchmark |
Serialization 序列化 | 直接用文本,最簡單 | 結構信息易丟失 | WTQ, TabFact |
Schema 只給表頭+列類型 | 省 token | 細節全丟 | Spider, SEDE |
Image 表格截圖 | 保留完整視覺結構 | 受分辨率限制 | VISTABNet |
Table Encoder 專用編碼器 | 結構感知最強 | 需要額外預訓練 | TableGPT2, TAPAS |
實驗發現:同樣一道題,把 Markdown 換成 LaTeX,EM 分數最多差 20%給了三種序列化示例:

3. 5大人任務全景:不止Text-to-SQL
整理了 3 大經典任務 + 2 個新興方向,并給出所有 Benchmark 一覽(Table 1~4):
任務 | 輸入 | 輸出 | 熱門數據集 |
Table QA 表問答 | 表(+文本)+問題 | 答案單元格 / 數字 / 自由文本 | WTQ, HiTab, MULTIHIERTT |
Table-to-Text 表到文本 | 表(+高亮區域) | 一段描述或摘要 | ToTTo, LogicNLG, QTSUMM |
Fact Verification 表事實核查 | 表+聲明 | Supported / Refuted / NEI | TabFact, FEVEROUS |
Text-to-SQL 自然語言轉 SQL | 問題+數據庫 | SQL 查詢 | Spider, BIRD, Spider2 |
Leaderboard Construction 排行榜自動構建 | 論文表格 | (任務, 數據集, 指標, 分數) 四元組 | AxCell, TeLin |



4. 三大發現:新研究機會?
4.1 任務復雜度
- 現有 Benchmark 大多是“把 SQL 翻譯成自然語言”再讓模型反推;
- 真正的診斷、預測、洞察類問題(圖 3)幾乎空白;
- Spider2首次引入意圖級問題:用戶說“給我一份每日關鍵銷售報告”,模型得自己猜要查哪些字段。

4.2 輸入復雜度:長表、多表、層級表 = 模型噩夢
- MULTIHIERTT:人 83% vs 模型 <50%;
- HiTab:層級多維表,模型同樣翻車;
- 科學論文中的消融表 + 長文本,是未來絕佳試驗田。
4.3 表示統一:換個格式就掉點
- 同一任務里,JSON ? Markdown ? LaTeX 之間沒有統一規范;
- 未來可以搞“格式互譯”任務,讓模型見多識廣。
https://arxiv.org/pdf/2508.00217
Tabular Data Understanding with LLMs: A Survey of Recent Advances and Challenges本文轉載自??????????????????PaperAgent??

















