IBM 發布 Granite-Docling-258M:企業級文檔 AI 的結構化進階 原創
1. Granite-Docling 到底解決了什么問題?
企業處理文檔時常見的三個痛點:
- 結構丟失:OCR 轉 Markdown 時,表格、公式、代碼常常變成一堆“散裝文本”。
- 多模型拼接:要同時識別表格、代碼和公式,往往需要調用多個小模型,部署復雜、成本高。
- 結果不可控:一些輕量模型容易“抽風”,比如陷入無限循環輸出、重復 token,完全無法上線使用。
Granite-Docling 的突破在于:它能直接輸出 DocTags ——一種由 IBM 設計的文檔結構標記語言,完整保留坐標、元素關系和閱讀順序。換句話說,它不僅告訴你“這行字是什么”,還會告訴你“它在哪個表格里、屬于哪一列、和哪段文字相鄰”。
這讓下游任務(檢索、RAG、知識圖譜、數據分析)能夠用更精準的索引和上下文,而不是在一堆“碎片化文本”里盲目搜索。
2. 技術架構:為什么能做到?
Granite-Docling-258M 并不是簡單的 OCR 模型,而是一個輕量級的視覺語言模型(VLM)。它的核心架構由三部分組成:
- 視覺編碼器:SigLIP2用于圖像特征提取,精度和穩定性相比上一代 SmolDocling 明顯提升。
- 語言模型:Granite 165MIBM 自研的小型 LLM,作為理解和生成的“頭腦”,接收視覺特征并輸出 DocTags。
- 連接器:pixel-shuffle 投影來自 Idefics3 風格的創新組件,確保圖像和文本信息無縫對齊。
訓練方面,IBM 采用 nanoVLM 框架,這是一套輕量、純 PyTorch 的 VLM 訓練工具,運行在 Blue Vela H100 集群上完成。
相比 SmolDocling 預覽版,新模型在 穩定性和準確率上都有顯著提升。例如:
- 代碼識別 F1 從0.915 提升到 0.988,錯誤率驟降。
- 表格識別(FinTabNet)TEDS 從0.82 → 0.97,幾乎接近人工水平。
- 全頁 OCR F1 從0.80 提升到 0.84,編輯距離也更低。
- 更重要的是,它修復了“無限循環輸出”這種工程災難級的 bug。
3. 為什么 DocTags 很關鍵?
很多人可能會問:輸出 Markdown 或 JSON 不就夠了嗎?為什么 IBM 要額外發明 DocTags?
這里的核心在于 “歧義消除”。
傳統 OCR 輸出:
| Name | Age |
|------|-----|
| Tom | 23 |看似沒問題,但當表格跨頁、嵌套公式、包含圖片時,Markdown 根本無法完整表示。
而 DocTags 會這樣輸出:
<Table id="T1" coord="x1,y1,x2,y2">
<Row><Cell row=1 col=1>Tom</Cell><Cell row=1 col=2>23</Cell></Row>
</Table>優勢有三:
- 精準坐標:知道每個元素在原文檔的具體位置。
- 結構清晰:能區分標題、正文、腳注、表格 caption 等語義。
- 易于二次轉換:DocTags 可以無損轉化為 Markdown、HTML 或 JSON,靈活適配不同業務。
這對 RAG(檢索增強生成) 來說尤為重要。過去很多企業抱怨,問答系統經常“答非所問”,就是因為底層索引缺乏結構信息,導致檢索不到正確上下文。DocTags 的引入,能顯著提高檢索質量和問答準確性。
4. 多語言支持:離真正全球化更近一步
Granite-Docling 在英語之外,還提供了 日語、阿拉伯語和中文的實驗性支持。
雖然目前 IBM 強調這是“early-stage”,準確度不及英文,但這一步意義重大:
- 對跨國企業來說,內部文檔往往是多語種混雜;
- 對亞洲和中東市場,中文和阿語的加入能直接擴大適用范圍。
未來如果多語言能力進一步成熟,Granite-Docling 很可能成為“全球化企業文檔 AI 的默認選擇”。
5. 集成與部署:能否馬上用?
IBM 的策略很清晰:Granite-Docling 不是通用 VLM,而是 Docling 管道中的核心組件。
企業可以通過以下方式快速接入:
- Docling CLI / SDK一條命令即可把 PDF、Office 文檔、圖片轉換為 Markdown/HTML/JSON,自動調用 Granite-Docling。
- 多種推理框架支持包括 Hugging Face Transformers、vLLM、ONNX,以及專為 Apple Silicon 優化的 MLX。
- 開源許可Apache-2.0,不僅可以商用,還能二次開發。
這意味著企業可以用極低成本,把 Granite-Docling 嵌入現有的知識管理、RAG、數據分析管道,而不必擔心閉源模型的黑箱問題。
6. 為什么值得關注?
Granite-Docling 的價值并不只是“模型參數升級”,而是 生產力范式的轉變:
- 從內容識別 → 結構保真不再滿足于“看懂”,而是追求“原汁原味地還原”。
- 從多模型拼接 → 單一模型統一避免了調用 OCR、表格識別、公式識別等多個工具的麻煩。
- 從科研原型 → 企業級穩定性避免無限循環、降低錯誤率,真正能上線落地。
對于金融、法律、科研、政府檔案等場景,這種“結構保真”的能力尤其關鍵。它直接決定了文檔能否被機器高效索引,進而影響到后續檢索、問答、合規審計等一系列業務。
7. 未來展望
Granite-Docling 可能引發三大趨勢:
- 企業知識管理升級從“文本堆積”轉向“結構化資產”,企業內部數據價值將被進一步釋放。
- RAG 應用精度提升在 AI 助手、問答機器人、智能客服等場景中,答非所問的情況會明顯減少。
- 多語言市場拓展如果未來擴展更多語言,Granite-Docling 將成為跨國公司必備工具。
IBM 的這一步,不僅是推出了一個模型,更是重新定義了 Document AI 的技術路線。
結尾
從 SmolDocling 到 Granite-Docling,IBM 展現了一種“務實的進化”:不追求參數規模,而是聚焦企業剛需 —— 如何讓文檔轉換真正可用、可落地。
對于企業 IT 部門和開發者來說,Granite-Docling 不僅是一個開源模型,更是一塊拼圖,幫助他們把文檔處理、知識檢索和 AI 應用串成一條完整鏈路。
或許幾年后,我們會發現:企業文檔 AI 的拐點,就是從 Granite-Docling 開始的。
本文轉載自??Halo咯咯?? 作者:基咯咯

















