付費Mathpix公式識別不香了~不要錢舒服!
復雜科學文獻中數學公式識別的問題,對于科學文獻的智能化分析至關重要,但現有的特定任務模型和通用視覺語言模型在處理公式結構多樣性、復雜性和現實變化時仍存在不足。
一、當前方案的局限性
- 依賴特定任務模型:大多數現有公式識別方法依賴于為特定任務設計的模型架構,這些模型在新任務中需要重新設計架構,缺乏通用性。
- 復雜性和多樣性不足:現有數據集和方法主要關注結構簡單、符號種類有限的公式,而忽略了多學科、高度復雜且結構多樣的真實科學公式。
- 結構適應性和泛化能力有限:大多數方法僅關注單行公式,忽視了多行公式和頁面級復雜布局,導致在真實文檔中的性能下降。
二、DocTron-Formula
DocTron-Formula 通過簡單監督微調即可在多種復雜場景中實現最先進的性能,并且引入了 CSFormula 數據集,這是一個涵蓋多學科、結構復雜且具有挑戰性的大規模數據集,包含行、段落和頁面級別的公式。

2.1 CSFormula 數據集構造

包含來自數學、物理、化學等多個學科的復雜公式,涵蓋了單行、多行和頁面級別的復雜布局結構。數據集分為三個類別:
- 行級別:包含單個打印公式,包括單行和多行表達式。
- 段落級別:關注公式嵌入自然語言段落的場景。
- 頁面級別:包含完整的科學文檔圖像,包括公式、文本、表格等元素。
2.2 模型架構
DocTron-Formula 基于Qwen2.5-VL微調,其核心架構包括視覺編碼器和語言模型兩部分:
- 視覺編碼器:將文獻圖像作為輸入,通過視覺變換器(ViT)處理圖像,生成視覺特征序列。視覺編碼器結合了二維旋轉位置嵌入(2D-RoPE)和窗口注意力機制,支持原生輸入分辨率并加速計算。
- 語言模型:將視覺特征和指令文本投影到統一的嵌入空間中,通過多頭自注意力機制和前饋網絡進行處理。模型直接使用輸入圖像的實際尺寸(絕對坐標)來表示邊界框、點等空間特征,從而學習尺度信息,提高對不同分辨率圖像的處理能力。
三、模型效果

- 在Im2LaTeX-160K數據集上,ED 為 0.245,與任務特定的 SOTA 模型 UniMERNet(0.240)相當,優于其他基線方法。
- 在UniMER數據集上,平均 ED 為 0.098,低于 UniMERNet(0.103),尤其在屏幕截圖表達式(SCE)和手寫表達式(HWE)子集上表現突出。
- 在CSFormula數據集上,平均 ED 為 0.164,顯著優于第二名 Gemini-2.5-flash(0.394)。
??https://huggingface.co/DocTron/DocTron-Formula??
??https://github.com/DocTron-hub/DocTron-Formula/tree/main??
本文轉載自?????CourseAI?????,作者:CourseAI
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















