思維鏈監(jiān)督和強化的圖表推理,7B模型媲美閉源大尺寸模型
近期,隨著OpenAI-o1/o3和Deepseek-R1的成功,基于強化學習的微調(diào)方法(R1-Style)在AI領域引起廣泛關注。這些方法在數(shù)學推理和代碼智能方面展現(xiàn)出色表現(xiàn),但在通用多模態(tài)數(shù)據(jù)上的應用研究仍有待深入。
DocTron團隊提出的Chart-R1模型在這一背景下應運而生,針對圖表這一信息密集型多模態(tài)數(shù)據(jù)類型,開發(fā)出一套思維鏈監(jiān)督和強化的圖表推理方法,通過逐步驟的思維鏈監(jiān)督和數(shù)值敏感的強化學習微調(diào)實現(xiàn)復雜圖表推理能力。圖表分析不僅需要視覺理解,還需要進行多步驟的數(shù)值推理和關系分析,因此這項工作的重要性不言而喻。
DocTron是一個在通用視覺語言模型架構(gòu)上實現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開源項目,而無需定制化的模塊開發(fā),覆蓋通用文檔、學科公式、圖表代碼等場景。
- 論文標題:Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
- 論文鏈接:https://arxiv.org/pdf/2507.15509
- Github鏈接:https://github.com/DocTron-hub/Chart-R1
- 項目開源地址:https://huggingface.co/DocTron
創(chuàng)新點與技術(shù)突破

Chart-R1 的核心創(chuàng)新在于其兩階段訓練策略和高質(zhì)量數(shù)據(jù)合成方法:
1. 程序化數(shù)據(jù)合成技術(shù):
研究團隊開發(fā)了一種新穎的程序化數(shù)據(jù)合成技術(shù),利用 LLM 生成圖表繪制代碼,并基于這些代碼構(gòu)建復雜問題、多步驟思維鏈推理過程和最終答案。
這種方法生成了覆蓋單圖表和多子圖表的高質(zhì)量推理數(shù)據(jù),構(gòu)建了包含 258k 多步推理樣本的 ChartRQA 數(shù)據(jù)集。與現(xiàn)有方法相比,該技術(shù)避免了有損解析過程,確保了數(shù)據(jù)的多樣性和真實性。


2. 兩階段訓練策略:
- Chart-COT 階段:通過思維鏈監(jiān)督,訓練模型將復雜圖表推理任務分解為細粒度、可理解的子任務;
- Chart-RFT 階段:采用數(shù)值敏感的強化學習微調(diào),使用群組相對策略優(yōu)化 (GRPO),獎勵信號結(jié)合軟匹配和編輯距離,專門針對數(shù)值和字符串答案提高準確性。
這種兩階段策略的獨特之處在于為兩個階段使用不同的數(shù)據(jù)集,避免了在強化學習過程中模型探索能力的受損。
實驗結(jié)果與性能表現(xiàn)


實驗結(jié)果令人矚目:Chart-R1 在各種公開基準測試和自建的 ChartRQA 數(shù)據(jù)集上表現(xiàn)卓越,不僅超越了現(xiàn)有的圖表領域方法,甚至在多個任務上媲美 GPT-4o 和 Claude-3.5 等閉源大型模型。
在復雜圖表推理任務上,現(xiàn)有視覺語言模型的性能大幅下降,而 Chart-R1 依然保持穩(wěn)定的高水平表現(xiàn),這充分證明了該方法在復雜推理任務上的優(yōu)越性。
研究意義與應用前景
該研究不僅在技術(shù)上取得了突破,也為圖表理解和推理領域提供了新的研究方向:
- 證明了強化學習在視覺多模態(tài)推理任務中的有效性,特別是針對需要精確數(shù)值推理的場景;
- 提出的程序化數(shù)據(jù)合成方法為解決多模態(tài)數(shù)據(jù)稀缺問題提供了新思路;
- 兩階段訓練策略為構(gòu)建高效推理模型提供了實用框架。
在實際應用方面,Chart-R1 可廣泛應用于商業(yè)智能分析、科學研究數(shù)據(jù)解讀、金融報告分析等需要深度圖表理解的場景,大幅提升自動化分析效率。
結(jié)論
Chart-R1 的成功表明,通過精心設計的訓練策略和高質(zhì)量數(shù)據(jù),即使是參數(shù)規(guī)模相對較小的模型也能在特定領域達到與大型閉源模型相媲美的性能。這一研究為構(gòu)建高效、專業(yè)的領域特定 AI 模型提供了寶貴經(jīng)驗,也為未來多模態(tài)推理研究指明了方向。
該工作不僅是對 R1-Style 方法在多模態(tài)領域有效性的驗證,更是對如何構(gòu)建高效專業(yè)領域模型的重要探索,值得學術(shù)界和產(chǎn)業(yè)界的高度關注。





































