大模型如何準確讀懂圖表?微軟亞研院教它“看、動手、推理”
多模態大模型(MLLM)在自然圖像上已取得顯著進展,但當問題落在圖表、幾何草圖、科研繪圖等結構化圖像上時,細小的感知誤差會迅速放大為推理偏差。
線性、剛性的“鏈式思考”流程也難以支撐復雜任務中必要的回溯與分支探索。
為此,微軟亞洲研究院聯合清華大學、香港科技大學提出PixelCraft:以高保真圖像處理與非線性多智能體推理為兩大支柱,系統性提升結構化圖像理解的準確性、魯棒性與可解釋性,在多個圖表與幾何基準上給出一致的性能增益。
結構化圖像的痛點與PixelCraft的切入
自然圖像通常憑借紋理、局部模式等特征即可完成理解;而結構化圖像把信息編碼進坐標、數據點、連線與數值標注,要求模型在像素級細節上建立可驗證的“符號化抽象”。
在這樣的場景中,傳統只依賴文字CoT的方式往往犧牲了空間與結構細節。
“視覺CoT”雖然嘗試插入中間圖像線索,但受制于低保真的圖像處理和簡單的線性處理鏈條,這類方法在應對復雜真實問題時效果有限,這一局限性也在CharXiv、ChartQAPro等更貼近真實場景的基準上得到體現。
PixelCraft將這一問題拆成兩端:先把“看準”做扎實,再讓“思考”更靈活。

從“聰明的眼睛”到“穩健的雙手”,再到“討論式思考”
- 系統組成:PixelCraft的系統由調度器(dispatcher)、規劃器(planner)、推理器(reasoner)、視覺評審與規劃評審(critics)以及一組視覺工具代理(toolagents)構成。調度器負責工具和角色的選擇與編排;規劃器維護圖像記憶(imagememory)并管理討論流程;推理器承擔多模態推理;視覺與規劃評審分別負責在環質量控制與事后復盤;視覺工具代理執行具體圖像操作
- 高保真圖像處理:微調后的grounding模型將目標區域的文本指代精準映射到像素級坐標區域,并以此為基礎設計了一套半自動生成工具代碼的流程。通過得到的視覺工具庫將后續推理建立在可驗證的中間證據之上。
- 三階段工作流:圍繞“工具選擇→協作討論與回溯→自我審查與再規劃”展開。與將所有中間圖一次性并入上下文不同,規劃器利用圖像記憶進行選擇性回看與復用,以支持分支探索與回溯,并降低長上下文負擔。

高保真視覺處理
研究在高質量標注數據上對Qwen2.5-VL-3B-Instruct進行微調,得到像素級grounding模型,可以將目標區域的文本指代精準映射到像素級坐標區域。
以此為錨,系統通過工具代理調用一組標準化的傳統CV操作(如裁切、放大、按圖例遮擋、輔助線標注等),使中間編輯步驟可驗證、可復現,為后續推理提供穩定證據。
系統的工具并非靜態預設,而是通過自動生成—標準化—調用的閉環形成:系統基于任務樣本由大模型生成候選工具,經聚類與重寫后作為工具庫備用(一些具體的工具處理示例如下圖所示)。
子圖裁剪/局部放大

帶圖例的數據繪制/添加輔助線

隨后結合grounding坐標與調度/規劃策略,實現精確、可重復、可回溯的工具調用。
在討論式推理中,工具按需被動態選擇與復用,從而把“看準”(定位與編輯的準確性)與“能做”(可執行操作)有效銜接。
在合成與標注評測集上,微調后的grounding在子圖區域、圖例區域、文本標簽與刻度點的IoU/PCK指標均較基礎模型有顯著提升。

保持智能體系統的基座模型不變,切換不同grounding模型會傳導至下游基準(如CharXiv、ChartQAPro等)的最終精度,說明定位質量對整體性能具有關鍵影響。

由此,“高保真定位+工具閉環”有效減少了由“截錯/標錯”引起的誤差傳播。
非線性、多角色的“討論式推理”
PixelCraft的討論式流程由規劃器統籌:先選擇合適的工具與角色,隨后規劃器根據當前上下文按需選擇下一角色及其輸入(圖像或文本),并角色間傳遞中間結果。
推理過程中由視覺評審判定圖像處理是否滿足目標,再由規劃評審事后復盤整條鏈路,必要時觸發再規劃再推理。
與“只在上一張圖上繼續”的線性鏈不同,圖像記憶讓規劃器能在討論中主動回看早期證據、嘗試備選分支、修訂假設。
這一“discussion-centric workflow”在結構化圖像場景中尤顯必要:細節一旦出錯,應盡快止損并回溯而不是被動前行。
實驗:多基座、多數據集的一致增益
在三個具有挑戰性的圖表理解基準CharXiv/ChartQAPro/EvoChart上,PixelCraft在GPT-4o等大模型的基礎上取得大幅提升,且跨模型表現一致。

消融實驗顯示,可靠的圖像編輯+在環校驗+事后復盤共同支撐了系統的穩定性與可解釋。

研究還構造了和常規VisualCoT的對照:把歷史中間圖像全部并入上下文、讓模型在線性鏈里“帶圖思考”。
結果顯示,在CharXiv與ChartQAPro上,簡單的VisualCoT結果明顯低于PixelCraft的范式。
這從正反兩面印證:不是“把圖都塞進去”就能解決問題,選擇性記憶+討論式回溯才是更有效的組織方式。
工具層面,圖表類的子圖裁切、局部放大、輔助線標注、按圖例遮擋覆蓋了大多數分析操作。
幾何類的點連線、作垂線/平行線為推理提供“草圖級”證據。論文給出了工具使用頻率與單項貢獻的統計,也展示了多種具體處理案例。
PixelCraft提出了一條面向結構化圖像的半自動化新范式:包含工具制造,工具選擇,工具調用,過程修改。
先以像素級grounding把證據找準,再把證據交給“工具化的雙手”去做可驗證的編輯,最后在規劃器主導的討論式流程中組織推理,并用圖像記憶貫穿回溯與分支探索。
通過這一整套設計,系統在多個benchmark上取得跨模型一致的提升,且中間過程清晰可檢。
對需要在圖表、幾何等結構化圖像而言,PixelCraft顯著提升了模型推理的準確性和魯棒性。
論文鏈接:https://arxiv.org/pdf/2509.25185
































