給幾何圖片寫標題就能讓AI更聰明,UIUC發布高質量可泛化幾何數據集
隨著多模態大語言模型(MLLMs)在視覺問答、圖像描述等任務中的廣泛應用,其推理能力尤其是數學幾何問題的解決能力,逐漸成為研究熱點。
然而,現有方法大多依賴模板生成圖像 - 文本對,泛化能力有限,且視覺與文本信息之間存在嚴重不對齊問題,制約了模型在復雜幾何推理任務上的表現。

來自 UIUC 的作者團隊的研究提出了一種基于強化學習與可驗證獎勵 RLVR 數據生成與優化框架 ——Geo-Image-Textualization,并發布了首個完全對齊的高質量幾何圖像 - 文本數據集 GeoReasoning-10K,包含 1 萬對精心構建的圖像與描述。
并且,為了促進社區發展,作者團隊已公開 GeoReasoning-10K 數據集及相關代碼。

- 數據集地址:https://huggingface.co/datasets/ScaleMath/GeoReasoning
- 代碼地址:https://github.com/MachinePhoenix/GeoReasoning
- 論文鏈接:https://arxiv.org/abs/2509.15217
- 論文標題:Generalizable Geometric Image Caption Synthesis
數據集與方法介紹
該框架的核心創新包括:
- 強泛化性:訓練后的模型不僅在幾何任務上表現優異,還能泛化至算術、代數、數值推理等非幾何任務,甚至處理非幾何圖像輸入。
- 高質量:經過 GeoReasoning 訓練過的模型,在下游任務上性能超過其他同類型數據集,并且具有良好的縮放性質。
- 可擴展性:生成的樣本由模板集中的字句組合而成,可以組合出任意復雜度的幾何題。
圖像 - 標題 - 問題 / 答案的生成流程如下圖所示:

生成的幾何圖示例如下:

訓練流程和強化學習階段的獎勵函數如下:


實驗結果
在權威數學推理基準 MathVista 和 MathVers 上與其他幾何字幕標注數據集(如 AutoGeo、GeoPeP)和解題數據集(如 GeoGPT4, Geo170K)相比,GeoReasoning-10K 在相同數據量下均取得最優效果,展現出卓越的數據質量與擴展性:

左:MathVista;右:MathVerse
在 MMMU 測評基準上,使用 GeoReasoning-10K 微調后的 Gemma3-4B 模型顯著提升多項能力:

MMMU 實驗結果
最后展示 MathVista 中的一些具體樣例:



以及 MMMU 的一些樣例:



總結
在多模態大語言模型快速發展的今天,Geo-Image-Textualization 框架和 GeoReasoning-10K 數據集為解決幾何推理瓶頸提供了全新思路。通過確保視覺和文本信息的完全對齊,本文的方法不僅提升了模型在幾何問題上的表現,還實現了向更廣泛數學領域的泛化。
正如實驗結果所示,給幾何圖片寫標題可以讓 AI 變聰明,不僅能解決幾何問題,還能增強其整體數學推理能力,為多模態 AI 在教育、科學計算等領域的應用鋪平道路。
感謝作者團隊的辛勤工作和開源貢獻,期待更多研究者加入這一領域,共同推動多模態 AI 技術的邊界不斷擴展。



























