RewardMap: 通過多階段強化學習解決細粒度視覺推理的Sparse Reward
本研究由西湖大學 ENCODE Lab 牽頭,聯合同濟大學、浙江大學和新加坡國立大學共同完成。團隊在大模型強化學習與多模態推理方向具有深厚研究基礎。
近年來,大語言模型(LLMs)以及多模態大模型(MLLMs)在多種場景理解和復雜推理任務中取得突破性進展。
但一個樸素而尖銳的問題始終橫在面前:當視覺信息變得極其繁復、結構密集,模型究竟能不能「看懂圖」?比如以高分辨率地鐵圖為代表的真實場景,既要求精細的視覺感知,又要求跨線路、跨站點的空間推理。
來自該團隊的前向工作 ReasonMap 首次系統揭示了這一問題:在高分辨率地鐵圖等真實場景下,即使最先進的 MLLMs 也頻繁在跨線路、跨站點的路徑規劃中出現「看錯線」「漏站」「重復路線」等推理幻覺。
團隊進一步發現,在高分辨率、信息極其密集的地鐵圖上,僅依靠最終答案給出成敗信號的強化學習,很容易陷入獎勵極度稀疏的困境:多數輸出幾乎得不到任何正反饋,少數「偶然對」的樣本又會造成高方差梯度,訓練既慢又不穩,這使得模型在長鏈路路徑規劃中頻繁出現看錯線、漏站、甚至重復路線的「幻覺」。
為此,該團隊進一步提出 RewardMap:一個圍繞真實 map reasoning 任務場景設計的多階段強化學習框架,用難度感知的細粒度獎勵與從易到難的課程式訓練,系統提升 MLLMs 的細粒度視覺理解與空間推理能力。

- 論文標題:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2510.02240
- 項目主頁:https://fscdc.github.io/RewardMap/
- 代碼:https://github.com/fscdc/RewardMap
- 數據集:https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

ReasonMap-Plus:
為「冷啟動」準備的密集監督
團隊首先在 ReasonMap 的基礎上構建 ReasonMap-Plus,它與 ReasonMap 一致采用高分辨率的地鐵/軌交地圖,覆蓋 30 座城市,共計 4018 個問題樣本,并在設計上明確區分了五類更偏感知的細粒度題型(兩類 Local Counting、Global Counting、兩類 True/False),以便為強化學習階段提供更細密的監督與可拆解的目標。數據集還給出了易/中/難的難度標簽,并在訓練/測試劃分上保持城市與難度分布的多樣性與均衡性。

我們提出了什么:
RewardMap 框架
RewardMap 的核心思想并不復雜,卻緊扣痛點。第一步,用「細節可分解」的獎勵把一項路線規劃題拆成若干可評估的子目標,讓模型不再只有「對/錯」兩級的冰冷信號;第二步,以「從易到難」的課程式訓練組織數據分布,先讓模型在更密集、噪聲更小的子任務上「熱身」,再穩步遷移到真實的路線規劃上。
具體而言,RewardMap 包含兩大組件:其一是「難度感知的細節獎勵」;其二是「多階段強化學習」,后者顯式利用 ReasonMap-Plus 中更易獲得稠密信號的問題類型進行冷啟動,從一開始就提升訓練信噪比并降低不穩定性。
在難度感知上,團隊對訓練樣本的獎勵總和施加難度感知權重,綜合考慮地圖難度以及問題難度兩個維度:前者針對 ReasonMap 與 ReasonMap-Plus 的全部地圖統一劃分為三檔;后者在 ReasonMap 的規劃題中可由換乘次數來度量,換乘越多、難度越高,權重也越大。
RewardMap 的獎勵函數同樣體現了「把復雜問題拆成可學信號」的思路。總獎勵由三部分組成:格式合規(format)、最終正確性(correctness)與細節項(detail),并由難度權重進行縮放以體現題目的真實復雜度;其中細節項以 α=0.5 的系數參與總分,確保它既能提供穩定梯度,又不會喧賓奪主。
在細節項的具體計算里,我們對「起點/終點是否正確、線路名稱是否匹配、換乘站點是否合理、路線分段數是否正確」等要素分別給出加/扣分,形成一個「部分正確即可得分」的連續型信號,而不是過去那種「一票否決」的全或無。
關鍵結果
那么,RewardMap 在多基準上的綜合表現如何?除了在 ReasonMap/ReasonMap-Plus 上帶來持續且可復現實驗增益之外,我們還將其推廣到覆蓋「空間推理、細粒度視覺、通用視覺問答」三大類別的六項外部評測。
結果顯示,RewardMap 在所有基準上均取得一致提升,其中在 SpatialEval 上的增幅最高,達到 +13.51%;相較之下,傳統的 SFT → RL 雖然也有穩定提升,但整體仍弱于 RewardMap。這些結果表明,「細粒度獎勵 + 多階段課程」這一策略不僅在地鐵圖路徑規劃上奏效,也能遷移到更寬泛的高分辨率與空間理解任務上。


質化對比同樣直觀地揭示了改進點。以多城多圖的真實樣例為參照,配合 RewardMap 訓練后的模型更少出現「把線路看錯」的視覺混淆,更少出現「把同一路線在答案中重復多次」的幻覺現象,能夠更穩健地給出正確的首末站與換乘點,并在路線分段上匹配真實地圖結構。

未來展望
站在更宏觀的角度,RewardMap 帶來的價值不止于「刷榜」。它為高分辨率、強結構的視覺任務提供了一套可復用的強化學習范式:把復雜問題拆解為可度量的細節子目標,用難度建模去矯正樣本分布的「偏與稀」,再以多階段課程銜接「感知優先」的子任務與「推理密集」的規劃任務。這樣一來,模型從「看清楚」到「想明白」的路徑被系統化了,訓練過程的信噪比與穩定性也隨之可控。
同時,基于地圖數據的后訓練對多模態大模型通用能力的提升也得到了驗證,未來地圖這類真實數據還將在多模態大模型不同的階段發揮更大的作用。





























