精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RewardMap: 通過多階段強化學習解決細粒度視覺推理的Sparse Reward

人工智能 新聞
一個圍繞真實 map reasoning 任務場景設計的多階段強化學習框架,用難度感知的細粒度獎勵與從易到難的課程式訓練,系統提升 MLLMs 的細粒度視覺理解與空間推理能力。

本研究由西湖大學 ENCODE Lab 牽頭,聯合同濟大學、浙江大學和新加坡國立大學共同完成。團隊在大模型強化學習與多模態推理方向具有深厚研究基礎。

近年來,大語言模型(LLMs)以及多模態大模型(MLLMs)在多種場景理解和復雜推理任務中取得突破性進展。

但一個樸素而尖銳的問題始終橫在面前:當視覺信息變得極其繁復、結構密集,模型究竟能不能「看懂圖」?比如以高分辨率地鐵圖為代表的真實場景,既要求精細的視覺感知,又要求跨線路、跨站點的空間推理。

來自該團隊的前向工作 ReasonMap 首次系統揭示了這一問題:在高分辨率地鐵圖等真實場景下,即使最先進的 MLLMs 也頻繁在跨線路、跨站點的路徑規劃中出現「看錯線」「漏站」「重復路線」等推理幻覺。

團隊進一步發現,在高分辨率、信息極其密集的地鐵圖上,僅依靠最終答案給出成敗信號的強化學習,很容易陷入獎勵極度稀疏的困境:多數輸出幾乎得不到任何正反饋,少數「偶然對」的樣本又會造成高方差梯度,訓練既慢又不穩,這使得模型在長鏈路路徑規劃中頻繁出現看錯線、漏站、甚至重復路線的「幻覺」。

為此,該團隊進一步提出 RewardMap:一個圍繞真實 map reasoning 任務場景設計的多階段強化學習框架,用難度感知的細粒度獎勵與從易到難的課程式訓練,系統提升 MLLMs 的細粒度視覺理解與空間推理能力。


  • 論文標題:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2510.02240
  • 項目主頁:https://fscdc.github.io/RewardMap/
  • 代碼:https://github.com/fscdc/RewardMap
  • 數據集:https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

ReasonMap-Plus:

為「冷啟動」準備的密集監督

團隊首先在 ReasonMap 的基礎上構建 ReasonMap-Plus,它與 ReasonMap 一致采用高分辨率的地鐵/軌交地圖,覆蓋 30 座城市,共計 4018 個問題樣本,并在設計上明確區分了五類更偏感知的細粒度題型(兩類 Local Counting、Global Counting、兩類 True/False),以便為強化學習階段提供更細密的監督與可拆解的目標。數據集還給出了易/中/難的難度標簽,并在訓練/測試劃分上保持城市與難度分布的多樣性與均衡性。

 我們提出了什么:

RewardMap 框架

RewardMap 的核心思想并不復雜,卻緊扣痛點。第一步,用「細節可分解」的獎勵把一項路線規劃題拆成若干可評估的子目標,讓模型不再只有「對/錯」兩級的冰冷信號;第二步,以「從易到難」的課程式訓練組織數據分布,先讓模型在更密集、噪聲更小的子任務上「熱身」,再穩步遷移到真實的路線規劃上。

具體而言,RewardMap 包含兩大組件:其一是「難度感知的細節獎勵」;其二是「多階段強化學習」,后者顯式利用 ReasonMap-Plus 中更易獲得稠密信號的問題類型進行冷啟動,從一開始就提升訓練信噪比并降低不穩定性。

在難度感知上,團隊對訓練樣本的獎勵總和施加難度感知權重,綜合考慮地圖難度以及問題難度兩個維度:前者針對 ReasonMap 與 ReasonMap-Plus 的全部地圖統一劃分為三檔;后者在 ReasonMap 的規劃題中可由換乘次數來度量,換乘越多、難度越高,權重也越大。

RewardMap 的獎勵函數同樣體現了「把復雜問題拆成可學信號」的思路。總獎勵由三部分組成:格式合規(format)、最終正確性(correctness)與細節項(detail),并由難度權重進行縮放以體現題目的真實復雜度;其中細節項以 α=0.5 的系數參與總分,確保它既能提供穩定梯度,又不會喧賓奪主。

在細節項的具體計算里,我們對「起點/終點是否正確、線路名稱是否匹配、換乘站點是否合理、路線分段數是否正確」等要素分別給出加/扣分,形成一個「部分正確即可得分」的連續型信號,而不是過去那種「一票否決」的全或無。

關鍵結果

那么,RewardMap 在多基準上的綜合表現如何?除了在 ReasonMap/ReasonMap-Plus 上帶來持續且可復現實驗增益之外,我們還將其推廣到覆蓋「空間推理、細粒度視覺、通用視覺問答」三大類別的六項外部評測。

結果顯示,RewardMap 在所有基準上均取得一致提升,其中在 SpatialEval 上的增幅最高,達到 +13.51%;相較之下,傳統的 SFT → RL 雖然也有穩定提升,但整體仍弱于 RewardMap。這些結果表明,「細粒度獎勵 + 多階段課程」這一策略不僅在地鐵圖路徑規劃上奏效,也能遷移到更寬泛的高分辨率與空間理解任務上。

質化對比同樣直觀地揭示了改進點。以多城多圖的真實樣例為參照,配合 RewardMap 訓練后的模型更少出現「把線路看錯」的視覺混淆,更少出現「把同一路線在答案中重復多次」的幻覺現象,能夠更穩健地給出正確的首末站與換乘點,并在路線分段上匹配真實地圖結構。

未來展望

站在更宏觀的角度,RewardMap 帶來的價值不止于「刷榜」。它為高分辨率、強結構的視覺任務提供了一套可復用的強化學習范式:把復雜問題拆解為可度量的細節子目標,用難度建模去矯正樣本分布的「偏與稀」,再以多階段課程銜接「感知優先」的子任務與「推理密集」的規劃任務。這樣一來,模型從「看清楚」到「想明白」的路徑被系統化了,訓練過程的信噪比與穩定性也隨之可控。

同時,基于地圖數據的后訓練對多模態大模型通用能力的提升也得到了驗證,未來地圖這類真實數據還將在多模態大模型不同的階段發揮更大的作用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-04 14:51:13

Golang鏡像二進制文件

2024-06-27 08:00:00

存儲數據庫細粒度

2017-11-13 17:17:11

Docker鏡像Go

2010-04-19 09:35:58

Oracle細粒度

2009-04-16 17:59:25

細粒度權限

2010-04-14 11:04:53

Oracle細粒度

2025-09-01 08:10:09

細粒度圖像分類細粒度視覺分類FGVC

2024-03-15 15:26:00

AI數據

2023-02-08 13:08:31

2009-10-27 09:31:24

Windows Ser口令策略

2024-04-26 12:13:45

NameNodeHDFS核心

2010-04-16 16:39:25

Oracle細粒度

2023-07-03 08:52:31

容器Golang

2023-06-16 09:49:11

人工智能研究

2010-04-22 13:39:31

Oracle細粒度訪問

2024-08-06 12:00:00

監督學習視覺

2018-02-25 04:05:16

2025-03-20 10:07:55

2020-03-30 21:32:50

物聯網IOT多階段驗證

2022-11-07 12:15:13

開源深度學習
點贊
收藏

51CTO技術棧公眾號

国产精品热视频| 欧美日本国产视频| 日本免费高清一区二区| 在线观看国产成人| 韩国精品一区二区三区| 日韩精品在线视频美女| 亚洲欧美综合另类在线卡通| 欧美诱惑福利视频| 欧洲性xxxx| 成人性生交大片免费看96| 色国产综合视频| 激情六月天婷婷| 国产精品秘入口| 成人福利在线看| 国产欧美久久一区二区| 天堂网av手机版| 91精品秘密在线观看| 亚洲美女av黄| 992tv人人草| 免费看av不卡| 一区二区三区日韩在线观看| 国产精品一区二区三区精品| 日韩黄色一级视频| 伊人成年综合电影网| 色妞欧美日韩在线| 久久久久久亚洲中文字幕无码| 美国十次综合久久| 欧美日韩专区在线| 97xxxxx| 国产嫩草在线视频| 自拍偷拍欧美激情| 亚洲欧洲在线一区| 国产精品一区二区三区四区色| 成人高清av在线| 成人免费视频网站| 国产人妻精品一区二区三| 手机精品视频在线观看| 51精品在线观看| 国产网友自拍视频| 欧美午夜在线视频| 精品少妇一区二区30p| 亚洲色图日韩精品| 日本电影一区二区| 伊是香蕉大人久久| 欧美福利第一页| jiujiure精品视频播放| 亚洲人免费视频| 中文字幕在线看高清电影| 日韩激情毛片| 日韩国产欧美精品一区二区三区| 久草免费资源站| 澳门久久精品| 亚洲福利视频在线| 加勒比精品视频| 外国成人在线视频| 精品视频久久久久久| 国模私拍在线观看| 午夜a一级毛片亚洲欧洲| 欧美大胆人体bbbb| 亚洲中文字幕无码一区| 日韩美女国产精品| 亚洲美女黄色片| 亚洲国产天堂av| 欧美呦呦网站| 久久亚洲影音av资源网| 亚洲国产精品免费在线观看| 国产精品v日韩精品v欧美精品网站| 欧美成人精品xxx| 久久在线视频精品| 亚洲中字黄色| 国产欧美日韩中文字幕| 国产精品一区二区免费视频| 国产一区欧美日韩| 国产欧美一区二区三区另类精品| 午夜视频1000| 国产精品婷婷午夜在线观看| 特级黄色录像片| hd国产人妖ts另类视频| 色综合久久88色综合天天| 天天爽人人爽夜夜爽| 国产激情综合| 日韩成人av在线播放| 69精品无码成人久久久久久| 这里只有精品在线| 97在线视频免费观看| 国产男人搡女人免费视频| 国产专区欧美精品| 国产欧美日韩一区二区三区| 成人高清免费观看mv| 亚洲欧美国产毛片在线| 久久精品免费一区二区| 国产精品亚洲成在人线| 精品国产一区二区三区久久影院| 久久精品成人av| 亚洲v在线看| 欧美在线视频一区| 国产色在线视频| 91网页版在线| 精品一区二区三区毛片| 成人免费无遮挡| 3d成人h动漫网站入口| 岛国精品资源网站| 久久视频在线| 日本亚洲欧美三级| 成人午夜精品福利免费| 亚洲国产精品精华液ab| 日韩黄色短视频| 四虎精品在线观看| 国产婷婷97碰碰久久人人蜜臀| 天堂av免费在线| 久久精品一区| 国内成+人亚洲| av网址在线看| 欧美网站一区二区| 亚洲永久无码7777kkk| 亚洲人体av| 国产精品自产拍在线观| 日韩有码电影| 亚洲成人免费在线| 五月六月丁香婷婷| 久久国产成人精品| 国产精品96久久久久久| 欧美自拍偷拍一区二区| 一区二区三区日本| 99国产精品久久久久久| 欧美手机视频| 日韩女优在线播放| 国产精品国产高清国产| 亚洲自拍偷拍九九九| 亚洲图片 自拍偷拍| 欧美日韩中字| 国产精品久久久久久久av大片| 婷婷丁香一区二区三区| 亚洲一区在线电影| 爱情岛论坛亚洲自拍| 忘忧草精品久久久久久久高清| 国产精品盗摄久久久| 蝌蚪视频在线播放| 第一福利永久视频精品| www.男人天堂| 亚洲激情黄色| 久久99国产精品99久久| 波多野结依一区| 精品国产乱码久久久久久蜜臀 | 久久久久久久久久成人| heyzo一本久久综合| 妞干网在线视频观看| 欧美电影在线观看免费| 欧美亚州一区二区三区| 午夜国产在线视频| 欧美视频中文字幕在线| 欧类av怡春院| 一区二区三区四区五区精品视频| 精品麻豆av| 无遮挡在线观看| 亚洲欧美日韩中文视频| 国产成人自拍偷拍| 国产精品伦理在线| 手机在线观看日韩av| 红桃视频欧美| 精品一区二区国产| 亚洲一二三四| 中文字幕久热精品视频在线| 亚洲一级片免费看| 一区二区三区丝袜| a级一a一级在线观看| 亚洲欧美日韩在线观看a三区| 蜜桃狠狠色伊人亚洲综合网站| 成人做爰视频www网站小优视频| 国产亚洲精品va在线观看| 一卡二卡三卡在线| 亚洲精品成a人| av网站有哪些| 蜜桃视频一区二区三区| 国产日韩欧美大片| 欧美性生活一级片| 国产精品一二区| 欧美人与禽猛交乱配| 国产视频一区在线| 国产又粗又猛又爽又黄的视频一| 一区二区三区四区不卡在线| 黄色aaa视频| 久久电影国产免费久久电影| 欧美国产视频一区| 国产一区二区三区四区五区| 91青草视频久久| 亚洲精华液一区二区三区| 中文字幕久久亚洲| 欧性猛交ⅹxxx乱大交| 欧美亚洲国产一区二区三区va| 欧洲猛交xxxx乱大交3| 91碰在线视频| 一级片免费在线观看视频| 国产欧美二区| 五月天综合婷婷| 嫩草一区二区三区| 99视频日韩| 精品久久99| 亚洲3p在线观看| 黄网页在线观看| 亚洲欧美日韩成人| 亚洲欧美另类综合| 欧美高清精品3d| 亚洲黄色免费观看| 亚洲亚洲人成综合网络| 人人艹在线视频| 久久综合久久综合久久综合| 真实乱偷全部视频| 免费一区二区视频| jizzjizz国产精品喷水| 欧美成人国产| 亚洲午夜久久久影院伊人| 欧美日韩一本| 国产69精品久久久久9999apgf | 中文字幕中文字幕在线十八区| 亚洲九九九在线观看| www.色亚洲| 欧美日本不卡视频| 国产精品无码粉嫩小泬| 精品久久久久久亚洲国产300| 亚洲二区在线播放| 国产女主播视频一区二区| 在线观看国产免费视频| 国产伦精品一区二区三区在线观看 | 国产91亚洲精品一区二区三区| 日本一区二区三区中文字幕| 日韩av电影手机在线观看| h片精品在线观看| 欧美成人精品激情在线观看| 日本视频在线观看| 国产亚洲欧洲黄色| 黑人与亚洲人色ⅹvideos| 亚洲精品久久久久久久久久久久| 精品久久人妻av中文字幕| 91精品欧美福利在线观看| 亚洲最新av网站| 欧美午夜片在线看| 中文字幕在线日本| 欧洲亚洲精品在线| 亚洲精品一区二三区| 91国偷自产一区二区三区成为亚洲经典 | 五月天婷婷在线观看视频| 精品一区二区三区免费观看| 日韩欧美国产片| 激情文学综合丁香| 欧美视频亚洲图片| 国产成人在线免费观看| 国产吃瓜黑料一区二区| 国产成人av电影免费在线观看| 国产xxx在线观看| 国产精品18久久久| 中文字幕乱妇无码av在线| 国产精品香蕉一区二区三区| 国产成人精品一区二区三区在线观看| 福利电影一区二区| 美女黄色一级视频| 久久久精品黄色| 久久丫精品忘忧草西安产品| 中文字幕不卡在线观看| 男人在线观看视频| 亚洲综合免费观看高清完整版在线| 久久无码精品丰满人妻| 激情久久av一区av二区av三区 | 欧美日韩免费一区二区三区视频| 91成年人视频| 欧美成人性战久久| 亚洲人午夜射精精品日韩| 国产亚洲一级高清| 国产在线观看av| 高清欧美性猛交xxxx黑人猛交| 偷拍自拍在线看| 国产欧美日韩精品在线观看| 欧美经典影片视频网站| 国严精品久久久久久亚洲影视 | 亚洲精品a区| 激情五月综合色婷婷一区二区| 久操精品在线| a级黄色片网站| 精品91久久久久| 日韩视频免费在线播放| 精品在线播放免费| 国产精品一区二区人妻喷水| 中文字幕免费观看一区| 国产盗摄x88av| 色久综合一二码| 精品久久久久久亚洲综合网站| 亚洲国产成人久久综合| 1024国产在线| 午夜精品久久17c| 成人在线免费| 国产精品亚洲不卡a| 成人在线亚洲| 三上悠亚久久精品| 韩国一区二区在线观看| 波多野结衣福利| 亚洲精品美腿丝袜| 人妻中文字幕一区二区三区| 精品国产乱码久久久久久1区2区| 二区三区在线| 久久欧美在线电影| 电影一区中文字幕| 欧美激情第六页| 伊人久久综合| 亚洲综合婷婷久久| 久久久精品免费免费| 日本少妇xxxx动漫| 欧美剧情电影在线观看完整版免费励志电影 | 97视频在线免费| 另类小说视频一区二区| aaaaaav| 亚洲永久精品大片| 亚洲一区二区视频在线播放| 亚洲人成在线观看| av免费不卡国产观看| 亚洲最大福利视频| 97视频精品| 精品久久久久久中文字幕2017| 成人免费视频app| 永久看片925tv| 欧美日产在线观看| 国产福利第一视频在线播放| 97在线看福利| 欧美日韩夜夜| 男人添女人下部高潮视频在观看 | 国产成人无码精品久久二区三| 亚洲国产精品久久不卡毛片| 国产特级黄色片| 久久精品99国产精品酒店日本| 电影天堂国产精品| 欧美另类视频在线| 亚洲免费综合| 日本丰满少妇裸体自慰| 午夜精品久久久久久久久久| 精品人妻一区二区三区含羞草| 日韩在线视频导航| www.一区| 一区二区三区四区五区精品| 日本伊人精品一区二区三区观看方式 | 亚洲第一网站在线观看| 亚洲女同性videos| 免费福利视频一区二区三区| 久久免费99精品久久久久久| 国产精品亚洲综合色区韩国| 给我免费观看片在线电影的| 天天av天天翘天天综合网| 日本五码在线| 国产成人a亚洲精品| 精品免费在线| 免费精品99久久国产综合精品应用| 国产精品高清亚洲| 国产视频在线观看视频| 欧美黄色小视频| 欧亚精品一区| 国产淫片av片久久久久久| 久久久久亚洲综合| 中文字幕视频一区二区| 北条麻妃一区二区三区中文字幕| 亚洲成人1区| 免费观看亚洲视频| 99综合电影在线视频| 精品人妻一区二区三区免费看| 亚洲人免费视频| 四虎国产精品永久在线国在线 | 色女人在线视频| 国产尤物91| 日韩av中文字幕一区二区三区| 青青青手机在线视频| 91精品国产福利在线观看| xxxx成人| 日本在线成人一区二区| 极品少妇xxxx偷拍精品少妇| 久久久久久久福利| 日韩精品中文字| 欧美综合影院| 免费看黄在线看| 欧美激情综合网| 亚洲欧美强伦一区二区| 日韩暖暖在线视频| 欧美色图麻豆| 蜜桃无码一区二区三区| 制服丝袜亚洲网站| 美女搞黄视频在线观看| 亚洲一区二区三区欧美| 成人黄色在线视频| 中国一区二区视频| 欧美黄色成人网| 欧美理论电影大全| 精品国产免费久久久久久婷婷| 色综合天天综合给合国产| 国产一区久久精品| 欧美成熟毛茸茸复古| 国产一区二区三区免费看 | 波多野结衣在线网址| 亚洲激情第一页| 99er精品视频| 日日摸天天爽天天爽视频| 一区二区三区四区不卡视频| se在线电影| 久久人人97超碰人人澡爱香蕉| 黄色精品一二区|