智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式 精華

文章鏈接:https://arxiv.org/pdf/2508.08189
git鏈接:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning
亮點直擊
- 系統綜述200余項視覺強化學習研究,涵蓋MLLMs、視覺生成、統一模型和視覺-語言-行動智能體
- 分析各子領域在策略優化、獎勵建模與基準測試的進展,揭示核心挑戰:如視覺生成的獎勵設計、推理與VLA任務的中間監督缺失
- 提出基于指標粒度與獎勵監督的視覺RL分類法,包括圖像生成的三種獎勵范式,為跨領域策略選擇與開發提供框架支持
強化學習(RL)與視覺智能
領域的近期突破,使得智能體不僅能感知復雜視覺場景,還能進行推理、生成并執行決策。本文對該領域研究進行了批判性梳理與前沿整合:首先系統化定義視覺RL問題,追溯從RLHF到可驗證獎勵范式、從近端策略優化到群體相對策略優化的策略優化演進路徑;繼而將200余項代表性成果歸納為四大支柱方向——多模態大語言模型、視覺生成、統一模型框架、視覺-語言-行動模型。針對每個方向,深入剖析算法設計、獎勵機制構建與基準測試進展,提煉出課程驅動訓練、偏好對齊擴散、統一獎勵建模等關鍵技術趨勢;最后通過集合級保真度、樣本級偏好、狀態級穩定性三維度評估體系,指出樣本效率、泛化能力及安全部署等開放挑戰。本研究旨在為學界與業界繪制視覺RL快速擴張版圖的認知坐標,并指明未來研究的潛在路徑。
1 引言
強化學習(RL)在大語言模型(LLMs)領域已取得顯著成就,尤以基于人類反饋的強化學習(RLHF)和DeepSeek-R1等創新框架為代表。這些方法顯著提升了LLMs的能力,使其生成內容更貼合人類偏好,并實現了僅靠監督學習難以達成的復雜推理與交互能力。
近年來,受LLM領域成果啟發,研究者開始將RL方法拓展至多模態大模型,包括視覺語言模型(VLM)、視覺-語言-行動模型(VLA)、基于擴散的視覺生成模型以及統一多模態框架,如下圖1所示。例如Gemini 2.5利用RL對齊視覺-文本推理過程,生成語義連貫且符合人類判斷的輸出;VLA模型則通過RL優化交互環境中的序列決策,顯著提升了GUI自動化、機器人操控和具身導航等任務的性能。擴散生成模型的快速發展進一步推動了RL創新:ImageReward引入RL增強生成結果的語義對齊與視覺質量,通過人類偏好或自動獎勵機制的迭代反饋優化擴散生成。此外,統一模型依賴RL微調,實現了以往難以企及的泛化與任務遷移能力。

盡管多模態大模型的RL融合已取得重大進展,仍存在核心挑戰:復雜獎勵信號下的策略優化穩定性、高維異構視覺輸入的處理,以及支持長程決策的可擴展獎勵函數設計。解決這些問題需要算法設計與評估范式的雙重創新。
本文全面綜述了2024年以來多模態大模型中的視覺強化學習進展。首先回顧RL在語言模型中的基礎成果(如RLHF和DeepSeek-R1),繼而分析這些策略在視覺領域的演進,將200余項研究歸納為四大方向:
- 多模態大語言模型
- 視覺生成
- 統一RL框架
- 視覺-語言-行動智能體(圖1) 針對每類研究,剖析算法設計、獎勵建模與基準測試的關鍵進展,最后指出開放挑戰與未來方向,包括高效多模態推理、VLA任務的長程學習策略,以及面向視覺生成的可擴展高保真獎勵信號。通過系統梳理,為這一快速演進領域的研究與實踐提供結構化參考。
2 基礎:LLM中的強化學習
這里介紹多模態模型的RL基礎。首先形式化符號體系,將文本與圖像生成建模為馬爾可夫決策過程;隨后分析三種對齊范式:基于人類反饋的強化學習(RLHF)、群體相對策略優化(GRPO)和可驗證獎勵的強化學習(RLVR),分別通過人類偏好或確定性校驗實現策略對齊;最后回顧核心策略梯度方法(PPO、GRPO)及其在視覺推理與生成中的適配方案。

2.1 符號與問題形式化

2.2 對齊范式
2.2.1 基于人類反饋的強化學習



三階段流程
現代RLHF流程普遍遵循三階段范式(圖2a):

該范式由Christiano et al., 2017首創,通過成對人類偏好訓練Atari游戲和機器人智能體。Ouyang et al., 2022將其擴展至大語言模型(InstructGPT),將偏好建模與PPO結合。視覺領域則采用ImageReward和人類偏好評分HPS等獎勵模型,為文本到圖像擴散任務提供稠密美學信號。
2.2.2 直接偏好優化


其中對數幾率差定義為:


2.2.3 可驗證獎勵的強化學習

RLVR采用簡潔的兩階段流程:

2.3 策略優化算法
2.3.1 近端策略優化


- 重要性采樣比

該比率將行為策略的梯度估計重新加權至更新策略。


GAE通過指數加權多步獎勵估計計算優勢值,在低方差學習與高方差蒙特卡洛回報之間實現平滑權衡。
PPO優化的代理目標函數為:


2.3.2 群體相對策略優化
群體相對策略優化(GRPO)通過棄用學習的價值(評論家)網絡,改用基于同提示多輸出采樣的群體相對基線來擴展PPO。如前面圖3(b)所示,該設計顯著降低內存消耗,同時使優勢估計器與基于比較的獎勵模型對齊。


相較于公式(10)的PPO,GRPO引入兩項關鍵改進:
- 消除價值網絡:通過群體相對基線實現方差縮減,降低內存占用并減少超參數
- 分離KL損失通道:將KL散度作為顯式正則項優化(而非融入優勢估計),透明權衡獎勵最大化與參考錨定
3 視覺中的強化學習
3.1 多模態大語言模型
將相關研究劃分為四個連貫類別,每個類別由共享的RL驅動目標與內部推理機制定義。

3.1.1 傳統RL驅動的多模態大語言模型
傳統RL驅動的MLLMs指主要應用強化學習將視覺-語言主干網絡與可驗證的任務級獎勵對齊的方法,不顯式建模多步思維鏈推理。典型工作如RePIC、GoalLadder、Drive-R1和VLM-R1用確定性驗證器(如精確匹配、IoU、BLEU)替代偏好模型,在KL正則項下通過GRPO/PPO變體優化策略。該設計實現穩定的無價值網絡訓練,提升描述生成、定位和自動駕駛基準的零樣本魯棒性,大幅降低監督微調的標注成本。
近期擴展展現了該范式的靈活性:GRPO-CARE引入一致性感知的群體歸一化降低獎勵方差,Q-Ponder增加沉思控制器。數據層面,MoDoMoDo提出多域混合優化預測獎勵分布并選擇最優課程,V-Triune在統一的三目標流程中整合感知與推理任務,實證驗證基于規則的RL可擴展至多樣視覺信號。這些研究共同表明:(i) 可驗證獎勵可作為人類反饋的低成本替代,(ii) 群體相對目標在異構視覺任務上比標記級PPO更穩定,(iii) 課程或數據混合調度正成為廣義泛化的關鍵要素。
3.1.2 空間與3D感知
2D感知:以感知為核心的工作應用RL銳化目標檢測、分割和定位,不涉及長鏈推理。Omni-R1提出全局-局部雙系統GRPO流程,通過基于規則的指標驗證預測,在區域級基準和情感識別任務中表現突出。DIP-R1將感知分解為"檢測→觀察→行動"的逐步循環,每階段接收基于IoU或計數的確定性獎勵以提升細粒度檢測。Perception-R1重新評估GRPO在檢測與OCR數據集上的效果。VisRL將意圖引導的焦點選擇建模為RL子策略,在視覺定位任務中 consistently 超越監督基線。
3D感知:MetaSpatial利用渲染深度/IoU獎勵優化AR/VR場景的空間推理,Scene-R1通過視頻片段選擇與兩階段定位策略學習3D場景結構。分子尺度的BindGPT將原子排布視為序列動作,以結合親和力估計器作為可驗證獎勵,證明感知導向的RL可擴展至3D生化設計。這些方法共享共性:(i) 將檢測/分割/3D對齊建模為MDP,(ii) 設計確定性空間獎勵(如IoU、深度一致性、結合能),(iii) 通過GRPO/PPO微調預訓練VLM主干——從而區別于推理導向的RL變體。
3.1.3 圖像推理
關于圖像的思考(Think about Image):通過語言化觀察靜態圖像增強多模態推理,但不修改視覺內容。SVQA-R1和STAR-R1采用視角一致或變換不變的目標。VL-GenRM和RACRO優化偏好數據或描述獎勵以減少幻覺。EasyARC構建程序生成的可驗證任務庫。Visionary-R1強制先解釋圖像再推理,UniVG-R1通過GRPO微調統一指代、描述和檢測。EchoInk-R1在GRPO優化下整合視聽同步。課程驅動框架(WeThink、G1等)逐步增加任務復雜度以培養結構化推理能力。
用圖像思考(Think with Image):通過生成/編輯視覺標注進行推理。GRIT在語言中插入邊界框標記,用GRPO同步優化答案正確性與框體精度。VILASR擴展至多視角和視頻場景,強制跨視角空間一致性。Ground-R1和BRPO采用兩階段流程:先基于IoU或反射獎勵定位證據區域,再進行語言推理。Visual Planning用圖像推演替代文本鏈,以下游任務成功為獎勵;Pixel Reasoner增加裁剪/擦除/繪制等動作原語,通過好奇心獎勵平衡探索。TACO引入思維-答案一致性目標,重采樣視覺-語言鏈直至中間編輯與最終答案對齊。
3.1.4 視頻推理
視頻推理要求MLLMs處理時序動態,需兼具空間感知與因果推理能力。VQ-Insight針對長視頻QA設計分層獎勵與自一致性投票機制。TW-GRPO結合標記級信用分配與GRPO優化,提升文本推理與視頻證據的時序對齊。EgoVLM和VAU-R1聚焦具身視頻推理,采用視覺記憶與效用獎勵。DeepVideo-R整合稠密視頻編碼與外部獎勵函數監督長程推理。TimeMaster通過課程學習顯式構建時序抽象,VideoR1提出跨域視頻QA的可擴展RL框架。這些工作凸顯了通過RL對齊時序表征與語言軌跡的重要性。
3.2 視覺生成
3.2.1 圖像生成
圖像生成的RL方法在動作空間(連續擴散步驟或提示詞優化)和獎勵設計(需捕捉感知質量、圖文對齊及主體保真度)上與語言模型存在顯著差異。

顯式視覺獎勵模型
第一類方法學習顯式視覺獎勵模型:ImageReward提供人類偏好分數,驅動DiffPPO、Dpok和FocusDiff對擴散主干進行策略梯度微調。
偏好優化范式
第二類方法繞過獎勵建模,直接優化成對或單元偏好:DDPO、DiffusionDPO、Diffusion-KTO和DiffusionRPO將去噪軌跡視為MDP,應用R1/GRPO更新以最大化人類對比反饋。
多目標優化
除對齊外,PrefPaint、Parrot和RLRF設計多目標或渲染對比獎勵以優化美學、多樣性或矢量圖形質量。
推理增強生成
RL還被用于注入推理與提示詞適配:ReasonGen-R1、GoT-R1和RePrompt首先生成文本規劃或優化提示詞,隨后強化生成器以實現連貫場景合成。
個性化生成
DPG-T2I、RPO和B2-DiffuRL優化稀缺參考圖像下的主體保真度獎勵。
這些研究共同表明:配備感知或偏好獎勵的RL能引導擴散模型實現更高真實感、更強提示詞忠實度、可控布局及用戶定制外觀能力——這些特性僅靠似然訓練難以達成。
3.2.2 視頻生成
將強化學習(RL)應用于視頻生成會引入圖像中不存在的挑戰:獎勵必須捕捉時間連貫性、運動自然性以及數百幀的文本-視頻對齊。早期工作如 InstructVideo 重新利用圖像評分器并應用PPO(近端策略優化)來優化短片段,而 VideoRM 和 VideoReward 則學習專用的偏好模型,對整個序列的流暢性、一致性和提示忠實度進行評分。基于 GRPO/R1,DanceGRPO 表明,組歸一化回報可以穩定長時程優化,并在擴散和流骨干網絡中提升美學和對齊分數。
除了偏好對齊,專用獎勵還針對領域特定目標。GAPO 利用間隙感知排序微調動漫視頻;Phys-AR 通過懲罰物理違規生成合理的軌跡;而 InfLVG 訓練了一個推理時策略,僅保留對多場景連貫性有益的上下文標記。輔助評論器進一步促進訓練:
VideoScore 和 Gradeo 提供可解釋的多因素評分,而 TeViR 將想象的視頻展開作為密集獎勵反饋給下游控制智能體。
這些研究共同表明,精心設計的序列級獎勵和組相對策略更新是生成時間連貫、語義對齊且物理合理的視頻的關鍵——這些能力僅通過似然訓練難以實現。
3.2.3 3D生成
3D生成的強化學習與2D和視頻任務不同,其獎勵作用于體積結構或渲染視圖,通常需要昂貴的渲染-比較循環。DreamCS 開創了這一范式,將文本到網格合成建模為馬爾可夫決策過程:擴散骨干提出粗略形狀,隨后策略在獎勵下優化頂點位置,該獎勵聯合測量輪廓IoU、CLIP文本-網格對齊和網格平滑度。在獎勵方面,DreamReward 引入了大規模渲染3D資產的人類偏好數據集,并訓練了一個幾何感知評論器,對提示、渲染和潛在SDF進行評分;學習到的信號支持對現有文本到形狀模型進行穩定的PPO微調。
另一類方法采用直接偏好優化。DreamDPO 將DPO擴展到NeRF和網格擴散模型,通過采樣成對的3D輸出并最大化人類比較決定的邊際,實現了更高的提示保真度而無需顯式值網絡。最后,Nabla-R2D3 解決了交互式場景編輯問題:智能體依次添加、刪除或變換3D場景中的對象;獎勵通過實時柵格化視圖和任務特定驗證器(如占用率、空間關系)計算。盡管反饋稀疏,組相對策略優化(R2D3)仍能穩定訓練。
這些研究表明,配備幾何感知或基于渲染的獎勵的強化學習,為控制結構完整性、文本對齊和交互可編輯性提供了有效機制——這些能力在3D領域中,標準的似然或分數蒸餾目標難以捕捉。
3.3 統一模型
任務特定強化學習最大化與單一目標綁定的獎勵,而統一強化學習則在多模態視覺-語言任務(如理解和生成)中優化共享策略和獎勵。
3.3.1 統一強化學習
與任務特定流程(將強化學習附加到單一下游目標)不同,統一強化學習方法在單一強化信號下,跨異構多模態任務優化共享策略。核心思想是將理解和生成軌跡合并到一個訓練循環中,通常使用組相對或R1風格方法。
UniRL 是這一范式的代表:視覺自回歸骨干首先進行指令微調,隨后在VQA、字幕生成和圖像生成上聯合微調,使用混合獎勵測量文本正確性、基于CLIP的對齊和美學質量。
CoRL 進一步推進這一思想,在同一個GRPO步驟中交替“協同理解”和“協同生成”批次。為解決密集標記空間的低效問題,SelfTok 將多模態動作離散化為自演化標記集,并證明單個RL頭部可以以最少的額外參數管理檢索、 grounding 和合成。最后,HermesFlow 將自回歸文本模塊與修正流圖像解碼器耦合在一個跨任務獎勵下,表明擴散風格和語言風格策略可以通過統一強化更新協調。
這些工作表明,跨任務共享共同的RL目標不僅降低訓練成本,還能促進孤立任務特定微調所不具備的跨模態泛化能力。
3.3.2 任務特定強化學習
與§3.3.1的統一方法相反,任務特定RL將獎勵信號限制在單一下游目標上,優化一個功能頭部而保持其他能力不變。VARGPT-v1.1 體現了這一策略:盡管底層視覺自回歸模型可以同時處理理解和生成,但其RL階段僅針對視覺生成使用DPO。類似地,Emu3 僅將RL引入其圖像生成分支,利用成對人類偏好。對于模型的多模態理解能力(如字幕生成、VQA),該工作僅通過任務特定微調單獨訓練這一部分。
3.4 視覺語言動作模型
3.4.1 GUI自動化
現代GUI強化學習研究將屏幕理解和動作預測建模為視覺-語言決策過程,隨后采用基于規則或偏好的獎勵來閉合感知-動作循環。在桌面和網頁界面中,GUI-R1 引入了一套R1風格的規則集,將點擊成功、文本輸入和滾動有效性映射為密集獎勵。UI-R1 增加了GRPO(組相對策略優化)和一種新穎的動作特定KL項以穩定長時程規劃,而SE-GUI 應用自進化過濾來提煉高保真軌跡。專注于軌跡重用,UIShift 提出了一個逆向動力學目標,使多模態語言模型(MLLM)從未標記的GUI對中學習動作,隨后通過強化學習進行優化。
互補的基于偏好的框架包括LPO ,它獎勵空間接近性以實現精確點擊。ProgRM 注入程序級邏輯檢查,而RUIG 利用指令 grounding 結合強化信號。工具特定基線如Ui-tars 提供了更大的動作詞匯表,但仍依賴規則驅動的強化學習以實現魯棒執行。
移動場景引入了延遲和設備端約束。AgentCPM-GUI 壓縮動作空間并進行GRPO微調。MobileGUI-RL 通過在線強化學習和任務級獎勵推進這一方向,以在有限內存下改進探索,而Mobile-R1 將交互式多輪強化學習擴展到長任務中的錯誤級聯糾正。在推理階段,GTA1 采樣多個動作候選并使用評判模型選擇最佳動作,有效以計算換取更高成功率。此外,輕量級模型如Appvlm 表明,經過GRPO微調的中等規模MLLM可以以競爭性精度控制智能手機應用。為自適應減少思考長度,TON 在監督微調階段提出了一種思想丟棄(thought-dropout)方案,隨后GRPO技能自適應跳過不必要的推理過程以實現高效思考。
這些研究共同表明,GUI智能體受益于規則可驗證的獎勵、組歸一化策略更新和偏好引導的定位,朝著可靠、跨平臺自動化方向取得快速進展。
3.4.2 視覺導航
強化學習驅動的視覺導航研究現在將大型視覺-語言模型與具身控制結合,采用組歸一化或時間衰減回報以保持長時程穩定性。OctoNav-R1 利用混合強化學習管道,為VLA模型賦予“行動前思考”能力,隨后將自我中心幀轉換為低級動作。專注于數據效率,VLN-R1 構建了一個端到端導航器并引入時間衰減獎勵以處理連續軌跡。在系統層面,Flare 表明,通過在仿真中大規模強化學習微調多任務機器人策略可以泛化到現實世界家庭任務。互補進展包括More,它通過記憶引導策略蒸餾增強全向輸入,以及RAPID,它整合姿態先驗以在未知布局中更快收斂。這些工作表明,使用時間獎勵、記憶采樣和環境先驗結合GRPO/PPO有助于VLA智能體更可靠、高效地導航。
3.4.3 視覺操控
視覺操控任務(如物體重定位、工具使用和多步重排列)需要細粒度感知和長時程規劃。近期工作將強化學習與視覺-語言模型結合以增強泛化性、交互性和策略一致性。
TGRPO 引入了一種任務 grounded 的獎勵公式和組歸一化更新以穩定開放式物體操控的訓練。RFTF 應用基于規則的獎勵以支持交互式桌面任務,并強調在最少人類監督下訓練。同時,RLVLA 和VLA-RL 探索了基于課程或漸進式強化學習用于基于VLM的機器人智能體,在多樣化重排列環境中實現高成功率。
在此基礎上,ConRFT 和iRe-VLA 分別引入了一致性感知和指令優化策略,使用強化學習將視覺預測與物理交互結果對齊。RIPT-VLA專注于操控中的交互式提示,通過強化反饋橋接LLM規劃和低級控制。最后,ReinBot 利用多模態展開和基于偏好的更新以提高現實世界操控魯棒性。這些研究共同突出了視覺-語言推理、結構化獎勵設計和基于強化學習的優化在復雜、語言條件設置下推進具身操控中的作用。
4 指標與基準
評估大型模型的視覺強化學習(RL)既需要傳統RL指標,也需要針對復雜、開放式輸出的新指標。累積回報和任務成功率等指標在涉及智能體和環境的任務中仍然有用,但它們越來越多地與基于偏好的評估相結合。本節將討論大型模型RL四大應用領域的指標與基準。
4.1 指標粒度形式化





4.2 多模態大語言模型的評估
任務指標如下表2所總結,MLLM首先在外部、無RL的基準上進行評估。通用推理套件如MME、SEED-Bench和MMBench衡量跨圖像的事實問答、常識和多步鏈式推理。領域特定子集考察OCR(TextVQA)、數學(MathVista)、文檔(ChartQA)和多語言定位(CMMMU)。


4.3 視覺生成模型的評估
任務指標
如上面表2所列,最終質量在針對互補維度的標準、無RL的基準上進行評估。圖像保真度與多樣性通過FID和Inception Score衡量,像素級重建任務(超分辨率、修復)使用PSNR或SSIM。為評估提示對齊度,CLIP Score和Fréchet CLIP Distance量化語義正確性;視頻模型還會報告FVD或Video IS以捕捉時間一致性。

- 人工偏好獎勵(如ImageReward、HPS)提供與美學吸引力高度相關的稠密信號。
- 可驗證獎勵在存在確定性檢查時使用,如MotionPrompt和DSPO利用光流、目標掩碼進行無人工評估。
- 模型偏好獎勵由更強的凍結評審模型(如VideoPrefer或PARM)打分,支持可擴展的DPO/PPO訓練。
模型狀態指標兩種輕量診斷跟蹤訓練穩定性:

4.4 統一模型的評估
任務指標兩類基準被廣泛采用:
- 生成導向套件(如GenEval、DPG-Bench、ParaPrompts)專注于提示忠實生成,測試多目標組合、風格控制和長描述遵循度。
- 理解導向基準(如MME、POPE)測量同一骨干上的定位、推理和幻覺檢測。
獎勵指標近期研究探索兩種訓練信號設計理念:
- 統一獎勵(如UniRL、CoRL)將多種目標(文本正確性、CLIP對齊度、美學質量)融合為單一標量,驅動跨任務的共享策略。
- 任務特定獎勵保持生成端與理解端獨立,僅對生成分支應用RL,如Vargpt-v1.1或Emu3。前者促進跨模態遷移,后者保持感知模塊穩定性。
模型狀態指標統一模型在RL過程中還會跟蹤細粒度診斷:

4.5 視覺語言動作模型的評估
任務指標。在 GUI 自動化任務中,有多個基準可以分為在線或離線場景。對于離線設置,主要包括定位和導航部分。對于定位,主要檢查點擊操作是否落在目標按鈕上;對于導航,需要模型在給定真實歷史記錄的條件下預測當前動作,這主要取決于每一步是否正確預測了動作類別(點擊或輸入)。對于在線設置,挑戰更大,因為它要求模型完全執行多步操作,這是一種較長的過程,然后檢查最終結果是否滿足任務要求。這種較長的過程設置在模型評估中會產生稀疏信號。
獎勵指標。對于獎勵建模,大多數離線 RL 方法借用任務指標(如 IoU),而在進入在線環境時,由于任務成功率的稀疏性,這給端到端多輪 RL 訓練帶來了重大挑戰,即缺乏訓練效率、缺乏信息量,為解決這一問題提出了步驟級獎勵,例如開發獎勵或評論模型。
模型狀態指標。為了在任務成功率之外全面了解模型行為,軌跡長度是一個重要指標,因為它可以反映模型解決任務的效率。一個智能的代理應能夠以最少的步驟完成任務。這對具有高級規劃能力的代理提出了挑戰。
4.6 基準
各種新基準在視覺領域明確支持基于 RL 的訓練和評估(見下表 3)。對于 MLLM,最近的數據集針對復雜的多跳推理以及與人類偏好的對齊。例如,SEED-Bench-R1引入了一個分層的第一人稱視頻問答基準,包含 5 萬個訓練問題和一個人工驗證的驗證集。Long Video RL擴展了長視頻上的多步推理:它提供了 5.2 萬個帶有詳細推理標注的 QA 對。另一個最近的基準,Ego-R1 Bench,專注于超長(長達一周)的第一人稱視頻;一個經過 RL 訓練的“鏈式工具思維”代理必須平均調用 7 步感知工具來回答每個問題,這體現了將逐步推理準確率作為核心挑戰。在圖像領域,VisuLogic包含 1000 個精心設計的視覺推理難題(例如空間和邏輯問題),用于評估純視覺中心的推理,大多數模型在該基準上的表現僅略高于隨機水平。

視覺生成任務的基準主要提供人類偏好數據,這些數據作為策略優化的獎勵模型。諸如 ImageReward和 HPS v1 & v2等數據集收集了文本到圖像輸出的人類排序對,從而可以訓練一個標量獎勵函數來對生成結果進行評分。這類獎勵模型已被用于通過 RLHF 優化文本到圖像擴散模型,使輸出與人類審美偏好對齊。類似地,Pick-a-Pic和 VideoReward將其擴展到更廣泛的用戶偏好(運動平滑度、文本對齊)。一些基準還促進了對生成式 RL 代理在泛化方面的穩健評估。T2I-CompBench是一個文本到圖像的組合性測試集,要求正確綁定屬性與對象關系的新組合——這是評估經過 RL 訓練的生成器時常用的組合泛化度量。同樣,特定領域的基準定義了可驗證的成功標準作為獎勵:StarVector提供了帶有嚴格形狀匹配獎勵的 SVG 代碼生成任務,AnimeReward針對動畫視頻生成中的一致性,提供多維人類偏好評分(圖像與視頻一致性、角色一致性等)。
對于視覺–語言動作代理,眾多基準提供專家軌跡和具有明確獎勵信號的模擬環境,用于策略訓練和穩健評估。許多基準集中于 GUI 和網頁交互任務,這類任務的成功可以被明確測量。例如,GUI-R1-3K匯編了跨 Windows、Linux、macOS、Android 和網頁平臺的 3000 多條 GUI 操作軌跡。它引入了一種“R1 風格”的稠密獎勵方案,將每個正確動作(如點擊正確按鈕、輸入正確文本、有效滾動)映射為正反饋,提供逐步強化,引導代理完成多步 UI 任務。
在此基礎上,SE-GUI整理了 3000 個帶有定位指令和邊界框標注的高質量 GUI 示例,用于通過自模仿 RL 策略訓練代理。以評估為重點的套件如 UI-R1定義了一組固定的未見任務(如 136 個移動 GUI 任務,涵蓋點擊、滾動、滑動、文本輸入操作)來測試學習策略的泛化能力。與此同時,網頁交互基準如 Mind2Web在真實網站上提供了 2000 個任務,每個任務都有一個二元的成功/失敗獎勵。一些數據集強調精確匹配和可復現性:AITZ(帶有 CoAT 推理的 Android 交互)記錄了 1.8 萬個屏幕–動作對及相應的工具輔助推理,并使用精確動作匹配獎勵以確保嚴格遵循指令。
另一方面,更廣泛的基準如 OmniAct和 GUICoURS面向跨不同領域的通用代理能力。OmniAct 將近 1 萬個腳本化桌面和網頁任務集成到單一環境中,而 GUICoURS 融合了多模態資源(1000 萬個 OCR 觀測、6.7 萬個導航演示),涵蓋 GUI、網頁和聊天界面。這些基準的獎勵結構經過精心設計,從基于規則的指標到偏好評分,用于引導策略學習并反映任務目標。它們使視覺 RL 代理能夠從有意義的反饋中學習,并且不僅在任務成功率上進行評估,還包括與人類推理的對齊程度以及在復雜、長時間跨度決策上的表現。
5 挑戰與未來工作
5.1 有效推理:平衡深度與效率
視覺 RL 中反復出現的一個挑戰是推理校準:過長的視覺或語言思維鏈會帶來延遲和累積錯誤,而過于激進的剪枝會丟棄關鍵信息。本文預見兩個研究方向。(i) 自適應范圍策略:訓練一個終止評論器,使答案質量和計算成本共同優化;基于課程的獎勵塑形可以在保留信息豐富步驟的同時逐漸懲罰冗余步驟。(ii) 元推理和少樣本自我評估:引入輕量級評估器,對部分推理鏈進行批判(例如通過凍結的視覺–語言模型),并決定是否值得繼續思考。因此,未來的基準應報告成功率和推理效率指標(平均步驟數、FLOPs、延遲),鼓勵算法在適度思考而非最大化思考的情況下實現高精度。
5.2 VLA 中的長時程 RL
長時程視覺–語言代理(VLA)必須在觀察到任何終端任務獎勵之前執行數十個原子動作(如點擊、拖動、文本編輯)。現有工作如 OS-World和 ARPO因此依賴于每次點擊的稀疏獎勵和二元任務成功標志,但實證結果表明,即使是 GRPO 在這種監督下的提升也有限。未來研究應:(i) 發現內在子目標:通過狀態變化檢測或基于語言的聚類對軌跡進行分段,然后為子目標完成分配稠密獎勵;(ii) 學習可供性評論器:訓練對比視覺–語言模型來評分某個動作減少與語言目標距離的程度,從而在無需人工標簽的情況下提供塑形反饋;(iii) 分層或基于選項的 RL:將提出語義子任務的高級語言規劃器與通過離策略 RL 或決策變換器微調的低級策略結合。
5.3 視覺推理中的 RL
視覺規劃的最新研究(如 Chain-of-Focus和 Openthinkimg)都將圖片視為外部工作區:代理可以在生成下一個語言 token 之前裁剪、繪制、標注或插入視覺 token。雖然早期原型依賴于監督啟發式方法來實現這些空間操作,但轉向強化學習暴露了四個開放問題。

5.4 視覺生成的獎勵模型設計
基于強化學習的視覺生成的核心障礙是缺乏可擴展且忠實的獎勵函數。廣泛使用的手工指標(如 FID)提供了方便的數值信號,但與人類對美學、語義保真度或時間一致性的判斷僅弱相關,尤其是在任務超越單幀圖像時。最近的學習型評論器(如 ImageReward和 HPS用于圖像,VideoReward用于視頻)試圖通過在成對人類偏好數據上訓練來彌補這一差距,但每個模型只針對單一模態,并且僅捕獲感知質量的一部分(如提示對齊或視覺吸引力)。因此,用 PPO 或 GRPO 優化的策略往往會利用單一標量信號的漏洞,產生高對比度偽影、重復紋理或物理上不合理的運動,從而“欺騙”評論器,而不能真正提升用戶滿意度。因此,挑戰在于設計能夠 (i) 將低層信號(如一致性、物理性、幾何)與高層人類偏好結合起來的獎勵模型,(ii) 在圖像、視頻和 3D 場景之間泛化,(iii) 在防止獎勵黑客攻擊的同時保持足夠廉價以便隨著用戶品味的變化持續更新。
6 結論
視覺強化學習已從孤立的概念驗證轉變為一個充滿活力的研究前沿,連接了視覺、語言和動作。回顧表明,現代進展由三股力量推動:(i) 可擴展的獎勵監督,從勞動密集型 RLHF 轉向群體相對和可驗證信號管道;(ii) 統一架構,在其中單一策略被聯合優化以同時完成感知、推理和生成;(iii) 越來越豐富的基準,不僅衡量任務成功,還衡量與人類偏好的對齊以及策略穩定性。
然而,仍存在重大挑戰。首先,數據與計算效率迫切需要提升:當前方法通常比監督方法需要多幾個數量級的樣本。其次,跨領域、跨視角和跨具身設置的穩健泛化仍然有限。第三,長時程、開放世界任務的獎勵設計缺乏有原則的指導,存在獎勵黑客攻擊和不安全行為的風險。最后,評估標準必須發展,以涵蓋現實世界的實用性、倫理對齊和能源足跡。解決這些問題可能需要更緊密地結合基于模型的規劃、自監督視覺預訓練、自適應課程和安全感知優化。
總之,視覺 RL 有望改變智能系統感知和與環境交互的方式。通過統一方法論見解并描繪尚未解決的問題,本綜述旨在成為下一波研究的參考和催化劑,推動高效、可靠且社會對齊的視覺決策代理的發展
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/XD_gFDnzIBBVdTGRHhYeAg??

















