最新綜述!一文讀懂視覺強(qiáng)化學(xué)習(xí)的四大支柱與新范式

文章鏈接:https://arxiv.org/pdf/2508.08189
git鏈接:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning
亮點(diǎn)直擊
- 系統(tǒng)綜述200余項(xiàng)視覺強(qiáng)化學(xué)習(xí)研究,涵蓋MLLMs、視覺生成、統(tǒng)一模型和視覺-語言-行動(dòng)智能體
- 分析各子領(lǐng)域在策略優(yōu)化、獎(jiǎng)勵(lì)建模與基準(zhǔn)測試的進(jìn)展,揭示核心挑戰(zhàn):如視覺生成的獎(jiǎng)勵(lì)設(shè)計(jì)、推理與VLA任務(wù)的中間監(jiān)督缺失
- 提出基于指標(biāo)粒度與獎(jiǎng)勵(lì)監(jiān)督的視覺RL分類法,包括圖像生成的三種獎(jiǎng)勵(lì)范式,為跨領(lǐng)域策略選擇與開發(fā)提供框架支持
?
強(qiáng)化學(xué)習(xí)(RL)與視覺智能領(lǐng)域的近期突破,使得智能體不僅能感知復(fù)雜視覺場景,還能進(jìn)行推理、生成并執(zhí)行決策。本文對該領(lǐng)域研究進(jìn)行了批判性梳理與前沿整合:首先系統(tǒng)化定義視覺RL問題,追溯從RLHF到可驗(yàn)證獎(jiǎng)勵(lì)范式、從近端策略優(yōu)化到群體相對策略優(yōu)化的策略優(yōu)化演進(jìn)路徑;繼而將200余項(xiàng)代表性成果歸納為四大支柱方向——多模態(tài)大語言模型、視覺生成、統(tǒng)一模型框架、視覺-語言-行動(dòng)模型。針對每個(gè)方向,深入剖析算法設(shè)計(jì)、獎(jiǎng)勵(lì)機(jī)制構(gòu)建與基準(zhǔn)測試進(jìn)展,提煉出課程驅(qū)動(dòng)訓(xùn)練、偏好對齊擴(kuò)散、統(tǒng)一獎(jiǎng)勵(lì)建模等關(guān)鍵技術(shù)趨勢;最后通過集合級保真度、樣本級偏好、狀態(tài)級穩(wěn)定性三維度評估體系,指出樣本效率、泛化能力及安全部署等開放挑戰(zhàn)。本研究旨在為學(xué)界與業(yè)界繪制視覺RL快速擴(kuò)張版圖的認(rèn)知坐標(biāo),并指明未來研究的潛在路徑。
1 引言
強(qiáng)化學(xué)習(xí)(RL)在大語言模型(LLMs)領(lǐng)域已取得顯著成就,尤以基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和DeepSeek-R1等創(chuàng)新框架為代表。這些方法顯著提升了LLMs的能力,使其生成內(nèi)容更貼合人類偏好,并實(shí)現(xiàn)了僅靠監(jiān)督學(xué)習(xí)難以達(dá)成的復(fù)雜推理與交互能力。
近年來,受LLM領(lǐng)域成果啟發(fā),研究者開始將RL方法拓展至多模態(tài)大模型,包括視覺語言模型(VLM)、視覺-語言-行動(dòng)模型(VLA)、基于擴(kuò)散的視覺生成模型以及統(tǒng)一多模態(tài)框架,如下圖1所示。例如Gemini 2.5利用RL對齊視覺-文本推理過程,生成語義連貫且符合人類判斷的輸出;VLA模型則通過RL優(yōu)化交互環(huán)境中的序列決策,顯著提升了GUI自動(dòng)化、機(jī)器人操控和具身導(dǎo)航等任務(wù)的性能。擴(kuò)散生成模型的快速發(fā)展進(jìn)一步推動(dòng)了RL創(chuàng)新:ImageReward引入RL增強(qiáng)生成結(jié)果的語義對齊與視覺質(zhì)量,通過人類偏好或自動(dòng)獎(jiǎng)勵(lì)機(jī)制的迭代反饋優(yōu)化擴(kuò)散生成。此外,統(tǒng)一模型依賴RL微調(diào),實(shí)現(xiàn)了以往難以企及的泛化與任務(wù)遷移能力。

盡管多模態(tài)大模型的RL融合已取得重大進(jìn)展,仍存在核心挑戰(zhàn):復(fù)雜獎(jiǎng)勵(lì)信號下的策略優(yōu)化穩(wěn)定性、高維異構(gòu)視覺輸入的處理,以及支持長程決策的可擴(kuò)展獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。解決這些問題需要算法設(shè)計(jì)與評估范式的雙重創(chuàng)新。
本文全面綜述了2024年以來多模態(tài)大模型中的視覺強(qiáng)化學(xué)習(xí)進(jìn)展。首先回顧RL在語言模型中的基礎(chǔ)成果(如RLHF和DeepSeek-R1),繼而分析這些策略在視覺領(lǐng)域的演進(jìn),將200余項(xiàng)研究歸納為四大方向:
- 多模態(tài)大語言模型
- 視覺生成
- 統(tǒng)一RL框架
- 視覺-語言-行動(dòng)智能體(圖1) 針對每類研究,剖析算法設(shè)計(jì)、獎(jiǎng)勵(lì)建模與基準(zhǔn)測試的關(guān)鍵進(jìn)展,最后指出開放挑戰(zhàn)與未來方向,包括高效多模態(tài)推理、VLA任務(wù)的長程學(xué)習(xí)策略,以及面向視覺生成的可擴(kuò)展高保真獎(jiǎng)勵(lì)信號。通過系統(tǒng)梳理,為這一快速演進(jìn)領(lǐng)域的研究與實(shí)踐提供結(jié)構(gòu)化參考。
2 基礎(chǔ):LLM中的強(qiáng)化學(xué)習(xí)
這里介紹多模態(tài)模型的RL基礎(chǔ)。首先形式化符號體系,將文本與圖像生成建模為馬爾可夫決策過程;隨后分析三種對齊范式:基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)、群體相對策略優(yōu)化(GRPO)和可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),分別通過人類偏好或確定性校驗(yàn)實(shí)現(xiàn)策略對齊;最后回顧核心策略梯度方法(PPO、GRPO)及其在視覺推理與生成中的適配方案。

2.1 符號與問題形式化

2.2 對齊范式
2.2.1 基于人類反饋的強(qiáng)化學(xué)習(xí)




實(shí)際應(yīng)用中,前兩項(xiàng)通過KL正則化PPO在小批量采樣延續(xù)序列上進(jìn)行優(yōu)化,第三項(xiàng)則加入預(yù)訓(xùn)練梯度以減輕原始語料上的性能退化。
三階段流程
現(xiàn)代RLHF流程普遍遵循三階段范式(圖2a):

該范式由Christiano et al., 2017首創(chuàng),通過成對人類偏好訓(xùn)練Atari游戲和機(jī)器人智能體。Ouyang et al., 2022將其擴(kuò)展至大語言模型(InstructGPT),將偏好建模與PPO結(jié)合。視覺領(lǐng)域則采用ImageReward和人類偏好評分HPS等獎(jiǎng)勵(lì)模型,為文本到圖像擴(kuò)散任務(wù)提供稠密美學(xué)信號。
2.2.2 直接偏好優(yōu)化

2.2.3 可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)

2.3 策略優(yōu)化算法
2.3.1 近端策略優(yōu)化


- 重要性采樣比

該比率將行為策略的梯度估計(jì)重新加權(quán)至更新策略。

2.3.2 群體相對策略優(yōu)化
群體相對策略優(yōu)化(GRPO)通過棄用學(xué)習(xí)的價(jià)值(評論家)網(wǎng)絡(luò),改用基于同提示多輸出采樣的群體相對基線來擴(kuò)展PPO。如前面圖3(b)所示,該設(shè)計(jì)顯著降低內(nèi)存消耗,同時(shí)使優(yōu)勢估計(jì)器與基于比較的獎(jiǎng)勵(lì)模型對齊。
群體相對基線

提示級KL估計(jì)器

相較于公式(10)的PPO,GRPO引入兩項(xiàng)關(guān)鍵改進(jìn):
- 消除價(jià)值網(wǎng)絡(luò):通過群體相對基線實(shí)現(xiàn)方差縮減,降低內(nèi)存占用并減少超參數(shù)
- 分離KL損失通道:將KL散度作為顯式正則項(xiàng)優(yōu)化(而非融入優(yōu)勢估計(jì)),透明權(quán)衡獎(jiǎng)勵(lì)最大化與參考錨定
3 視覺中的強(qiáng)化學(xué)習(xí)
3.1 多模態(tài)大語言模型
將相關(guān)研究劃分為四個(gè)連貫類別,每個(gè)類別由共享的RL驅(qū)動(dòng)目標(biāo)與內(nèi)部推理機(jī)制定義。

3.1.1 傳統(tǒng)RL驅(qū)動(dòng)的多模態(tài)大語言模型
傳統(tǒng)RL驅(qū)動(dòng)的MLLMs指主要應(yīng)用強(qiáng)化學(xué)習(xí)將視覺-語言主干網(wǎng)絡(luò)與可驗(yàn)證的任務(wù)級獎(jiǎng)勵(lì)對齊的方法,不顯式建模多步思維鏈推理。典型工作如RePIC、GoalLadder、Drive-R1和VLM-R1用確定性驗(yàn)證器(如精確匹配、IoU、BLEU)替代偏好模型,在KL正則項(xiàng)下通過GRPO/PPO變體優(yōu)化策略。該設(shè)計(jì)實(shí)現(xiàn)穩(wěn)定的無價(jià)值網(wǎng)絡(luò)訓(xùn)練,提升描述生成、定位和自動(dòng)駕駛基準(zhǔn)的零樣本魯棒性,大幅降低監(jiān)督微調(diào)的標(biāo)注成本。
近期擴(kuò)展展現(xiàn)了該范式的靈活性:GRPO-CARE引入一致性感知的群體歸一化降低獎(jiǎng)勵(lì)方差,Q-Ponder增加沉思控制器。數(shù)據(jù)層面,MoDoMoDo提出多域混合優(yōu)化預(yù)測獎(jiǎng)勵(lì)分布并選擇最優(yōu)課程,V-Triune在統(tǒng)一的三目標(biāo)流程中整合感知與推理任務(wù),實(shí)證驗(yàn)證基于規(guī)則的RL可擴(kuò)展至多樣視覺信號。這些研究共同表明:(i) 可驗(yàn)證獎(jiǎng)勵(lì)可作為人類反饋的低成本替代,(ii) 群體相對目標(biāo)在異構(gòu)視覺任務(wù)上比標(biāo)記級PPO更穩(wěn)定,(iii) 課程或數(shù)據(jù)混合調(diào)度正成為廣義泛化的關(guān)鍵要素。
3.1.2 空間與3D感知
2D感知:以感知為核心的工作應(yīng)用RL銳化目標(biāo)檢測、分割和定位,不涉及長鏈推理。Omni-R1提出全局-局部雙系統(tǒng)GRPO流程,通過基于規(guī)則的指標(biāo)驗(yàn)證預(yù)測,在區(qū)域級基準(zhǔn)和情感識(shí)別任務(wù)中表現(xiàn)突出。DIP-R1將感知分解為"檢測→觀察→行動(dòng)"的逐步循環(huán),每階段接收基于IoU或計(jì)數(shù)的確定性獎(jiǎng)勵(lì)以提升細(xì)粒度檢測。Perception-R1重新評估GRPO在檢測與OCR數(shù)據(jù)集上的效果。VisRL將意圖引導(dǎo)的焦點(diǎn)選擇建模為RL子策略,在視覺定位任務(wù)中 consistently 超越監(jiān)督基線。
3D感知:MetaSpatial利用渲染深度/IoU獎(jiǎng)勵(lì)優(yōu)化AR/VR場景的空間推理,Scene-R1通過視頻片段選擇與兩階段定位策略學(xué)習(xí)3D場景結(jié)構(gòu)。分子尺度的BindGPT將原子排布視為序列動(dòng)作,以結(jié)合親和力估計(jì)器作為可驗(yàn)證獎(jiǎng)勵(lì),證明感知導(dǎo)向的RL可擴(kuò)展至3D生化設(shè)計(jì)。這些方法共享共性:(i) 將檢測/分割/3D對齊建模為MDP,(ii) 設(shè)計(jì)確定性空間獎(jiǎng)勵(lì)(如IoU、深度一致性、結(jié)合能),(iii) 通過GRPO/PPO微調(diào)預(yù)訓(xùn)練VLM主干——從而區(qū)別于推理導(dǎo)向的RL變體。
3.1.3 圖像推理
關(guān)于圖像的思考(Think about Image):通過語言化觀察靜態(tài)圖像增強(qiáng)多模態(tài)推理,但不修改視覺內(nèi)容。SVQA-R1和STAR-R1采用視角一致或變換不變的目標(biāo)。VL-GenRM和RACRO優(yōu)化偏好數(shù)據(jù)或描述獎(jiǎng)勵(lì)以減少幻覺。EasyARC構(gòu)建程序生成的可驗(yàn)證任務(wù)庫。Visionary-R1強(qiáng)制先解釋圖像再推理,UniVG-R1通過GRPO微調(diào)統(tǒng)一指代、描述和檢測。EchoInk-R1在GRPO優(yōu)化下整合視聽同步。課程驅(qū)動(dòng)框架(WeThink、G1等)逐步增加任務(wù)復(fù)雜度以培養(yǎng)結(jié)構(gòu)化推理能力。
用圖像思考(Think with Image):通過生成/編輯視覺標(biāo)注進(jìn)行推理。GRIT在語言中插入邊界框標(biāo)記,用GRPO同步優(yōu)化答案正確性與框體精度。VILASR擴(kuò)展至多視角和視頻場景,強(qiáng)制跨視角空間一致性。Ground-R1和BRPO采用兩階段流程:先基于IoU或反射獎(jiǎng)勵(lì)定位證據(jù)區(qū)域,再進(jìn)行語言推理。Visual Planning用圖像推演替代文本鏈,以下游任務(wù)成功為獎(jiǎng)勵(lì);Pixel Reasoner增加裁剪/擦除/繪制等動(dòng)作原語,通過好奇心獎(jiǎng)勵(lì)平衡探索。TACO引入思維-答案一致性目標(biāo),重采樣視覺-語言鏈直至中間編輯與最終答案對齊。
3.1.4 視頻推理
視頻推理要求MLLMs處理時(shí)序動(dòng)態(tài),需兼具空間感知與因果推理能力。VQ-Insight針對長視頻QA設(shè)計(jì)分層獎(jiǎng)勵(lì)與自一致性投票機(jī)制。TW-GRPO結(jié)合標(biāo)記級信用分配與GRPO優(yōu)化,提升文本推理與視頻證據(jù)的時(shí)序?qū)R。EgoVLM和VAU-R1聚焦具身視頻推理,采用視覺記憶與效用獎(jiǎng)勵(lì)。DeepVideo-R整合稠密視頻編碼與外部獎(jiǎng)勵(lì)函數(shù)監(jiān)督長程推理。TimeMaster通過課程學(xué)習(xí)顯式構(gòu)建時(shí)序抽象,VideoR1提出跨域視頻QA的可擴(kuò)展RL框架。這些工作凸顯了通過RL對齊時(shí)序表征與語言軌跡的重要性。
3.2 視覺生成
3.2.1 圖像生成
圖像生成的RL方法在動(dòng)作空間(連續(xù)擴(kuò)散步驟或提示詞優(yōu)化)和獎(jiǎng)勵(lì)設(shè)計(jì)(需捕捉感知質(zhì)量、圖文對齊及主體保真度)上與語言模型存在顯著差異。

顯式視覺獎(jiǎng)勵(lì)模型
第一類方法學(xué)習(xí)顯式視覺獎(jiǎng)勵(lì)模型:ImageReward提供人類偏好分?jǐn)?shù),驅(qū)動(dòng)DiffPPO、Dpok和FocusDiff對擴(kuò)散主干進(jìn)行策略梯度微調(diào)。
偏好優(yōu)化范式
第二類方法繞過獎(jiǎng)勵(lì)建模,直接優(yōu)化成對或單元偏好:DDPO、DiffusionDPO、Diffusion-KTO和DiffusionRPO將去噪軌跡視為MDP,應(yīng)用R1/GRPO更新以最大化人類對比反饋。
多目標(biāo)優(yōu)化
除對齊外,PrefPaint、Parrot和RLRF設(shè)計(jì)多目標(biāo)或渲染對比獎(jiǎng)勵(lì)以優(yōu)化美學(xué)、多樣性或矢量圖形質(zhì)量。
推理增強(qiáng)生成
RL還被用于注入推理與提示詞適配:ReasonGen-R1、GoT-R1和RePrompt首先生成文本規(guī)劃或優(yōu)化提示詞,隨后強(qiáng)化生成器以實(shí)現(xiàn)連貫場景合成。
個(gè)性化生成
DPG-T2I、RPO和B2-DiffuRL優(yōu)化稀缺參考圖像下的主體保真度獎(jiǎng)勵(lì)。
這些研究共同表明:配備感知或偏好獎(jiǎng)勵(lì)的RL能引導(dǎo)擴(kuò)散模型實(shí)現(xiàn)更高真實(shí)感、更強(qiáng)提示詞忠實(shí)度、可控布局及用戶定制外觀能力——這些特性僅靠似然訓(xùn)練難以達(dá)成。
3.2.2 視頻生成
將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于視頻生成會(huì)引入圖像中不存在的挑戰(zhàn):獎(jiǎng)勵(lì)必須捕捉時(shí)間連貫性、運(yùn)動(dòng)自然性以及數(shù)百幀的文本-視頻對齊。早期工作如 InstructVideo 重新利用圖像評分器并應(yīng)用PPO(近端策略優(yōu)化)來優(yōu)化短片段,而 VideoRM 和 VideoReward 則學(xué)習(xí)專用的偏好模型,對整個(gè)序列的流暢性、一致性和提示忠實(shí)度進(jìn)行評分。基于 GRPO/R1,DanceGRPO 表明,組歸一化回報(bào)可以穩(wěn)定長時(shí)程優(yōu)化,并在擴(kuò)散和流骨干網(wǎng)絡(luò)中提升美學(xué)和對齊分?jǐn)?shù)。
除了偏好對齊,專用獎(jiǎng)勵(lì)還針對領(lǐng)域特定目標(biāo)。GAPO 利用間隙感知排序微調(diào)動(dòng)漫視頻;Phys-AR 通過懲罰物理違規(guī)生成合理的軌跡;而 InfLVG 訓(xùn)練了一個(gè)推理時(shí)策略,僅保留對多場景連貫性有益的上下文標(biāo)記。輔助評論器進(jìn)一步促進(jìn)訓(xùn)練:
VideoScore 和 Gradeo 提供可解釋的多因素評分,而 TeViR 將想象的視頻展開作為密集獎(jiǎng)勵(lì)反饋給下游控制智能體。
這些研究共同表明,精心設(shè)計(jì)的序列級獎(jiǎng)勵(lì)和組相對策略更新是生成時(shí)間連貫、語義對齊且物理合理的視頻的關(guān)鍵——這些能力僅通過似然訓(xùn)練難以實(shí)現(xiàn)。
3.2.3 3D生成
3D生成的強(qiáng)化學(xué)習(xí)與2D和視頻任務(wù)不同,其獎(jiǎng)勵(lì)作用于體積結(jié)構(gòu)或渲染視圖,通常需要昂貴的渲染-比較循環(huán)。DreamCS 開創(chuàng)了這一范式,將文本到網(wǎng)格合成建模為馬爾可夫決策過程:擴(kuò)散骨干提出粗略形狀,隨后策略在獎(jiǎng)勵(lì)下優(yōu)化頂點(diǎn)位置,該獎(jiǎng)勵(lì)聯(lián)合測量輪廓IoU、CLIP文本-網(wǎng)格對齊和網(wǎng)格平滑度。在獎(jiǎng)勵(lì)方面,DreamReward 引入了大規(guī)模渲染3D資產(chǎn)的人類偏好數(shù)據(jù)集,并訓(xùn)練了一個(gè)幾何感知評論器,對提示、渲染和潛在SDF進(jìn)行評分;學(xué)習(xí)到的信號支持對現(xiàn)有文本到形狀模型進(jìn)行穩(wěn)定的PPO微調(diào)。
另一類方法采用直接偏好優(yōu)化。DreamDPO 將DPO擴(kuò)展到NeRF和網(wǎng)格擴(kuò)散模型,通過采樣成對的3D輸出并最大化人類比較決定的邊際,實(shí)現(xiàn)了更高的提示保真度而無需顯式值網(wǎng)絡(luò)。最后,Nabla-R2D3 解決了交互式場景編輯問題:智能體依次添加、刪除或變換3D場景中的對象;獎(jiǎng)勵(lì)通過實(shí)時(shí)柵格化視圖和任務(wù)特定驗(yàn)證器(如占用率、空間關(guān)系)計(jì)算。盡管反饋稀疏,組相對策略優(yōu)化(R2D3)仍能穩(wěn)定訓(xùn)練。
這些研究表明,配備幾何感知或基于渲染的獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí),為控制結(jié)構(gòu)完整性、文本對齊和交互可編輯性提供了有效機(jī)制——這些能力在3D領(lǐng)域中,標(biāo)準(zhǔn)的似然或分?jǐn)?shù)蒸餾目標(biāo)難以捕捉。
3.3 統(tǒng)一模型
任務(wù)特定強(qiáng)化學(xué)習(xí)最大化與單一目標(biāo)綁定的獎(jiǎng)勵(lì),而統(tǒng)一強(qiáng)化學(xué)習(xí)則在多模態(tài)視覺-語言任務(wù)(如理解和生成)中優(yōu)化共享策略和獎(jiǎng)勵(lì)。
3.3.1 統(tǒng)一強(qiáng)化學(xué)習(xí)
與任務(wù)特定流程(將強(qiáng)化學(xué)習(xí)附加到單一下游目標(biāo))不同,統(tǒng)一強(qiáng)化學(xué)習(xí)方法在單一強(qiáng)化信號下,跨異構(gòu)多模態(tài)任務(wù)優(yōu)化共享策略。核心思想是將理解和生成軌跡合并到一個(gè)訓(xùn)練循環(huán)中,通常使用組相對或R1風(fēng)格方法。
UniRL 是這一范式的代表:視覺自回歸骨干首先進(jìn)行指令微調(diào),隨后在VQA、字幕生成和圖像生成上聯(lián)合微調(diào),使用混合獎(jiǎng)勵(lì)測量文本正確性、基于CLIP的對齊和美學(xué)質(zhì)量。
?
CoRL 進(jìn)一步推進(jìn)這一思想,在同一個(gè)GRPO步驟中交替“協(xié)同理解”和“協(xié)同生成”批次。為解決密集標(biāo)記空間的低效問題,SelfTok 將多模態(tài)動(dòng)作離散化為自演化標(biāo)記集,并證明單個(gè)RL頭部可以以最少的額外參數(shù)管理檢索、 grounding 和合成。最后,HermesFlow 將自回歸文本模塊與修正流圖像解碼器耦合在一個(gè)跨任務(wù)獎(jiǎng)勵(lì)下,表明擴(kuò)散風(fēng)格和語言風(fēng)格策略可以通過統(tǒng)一強(qiáng)化更新協(xié)調(diào)。
這些工作表明,跨任務(wù)共享共同的RL目標(biāo)不僅降低訓(xùn)練成本,還能促進(jìn)孤立任務(wù)特定微調(diào)所不具備的跨模態(tài)泛化能力。
3.3.2 任務(wù)特定強(qiáng)化學(xué)習(xí)
與§3.3.1的統(tǒng)一方法相反,任務(wù)特定RL將獎(jiǎng)勵(lì)信號限制在單一下游目標(biāo)上,優(yōu)化一個(gè)功能頭部而保持其他能力不變。VARGPT-v1.1 體現(xiàn)了這一策略:盡管底層視覺自回歸模型可以同時(shí)處理理解和生成,但其RL階段僅針對視覺生成使用DPO。類似地,Emu3 僅將RL引入其圖像生成分支,利用成對人類偏好。對于模型的多模態(tài)理解能力(如字幕生成、VQA),該工作僅通過任務(wù)特定微調(diào)單獨(dú)訓(xùn)練這一部分。
3.4 視覺語言動(dòng)作模型
3.4.1 GUI自動(dòng)化
現(xiàn)代GUI強(qiáng)化學(xué)習(xí)研究將屏幕理解和動(dòng)作預(yù)測建模為視覺-語言決策過程,隨后采用基于規(guī)則或偏好的獎(jiǎng)勵(lì)來閉合感知-動(dòng)作循環(huán)。在桌面和網(wǎng)頁界面中,GUI-R1 引入了一套R(shí)1風(fēng)格的規(guī)則集,將點(diǎn)擊成功、文本輸入和滾動(dòng)有效性映射為密集獎(jiǎng)勵(lì)。UI-R1 增加了GRPO(組相對策略優(yōu)化)和一種新穎的動(dòng)作特定KL項(xiàng)以穩(wěn)定長時(shí)程規(guī)劃,而SE-GUI 應(yīng)用自進(jìn)化過濾來提煉高保真軌跡。專注于軌跡重用,UIShift 提出了一個(gè)逆向動(dòng)力學(xué)目標(biāo),使多模態(tài)語言模型(MLLM)從未標(biāo)記的GUI對中學(xué)習(xí)動(dòng)作,隨后通過強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化。
互補(bǔ)的基于偏好的框架包括LPO ,它獎(jiǎng)勵(lì)空間接近性以實(shí)現(xiàn)精確點(diǎn)擊。ProgRM 注入程序級邏輯檢查,而RUIG 利用指令 grounding 結(jié)合強(qiáng)化信號。工具特定基線如Ui-tars 提供了更大的動(dòng)作詞匯表,但仍依賴規(guī)則驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)以實(shí)現(xiàn)魯棒執(zhí)行。
移動(dòng)場景引入了延遲和設(shè)備端約束。AgentCPM-GUI 壓縮動(dòng)作空間并進(jìn)行GRPO微調(diào)。MobileGUI-RL 通過在線強(qiáng)化學(xué)習(xí)和任務(wù)級獎(jiǎng)勵(lì)推進(jìn)這一方向,以在有限內(nèi)存下改進(jìn)探索,而Mobile-R1 將交互式多輪強(qiáng)化學(xué)習(xí)擴(kuò)展到長任務(wù)中的錯(cuò)誤級聯(lián)糾正。在推理階段,GTA1 采樣多個(gè)動(dòng)作候選并使用評判模型選擇最佳動(dòng)作,有效以計(jì)算換取更高成功率。此外,輕量級模型如Appvlm 表明,經(jīng)過GRPO微調(diào)的中等規(guī)模MLLM可以以競爭性精度控制智能手機(jī)應(yīng)用。為自適應(yīng)減少思考長度,TON 在監(jiān)督微調(diào)階段提出了一種思想丟棄(thought-dropout)方案,隨后GRPO技能自適應(yīng)跳過不必要的推理過程以實(shí)現(xiàn)高效思考。
這些研究共同表明,GUI智能體受益于規(guī)則可驗(yàn)證的獎(jiǎng)勵(lì)、組歸一化策略更新和偏好引導(dǎo)的定位,朝著可靠、跨平臺(tái)自動(dòng)化方向取得快速進(jìn)展。
3.4.2 視覺導(dǎo)航
強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的視覺導(dǎo)航研究現(xiàn)在將大型視覺-語言模型與具身控制結(jié)合,采用組歸一化或時(shí)間衰減回報(bào)以保持長時(shí)程穩(wěn)定性。OctoNav-R1 利用混合強(qiáng)化學(xué)習(xí)管道,為VLA模型賦予“行動(dòng)前思考”能力,隨后將自我中心幀轉(zhuǎn)換為低級動(dòng)作。專注于數(shù)據(jù)效率,VLN-R1 構(gòu)建了一個(gè)端到端導(dǎo)航器并引入時(shí)間衰減獎(jiǎng)勵(lì)以處理連續(xù)軌跡。在系統(tǒng)層面,Flare 表明,通過在仿真中大規(guī)模強(qiáng)化學(xué)習(xí)微調(diào)多任務(wù)機(jī)器人策略可以泛化到現(xiàn)實(shí)世界家庭任務(wù)。互補(bǔ)進(jìn)展包括More,它通過記憶引導(dǎo)策略蒸餾增強(qiáng)全向輸入,以及RAPID,它整合姿態(tài)先驗(yàn)以在未知布局中更快收斂。這些工作表明,使用時(shí)間獎(jiǎng)勵(lì)、記憶采樣和環(huán)境先驗(yàn)結(jié)合GRPO/PPO有助于VLA智能體更可靠、高效地導(dǎo)航。
3.4.3 視覺操控
視覺操控任務(wù)(如物體重定位、工具使用和多步重排列)需要細(xì)粒度感知和長時(shí)程規(guī)劃。近期工作將強(qiáng)化學(xué)習(xí)與視覺-語言模型結(jié)合以增強(qiáng)泛化性、交互性和策略一致性。
TGRPO 引入了一種任務(wù) grounded 的獎(jiǎng)勵(lì)公式和組歸一化更新以穩(wěn)定開放式物體操控的訓(xùn)練。RFTF 應(yīng)用基于規(guī)則的獎(jiǎng)勵(lì)以支持交互式桌面任務(wù),并強(qiáng)調(diào)在最少人類監(jiān)督下訓(xùn)練。同時(shí),RLVLA 和VLA-RL 探索了基于課程或漸進(jìn)式強(qiáng)化學(xué)習(xí)用于基于VLM的機(jī)器人智能體,在多樣化重排列環(huán)境中實(shí)現(xiàn)高成功率。
在此基礎(chǔ)上,ConRFT 和iRe-VLA 分別引入了一致性感知和指令優(yōu)化策略,使用強(qiáng)化學(xué)習(xí)將視覺預(yù)測與物理交互結(jié)果對齊。RIPT-VLA專注于操控中的交互式提示,通過強(qiáng)化反饋橋接LLM規(guī)劃和低級控制。最后,ReinBot 利用多模態(tài)展開和基于偏好的更新以提高現(xiàn)實(shí)世界操控魯棒性。這些研究共同突出了視覺-語言推理、結(jié)構(gòu)化獎(jiǎng)勵(lì)設(shè)計(jì)和基于強(qiáng)化學(xué)習(xí)的優(yōu)化在復(fù)雜、語言條件設(shè)置下推進(jìn)具身操控中的作用。
4 指標(biāo)與基準(zhǔn)
評估大型模型的視覺強(qiáng)化學(xué)習(xí)(RL)既需要傳統(tǒng)RL指標(biāo),也需要針對復(fù)雜、開放式輸出的新指標(biāo)。累積回報(bào)和任務(wù)成功率等指標(biāo)在涉及智能體和環(huán)境的任務(wù)中仍然有用,但它們越來越多地與基于偏好的評估相結(jié)合。本節(jié)將討論大型模型RL四大應(yīng)用領(lǐng)域的指標(biāo)與基準(zhǔn)。
4.1 指標(biāo)粒度形式化
令表示固定的提示(輸入)集合,生成策略為每個(gè)提示生成輸出(文本、圖像、視頻等)。如下圖6所示,我們區(qū)分三種評估粒度:

任務(wù)指標(biāo)(集合級)

4.2 多模態(tài)大語言模型的評估
任務(wù)指標(biāo)
如下表2所總結(jié),MLLM首先在外部、無RL的基準(zhǔn)上進(jìn)行評估。通用推理套件如MME、SEED-Bench和MMBench衡量跨圖像的事實(shí)問答、常識(shí)和多步鏈?zhǔn)酵评怼nI(lǐng)域特定子集考察OCR(TextVQA)、數(shù)學(xué)(MathVista)、文檔(ChartQA)和多語言定位(CMMMU)。


4.3 視覺生成模型的評估
任務(wù)指標(biāo)如上面表2所列,最終質(zhì)量在針對互補(bǔ)維度的標(biāo)準(zhǔn)、無RL的基準(zhǔn)上進(jìn)行評估。圖像保真度與多樣性通過FID和Inception Score衡量,像素級重建任務(wù)(超分辨率、修復(fù))使用PSNR或SSIM。為評估提示對齊度,CLIP Score和Fréchet CLIP Distance量化語義正確性;視頻模型還會(huì)報(bào)告FVD或Video IS以捕捉時(shí)間一致性。

- 人工偏好獎(jiǎng)勵(lì)(如ImageReward、HPS)提供與美學(xué)吸引力高度相關(guān)的稠密信號。
- 可驗(yàn)證獎(jiǎng)勵(lì)在存在確定性檢查時(shí)使用,如MotionPrompt和DSPO利用光流、目標(biāo)掩碼進(jìn)行無人工評估。
- 模型偏好獎(jiǎng)勵(lì)由更強(qiáng)的凍結(jié)評審模型(如VideoPrefer或PARM)打分,支持可擴(kuò)展的DPO/PPO訓(xùn)練。
模型狀態(tài)指標(biāo)兩種輕量診斷跟蹤訓(xùn)練穩(wěn)定性:

4.4 統(tǒng)一模型的評估
任務(wù)指標(biāo)兩類基準(zhǔn)被廣泛采用:
- 生成導(dǎo)向套件(如GenEval、DPG-Bench、ParaPrompts)專注于提示忠實(shí)生成,測試多目標(biāo)組合、風(fēng)格控制和長描述遵循度。
- 理解導(dǎo)向基準(zhǔn)(如MME、POPE)測量同一骨干上的定位、推理和幻覺檢測。
獎(jiǎng)勵(lì)指標(biāo)近期研究探索兩種訓(xùn)練信號設(shè)計(jì)理念:
- 統(tǒng)一獎(jiǎng)勵(lì)(如UniRL、CoRL)將多種目標(biāo)(文本正確性、CLIP對齊度、美學(xué)質(zhì)量)融合為單一標(biāo)量,驅(qū)動(dòng)跨任務(wù)的共享策略。
- 任務(wù)特定獎(jiǎng)勵(lì)保持生成端與理解端獨(dú)立,僅對生成分支應(yīng)用RL,如Vargpt-v1.1或Emu3。前者促進(jìn)跨模態(tài)遷移,后者保持感知模塊穩(wěn)定性。
模型狀態(tài)指標(biāo)統(tǒng)一模型在RL過程中還會(huì)跟蹤細(xì)粒度診斷:
- UniRL提出生成–理解不平衡分?jǐn)?shù):兩類任務(wù)族批次獎(jiǎng)勵(lì)的絕對差值,以防單一模態(tài)主導(dǎo)更新。

4.5 視覺語言動(dòng)作模型的評估
任務(wù)指標(biāo)。在 GUI 自動(dòng)化任務(wù)中,有多個(gè)基準(zhǔn)可以分為在線或離線場景。對于離線設(shè)置,主要包括定位和導(dǎo)航部分。對于定位,主要檢查點(diǎn)擊操作是否落在目標(biāo)按鈕上;對于導(dǎo)航,需要模型在給定真實(shí)歷史記錄的條件下預(yù)測當(dāng)前動(dòng)作,這主要取決于每一步是否正確預(yù)測了動(dòng)作類別(點(diǎn)擊或輸入)。對于在線設(shè)置,挑戰(zhàn)更大,因?yàn)樗竽P屯耆珗?zhí)行多步操作,這是一種較長的過程,然后檢查最終結(jié)果是否滿足任務(wù)要求。這種較長的過程設(shè)置在模型評估中會(huì)產(chǎn)生稀疏信號。
獎(jiǎng)勵(lì)指標(biāo)。對于獎(jiǎng)勵(lì)建模,大多數(shù)離線 RL 方法借用任務(wù)指標(biāo)(如 IoU),而在進(jìn)入在線環(huán)境時(shí),由于任務(wù)成功率的稀疏性,這給端到端多輪 RL 訓(xùn)練帶來了重大挑戰(zhàn),即缺乏訓(xùn)練效率、缺乏信息量,為解決這一問題提出了步驟級獎(jiǎng)勵(lì),例如開發(fā)獎(jiǎng)勵(lì)或評論模型。
模型狀態(tài)指標(biāo)。為了在任務(wù)成功率之外全面了解模型行為,軌跡長度是一個(gè)重要指標(biāo),因?yàn)樗梢苑从衬P徒鉀Q任務(wù)的效率。一個(gè)智能的代理應(yīng)能夠以最少的步驟完成任務(wù)。這對具有高級規(guī)劃能力的代理提出了挑戰(zhàn)。
4.6 基準(zhǔn)
各種新基準(zhǔn)在視覺領(lǐng)域明確支持基于 RL 的訓(xùn)練和評估(見下表 3)。對于 MLLM,最近的數(shù)據(jù)集針對復(fù)雜的多跳推理以及與人類偏好的對齊。例如,SEED-Bench-R1引入了一個(gè)分層的第一人稱視頻問答基準(zhǔn),包含 5 萬個(gè)訓(xùn)練問題和一個(gè)人工驗(yàn)證的驗(yàn)證集。Long Video RL擴(kuò)展了長視頻上的多步推理:它提供了 5.2 萬個(gè)帶有詳細(xì)推理標(biāo)注的 QA 對。另一個(gè)最近的基準(zhǔn),Ego-R1 Bench,專注于超長(長達(dá)一周)的第一人稱視頻;一個(gè)經(jīng)過 RL 訓(xùn)練的“鏈?zhǔn)焦ぞ咚季S”代理必須平均調(diào)用 7 步感知工具來回答每個(gè)問題,這體現(xiàn)了將逐步推理準(zhǔn)確率作為核心挑戰(zhàn)。在圖像領(lǐng)域,VisuLogic包含 1000 個(gè)精心設(shè)計(jì)的視覺推理難題(例如空間和邏輯問題),用于評估純視覺中心的推理,大多數(shù)模型在該基準(zhǔn)上的表現(xiàn)僅略高于隨機(jī)水平。

視覺生成任務(wù)的基準(zhǔn)主要提供人類偏好數(shù)據(jù),這些數(shù)據(jù)作為策略優(yōu)化的獎(jiǎng)勵(lì)模型。諸如 ImageReward和 HPS v1 & v2等數(shù)據(jù)集收集了文本到圖像輸出的人類排序?qū)Γ瑥亩梢杂?xùn)練一個(gè)標(biāo)量獎(jiǎng)勵(lì)函數(shù)來對生成結(jié)果進(jìn)行評分。這類獎(jiǎng)勵(lì)模型已被用于通過 RLHF 優(yōu)化文本到圖像擴(kuò)散模型,使輸出與人類審美偏好對齊。類似地,Pick-a-Pic和 VideoReward將其擴(kuò)展到更廣泛的用戶偏好(運(yùn)動(dòng)平滑度、文本對齊)。一些基準(zhǔn)還促進(jìn)了對生成式 RL 代理在泛化方面的穩(wěn)健評估。T2I-CompBench是一個(gè)文本到圖像的組合性測試集,要求正確綁定屬性與對象關(guān)系的新組合——這是評估經(jīng)過 RL 訓(xùn)練的生成器時(shí)常用的組合泛化度量。同樣,特定領(lǐng)域的基準(zhǔn)定義了可驗(yàn)證的成功標(biāo)準(zhǔn)作為獎(jiǎng)勵(lì):StarVector提供了帶有嚴(yán)格形狀匹配獎(jiǎng)勵(lì)的 SVG 代碼生成任務(wù),AnimeReward針對動(dòng)畫視頻生成中的一致性,提供多維人類偏好評分(圖像與視頻一致性、角色一致性等)。
對于視覺–語言動(dòng)作代理,眾多基準(zhǔn)提供專家軌跡和具有明確獎(jiǎng)勵(lì)信號的模擬環(huán)境,用于策略訓(xùn)練和穩(wěn)健評估。許多基準(zhǔn)集中于 GUI 和網(wǎng)頁交互任務(wù),這類任務(wù)的成功可以被明確測量。例如,GUI-R1-3K匯編了跨 Windows、Linux、macOS、Android 和網(wǎng)頁平臺(tái)的 3000 多條 GUI 操作軌跡。它引入了一種“R1 風(fēng)格”的稠密獎(jiǎng)勵(lì)方案,將每個(gè)正確動(dòng)作(如點(diǎn)擊正確按鈕、輸入正確文本、有效滾動(dòng))映射為正反饋,提供逐步強(qiáng)化,引導(dǎo)代理完成多步 UI 任務(wù)。
在此基礎(chǔ)上,SE-GUI整理了 3000 個(gè)帶有定位指令和邊界框標(biāo)注的高質(zhì)量 GUI 示例,用于通過自模仿 RL 策略訓(xùn)練代理。以評估為重點(diǎn)的套件如 UI-R1定義了一組固定的未見任務(wù)(如 136 個(gè)移動(dòng) GUI 任務(wù),涵蓋點(diǎn)擊、滾動(dòng)、滑動(dòng)、文本輸入操作)來測試學(xué)習(xí)策略的泛化能力。與此同時(shí),網(wǎng)頁交互基準(zhǔn)如 Mind2Web在真實(shí)網(wǎng)站上提供了 2000 個(gè)任務(wù),每個(gè)任務(wù)都有一個(gè)二元的成功/失敗獎(jiǎng)勵(lì)。一些數(shù)據(jù)集強(qiáng)調(diào)精確匹配和可復(fù)現(xiàn)性:AITZ(帶有 CoAT 推理的 Android 交互)記錄了 1.8 萬個(gè)屏幕–動(dòng)作對及相應(yīng)的工具輔助推理,并使用精確動(dòng)作匹配獎(jiǎng)勵(lì)以確保嚴(yán)格遵循指令。
另一方面,更廣泛的基準(zhǔn)如 OmniAct和 GUICoURS面向跨不同領(lǐng)域的通用代理能力。OmniAct 將近 1 萬個(gè)腳本化桌面和網(wǎng)頁任務(wù)集成到單一環(huán)境中,而 GUICoURS 融合了多模態(tài)資源(1000 萬個(gè) OCR 觀測、6.7 萬個(gè)導(dǎo)航演示),涵蓋 GUI、網(wǎng)頁和聊天界面。這些基準(zhǔn)的獎(jiǎng)勵(lì)結(jié)構(gòu)經(jīng)過精心設(shè)計(jì),從基于規(guī)則的指標(biāo)到偏好評分,用于引導(dǎo)策略學(xué)習(xí)并反映任務(wù)目標(biāo)。它們使視覺 RL 代理能夠從有意義的反饋中學(xué)習(xí),并且不僅在任務(wù)成功率上進(jìn)行評估,還包括與人類推理的對齊程度以及在復(fù)雜、長時(shí)間跨度決策上的表現(xiàn)。
5 挑戰(zhàn)與未來工作
5.1 有效推理:平衡深度與效率
視覺 RL 中反復(fù)出現(xiàn)的一個(gè)挑戰(zhàn)是推理校準(zhǔn):過長的視覺或語言思維鏈會(huì)帶來延遲和累積錯(cuò)誤,而過于激進(jìn)的剪枝會(huì)丟棄關(guān)鍵信息。本文預(yù)見兩個(gè)研究方向。(i) 自適應(yīng)范圍策略:訓(xùn)練一個(gè)終止評論器,使答案質(zhì)量和計(jì)算成本共同優(yōu)化;基于課程的獎(jiǎng)勵(lì)塑形可以在保留信息豐富步驟的同時(shí)逐漸懲罰冗余步驟。(ii) 元推理和少樣本自我評估:引入輕量級評估器,對部分推理鏈進(jìn)行批判(例如通過凍結(jié)的視覺–語言模型),并決定是否值得繼續(xù)思考。因此,未來的基準(zhǔn)應(yīng)報(bào)告成功率和推理效率指標(biāo)(平均步驟數(shù)、FLOPs、延遲),鼓勵(lì)算法在適度思考而非最大化思考的情況下實(shí)現(xiàn)高精度。
5.2 VLA 中的長時(shí)程 RL
長時(shí)程視覺–語言代理(VLA)必須在觀察到任何終端任務(wù)獎(jiǎng)勵(lì)之前執(zhí)行數(shù)十個(gè)原子動(dòng)作(如點(diǎn)擊、拖動(dòng)、文本編輯)。現(xiàn)有工作如 OS-World和 ARPO因此依賴于每次點(diǎn)擊的稀疏獎(jiǎng)勵(lì)和二元任務(wù)成功標(biāo)志,但實(shí)證結(jié)果表明,即使是 GRPO 在這種監(jiān)督下的提升也有限。未來研究應(yīng):(i) 發(fā)現(xiàn)內(nèi)在子目標(biāo):通過狀態(tài)變化檢測或基于語言的聚類對軌跡進(jìn)行分段,然后為子目標(biāo)完成分配稠密獎(jiǎng)勵(lì);(ii) 學(xué)習(xí)可供性評論器:訓(xùn)練對比視覺–語言模型來評分某個(gè)動(dòng)作減少與語言目標(biāo)距離的程度,從而在無需人工標(biāo)簽的情況下提供塑形反饋;(iii) 分層或基于選項(xiàng)的 RL:將提出語義子任務(wù)的高級語言規(guī)劃器與通過離策略 RL 或決策變換器微調(diào)的低級策略結(jié)合。
5.3 視覺推理中的 RL
視覺規(guī)劃的最新研究(如 Chain-of-Focus和 Openthinkimg)都將圖片視為外部工作區(qū):代理可以在生成下一個(gè)語言 token 之前裁剪、繪制、標(biāo)注或插入視覺 token。雖然早期原型依賴于監(jiān)督啟發(fā)式方法來實(shí)現(xiàn)這些空間操作,但轉(zhuǎn)向強(qiáng)化學(xué)習(xí)暴露了四個(gè)開放問題。

5.4 視覺生成的獎(jiǎng)勵(lì)模型設(shè)計(jì)
基于強(qiáng)化學(xué)習(xí)的視覺生成的核心障礙是缺乏可擴(kuò)展且忠實(shí)的獎(jiǎng)勵(lì)函數(shù)。廣泛使用的手工指標(biāo)(如 FID)提供了方便的數(shù)值信號,但與人類對美學(xué)、語義保真度或時(shí)間一致性的判斷僅弱相關(guān),尤其是在任務(wù)超越單幀圖像時(shí)。最近的學(xué)習(xí)型評論器(如 ImageReward和 HPS用于圖像,VideoReward用于視頻)試圖通過在成對人類偏好數(shù)據(jù)上訓(xùn)練來彌補(bǔ)這一差距,但每個(gè)模型只針對單一模態(tài),并且僅捕獲感知質(zhì)量的一部分(如提示對齊或視覺吸引力)。因此,用 PPO 或 GRPO 優(yōu)化的策略往往會(huì)利用單一標(biāo)量信號的漏洞,產(chǎn)生高對比度偽影、重復(fù)紋理或物理上不合理的運(yùn)動(dòng),從而“欺騙”評論器,而不能真正提升用戶滿意度。因此,挑戰(zhàn)在于設(shè)計(jì)能夠 (i) 將低層信號(如一致性、物理性、幾何)與高層人類偏好結(jié)合起來的獎(jiǎng)勵(lì)模型,(ii) 在圖像、視頻和 3D 場景之間泛化,(iii) 在防止獎(jiǎng)勵(lì)黑客攻擊的同時(shí)保持足夠廉價(jià)以便隨著用戶品味的變化持續(xù)更新。
6 結(jié)論
視覺強(qiáng)化學(xué)習(xí)已從孤立的概念驗(yàn)證轉(zhuǎn)變?yōu)橐粋€(gè)充滿活力的研究前沿,連接了視覺、語言和動(dòng)作。回顧表明,現(xiàn)代進(jìn)展由三股力量推動(dòng):(i) 可擴(kuò)展的獎(jiǎng)勵(lì)監(jiān)督,從勞動(dòng)密集型 RLHF 轉(zhuǎn)向群體相對和可驗(yàn)證信號管道;(ii) 統(tǒng)一架構(gòu),在其中單一策略被聯(lián)合優(yōu)化以同時(shí)完成感知、推理和生成;(iii) 越來越豐富的基準(zhǔn),不僅衡量任務(wù)成功,還衡量與人類偏好的對齊以及策略穩(wěn)定性。
然而,仍存在重大挑戰(zhàn)。首先,數(shù)據(jù)與計(jì)算效率迫切需要提升:當(dāng)前方法通常比監(jiān)督方法需要多幾個(gè)數(shù)量級的樣本。其次,跨領(lǐng)域、跨視角和跨具身設(shè)置的穩(wěn)健泛化仍然有限。第三,長時(shí)程、開放世界任務(wù)的獎(jiǎng)勵(lì)設(shè)計(jì)缺乏有原則的指導(dǎo),存在獎(jiǎng)勵(lì)黑客攻擊和不安全行為的風(fēng)險(xiǎn)。最后,評估標(biāo)準(zhǔn)必須發(fā)展,以涵蓋現(xiàn)實(shí)世界的實(shí)用性、倫理對齊和能源足跡。解決這些問題可能需要更緊密地結(jié)合基于模型的規(guī)劃、自監(jiān)督視覺預(yù)訓(xùn)練、自適應(yīng)課程和安全感知優(yōu)化。
總之,視覺 RL 有望改變智能系統(tǒng)感知和與環(huán)境交互的方式。通過統(tǒng)一方法論見解并描繪尚未解決的問題,本綜述旨在成為下一波研究的參考和催化劑,推動(dòng)高效、可靠且社會(huì)對齊的視覺決策代理的發(fā)展。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















