精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式 精華

發布于 2025-8-14 09:09
瀏覽
0收藏

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

文章鏈接:https://arxiv.org/pdf/2508.08189 
git鏈接:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning 

亮點直擊

  • 系統綜述200余項視覺強化學習研究,涵蓋MLLMs、視覺生成、統一模型和視覺-語言-行動智能體
  • 分析各子領域在策略優化、獎勵建模與基準測試的進展,揭示核心挑戰:如視覺生成的獎勵設計、推理與VLA任務的中間監督缺失
  • 提出基于指標粒度與獎勵監督的視覺RL分類法,包括圖像生成的三種獎勵范式,為跨領域策略選擇與開發提供框架支持

強化學習(RL)與視覺智能

領域的近期突破,使得智能體不僅能感知復雜視覺場景,還能進行推理、生成并執行決策。本文對該領域研究進行了批判性梳理與前沿整合:首先系統化定義視覺RL問題,追溯從RLHF到可驗證獎勵范式、從近端策略優化到群體相對策略優化的策略優化演進路徑;繼而將200余項代表性成果歸納為四大支柱方向——多模態大語言模型、視覺生成、統一模型框架、視覺-語言-行動模型。針對每個方向,深入剖析算法設計、獎勵機制構建與基準測試進展,提煉出課程驅動訓練、偏好對齊擴散、統一獎勵建模等關鍵技術趨勢;最后通過集合級保真度、樣本級偏好、狀態級穩定性三維度評估體系,指出樣本效率、泛化能力及安全部署等開放挑戰。本研究旨在為學界與業界繪制視覺RL快速擴張版圖的認知坐標,并指明未來研究的潛在路徑。

1 引言

強化學習(RL)在大語言模型(LLMs)領域已取得顯著成就,尤以基于人類反饋的強化學習(RLHF)和DeepSeek-R1等創新框架為代表。這些方法顯著提升了LLMs的能力,使其生成內容更貼合人類偏好,并實現了僅靠監督學習難以達成的復雜推理與交互能力。


近年來,受LLM領域成果啟發,研究者開始將RL方法拓展至多模態大模型,包括視覺語言模型(VLM)、視覺-語言-行動模型(VLA)、基于擴散的視覺生成模型以及統一多模態框架,如下圖1所示。例如Gemini 2.5利用RL對齊視覺-文本推理過程,生成語義連貫且符合人類判斷的輸出;VLA模型則通過RL優化交互環境中的序列決策,顯著提升了GUI自動化、機器人操控和具身導航等任務的性能。擴散生成模型的快速發展進一步推動了RL創新:ImageReward引入RL增強生成結果的語義對齊與視覺質量,通過人類偏好或自動獎勵機制的迭代反饋優化擴散生成。此外,統一模型依賴RL微調,實現了以往難以企及的泛化與任務遷移能力。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

盡管多模態大模型的RL融合已取得重大進展,仍存在核心挑戰:復雜獎勵信號下的策略優化穩定性、高維異構視覺輸入的處理,以及支持長程決策的可擴展獎勵函數設計。解決這些問題需要算法設計與評估范式的雙重創新。


本文全面綜述了2024年以來多模態大模型中的視覺強化學習進展。首先回顧RL在語言模型中的基礎成果(如RLHF和DeepSeek-R1),繼而分析這些策略在視覺領域的演進,將200余項研究歸納為四大方向:

  • 多模態大語言模型
  • 視覺生成
  • 統一RL框架
  • 視覺-語言-行動智能體(圖1) 針對每類研究,剖析算法設計、獎勵建模與基準測試的關鍵進展,最后指出開放挑戰與未來方向,包括高效多模態推理、VLA任務的長程學習策略,以及面向視覺生成的可擴展高保真獎勵信號。通過系統梳理,為這一快速演進領域的研究與實踐提供結構化參考。

2 基礎:LLM中的強化學習

這里介紹多模態模型的RL基礎。首先形式化符號體系,將文本與圖像生成建模為馬爾可夫決策過程;隨后分析三種對齊范式:基于人類反饋的強化學習(RLHF)、群體相對策略優化(GRPO)和可驗證獎勵的強化學習(RLVR),分別通過人類偏好或確定性校驗實現策略對齊;最后回顧核心策略梯度方法(PPO、GRPO)及其在視覺推理與生成中的適配方案。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

2.1 符號與問題形式化

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

2.2 對齊范式

2.2.1 基于人類反饋的強化學習

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區


實際應用中,前兩項通過KL正則化PPO在小批量采樣延續序列上進行優化,第三項則加入預訓練梯度以減輕原始語料上的性能退化。

三階段流程

現代RLHF流程普遍遵循三階段范式(圖2a):

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

該范式由Christiano et al., 2017首創,通過成對人類偏好訓練Atari游戲和機器人智能體。Ouyang et al., 2022將其擴展至大語言模型(InstructGPT),將偏好建模與PPO結合。視覺領域則采用ImageReward和人類偏好評分HPS等獎勵模型,為文本到圖像擴散任務提供稠密美學信號。

2.2.2 直接偏好優化

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

其中對數幾率差定義為:

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

2.2.3 可驗證獎勵的強化學習

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

RLVR采用簡潔的兩階段流程:

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

2.3 策略優化算法

2.3.1 近端策略優化

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

  • 重要性采樣比

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

該比率將行為策略的梯度估計重新加權至更新策略。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

GAE通過指數加權多步獎勵估計計算優勢值,在低方差學習與高方差蒙特卡洛回報之間實現平滑權衡。

PPO優化的代理目標函數為:

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

2.3.2 群體相對策略優化

群體相對策略優化(GRPO)通過棄用學習的價值(評論家)網絡,改用基于同提示多輸出采樣的群體相對基線來擴展PPO。如前面圖3(b)所示,該設計顯著降低內存消耗,同時使優勢估計器與基于比較的獎勵模型對齊。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

相較于公式(10)的PPO,GRPO引入兩項關鍵改進:

  • 消除價值網絡:通過群體相對基線實現方差縮減,降低內存占用并減少超參數
  • 分離KL損失通道:將KL散度作為顯式正則項優化(而非融入優勢估計),透明權衡獎勵最大化與參考錨定

3 視覺中的強化學習

3.1 多模態大語言模型

將相關研究劃分為四個連貫類別,每個類別由共享的RL驅動目標與內部推理機制定義。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

3.1.1 傳統RL驅動的多模態大語言模型

傳統RL驅動的MLLMs指主要應用強化學習將視覺-語言主干網絡與可驗證的任務級獎勵對齊的方法,不顯式建模多步思維鏈推理。典型工作如RePIC、GoalLadder、Drive-R1和VLM-R1用確定性驗證器(如精確匹配、IoU、BLEU)替代偏好模型,在KL正則項下通過GRPO/PPO變體優化策略。該設計實現穩定的無價值網絡訓練,提升描述生成、定位和自動駕駛基準的零樣本魯棒性,大幅降低監督微調的標注成本。


近期擴展展現了該范式的靈活性:GRPO-CARE引入一致性感知的群體歸一化降低獎勵方差,Q-Ponder增加沉思控制器。數據層面,MoDoMoDo提出多域混合優化預測獎勵分布并選擇最優課程,V-Triune在統一的三目標流程中整合感知與推理任務,實證驗證基于規則的RL可擴展至多樣視覺信號。這些研究共同表明:(i) 可驗證獎勵可作為人類反饋的低成本替代,(ii) 群體相對目標在異構視覺任務上比標記級PPO更穩定,(iii) 課程或數據混合調度正成為廣義泛化的關鍵要素。

3.1.2 空間與3D感知

2D感知:以感知為核心的工作應用RL銳化目標檢測、分割和定位,不涉及長鏈推理。Omni-R1提出全局-局部雙系統GRPO流程,通過基于規則的指標驗證預測,在區域級基準和情感識別任務中表現突出。DIP-R1將感知分解為"檢測→觀察→行動"的逐步循環,每階段接收基于IoU或計數的確定性獎勵以提升細粒度檢測。Perception-R1重新評估GRPO在檢測與OCR數據集上的效果。VisRL將意圖引導的焦點選擇建模為RL子策略,在視覺定位任務中 consistently 超越監督基線。


3D感知:MetaSpatial利用渲染深度/IoU獎勵優化AR/VR場景的空間推理,Scene-R1通過視頻片段選擇與兩階段定位策略學習3D場景結構。分子尺度的BindGPT將原子排布視為序列動作,以結合親和力估計器作為可驗證獎勵,證明感知導向的RL可擴展至3D生化設計。這些方法共享共性:(i) 將檢測/分割/3D對齊建模為MDP,(ii) 設計確定性空間獎勵(如IoU、深度一致性、結合能),(iii) 通過GRPO/PPO微調預訓練VLM主干——從而區別于推理導向的RL變體。

3.1.3 圖像推理

關于圖像的思考(Think about Image):通過語言化觀察靜態圖像增強多模態推理,但不修改視覺內容。SVQA-R1和STAR-R1采用視角一致或變換不變的目標。VL-GenRM和RACRO優化偏好數據或描述獎勵以減少幻覺。EasyARC構建程序生成的可驗證任務庫。Visionary-R1強制先解釋圖像再推理,UniVG-R1通過GRPO微調統一指代、描述和檢測。EchoInk-R1在GRPO優化下整合視聽同步。課程驅動框架(WeThink、G1等)逐步增加任務復雜度以培養結構化推理能力。


用圖像思考(Think with Image):通過生成/編輯視覺標注進行推理。GRIT在語言中插入邊界框標記,用GRPO同步優化答案正確性與框體精度。VILASR擴展至多視角和視頻場景,強制跨視角空間一致性。Ground-R1和BRPO采用兩階段流程:先基于IoU或反射獎勵定位證據區域,再進行語言推理。Visual Planning用圖像推演替代文本鏈,以下游任務成功為獎勵;Pixel Reasoner增加裁剪/擦除/繪制等動作原語,通過好奇心獎勵平衡探索。TACO引入思維-答案一致性目標,重采樣視覺-語言鏈直至中間編輯與最終答案對齊。

3.1.4 視頻推理

視頻推理要求MLLMs處理時序動態,需兼具空間感知與因果推理能力。VQ-Insight針對長視頻QA設計分層獎勵與自一致性投票機制。TW-GRPO結合標記級信用分配與GRPO優化,提升文本推理與視頻證據的時序對齊。EgoVLM和VAU-R1聚焦具身視頻推理,采用視覺記憶與效用獎勵。DeepVideo-R整合稠密視頻編碼與外部獎勵函數監督長程推理。TimeMaster通過課程學習顯式構建時序抽象,VideoR1提出跨域視頻QA的可擴展RL框架。這些工作凸顯了通過RL對齊時序表征與語言軌跡的重要性。

3.2 視覺生成

3.2.1 圖像生成

圖像生成的RL方法在動作空間(連續擴散步驟或提示詞優化)和獎勵設計(需捕捉感知質量、圖文對齊及主體保真度)上與語言模型存在顯著差異。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

顯式視覺獎勵模型

第一類方法學習顯式視覺獎勵模型:ImageReward提供人類偏好分數,驅動DiffPPO、Dpok和FocusDiff對擴散主干進行策略梯度微調。

偏好優化范式

第二類方法繞過獎勵建模,直接優化成對或單元偏好:DDPO、DiffusionDPO、Diffusion-KTO和DiffusionRPO將去噪軌跡視為MDP,應用R1/GRPO更新以最大化人類對比反饋。

多目標優化

除對齊外,PrefPaint、Parrot和RLRF設計多目標或渲染對比獎勵以優化美學、多樣性或矢量圖形質量。

推理增強生成

RL還被用于注入推理與提示詞適配:ReasonGen-R1、GoT-R1和RePrompt首先生成文本規劃或優化提示詞,隨后強化生成器以實現連貫場景合成。

個性化生成

DPG-T2I、RPO和B2-DiffuRL優化稀缺參考圖像下的主體保真度獎勵。


這些研究共同表明:配備感知或偏好獎勵的RL能引導擴散模型實現更高真實感、更強提示詞忠實度、可控布局及用戶定制外觀能力——這些特性僅靠似然訓練難以達成。

3.2.2 視頻生成

將強化學習(RL)應用于視頻生成會引入圖像中不存在的挑戰:獎勵必須捕捉時間連貫性、運動自然性以及數百幀的文本-視頻對齊。早期工作如 InstructVideo 重新利用圖像評分器并應用PPO(近端策略優化)來優化短片段,而 VideoRM 和 VideoReward 則學習專用的偏好模型,對整個序列的流暢性、一致性和提示忠實度進行評分。基于 GRPO/R1DanceGRPO 表明,組歸一化回報可以穩定長時程優化,并在擴散和流骨干網絡中提升美學和對齊分數。


除了偏好對齊,專用獎勵還針對領域特定目標。GAPO 利用間隙感知排序微調動漫視頻;Phys-AR 通過懲罰物理違規生成合理的軌跡;而 InfLVG 訓練了一個推理時策略,僅保留對多場景連貫性有益的上下文標記。輔助評論器進一步促進訓練:


VideoScore 和 Gradeo 提供可解釋的多因素評分,而 TeViR 將想象的視頻展開作為密集獎勵反饋給下游控制智能體。


這些研究共同表明,精心設計的序列級獎勵和組相對策略更新是生成時間連貫、語義對齊且物理合理的視頻的關鍵——這些能力僅通過似然訓練難以實現。

3.2.3 3D生成

3D生成的強化學習與2D和視頻任務不同,其獎勵作用于體積結構或渲染視圖,通常需要昂貴的渲染-比較循環。DreamCS 開創了這一范式,將文本到網格合成建模為馬爾可夫決策過程:擴散骨干提出粗略形狀,隨后策略在獎勵下優化頂點位置,該獎勵聯合測量輪廓IoU、CLIP文本-網格對齊和網格平滑度。在獎勵方面,DreamReward 引入了大規模渲染3D資產的人類偏好數據集,并訓練了一個幾何感知評論器,對提示、渲染和潛在SDF進行評分;學習到的信號支持對現有文本到形狀模型進行穩定的PPO微調。


另一類方法采用直接偏好優化。DreamDPO 將DPO擴展到NeRF和網格擴散模型,通過采樣成對的3D輸出并最大化人類比較決定的邊際,實現了更高的提示保真度而無需顯式值網絡。最后,Nabla-R2D3 解決了交互式場景編輯問題:智能體依次添加、刪除或變換3D場景中的對象;獎勵通過實時柵格化視圖和任務特定驗證器(如占用率、空間關系)計算。盡管反饋稀疏,組相對策略優化(R2D3)仍能穩定訓練。


這些研究表明,配備幾何感知或基于渲染的獎勵的強化學習,為控制結構完整性、文本對齊和交互可編輯性提供了有效機制——這些能力在3D領域中,標準的似然或分數蒸餾目標難以捕捉。

3.3 統一模型

任務特定強化學習最大化與單一目標綁定的獎勵,而統一強化學習則在多模態視覺-語言任務(如理解和生成)中優化共享策略和獎勵。

3.3.1 統一強化學習

與任務特定流程(將強化學習附加到單一下游目標)不同,統一強化學習方法在單一強化信號下,跨異構多模態任務優化共享策略。核心思想是將理解和生成軌跡合并到一個訓練循環中,通常使用組相對或R1風格方法。


UniRL 是這一范式的代表:視覺自回歸骨干首先進行指令微調,隨后在VQA、字幕生成和圖像生成上聯合微調,使用混合獎勵測量文本正確性、基于CLIP的對齊和美學質量。

CoRL 進一步推進這一思想,在同一個GRPO步驟中交替“協同理解”和“協同生成”批次。為解決密集標記空間的低效問題,SelfTok 將多模態動作離散化為自演化標記集,并證明單個RL頭部可以以最少的額外參數管理檢索、 grounding 和合成。最后,HermesFlow 將自回歸文本模塊與修正流圖像解碼器耦合在一個跨任務獎勵下,表明擴散風格和語言風格策略可以通過統一強化更新協調。


這些工作表明,跨任務共享共同的RL目標不僅降低訓練成本,還能促進孤立任務特定微調所不具備的跨模態泛化能力。

3.3.2 任務特定強化學習

與§3.3.1的統一方法相反,任務特定RL將獎勵信號限制在單一下游目標上,優化一個功能頭部而保持其他能力不變。VARGPT-v1.1 體現了這一策略:盡管底層視覺自回歸模型可以同時處理理解和生成,但其RL階段僅針對視覺生成使用DPO。類似地,Emu3 僅將RL引入其圖像生成分支,利用成對人類偏好。對于模型的多模態理解能力(如字幕生成、VQA),該工作僅通過任務特定微調單獨訓練這一部分。

3.4 視覺語言動作模型

3.4.1 GUI自動化

現代GUI強化學習研究將屏幕理解和動作預測建模為視覺-語言決策過程,隨后采用基于規則或偏好的獎勵來閉合感知-動作循環。在桌面和網頁界面中,GUI-R1 引入了一套R1風格的規則集,將點擊成功、文本輸入和滾動有效性映射為密集獎勵。UI-R1 增加了GRPO(組相對策略優化)和一種新穎的動作特定KL項以穩定長時程規劃,而SE-GUI 應用自進化過濾來提煉高保真軌跡。專注于軌跡重用,UIShift 提出了一個逆向動力學目標,使多模態語言模型(MLLM)從未標記的GUI對中學習動作,隨后通過強化學習進行優化。


互補的基于偏好的框架包括LPO ,它獎勵空間接近性以實現精確點擊。ProgRM 注入程序級邏輯檢查,而RUIG 利用指令 grounding 結合強化信號。工具特定基線如Ui-tars 提供了更大的動作詞匯表,但仍依賴規則驅動的強化學習以實現魯棒執行。


移動場景引入了延遲和設備端約束。AgentCPM-GUI 壓縮動作空間并進行GRPO微調。MobileGUI-RL 通過在線強化學習和任務級獎勵推進這一方向,以在有限內存下改進探索,而Mobile-R1 將交互式多輪強化學習擴展到長任務中的錯誤級聯糾正。在推理階段,GTA1 采樣多個動作候選并使用評判模型選擇最佳動作,有效以計算換取更高成功率。此外,輕量級模型如Appvlm 表明,經過GRPO微調的中等規模MLLM可以以競爭性精度控制智能手機應用。為自適應減少思考長度,TON 在監督微調階段提出了一種思想丟棄(thought-dropout)方案,隨后GRPO技能自適應跳過不必要的推理過程以實現高效思考。


這些研究共同表明,GUI智能體受益于規則可驗證的獎勵、組歸一化策略更新和偏好引導的定位,朝著可靠、跨平臺自動化方向取得快速進展。

3.4.2 視覺導航

強化學習驅動的視覺導航研究現在將大型視覺-語言模型與具身控制結合,采用組歸一化或時間衰減回報以保持長時程穩定性。OctoNav-R1 利用混合強化學習管道,為VLA模型賦予“行動前思考”能力,隨后將自我中心幀轉換為低級動作。專注于數據效率,VLN-R1 構建了一個端到端導航器并引入時間衰減獎勵以處理連續軌跡。在系統層面,Flare 表明,通過在仿真中大規模強化學習微調多任務機器人策略可以泛化到現實世界家庭任務。互補進展包括More,它通過記憶引導策略蒸餾增強全向輸入,以及RAPID,它整合姿態先驗以在未知布局中更快收斂。這些工作表明,使用時間獎勵、記憶采樣和環境先驗結合GRPO/PPO有助于VLA智能體更可靠、高效地導航。

3.4.3 視覺操控

視覺操控任務(如物體重定位、工具使用和多步重排列)需要細粒度感知和長時程規劃。近期工作將強化學習與視覺-語言模型結合以增強泛化性、交互性和策略一致性。

TGRPO 引入了一種任務 grounded 的獎勵公式和組歸一化更新以穩定開放式物體操控的訓練。RFTF 應用基于規則的獎勵以支持交互式桌面任務,并強調在最少人類監督下訓練。同時,RLVLA 和VLA-RL 探索了基于課程或漸進式強化學習用于基于VLM的機器人智能體,在多樣化重排列環境中實現高成功率。


在此基礎上,ConRFT 和iRe-VLA 分別引入了一致性感知和指令優化策略,使用強化學習將視覺預測與物理交互結果對齊。RIPT-VLA專注于操控中的交互式提示,通過強化反饋橋接LLM規劃和低級控制。最后,ReinBot 利用多模態展開和基于偏好的更新以提高現實世界操控魯棒性。這些研究共同突出了視覺-語言推理、結構化獎勵設計和基于強化學習的優化在復雜、語言條件設置下推進具身操控中的作用。

4 指標與基準

評估大型模型的視覺強化學習(RL)既需要傳統RL指標,也需要針對復雜、開放式輸出的新指標。累積回報和任務成功率等指標在涉及智能體和環境的任務中仍然有用,但它們越來越多地與基于偏好的評估相結合。本節將討論大型模型RL四大應用領域的指標與基準。

4.1 指標粒度形式化

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

4.2 多模態大語言模型的評估

任務指標如下表2所總結,MLLM首先在外部、無RL的基準上進行評估。通用推理套件如MME、SEED-Bench和MMBench衡量跨圖像的事實問答、常識和多步鏈式推理。領域特定子集考察OCR(TextVQA)、數學(MathVista)、文檔(ChartQA)和多語言定位(CMMMU)。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

4.3 視覺生成模型的評估

任務指標

如上面表2所列,最終質量在針對互補維度的標準、無RL的基準上進行評估。圖像保真度與多樣性通過FID和Inception Score衡量,像素級重建任務(超分辨率、修復)使用PSNR或SSIM。為評估提示對齊度,CLIP Score和Fréchet CLIP Distance量化語義正確性;視頻模型還會報告FVD或Video IS以捕捉時間一致性。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

  • 人工偏好獎勵(如ImageReward、HPS)提供與美學吸引力高度相關的稠密信號。
  • 可驗證獎勵在存在確定性檢查時使用,如MotionPrompt和DSPO利用光流、目標掩碼進行無人工評估。
  • 模型偏好獎勵由更強的凍結評審模型(如VideoPrefer或PARM)打分,支持可擴展的DPO/PPO訓練。

模型狀態指標兩種輕量診斷跟蹤訓練穩定性:

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

4.4 統一模型的評估

任務指標兩類基準被廣泛采用:

  • 生成導向套件(如GenEval、DPG-Bench、ParaPrompts)專注于提示忠實生成,測試多目標組合、風格控制和長描述遵循度。
  • 理解導向基準(如MME、POPE)測量同一骨干上的定位、推理和幻覺檢測。

獎勵指標近期研究探索兩種訓練信號設計理念:

  • 統一獎勵(如UniRL、CoRL)將多種目標(文本正確性、CLIP對齊度、美學質量)融合為單一標量,驅動跨任務的共享策略。
  • 任務特定獎勵保持生成端與理解端獨立,僅對生成分支應用RL,如Vargpt-v1.1或Emu3。前者促進跨模態遷移,后者保持感知模塊穩定性。

模型狀態指標統一模型在RL過程中還會跟蹤細粒度診斷:

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

4.5 視覺語言動作模型的評估

任務指標。在 GUI 自動化任務中,有多個基準可以分為在線或離線場景。對于離線設置,主要包括定位和導航部分。對于定位,主要檢查點擊操作是否落在目標按鈕上;對于導航,需要模型在給定真實歷史記錄的條件下預測當前動作,這主要取決于每一步是否正確預測了動作類別(點擊或輸入)。對于在線設置,挑戰更大,因為它要求模型完全執行多步操作,這是一種較長的過程,然后檢查最終結果是否滿足任務要求。這種較長的過程設置在模型評估中會產生稀疏信號。


獎勵指標。對于獎勵建模,大多數離線 RL 方法借用任務指標(如 IoU),而在進入在線環境時,由于任務成功率的稀疏性,這給端到端多輪 RL 訓練帶來了重大挑戰,即缺乏訓練效率、缺乏信息量,為解決這一問題提出了步驟級獎勵,例如開發獎勵或評論模型。


模型狀態指標。為了在任務成功率之外全面了解模型行為,軌跡長度是一個重要指標,因為它可以反映模型解決任務的效率。一個智能的代理應能夠以最少的步驟完成任務。這對具有高級規劃能力的代理提出了挑戰。

4.6 基準

各種新基準在視覺領域明確支持基于 RL 的訓練和評估(見下表 3)。對于 MLLM,最近的數據集針對復雜的多跳推理以及與人類偏好的對齊。例如,SEED-Bench-R1引入了一個分層的第一人稱視頻問答基準,包含 5 萬個訓練問題和一個人工驗證的驗證集。Long Video RL擴展了長視頻上的多步推理:它提供了 5.2 萬個帶有詳細推理標注的 QA 對。另一個最近的基準,Ego-R1 Bench,專注于超長(長達一周)的第一人稱視頻;一個經過 RL 訓練的“鏈式工具思維”代理必須平均調用 7 步感知工具來回答每個問題,這體現了將逐步推理準確率作為核心挑戰。在圖像領域,VisuLogic包含 1000 個精心設計的視覺推理難題(例如空間和邏輯問題),用于評估純視覺中心的推理,大多數模型在該基準上的表現僅略高于隨機水平。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

視覺生成任務的基準主要提供人類偏好數據,這些數據作為策略優化的獎勵模型。諸如 ImageReward和 HPS v1 & v2等數據集收集了文本到圖像輸出的人類排序對,從而可以訓練一個標量獎勵函數來對生成結果進行評分。這類獎勵模型已被用于通過 RLHF 優化文本到圖像擴散模型,使輸出與人類審美偏好對齊。類似地,Pick-a-Pic和 VideoReward將其擴展到更廣泛的用戶偏好(運動平滑度、文本對齊)。一些基準還促進了對生成式 RL 代理在泛化方面的穩健評估。T2I-CompBench是一個文本到圖像的組合性測試集,要求正確綁定屬性與對象關系的新組合——這是評估經過 RL 訓練的生成器時常用的組合泛化度量。同樣,特定領域的基準定義了可驗證的成功標準作為獎勵:StarVector提供了帶有嚴格形狀匹配獎勵的 SVG 代碼生成任務,AnimeReward針對動畫視頻生成中的一致性,提供多維人類偏好評分(圖像與視頻一致性、角色一致性等)。


對于視覺–語言動作代理,眾多基準提供專家軌跡和具有明確獎勵信號的模擬環境,用于策略訓練和穩健評估。許多基準集中于 GUI 和網頁交互任務,這類任務的成功可以被明確測量。例如,GUI-R1-3K匯編了跨 Windows、Linux、macOS、Android 和網頁平臺的 3000 多條 GUI 操作軌跡。它引入了一種“R1 風格”的稠密獎勵方案,將每個正確動作(如點擊正確按鈕、輸入正確文本、有效滾動)映射為正反饋,提供逐步強化,引導代理完成多步 UI 任務。


在此基礎上,SE-GUI整理了 3000 個帶有定位指令和邊界框標注的高質量 GUI 示例,用于通過自模仿 RL 策略訓練代理。以評估為重點的套件如 UI-R1定義了一組固定的未見任務(如 136 個移動 GUI 任務,涵蓋點擊、滾動、滑動、文本輸入操作)來測試學習策略的泛化能力。與此同時,網頁交互基準如 Mind2Web在真實網站上提供了 2000 個任務,每個任務都有一個二元的成功/失敗獎勵。一些數據集強調精確匹配和可復現性:AITZ(帶有 CoAT 推理的 Android 交互)記錄了 1.8 萬個屏幕–動作對及相應的工具輔助推理,并使用精確動作匹配獎勵以確保嚴格遵循指令。


另一方面,更廣泛的基準如 OmniAct和 GUICoURS面向跨不同領域的通用代理能力。OmniAct 將近 1 萬個腳本化桌面和網頁任務集成到單一環境中,而 GUICoURS 融合了多模態資源(1000 萬個 OCR 觀測、6.7 萬個導航演示),涵蓋 GUI、網頁和聊天界面。這些基準的獎勵結構經過精心設計,從基于規則的指標到偏好評分,用于引導策略學習并反映任務目標。它們使視覺 RL 代理能夠從有意義的反饋中學習,并且不僅在任務成功率上進行評估,還包括與人類推理的對齊程度以及在復雜、長時間跨度決策上的表現。

5 挑戰與未來工作

5.1 有效推理:平衡深度與效率

視覺 RL 中反復出現的一個挑戰是推理校準:過長的視覺或語言思維鏈會帶來延遲和累積錯誤,而過于激進的剪枝會丟棄關鍵信息。本文預見兩個研究方向。(i) 自適應范圍策略:訓練一個終止評論器,使答案質量和計算成本共同優化;基于課程的獎勵塑形可以在保留信息豐富步驟的同時逐漸懲罰冗余步驟。(ii) 元推理和少樣本自我評估:引入輕量級評估器,對部分推理鏈進行批判(例如通過凍結的視覺–語言模型),并決定是否值得繼續思考。因此,未來的基準應報告成功率和推理效率指標(平均步驟數、FLOPs、延遲),鼓勵算法在適度思考而非最大化思考的情況下實現高精度。

5.2 VLA 中的長時程 RL

長時程視覺–語言代理(VLA)必須在觀察到任何終端任務獎勵之前執行數十個原子動作(如點擊、拖動、文本編輯)。現有工作如 OS-World和 ARPO因此依賴于每次點擊的稀疏獎勵和二元任務成功標志,但實證結果表明,即使是 GRPO 在這種監督下的提升也有限。未來研究應:(i) 發現內在子目標:通過狀態變化檢測或基于語言的聚類對軌跡進行分段,然后為子目標完成分配稠密獎勵;(ii) 學習可供性評論器:訓練對比視覺–語言模型來評分某個動作減少與語言目標距離的程度,從而在無需人工標簽的情況下提供塑形反饋;(iii) 分層或基于選項的 RL:將提出語義子任務的高級語言規劃器與通過離策略 RL 或決策變換器微調的低級策略結合。

5.3 視覺推理中的 RL

視覺規劃的最新研究(如 Chain-of-Focus和 Openthinkimg)都將圖片視為外部工作區:代理可以在生成下一個語言 token 之前裁剪、繪制、標注或插入視覺 token。雖然早期原型依賴于監督啟發式方法來實現這些空間操作,但轉向強化學習暴露了四個開放問題。

智能體覺醒前夜!200+研究成果全景掃描!一文讀懂視覺強化學習的四大支柱與新范式-AI.x社區

5.4 視覺生成的獎勵模型設計

基于強化學習的視覺生成的核心障礙是缺乏可擴展且忠實的獎勵函數。廣泛使用的手工指標(如 FID)提供了方便的數值信號,但與人類對美學、語義保真度或時間一致性的判斷僅弱相關,尤其是在任務超越單幀圖像時。最近的學習型評論器(如 ImageReward和 HPS用于圖像,VideoReward用于視頻)試圖通過在成對人類偏好數據上訓練來彌補這一差距,但每個模型只針對單一模態,并且僅捕獲感知質量的一部分(如提示對齊或視覺吸引力)。因此,用 PPO 或 GRPO 優化的策略往往會利用單一標量信號的漏洞,產生高對比度偽影、重復紋理或物理上不合理的運動,從而“欺騙”評論器,而不能真正提升用戶滿意度。因此,挑戰在于設計能夠 (i) 將低層信號(如一致性、物理性、幾何)與高層人類偏好結合起來的獎勵模型,(ii) 在圖像、視頻和 3D 場景之間泛化,(iii) 在防止獎勵黑客攻擊的同時保持足夠廉價以便隨著用戶品味的變化持續更新。

6 結論

視覺強化學習已從孤立的概念驗證轉變為一個充滿活力的研究前沿,連接了視覺、語言和動作。回顧表明,現代進展由三股力量推動:(i) 可擴展的獎勵監督,從勞動密集型 RLHF 轉向群體相對和可驗證信號管道;(ii) 統一架構,在其中單一策略被聯合優化以同時完成感知、推理和生成;(iii) 越來越豐富的基準,不僅衡量任務成功,還衡量與人類偏好的對齊以及策略穩定性。


然而,仍存在重大挑戰。首先,數據與計算效率迫切需要提升:當前方法通常比監督方法需要多幾個數量級的樣本。其次,跨領域、跨視角和跨具身設置的穩健泛化仍然有限。第三,長時程、開放世界任務的獎勵設計缺乏有原則的指導,存在獎勵黑客攻擊和不安全行為的風險。最后,評估標準必須發展,以涵蓋現實世界的實用性、倫理對齊和能源足跡。解決這些問題可能需要更緊密地結合基于模型的規劃、自監督視覺預訓練、自適應課程和安全感知優化。


總之,視覺 RL 有望改變智能系統感知和與環境交互的方式。通過統一方法論見解并描繪尚未解決的問題,本綜述旨在成為下一波研究的參考和催化劑,推動高效、可靠且社會對齊的視覺決策代理的發展


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/XD_gFDnzIBBVdTGRHhYeAg??


收藏
回復
舉報
回復
相關推薦
欧美国产国产综合| 久久精品人人| 精品国产一区二区三区四区四| 免费cad大片在线观看| 成人午夜免费在线观看| 在线综合欧美| 夜夜嗨av色综合久久久综合网| 日韩av在线中文| 麻豆福利在线观看| 久久久蜜桃精品| 亚洲free性xxxx护士白浆| 日韩精品一区二区在线播放 | 高h视频在线| 精品一区二区影视| 97在线免费视频| 成人午夜免费影院| 任你躁在线精品免费| 欧美日韩一本到| aa在线观看视频| 久久日韩视频| 久久久久久影视| 懂色中文一区二区三区在线视频 | 欧美日韩一二三| 青青在线免费观看| 色开心亚洲综合| 久久亚洲一级片| 91久久爱成人| 中文字幕一区二区在线视频| 亚洲国产清纯| 久久视频这里只有精品| 国产免费无遮挡吸奶头视频| 6080成人| 在线电影院国产精品| 爱福利视频一区二区| 污污网站在线看| 国产精品国产三级国产a| 欧美精品中文字幕一区二区| 亚洲国产www| 狠狠狠色丁香婷婷综合激情| 日韩av免费在线观看| 久久国产精品波多野结衣av| 手机在线电影一区| 亚洲性猛交xxxxwww| 天堂久久久久久| 国产厕拍一区| 欧美电影精品一区二区| 想看黄色一级片| 青青国产精品| 欧美三日本三级三级在线播放| 国产成人亚洲精品无码h在线| 欧美xxxx少妇| 亚洲成在人线在线播放| 国产精品视频一二三四区| 欧美激情午夜| 中文字幕在线不卡一区 | 欧美在线国产| 久久国产加勒比精品无码| 日韩av片在线免费观看| 青草国产精品| 日韩中文字幕国产| 久久久久人妻一区精品色| 久久网站免费观看| 精品国内亚洲在观看18黄| 日韩一卡二卡在线观看| 婷婷丁香综合| 久久亚洲电影天堂| 日韩福利小视频| 你懂的成人av| 久久久久久伊人| 九九热在线免费观看| 亚洲欧美大片| 国产精品免费视频久久久| 中文资源在线播放| 激情综合亚洲精品| 超碰97网站| 人人妻人人玩人人澡人人爽| av不卡一区二区三区| 蜜桃欧美视频| 日本激情在线观看| 一区二区三区毛片| 乱妇乱女熟妇熟女网站| 亚洲精品一区三区三区在线观看| 欧美图片一区二区三区| 一级片免费在线观看视频| 99精品在免费线中文字幕网站一区 | av电影在线观看完整版一区二区| 精品国产aⅴ麻豆| 国产香蕉在线| 亚洲欧美偷拍另类a∨色屁股| 日韩精品一区二区三区四| 欧美男人天堂| 欧美日韩黄视频| 人妻互换一二三区激情视频| 亚洲婷婷丁香| 久久夜色精品国产| 久久久久久久久久免费视频| 美女免费视频一区二区| 91久久精品www人人做人人爽| 深爱激情五月婷婷| 国产精品你懂的在线欣赏| 福利在线一区二区| 素人啪啪色综合| 日韩精品专区在线| 性欧美精品男男| 国内精品福利| 国产美女久久久| 秋霞视频一区二区| 国产精品乱码一区二区三区软件| 2022中文字幕| 国产精品天堂蜜av在线播放| 精品国产乱码久久久久久闺蜜| 成都免费高清电影| 欧美特黄一级| 国产日韩在线精品av| 四虎影视精品成人| 亚洲欧洲综合另类在线| 久久精品99国产| 999国产精品一区| 日韩中文字幕网站| 久久亚洲精品石原莉奈| 国产v日产∨综合v精品视频| 亚洲最大色综合成人av| 中文字幕在线中文字幕在线中三区| 91麻豆精品国产91久久久| 亚洲一级中文字幕| 精品69视频一区二区三区Q| 国产在线视频欧美| 国产区在线视频| 亚洲mv大片欧洲mv大片精品| 亚洲日本黄色片| 欧美色爱综合| 国产91色在线|免| 日韩一级在线播放| 亚洲综合一区在线| 男人午夜视频在线观看| 成人短片线上看| 日韩免费精品视频| 亚洲欧美自偷自拍| 亚洲国产sm捆绑调教视频| 免费人成视频在线播放| 久久国产影院| 国产啪精品视频网站| 丁香婷婷在线观看| 欧美性感美女h网站在线观看免费| 337p日本欧洲亚洲大胆张筱雨| 五月综合激情| 91日韩在线播放| 免费不卡视频| 91精品婷婷国产综合久久性色| 免费看黄色三级| 日韩成人伦理电影在线观看| 欧洲亚洲一区二区| 久久人体大尺度| 国产一区二区三区中文 | 久久久久免费| 美日韩免费视频| 欧美xxxxxx| 一本色道久久88综合亚洲精品ⅰ| 香蕉污视频在线观看| 国产午夜精品久久| 亚洲久久中文字幕| 亚洲免费二区| 成人欧美一区二区三区黑人免费| 日本在线观看大片免费视频| 精品日韩一区二区| 在线观看中文字幕视频| 久久久精品黄色| 天天操天天爱天天爽| 欧美成人激情| 成人免费视频网站| 91超碰在线免费| 亚洲免费视频一区二区| 中国一级片黄色一级片黄| 中文字幕一区二区不卡| 激情图片中文字幕| 亚洲免费大片| 五月天久久综合网| 超碰国产精品一区二页| 欧美精品日韩三级| 天天操天天舔天天干| 色婷婷国产精品久久包臀| 亚洲精品国产精品国自| 精品一区二区三区免费| 国产男女免费视频| 国产一区二区三区电影在线观看| 国产精品亚洲片夜色在线| 色爱综合区网| 国产视频欧美视频| 亚洲一二区视频| 一区二区久久久久| 成人免费看aa片| 狠狠色丁香婷婷综合| 免费看毛片的网址| 精品国产一区二区三区香蕉沈先生| 成人黄色片网站| 国产精选在线| 最近中文字幕日韩精品 | 成人午夜视频在线| 日韩一级片播放| 欧美成人亚洲| 日韩视频专区| 亚洲码欧美码一区二区三区| 国产成人短视频| 色av手机在线| 中文字幕一区电影| 在线观看xxx| 欧美日韩三级一区| 国产成人在线观看网站| 中文字幕在线播放不卡一区| 国产精品嫩草av| 黑人精品欧美一区二区蜜桃| 干日本少妇首页| 亚洲xxx拳头交| 欧美久久久久久| 成人爽a毛片| 国产情人节一区| 欧美一区 二区 三区| 色综合久综合久久综合久鬼88| 黄色在线网站| 日韩大陆毛片av| 国产ts变态重口人妖hd| 在线观看亚洲a| 国产欧美日韩另类| 亚洲精品国产精品乱码不99 | 国产欧美亚洲精品a| 91嫩草在线| 色999久久久精品人人澡69 | 中文字幕黄色片| 亚洲国产精品久久艾草纯爱 | 亚洲xxx拳头交| 午夜一区二区三区| 久9久9色综合| 久久久一本精品99久久精品66 | 欧美第一黄网| 精品久久ai电影| av噜噜色噜噜久久| 疯狂欧洲av久久成人av电影 | 国产+成+人+亚洲欧洲在线| 91久久精品国产91久久| 国产精品xxx| 国产精品嫩草影院久久久| 精品欧美日韩精品| 国产精品99导航| 九九九伊在线综合永久| 日本午夜人人精品| 婷婷综合六月| 国产成人精品在线观看| 综合毛片免费视频| 国产91精品最新在线播放| 欧美羞羞视频| 国产成人jvid在线播放| 亚洲成人短视频| 国产精品h在线观看| 日韩电影大全网站| 国产精品av电影| 久久91视频| 成人精品在线观看| 国模大尺度视频一区二区| 91久久在线视频| 国产 日韩 欧美| 91久久极品少妇xxxxⅹ软件| 一区二区三区在线资源| 国产偷久久久精品专区| 性欧美lx╳lx╳| 日韩理论片在线观看| 欧美午夜精品一区二区三区电影| 亚洲精品中文字幕乱码三区不卡| 日韩一区亚洲二区| 可以在线看黄的网站| 黄色免费成人| 国产一区二区三区精彩视频| 天堂av在线一区| 日本xxxx黄色| 国产精品一级二级三级| 免费看毛片的网站| 久久综合九色欧美综合狠狠| 亚洲天堂最新地址| 一区二区三区在线视频观看| 日韩 欧美 亚洲| 欧美亚洲自拍偷拍| 成人h动漫精品一区二区无码| 亚洲国产精品成人精品| 国产毛片av在线| 欧美成人高清视频| 狠狠操一区二区三区| 国产精品久久视频| 亚洲视频一起| 热舞福利精品大尺度视频| 久久香蕉国产| 天堂…中文在线最新版在线| 日韩av网站在线观看| 中文字幕一区二区三区人妻在线视频| 99久久伊人久久99| 99自拍偷拍视频| 亚洲一区二区在线视频| 欧美一区免费看| 欧美mv日韩mv国产网站| 国产一区精品| 色综合久久久久久中文网| 亚洲欧美在线成人| julia一区二区中文久久94| 欧美综合久久| 无码人妻丰满熟妇区96| 精品一区二区三区免费| 女尊高h男高潮呻吟| 亚洲欧美色一区| 亚洲欧美一二三区| 精品国一区二区三区| 国产一区二区三区不卡在线| 欧美交受高潮1| 精品九九久久| 欧美精品一区二区三区久久| 好看的日韩av电影| 另类小说色综合| 久久尤物电影视频在线观看| 久草免费新视频| 欧美精品在欧美一区二区少妇| 四季av日韩精品一区| 久久视频在线播放| 日本.亚洲电影| 久久精品五月婷婷| 亚洲一级影院| 老女人性生活视频| 国产精品乱子久久久久| 黄色av一级片| 精品亚洲一区二区| 福利成人导航| 国产91视觉| 欧美~级网站不卡| 五月天丁香花婷婷| 国产精品久久久久aaaa樱花| 国产三级精品三级在线观看| 日韩国产欧美区| av中文资源在线资源免费观看| 91精品国产一区二区三区动漫| 91综合久久一区二区| 波多野结衣作品集| 99国产精品久久久久久久久久久| 欧美成人三级在线观看| 91精品国产手机| 秋霞影院午夜丰满少妇在线视频| 国产精品成av人在线视午夜片| 在线观看欧美理论a影院| 欧美亚洲精品一区二区| av影院午夜一区| 成人免费视频毛片| 亚洲精品一区二区网址| 黑人巨大亚洲一区二区久| 免费看国产精品一二区视频| 一区二区三区国产在线| 欧美一区二区免费在线观看| 性感美女久久精品| 午夜福利视频一区二区| 97高清免费视频| 一区二区小说| 色一情一乱一伦一区二区三区日本| 91欧美一区二区| 草莓视频18免费观看| 一区二区在线免费视频| 久草综合在线| 免费cad大片在线观看| 成人在线视频一区| 国产精品视频免费播放| 亚洲美女www午夜| 日本美女久久| 超碰在线免费观看97| 国产精品一区二区免费不卡 | 成年人黄视频在线观看| 91在线免费看网站| 1000部精品久久久久久久久| aaaaa一级片| 欧美亚洲动漫精品| 国产欧美黑人| 精品久久久久久综合日本| 久久先锋资源| 黄色精品视频在线观看| 精品国产一区二区三区av性色 | 日韩欧美在线一区| av中文资源在线| 97人人模人人爽视频一区二区 | 亚洲欧洲日产国码二区| 精品国产av 无码一区二区三区 | www日韩精品| 亚洲视频axxx| 成人免费91| 欧美 日韩 国产在线观看| 欧美激情在线一区二区| jlzzjlzzjlzz亚洲人| 欧美一区亚洲一区| 99re6这里只有精品| 中文字幕永久免费| 欧美视频第二页| 国产丝袜在线播放| 天堂一区二区三区 | 99久久综合狠狠综合久久止| 免费在线成人| 私库av在线播放| 亚洲午夜国产成人av电影男同| 亚洲精品一二三**| 妺妺窝人体色www在线观看|