精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一篇多模態大模型推理技術最新綜述

發布于 2025-5-6 00:41
瀏覽
0收藏

盡管多模態大型語言模型(Multimodal Large Language Models, MLLMs)顯著擴展了LLMs以處理視覺、音頻和視頻等多種模態,但在多模態輸入之間實現穩健的推理仍然是一個重大挑戰。華東師大&字節跳動系統回顧了基于強化學習的MLLMs推理的最新進展,涵蓋了關鍵的算法設計、獎勵機制創新以及實際應用。

一篇多模態大模型推理技術最新綜述-AI.x社區

一、MLLMs&RL基礎

一篇多模態大模型推理技術最新綜述-AI.x社區

MLLMs與MM-CoT

  • 多模態大型語言模型(MLLMs):將大型語言模型(LLMs)與其他模態(如視覺、音頻和視頻)的模型結合,以處理多種模態的數據。MLLMs通過將LLMs作為核心認知引擎,并利用其他模態的基礎模型提供高質量的非文本數據表示,從而擴展了LLMs的能力。
  • 多模態鏈式推理(MM-CoT):在多模態推理任務中,模型生成中間推理步驟(鏈式推理),這些步驟可以僅依賴于文本信息,也可以整合多模態信號。MM-CoT的目標是通過逐步推理解決復雜問題,同時在推理過程中融入多模態信息。

強化學習(RL)

  • 策略優化方法

近端策略優化(PPO):通過最大化代理目標來優化LLMs,同時引入裁剪機制以穩定訓練。PPO需要同時訓練策略模型和價值模型,這在模型參數或標記數量較大時會帶來顯著的計算需求。

REINFORCE留一法(RLOO):省略了價值模型和GAE的使用,直接利用蒙特卡洛方法計算基線,通過留一法減少策略梯度估計的方差。

組相對策略優化(GRPO):通過直接比較生成的響應組來優化模型,省略了價值模型,通過相對獎勵來評估響應的質量,減少了對硬件資源的需求。

  • 獎勵機制

結果導向獎勵機制(ORM):僅根據最終輸出的正確性來評估模型,獎勵信號稀疏且延遲,難以解決長期信用分配問題。

過程導向獎勵機制(PRM):強調模型在推理過程中的中間行為,提供更細粒度的監督,但設計過程獎勵依賴于對中間推理步驟的準確評估,具有挑戰性。

  • 訓練效率

課程強化學習:通過逐步引入任務,幫助模型逐步積累知識,提高在復雜任務上的收斂速度和性能。

數據高效學習:通過優先采樣和選擇高質量樣本,提高樣本效率,減少不必要的計算開銷。

一篇多模態大模型推理技術最新綜述-AI.x社區

二、關鍵設計與優化:RL在LLMs/MLLMs中應用

深入探討了強化學習(RL)算法在大型語言模型(LLMs)和多模態大型語言模型(MLLMs)中的關鍵設計和優化策略:無價值方法(value-free)和基于價值的方法(value-based)。

一篇多模態大模型推理技術最新綜述-AI.x社區

2.1 Value-Free 方法

無價值方法通過直接優化策略,而無需計算價值函數,從而簡化了訓練過程并提高了計算效率。這些方法在處理長推理鏈(long-CoT)任務時表現出色,但可能會遇到熵崩潰(entropy collapse)和獎勵噪聲(reward noise)等問題:

  • GRPO(Group Relative Policy Optimization)

核心思想:通過比較生成的響應組來優化模型,避免了復雜的價值模型訓練。

挑戰:熵崩潰和獎勵噪聲,可能導致模型生成低質量的輸出。

優化策略:引入動態采樣機制,避免梯度信號消失;采用token-level策略梯度損失,確保長序列中的每個token都能公平地貢獻梯度。

  • DAPO(Dynamic Asymmetric Policy Optimization)

不對稱裁剪策略:通過解耦裁剪上下界,增強低概率token的探索能力。

動態采樣:過濾掉準確率為0或1的樣本,確保每個批次中都有有效的梯度信號。

token-level策略梯度損失:確保長序列中的每個token都能公平地貢獻梯度。

過長獎勵塑形:通過逐步增加長度依賴的懲罰,減少獎勵噪聲,穩定訓練過程。

核心思想:在GRPO的基礎上,引入不對稱裁剪策略、動態采樣機制、token-level策略梯度損失和過長獎勵塑形(overlong reward shaping)。

優化策略

  • Dr.GRPO(Debiased Group Relative Policy Optimization)

消除長度歸一化:避免模型偏好生成更長的錯誤響應。

消除標準差歸一化:確保不同難度的問題在優化過程中被平等對待。

  • 核心思想:通過消除GRPO中的長度偏差和問題難度偏差,提高模型的公平性和穩定性。
  • 優化策略

CPPO(Completion Pruning Policy Optimization)

  • 剪枝策略:僅保留具有最高絕對優勢值的top-k完成項,減少冗余計算。
  • 動態完成分配策略:結合剩余剪枝的完成項和新查詢的高質量完成項,充分利用GPU的并行計算能力。
  • 核心思想:通過剪枝策略減少計算開銷,同時保持或提高模型性能。
  • 優化策略

3.2 Value-Based方法

基于價值的方法通過精確的逐步信用分配來優化策略,適合處理復雜推理任務。這些方法在長推理鏈任務中面臨挑戰,但通過創新的優化技術,可以提高訓練的穩定性和性能:

PPO(Proximal Policy Optimization)

  • Open-Reasoner-Zero:通過簡單的規則化獎勵函數和大量的訓練數據,顯著提高了響應長度和基準性能。
  • VC-PPO:通過值初始化偏差和解耦GAE(Decoupled-GAE)來優化PPO,減少訓練過程中的方差。
  • 核心思想:通過最大化代理目標來優化策略,同時引入裁剪機制以穩定訓練。
  • 挑戰:在長推理鏈任務中,PPO可能會遇到訓練不穩定和性能下降的問題。
  • 優化策略

VC-PPO(Value Corrected PPO)

  • 值預訓練:通過離線訓練價值模型,確保其能夠準確估計預期回報。
  • 解耦GAE:通過為策略和價值優化分別設置不同的??值,獨立優化偏差-方差權衡。
  • 核心思想:通過值預訓練和解耦GAE來優化PPO,減少訓練過程中的方差。
  • 優化策略

一篇多模態大模型推理技術最新綜述-AI.x社區

一篇多模態大模型推理技術最新綜述-AI.x社區

三、RL的多模態大模型推理

系統回顧了基于強化學習(RL)的多模態大型語言模型(MLLMs)推理的最新進展,涵蓋了關鍵的算法設計、獎勵機制創新以及實際應用。

3.1 從LLMs到MLLMs的RL訓練范式

  • 標準化R1訓練范式

Kimi K1.5:通過在線策略鏡像下降(OPMD)算法,將強化學習應用于MLLMs,增強了其在多模態領域的推理能力。

DeepSeek R1:通過驗證性獎勵機制(Verifiable Reward Mechanism, VRM),展示了如何通過簡單的規則化激勵機制和輕量級的RL算法,使LLMs能夠自主發展復雜的推理能力。

ORM(Outcome Reward Mechanism):基于最終輸出的正確性來評估模型,適用于數學問題解決和代碼生成等任務,但存在獎勵信號稀疏和延遲的問題。

PRM(Process Reward Mechanism):通過評估推理過程中的中間步驟來提供更細粒度的監督,有助于提高模型的邏輯一致性和可解釋性。

  • MLLMs中的R1訓練范式

MedVLM-R1:將DeepSeek R1的訓練范式擴展到醫學領域的視覺問答任務中,通過顯式的推理路徑提高預測準確性和泛化能力。

Vision-R1:通過逐步推理抑制訓練(PTST)策略,逐步擴展推理鏈的長度,同時分離格式和準確性獎勵,緩解了過思考的問題。

LMM-R1:采用兩階段訓練策略,先在純文本數據上進行RL訓練,再擴展到圖像-文本數據,以提高模型在視覺感知和其他多模態任務中的泛化能力。

一篇多模態大模型推理技術最新綜述-AI.x社區

3.2 多模態感知中的獎勵機制設計

  • 結果導向獎勵機制(ORM)

任務導向獎勵策略:根據任務的內在屬性設計獎勵,如圖像分類任務使用標簽匹配作為獎勵信號,目標檢測任務優化IoU(交并比)。

跨模態交互獎勵策略:通過聯合評估不同模態的輸出來促進更積極的跨模態交互,例如UI-R1通過評估預測的動作類型、參數選擇和輸出格式的有效性來建立模態之間的對齊反饋。

  • 過程導向獎勵機制(PRM)

結構化獎勵框架:通過引入結構化獎勵,如邏輯一致性、信息完整性和引用可靠性,來提高模型的可解釋性和用戶信任度。

R1-VL:通過StepGRPO框架,引入StepRAR(關鍵中間推理步驟評估)和StepRVR(推理鏈邏輯連貫性評估)兩個結構化獎勵組件,顯著提高了模型在復雜任務中的邏輯一致性。

3.3 訓練效率與穩定性

  • 課程學習

Kimi K1.5:通過課程采樣逐步訓練模型,從簡單任務到復雜任務,同時結合優先采樣,優化學習過程。

Curr-ReFT:將訓練分為三個階段:二元分類、多項選擇和開放式問答,每個階段都由特定任務的獎勵函數引導,逐步發展模型的推理能力。

  • 樣本效率

Reason-RFT:通過GPT-4o過濾低質量或錯誤樣本,重構高質量數據集,確保數據質量和適用性。

Skywork R1V:通過自適應長度鏈式推理蒸餾和混合優化框架,動態調整推理鏈長度,減少對大規模標注數據的依賴。

  • 災難性遺忘

Curr-ReFT:通過拒絕樣本的自我改進機制,選擇性地從高質量的多模態和文本示例中學習,以保持MLLMs的基本能力,緩解災難性遺忘問題。

一篇多模態大模型推理技術最新綜述-AI.x社區

一篇多模態大模型推理技術最新綜述-AI.x社區

本文轉載自???PaperAgent??

收藏
回復
舉報
回復
相關推薦
成功精品影院| 婷婷在线视频观看| 午夜在线一区二区| 一级做a爰片久久毛片美女图片| 激情网站五月天| 欧美成人xxx| eeuss影院一区二区三区| 日本伊人精品一区二区三区介绍 | 久久久久久久国产精品毛片| 成人av激情人伦小说| 日本高清免费不卡视频| 亚洲第一综合网站| 午夜一区在线观看| 麻豆视频观看网址久久| 午夜精品在线观看| 成人免费视频入口| 久久久久久毛片免费看| 91久久精品网| 日本中文字幕亚洲| 欧美激情黑人| 91丨九色porny丨蝌蚪| 国产日韩精品电影| 亚洲 欧美 成人| 在线一区免费| 中文字幕精品国产| 日韩成人av一区二区| 性欧美video另类hd尤物| 精品久久久久久久久久久久久久 | 日韩视频三区| 精品国产一区二区三区在线观看| 国产精品无码永久免费不卡| 国产美女视频一区二区| 91国产免费看| 成年人免费在线播放| 青青青草视频在线| 亚洲丝袜精品丝袜在线| 日韩欧美在线观看强乱免费| 日韩一二三四| 北岛玲一区二区三区四区| 成人精品一区二区三区电影免费| 老熟妇一区二区三区| 欧美精品入口| 欧美日本黄视频| 99久久99久久精品国产| 久久精品播放| 揄拍成人国产精品视频| b站大片免费直播| 日韩欧美四区| 亚洲女人被黑人巨大进入al| 久久久久久婷婷| 国产精品一区二区中文字幕| 日韩精品一区二区在线| wwwxxxx在线观看| 亚洲精品乱码日韩| 51精品秘密在线观看| 亚洲xxx在线观看| 色999久久久精品人人澡69 | 日本精品久久久| 日韩 欧美 中文| 国一区二区在线观看| 久久69精品久久久久久久电影好| 波多野结衣亚洲一区二区| 7777久久香蕉成人影院| 欧美噜噜久久久xxx| 欧美精品99久久久| 禁久久精品乱码| 69av视频在线播放| www.色国产| 蜜乳av一区二区三区| 91精品国产自产在线| 国产一区二区波多野结衣| 国产中文字幕一区| 99久久综合狠狠综合久久止| 日韩在线观看视频网站| 久久婷婷一区二区三区| 日韩福利一区二区三区| 国内外激情在线| 一区二区不卡在线视频 午夜欧美不卡在| 精品视频在线观看一区二区| 97人人在线视频| 欧美性猛交xxxx乱大交3| 国产一级特黄a大片免费| 久久电影天堂| 欧美v亚洲v综合ⅴ国产v| 国产福利在线观看视频| 欧洲毛片在线视频免费观看| 日韩中文字幕av| 久久久久久久久久网站| 国产精品综合| 亚洲国产精品久久人人爱| 国产精品久久久久久久久久小说| 亚洲大尺度在线观看| 国产成人精品亚洲午夜麻豆| 亚洲人成电影网站色www| 国产美女免费网站| 99久久99久久精品国产片桃花| 精品日韩视频在线观看| 成人动漫网站在线观看| av在线亚洲天堂| 99re这里只有精品视频首页| 日韩精品欧美专区| av网站网址在线观看| 黑人巨大精品欧美一区二区免费| 奇米影音第四色| 波多野结衣在线电影| 久久精品在线| 91九色国产在线| 亚洲精品午夜在线观看| 欧美色片在线观看| 日韩西西人体444www| 51调教丨国产调教视频| 视频在线不卡免费观看| 91国语精品自产拍在线观看性色 | 午夜国产精品视频免费体验区| y111111国产精品久久久| 亚洲精品成人在线| 鲁一鲁一鲁一鲁一色| 欧美a视频在线| 精品成人在线观看| 中文字幕资源站| 香蕉精品999视频一区二区| 欧美人与z0zoxxxx视频| 三上悠亚av一区二区三区| av不卡一区二区| 精品国产一区二区三区久久狼5月| 国产精品一区二区6| 国产一区在线观看视频| 天堂√在线观看一区二区| 55av亚洲| 精品欧美黑人一区二区三区| 熟女少妇a性色生活片毛片| 日韩精品乱码免费| 久久综合一区二区三区| av伦理在线| 精品久久人人做人人爰| 日本 欧美 国产| 免费在线成人网| 日本视频一区二区在线观看| 欧美激情护士| 亚洲成人xxx| 亚洲国产精品成人无久久精品| 国产精品亚洲人在线观看| 一区二区三区四区国产| 韩国精品视频在线观看 | 波多野结衣三级视频| 久久视频在线| 国产日韩换脸av一区在线观看| 成人福利在线| 欧美天堂亚洲电影院在线播放| 一区二区精品免费| 日日夜夜免费精品视频| 日韩wuma| 色999久久久精品人人澡69| 久久精品成人欧美大片| 亚洲香蕉在线视频| 国产精品九色蝌蚪自拍| 最新免费av网址| 91精品国产乱码久久久久久| 亚洲va电影大全| 免费av不卡在线观看| 亚洲成人激情在线| 久久不卡免费视频| 91视频免费播放| 免费在线观看日韩视频| 欧美丝袜一区| 91久久久久久国产精品| 羞羞视频在线观看不卡| 亚洲成人a**站| 国产一区二区99| 国产三级欧美三级| 天堂av在线8| 欧美日本一区| 久久精品一二三区| 黑人巨大精品欧美一区二区桃花岛| 亚洲精品中文字幕av| 中文字幕免费在线看| 自拍偷拍国产精品| 蜜桃视频无码区在线观看| 日韩午夜精品| 一区不卡字幕| www.豆豆成人网.com| 国产91精品黑色丝袜高跟鞋| 国产福利在线| 欧美一级高清片| 中国一级特黄毛片| 国产精品毛片久久久久久| japan高清日本乱xxxxx| 亚洲影音先锋| 中文字幕成人一区| 麻豆视频一区| 成人国产在线视频| 日产福利视频在线观看| 中文欧美在线视频| 狠狠躁日日躁夜夜躁av| 在线观看亚洲精品视频| 婷婷色中文字幕| 国产亚洲1区2区3区| 精品人妻一区二区乱码| 久热综合在线亚洲精品| 日本精品福利视频| 少妇精品久久久一区二区三区| 成人网在线免费看| 亚洲十八**毛片| 欧美久久精品午夜青青大伊人 | 一色桃子一区二区| 亚洲欧美黄色片| 欧美日韩精品高清| 欧美激情亚洲综合| 亚洲精选免费视频| 久操视频在线观看免费| 成人国产电影网| 亚洲综合20p| 男女男精品视频网| 黄色免费观看视频网站| 国产精品av一区二区| 亚洲欧美日韩精品综合在线观看| 91精品啪在线观看国产爱臀| 国产精品爽黄69| 香蕉伊大人中文在线观看| 九九热最新视频//这里只有精品 | 欧美国产日韩一二三区| 师生出轨h灌满了1v1| 久久国产精品99精品国产| 无码aⅴ精品一区二区三区浪潮| 午夜精品视频| 佐佐木明希av| japanese国产精品| 欧美亚洲另类久久综合| 红杏aⅴ成人免费视频| 99久久99| 欧美专区视频| 亚洲伊人成综合成人网| 免费视频观看成人| 国产精品永久免费| 精品日韩视频| 国产精品美女网站| 国产综合色区在线观看| 日本成人免费在线| 国产伦精品一区二区三区视频金莲| 久久久这里只有精品视频| 青春草视频在线观看| 欧美乱人伦中文字幕在线| 污污影院在线观看| 久久av中文字幕| 超碰在线最新| 欧美成人精品一区| 日本在线视频中文有码| 色综合视频网站| 黄页网站在线| 久久久久久国产精品三级玉女聊斋| caoporm免费视频在线| 久久躁狠狠躁夜夜爽| 黄色片网站在线| 欧美成人亚洲成人| 狂野欧美激情性xxxx欧美| 欧美激情精品久久久久久| 成人免费高清观看| 91国内揄拍国内精品对白| 日韩大片免费观看| 国产精品电影一区| 日韩一级特黄| 97碰碰视频| 精品视频高潮| 欧美日韩视频在线一区二区观看视频| 亚洲大片精品免费| 日韩国产美国| 视频在线不卡免费观看| 久久天天东北熟女毛茸茸| 激情一区二区| 欧美xxxxx在线视频| 奇米四色…亚洲| 香蕉网在线视频| av在线播放一区二区三区| 精品人妻无码一区二区三区换脸| 国产精品系列在线| 欧美日韩免费一区二区| 精品欧美aⅴ在线网站| 久久这里只有精品9| 5566中文字幕一区二区电影 | 欧美午夜三级| 成人在线视频电影| 久久爱www成人| 中国一级大黄大黄大色毛片| 亚洲高清资源| 国产aaaaa毛片| 夫妻av一区二区| 人人爽人人爽人人片| 亚洲最快最全在线视频| 色网站在线播放| 欧美精品xxxxbbbb| 五月激情婷婷综合| 久久精品国产电影| 中国色在线日|韩| 91欧美日韩一区| 中文字幕亚洲影视| 超级碰在线观看| 老司机午夜精品视频| 麻豆tv在线观看| 中日韩免费视频中文字幕| 亚洲男人第一av| 日韩一区二区三区三四区视频在线观看| 性xxxx视频| 九九热r在线视频精品| 97成人超碰| 久久大香伊蕉在人线观看热2| 欧美电影一区| 国产一区亚洲二区三区| 懂色av中文字幕一区二区三区| 国产三级黄色片| 婷婷国产v国产偷v亚洲高清| 97在线公开视频| 亚洲丝袜在线视频| 乱人伦视频在线| 成人激情av| 在线观看国产精品入口| 男女视频一区二区三区| 97久久久精品综合88久久| 午夜精品一区二区三区视频| 欧美中文字幕不卡| 香蕉视频911| 久久久女女女女999久久| 国产精品一区二区三区www| 亚洲欧洲精品在线观看| 久久久久99| 熟女少妇一区二区三区| 午夜欧美一区二区三区在线播放| 国产精品无码久久久久成人app| 国产亚洲精品一区二555| 亚洲少妇视频| 欧美成人蜜桃| 欧美中文日韩| 国产传媒第一页| 精品久久久视频| 色视频在线观看免费| 97人人模人人爽人人喊中文字| 秋霞一区二区三区| 国产成人免费高清视频| 激情av综合网| 极品魔鬼身材女神啪啪精品| 欧美日本在线观看| 一区二区高清不卡| 国产日韩视频在线观看| 日韩免费久久| 日韩欧美国产片| 亚洲欧洲精品一区二区精品久久久| 影音先锋国产资源| 日韩视频免费看| 在线成人免费| 国产一二三四五| 国产传媒一区在线| 国产第一页在线播放| 亚洲韩国青草视频| 在线观看特色大片免费视频| 免费在线成人av电影| 日韩精品福利网| 婷婷丁香综合网| 91精品国产综合久久小美女| av网址在线播放| 国产欧美一区二区三区不卡高清| 一本色道精品久久一区二区三区| 精品中文字幕在线播放| 欧美日韩国产色视频| 精品视频一二三| 国产中文字幕日韩| 午夜性色一区二区三区免费视频| 在线播放av网址| 欧美网站在线观看| h视频在线免费| 亚洲xxxx3d| 亚洲理伦在线| 久久婷婷五月综合| 欧美精品一级二级| 国产精品186在线观看在线播放| 精品蜜桃一区二区三区| 视频一区视频二区在线观看| 久久久久久久久久97| 精品成人一区二区三区四区| 成人性生活av| 天天爱天天做天天操| 不卡影院免费观看| 中文字幕av资源| 欧美富婆性猛交| 黑人操亚洲人| 古装做爰无遮挡三级聊斋艳谭| 污片在线观看一区二区| 午夜老司机在线观看| 国产精品传媒毛片三区| 日韩电影在线一区| 精品无码黑人又粗又大又长| 亚洲深夜福利视频| 91成人福利| 亚洲欧美日韩一级| 亚洲二区在线观看| 五月天婷婷在线视频| 久久99国产精品99久久| 国产在线不卡一区| 久久精品五月天| 久久久亚洲影院| 国产精品久久久久一区二区三区厕所| 国产激情视频网站|