精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

美團提出多模態推理新范式:RL+SFT非傳統順序組合突破傳統訓練瓶頸

人工智能 新聞
來自美團的研究者們提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了這一方法。

多模態推理,也可以講究“因材施教”?

來自美團的研究者們提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了這一方法。

他們提出了一個混合訓練框架,將RL激勵和SFT增強以非傳統順序結合,更有效地提升多模態大語言模型(MLLMs)的推理能力。

圖片

簡單來說,就是先用強化學習(RL)放任模型大膽去探索,激發潛能,再通過監督微調(SFT)針對性補齊短板,來突破多模態推理瓶頸。

最終產生7B和72B參數的MLLM,2個模型在OpenCompass多模態推理榜單上取得了優異成績,其中72B參數模型平均得分在整體排名中位列第四,驗證了Metis-RISE的可擴展性和有效性。

突破傳統訓練范式,激活模型潛在推理能力

當前多模態推理大模型訓練范式面臨雙重挑戰

純RL:一方面正確軌跡采樣成功率波動大(0-1),另一方面不能“無中生有”,受限于基座模型的能力上限

先SFT后RL:早期監督訓練禁錮模型創造力,如同給AI“套上枷鎖”,后期RL探索空間受到限制

這些恰是Metis-RISE破局之處,如下圖所示,與從冷啟動SFT階段開始的傳統流程不同,團隊方法基于經驗觀察省略了這一初始步驟,直接從使用Group Relative Policy Optimization(GRPO)算法變體的RL訓練開始。

圖片

方法分為2步走:

階段1:強化學習激勵

采用改進版GRPO算法,通過比較同一查詢生成的候選輸出組來估計模型生成響應的優勢。

允許模型大膽“放飛自我”,將取消KL散度約束、在線數據過濾、非對稱耦合、token級策略損失和軟過長懲罰應用于多模態學習,增強GRPO訓練過程的穩定性和有效性。

關鍵機制:非對稱裁剪+動態數據過濾,避免無效探索

階段2:SFT對癥下藥

Metis-RISE中的SFT階段通過一個精心策劃的數據集,策略性地增強模型:

自我蒸餾推理軌跡:團隊使用RL訓練的模型在prompt數據池中進行k-shot軌跡采樣。對于模型推理表現不一致的prompt(軌跡正確性得分嚴格在0和1之間),使用模型自身的正確推理軌跡作為監督信號。這強化了模型可以發現但尚未可靠執行的推理路徑,以解決采樣效率低下問題。

專家增強知識注入:對于模型始終無法成功處理的prompt(所有嘗試中軌跡正確性得分為0),團隊推斷其缺乏必要的推理能力。在這種情況下,一個更強的外部推理專家會生成高質量的軌跡。這些專家生成的解決方案隨后用于增強SFT數據集,有效注入新知識并彌補模型的原始能力缺陷。

成績亮眼,72B模型OpenCompass排名第四

團隊基于開源的Qwen2.5-VL系列進行開發,采用結合RL激勵和SFT增強的兩階段訓練方法,訓練了兩個模型變體:Metis-RISE-7B和Metis-RISE-72B。

為了全面評估模型性能,團隊采用了VLMEvalKit,并在OpenCompass多模態推理排行榜上進行基準測試。

團隊將Metis-RISE與專有模型、開源≤10B模型、開源>10B模型,這三類最先進模型進行比較,如下圖所示。

圖片

結果顯示,Metis-RISE-7B模型在≤10B參數類別中表現出色,平均得分為46.4。這一結果超越了所有同等規模的模型,包括VLAAThinker-7B(42.5)和InternVL3-8B(41.4),確定了Metis-RISE-7B在這些基準上的水平最先進。

Metis-RISE-72B平均分數為56.6,使其成為>10B參數類別中表現最佳的模型。它顯著優于其他大模型如InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3)的表現,這進一步展示了團隊方法的強大優勢。

值得注意的是,Metis-RISE-72B的性能具有很強的競爭力,并且在某些情況下超過了著名的專有模型。例如,Metis-RISE-72B超過了ChatGPT4o-202504(54.8)和Claude3.7Sonnet(50.4),同時與Gemini-2.0-Pro(56.6)的性能相當。

綜合來看,這些優異的結果使得Metis-RISE-72B在本次評估時在OpenCompass多模態推理排行榜上位列第四,突顯了它在復雜多模態推理任務中的先進能力。

消融實驗

下圖展示了Metis-RISE-7B進行的詳細消融研究,細致地說明了Metis-RISE框架中每個階段的不同影響和協同貢獻。基準模型(Qwen2.5-VL-7B)在評估數據集上取得了39.2分的初始平均分數。在應用初始RL階段(基準→RL)后,平均分數增加到44.0分(+4.8分),性能顯著提升。

這一巨大進步突顯了RL在激勵模型探索能力方面的關鍵作用,鼓勵模型發現并激活潛在的正確推理路徑。這種效果在WeMath等具有挑戰性的數據集上尤為明顯,分數從36.2躍升至43.3,在DynaMath上則從21.8提升至26.2,展示了RL解鎖推理潛力的能力。

圖片

同時,所有SFT變體在RL增強基線(平均得分為44.0)之上都帶來了性能提升。具體來說,在RL階段之后應用多模態圖文SFT,平均得分進一步提高了1.7分(從44.0提高到45.7),而純文本SFT導致得分增加了1.5分(達到45.5);混合數據SFT方法取得了最佳結果,在RL增強模型上平均得分提高了2.4分,達到46.4。這一額外提升突顯了SFT在精煉和鞏固RL揭示和激活的推理能力方面的有效性。

定性分析

在Metis-RISE-72B模型的初始強化學習(RL)階段,團隊觀察到準確率獎勵和響應長度方面的顯著趨勢。

具體來說,下圖展示了隨著訓練的進行,準確率獎勵持續且穩定地增加。同時,揭示了模型響應平均長度的相應上升趨勢,即RL階段模型輸出長度持續增長,思維鏈逐漸清晰。

圖片

團隊表示,在后續研發工作中,將繼續探索RL和SFT的循環迭代應用,實現推理能力的持續改進,并開發基于模型的驗證器,擴展Metis-RISE在更復雜推理場景中的應用。

論文地址:
https://arxiv.org/pdf/2506.13056
項目主頁:
https://github.com/MM-Thinking/Metis-RISE

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-04 08:49:00

2025-06-20 09:00:00

智能體訓練模型

2025-04-15 09:22:00

AI訓練模型

2025-10-10 02:15:00

2025-07-28 09:12:00

2025-11-17 08:49:00

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-03-21 10:08:37

2015-09-16 17:29:02

聯想開放開源

2016-01-14 16:06:19

CIO時代網

2020-04-14 10:06:05

安全 疫情物聯網

2025-05-09 08:40:00

2025-06-03 08:49:00

2025-08-07 09:16:41

2025-05-28 09:17:00

端到端模型視覺

2023-07-26 07:24:07

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-08-22 15:06:52

2025-09-22 10:44:20

點贊
收藏

51CTO技術棧公眾號

欧美日精品一区视频| 肉色丝袜一区二区| 亚洲第一精品夜夜躁人人爽| 99视频在线免费播放| 国产在线自天天| 六月丁香综合在线视频| 欧美黑人巨大精品一区二区| 成人精品在线观看视频| 综合久久伊人| 精品久久久久久亚洲精品| 日韩精品极品视频在线观看免费| 99久久久国产精品无码免费| 99热免费精品| 久久精品国产一区二区电影| 日本xxx在线播放| 亚洲青青久久| 日韩欧美在线视频观看| 日本一本草久p| 国产高清一区在线观看| 成人免费av资源| 国产视频观看一区| 国产亚洲欧美在线精品| 欧美另类亚洲| 日韩一二三在线视频播| 亚洲天堂网一区二区| 色悠久久久久综合先锋影音下载| 在线免费观看成人短视频| 你真棒插曲来救救我在线观看| 又爽又大又黄a级毛片在线视频| 成人高清伦理免费影院在线观看| 国产欧美在线视频| 无码视频一区二区三区| 亚洲精品婷婷| 欧美激情二区三区| 国产精品丝袜一区二区| 成人在线视频免费观看| 亚洲日本欧美日韩高观看| 精品无码人妻少妇久久久久久| 精品国产亚洲一区二区三区| 欧美日韩一级二级| www.色就是色| 日韩欧美一区二区三区在线观看| 好吊成人免视频| www.成年人视频| 久久久123| 一区二区三区在线影院| www.-级毛片线天内射视视| 在线观看黄av| 中文字幕第一页久久| 欧美在线视频二区| 国产无套粉嫩白浆在线2022年| av中文字幕在线不卡| 国产精品一区二区三区免费| 亚洲AV无码成人片在线观看| 国产成人啪午夜精品网站男同| **亚洲第一综合导航网站| 国产一区二区三区四区视频| 久久99国产精品麻豆| 国产主播在线一区| 国产欧美综合视频| 国产精品一区二区在线看| 91av免费看| 亚洲成人精品女人久久久| 国产高清不卡一区二区| 国产精品三区www17con| 天天操天天舔天天干| 97久久精品人人做人人爽| 久久精品国产精品国产精品污| 爽爽视频在线观看| 国产亚洲欧美日韩在线一区| 亚洲成色最大综合在线| av在线电影播放| 亚洲女同一区二区| 国产v片免费观看| 成人片免费看| 欧美日韩免费一区二区三区 | 免费成人在线视频观看| 国产精品一区二区在线| 国产高潮在线观看| 91天堂素人约啪| 亚洲人一区二区| 日本动漫同人动漫在线观看| 精品国产户外野外| 亚洲欧美自拍另类日韩| 成人免费直播在线| 亚洲色图综合久久| 草视频在线观看| 亚洲欧美日韩专区| 成人xxxx视频| 午夜视频福利在线| 国产精品视频你懂的| 久久久国内精品| 日本欧美不卡| 精品日韩欧美在线| 色综合99久久久无码国产精品| 一本精品一区二区三区| 欧美一级片在线播放| 一卡二卡在线观看| 91麻豆文化传媒在线观看| 一区二区三区四区五区精品 | 香蕉在线观看视频| 欧美裸体在线版观看完整版| 色在人av网站天堂精品| 国产一卡二卡三卡| 成人不卡免费av| 亚洲最新免费视频| 黑人巨大精品| 精品国产乱码久久久久久夜甘婷婷| 亚洲精品成人无码| 激情婷婷久久| 成人黄色在线免费| 男人天堂综合| 黄色一区二区在线观看| 91福利免费观看| 国产成人3p视频免费观看| 欧美日韩xxxxx| 91成人一区二区三区| eeuss鲁片一区二区三区在线观看 eeuss影院一区二区三区 | 91欧美日韩在线| 久久精品国产一区二区三区| 波多野结衣一区二区三区在线| 国产91综合一区在线观看| 亚洲精品国产系列| 日韩久久一区二区三区| 亚洲国产精品久久久久| 翔田千里88av中文字幕| 蜜臀av一区二区在线观看| 欧美激情一区二区三区在线视频 | 韩国黄色一级片| 9999国产精品| 国产欧美一区二区三区久久人妖 | 日韩精品导航| 午夜精品免费视频| 丰满人妻熟女aⅴ一区| 亚洲蜜臀av乱码久久精品蜜桃| 岛国毛片在线播放| 欧美在线免费看视频| 国产福利精品视频| 免费国产在线观看| 日本乱人伦aⅴ精品| 在线免费观看黄色小视频| 99成人在线| 久久大片网站| 中文字幕21页在线看| 日韩成人久久久| 亚洲va在线观看| 久久综合精品国产一区二区三区 | 久久国产精品露脸对白| 日韩高清三级| 九九久久国产| 久久在线免费视频| 超碰福利在线观看| 亚洲第一狼人社区| 老熟妇精品一区二区三区| 99精品视频免费观看| 欧美二区三区| 成人自拍视频网| 色爱av美腿丝袜综合粉嫩av| 国产一区二区三区四区视频| 亚洲黄色小视频| jjzz黄色片| 国产日韩1区| 日本一区免费| 日韩成人精品一区二区三区| 久久中文字幕一区| 农村少妇久久久久久久| 动漫精品一区二区| 欧美老女人性生活视频| 精品一区二区三区免费毛片爱| 国产盗摄视频在线观看| 欧美电影在线观看免费| 国产成人一区二区三区小说| 免费在线视频欧美| 精品免费日韩av| 日韩精品一区二区亚洲av| 亚洲国产精品国自产拍av| www.51色.com| 国产精品久久久久久久免费软件| 欧美在线一二三区| 国产麻豆精品| 欧美亚洲国产另类| 亚洲搞黄视频| 精品伦理精品一区| 波多野结衣黄色| 亚洲精品伦理在线| 中文幕无线码中文字蜜桃| 激情亚洲综合在线| 91专区在线观看| 日韩专区精品| 精品久久久久久一区二区里番| 最新欧美电影| 久久久久久av| 在线免费av网站| 日韩大片免费观看视频播放| 一卡二卡三卡在线| 欧美性猛交xxxx乱大交| 永久免费看黄网站| 国产日韩欧美a| 美国黄色一级视频| 久久99精品久久久久久国产越南| xxxx18hd亚洲hd捆绑| 国产精品videosex性欧美| 久久精品二区| 深夜福利一区二区三区| 国产精品久久久久久久av电影| 日本色护士高潮视频在线观看| 亚洲最大中文字幕| 色窝窝无码一区二区三区| 欧美高清性hdvideosex| 亚洲国产精品无码久久久| 亚洲夂夂婷婷色拍ww47| 国产精品酒店视频| 久久日韩粉嫩一区二区三区| 亚洲成a人无码| 国内精品久久久久影院色| 国产精品人人妻人人爽人人牛| 欧美三级第一页| 自拍另类欧美| 成人亚洲一区二区| 免费久久久一本精品久久区| 岛国精品一区| 岛国视频一区| 日韩一区二区三区色| 国产欧美日韩最新| 99久久er| 国产成人精品av在线| 国产无遮挡裸体视频在线观看| 欧美精品免费在线| 国产黄a三级三级三级av在线看 | 久久国产精品露脸对白| 日日噜噜噜噜久久久精品毛片| 香蕉久久久久久久av网站| 91免费黄视频| 亚洲美女网站| 伊人成色综合网| 亚洲三级色网| 美脚丝袜脚交一区二区| 亚洲高清成人| 黄页网站在线观看视频| 亚洲国产一区二区精品专区| a级黄色片免费| 欧美视频二区| 日本一区午夜艳熟免费| 亚洲高清电影| 欧洲av无码放荡人妇网站| 亚洲欧美日韩国产一区二区| 国产在线精品91| 久久综合九色| 亚洲一区日韩精品| 国产主播一区二区三区| 成人免费播放视频| 成人午夜免费av| 黄色片视频免费观看| 久久亚洲一区二区三区明星换脸 | 深夜福利视频网站| 亚洲欧美激情另类校园| 国模精品一区二区| 日韩亚洲欧美成人| 免费毛片在线看片免费丝瓜视频 | 成人国产一区| 成人黄色网免费| 丁香五月缴情综合网| 精品国产乱码一区二区三区四区| 日韩中文av| 五月天久久狠狠| 91国语精品自产拍| 国产高清www| 欧美一级播放| 国产精品v日韩精品v在线观看| 久久国产乱子精品免费女| 91在线第一页| 99久久精品国产精品久久| 国产jk精品白丝av在线观看| 国产精品久久久爽爽爽麻豆色哟哟| 天天干中文字幕| 欧美日韩国产一区中文午夜| 中文字幕av网站| 日韩三级精品电影久久久| 深夜福利视频网站| 最近日韩中文字幕中文| 欧美videossex| 国产精品成人aaaaa网站| 国产麻豆一区二区三区| 久久综合精品一区| 久久久精品久久久久久96| 国产3p露脸普通话对白| 日韩二区三区在线观看| 人妻精油按摩bd高清中文字幕| 26uuu亚洲综合色| 三级全黄做爰视频| 欧美性xxxxxx| 性一交一乱一伧老太| 亚洲男人天天操| 青草影视电视剧免费播放在线观看| 欧美在线视频一区二区| 视频一区日韩| 深田咏美在线x99av| 伊人久久大香线蕉综合热线| 午夜两性免费视频| av中文字幕一区| 久久中文免费视频| 欧美在线三级电影| 亚洲女人18毛片水真多| 色偷偷av一区二区三区乱| bbw在线视频| 亚洲一区二区三区久久| gogogo高清在线观看一区二区| 真人抽搐一进一出视频| 激情久久五月天| a级片在线观看| 亚洲aⅴ怡春院| 国产日韩欧美中文字幕| 中国china体内裑精亚洲片| 国产乱码午夜在线视频| 97超级在线观看免费高清完整版电视剧| 伊人成综合网伊人222| 国产不卡一区二区视频| 国产在线观看免费一区| 337人体粉嫩噜噜噜| 欧美视频在线观看 亚洲欧| 亚洲国产欧美另类| 欧美精品一本久久男人的天堂| 国产精品亚洲d| 日本不卡一二三区| 亚欧美中日韩视频| 日韩精品卡通动漫网站| 亚洲成国产人片在线观看| 国产成人久久精品77777综合| 日韩在线精品视频| 国产一区二区三区朝在线观看| 久久九九视频| 欧美中文日韩| www.久久国产| 欧美日韩在线视频观看| 国产又爽又黄网站亚洲视频123| 欧美精品videossex88| 日韩最新av| av日韩在线看| 国产不卡视频在线观看| 九九热精彩视频| 日韩免费电影一区| 视频在线这里都是精品| 99在线影院| 亚洲特级毛片| 艳妇乳肉豪妇荡乳xxx| 图片区小说区区亚洲影院| 欧美在线精品一区二区三区| 久久久久久九九九| 老司机aⅴ在线精品导航| 18禁免费观看网站| 久久综合网色—综合色88| 无码人妻精品一区二区| 中文字幕欧美专区| **国产精品| 久久久天堂国产精品| 国产成a人亚洲| 久久夜靖品2区| 亚洲男人第一网站| 欧美free嫩15| 超碰在线免费观看97| 国产大片一区二区| 国产一级精品视频| 中文日韩在线视频| 欧洲一区在线| 九一国产精品视频| 国产网站一区二区三区| 国产又爽又黄免费软件| 欧美第一页在线| 欧美挤奶吃奶水xxxxx| 午夜dv内射一区二区| 亚洲婷婷综合色高清在线| 不卡的日韩av| 日韩女优在线播放| 亚洲色图二区| 欧美成人三级伦在线观看| 欧美主播一区二区三区| 国产不卡在线| 乱一区二区三区在线播放| 麻豆免费精品视频| 久久久久亚洲av成人片| 亚洲性无码av在线| 精品一区二区三区中文字幕 | 蜜臀精品久久久久久蜜臀| 国产盗摄一区二区三区在线| 日韩av在线网站| 亚洲网站三级| 欧美亚洲另类色图| 国产精品久久久久影院老司 | 欧美日韩在线视频播放| 免费99精品国产自在在线| 美女久久99| 永久看看免费大片| 在线一区二区三区四区| 伊人在我在线看导航| 日本黑人久久| 国产成人日日夜夜| 亚洲永久精品视频| 91禁外国网站| 欧美1区2区3区| 俄罗斯毛片基地|