精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MM-Eureka:極少數據實現多模態推理的R1-Zero時刻

人工智能 新聞
我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?

盡管 DeepSeek-R1 在單模態推理中取得了顯著成功,但已有的多模態嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復現其核心特征。

例如,R1-V 僅在簡單計數任務上表現出進步,未能實現回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓練過程中回答長度反而降低;LMM-R1 雖然有所進步,但尚未在大規模圖文數據訓練中得到驗證。而 Kimi 1.5 盡管表現突出,但并未開源其模型或數據。

圖片

  • 論文標題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
  • 代碼地址:https://github.com/ModalMinds/MM-EUREKA
  • 技術報告:https://arxiv.org/pdf/2503.07365
  • 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
    https://huggingface.co/FanqingM/MM-Eureka-8B
  • 數據集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?

為了解答這一問題,來自上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員提出了多模態學科推理模型 MM-Eureka。

圖片

我們的探索

開源框架:我們基于 OpenRLHF 開發了一個高效可擴展的多模態大規模強化學習框架,支持 InternVL 等多種模型和 RL 算法。相比 R1-V 等已有框架,我們的方案成功訓練了 InternVL 2.5-38B 等大型模型。

穩定訓練:我們開發了兩個模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功復現了穩定的 accuracy reward、response length 增長以及 Visual aha-moment。

極大的數據效率:僅使用 54K 圖文數據進行規則型 RL 訓練,平均性能超過使用 1M 數據的 MPO 模型;整體基準準確率與使用 12M 數據進行 CoT SFT 訓練的模型相當!MM-Eureka-Zero 僅使用 8K 圖文數學推理數據(指令模型的 0.05%),在我們自建的 K12 基準測試上超越指令模型 8.2%,在 MathVerse 上表現相當。

重要發現

  • 極簡的 RL 設計足以獲得出色效果。在 instruct 模型上實驗時,添加 KL 散度會限制模型探索,導致無法觀測到 response length 的提高。

圖片

  • 數據選擇對于穩定 RL 訓練很重要!基于難度的數據過濾策略對 RL 訓練穩定性至關重要。在 8B-instruct 模型上進行 RL 訓練時,若不進行數據過濾,訓練過程極其不穩定。

圖片

  • 模型在 RL 訓練中展現類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學會反思和回溯,還學會重新審視圖像中的關鍵信息,我們認為這是 Visual aha-moment 的關鍵特征。

圖片

我們的成果

  • 無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設計以及數據篩選策略下實現了穩定的 Accuracy Reward 提升和 Response Length 提升。

圖片

  • 在 Instruct 模型上,幾乎全部使用開源數據(50K),便在所有多模態數學推理基準上取得穩定提升。相比其他后訓練策略,比如 MPO(1M 數據)和 CoT SFT(12M 數據),我們發現簡單的 rule-based RL 具備極強的數據高效性,使用幾十分之一的數據,平均性能超過 MPO,與 CoT SFT 相當。

圖片

  • 在 Pretrained 模型上進一步挖掘 RL 潛力,僅需 8K 多模態數學推理數據,即可在奧林匹克數學測試集(部分)和 K12 數學推理測試集上,超過使用 16.3M 數據進行 SFT 的指令模型。在 MathVerse 上,兩種模型表現也相似。我們僅使用了指令模型數據量的 0.05%,凸顯了強化學習的巨大潛力!

圖片

其他嘗試與反思

我們在復現過程中進行了許多其他的嘗試,在此分享一些我們認為有幫助,但并未成功驗證的操作。我們認為這并不代表這些方法有問題,而是需要進一步探索。

Curriculum Learning:盡管我們基于難度劃分數據并嘗試從易到難訓練,但未觀察到明顯性能提升。我們認為簡單問題的學習難以直接泛化到難題,如何更有效地組織課程學習數據仍需探索。

圖片

Online Data Filter:我們將預先基于難度的數據篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但其數據利用率降低了,因此我們希望在模型訓練過程中動態進行基于難度的數據篩選(類似 PRIME)。然而,我們發現訓練結果不如 offline data filter 穩定,我們認為這是因為每次更新時的數據量不同,導致梯度不穩定。

圖片

Model Size:盡管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但我們在多模態推理場景下,難以通過 8B 的 InternVL Pretrained 進行成功復現。我們認為這受制于多模態推理數據質量以及多模態預訓練數據中很少存在 long CoT 數據。

圖片

我們的期望

我們開源了全套數據(包括自助收集的高質量多模態 K12 數據集)、代碼和模型,并發布了詳細的技術報告,涵蓋所有復現過程及未成功的嘗試。希望我們的工作能幫助社區共同推進多模態推理的發展!我們同樣在持續推進模型訓練,請繼續關注!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-10-22 10:48:22

2025-03-06 01:00:00

2023-07-18 13:58:09

模型原理

2025-03-24 10:00:00

2025-03-12 13:55:05

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-06-10 03:30:00

2025-02-07 14:08:45

2025-07-16 13:05:15

2025-06-27 08:40:00

模型推理AI

2025-10-20 09:02:00

2023-04-28 09:24:50

自動駕駛數據

2025-04-15 09:22:00

AI訓練模型

2024-08-08 13:04:28

2025-05-21 08:47:00

2024-11-07 13:19:03

2025-02-06 09:11:54

2021-12-30 15:15:17

數據泄露交換攻擊信息安全
點贊
收藏

51CTO技術棧公眾號

麻豆精品一二三| 亚洲黄页在线观看| 亚洲综合激情另类小说区| 国产精品三区www17con| 蜜臀99久久精品久久久久小说 | 国产精品麻豆一区| 永久免费精品视频| 欧美在线观看视频一区二区| 九九久久九九久久| 91看片在线观看| 丁香婷婷深情五月亚洲| 国产成人精品一区二区在线| 欧美黑人性猛交xxx| 偷拍亚洲色图| 欧美刺激午夜性久久久久久久| 熟女性饥渴一区二区三区| 国产成人无吗| 国产色一区二区| http;//www.99re视频| 超碰在线观看91| 在线精品亚洲| 美女久久久久久久久久久| 丝袜美腿中文字幕| 国产香蕉精品| 欧美一区二区三区在线视频 | 欧美xxx性| 亚洲丰满少妇videoshd| 樱空桃在线播放| 成人高潮成人免费观看| 91年精品国产| 久久国产精品-国产精品| av中文在线观看| 精品一区二区三区久久| 国产精品露脸自拍| 无码视频一区二区三区| 中日韩男男gay无套| 久久久久久久久亚洲| 久久久久久久久毛片| 99久久久久久中文字幕一区| 国产一区二区三区久久精品| 性色av蜜臀av色欲av| 91夜夜蜜桃臀一区二区三区| 5858s免费视频成人| 亚洲综合日韩欧美| 草莓视频成人appios| 91国偷自产一区二区三区成为亚洲经典| 97中文字幕在线| 女同一区二区免费aⅴ| 亚洲蜜臀av乱码久久精品| 9999在线观看| 黄色网页在线观看| 亚洲欧美另类在线| av动漫免费观看| 欧美日韩在线看片| 亚洲色图欧美在线| 国产人妻互换一区二区| 成人午夜在线影视| 亚洲在线免费播放| 国产精品国产亚洲精品看不卡| 日韩av毛片| 亚洲成人资源网| 日韩精品 欧美| 午夜欧美激情| 日本大香伊一区二区三区| 日韩在线第三页| 粉嫩91精品久久久久久久99蜜桃| 欧美综合在线视频| 黄色一级片免费的| 榴莲视频成人app| 精品国产一二三| 国产精品久久无码| 精品国产一区二区三区四区| 色噜噜狠狠狠综合曰曰曰| 东方av正在进入| 在线播放不卡| 日韩美女激情视频| 国产精品久久久久久久久毛片 | 国产精品va在线观看视色| 亚洲人成在线播放网站岛国| 国产成人永久免费视频| 中文不卡1区2区3区| 欧美日韩一区二区电影| 四虎1515hh.com| 日韩人体视频| 北条麻妃一区二区三区中文字幕 | 免费看黄色aaaaaa 片| 国产精品密蕾丝视频下载| 久久精品视频在线观看| 日韩成人一区二区三区| 青青草国产成人99久久| 亚洲一区久久久| 欧美91精品久久久久国产性生爱| 国产精品高潮呻吟久久| 日韩小视频网站| 黄色成人在线视频| 91麻豆精品国产自产在线 | 亚洲视频免费观看| 日本网站免费在线观看| 四虎国产精品永久在线国在线| 欧美不卡123| 99在线视频免费| 亚洲视频免费| 成人久久久久久| 你懂的在线观看| 亚洲最新在线观看| 我要看一级黄色大片| 国产精品乱战久久久| 日韩中文字幕在线看| 欧美h在线观看| 国产精品一区二区免费不卡| 日本精品二区| 欧美日韩在线观看首页| 日韩一区国产二区欧美三区| 中文字幕网站在线观看| 亚洲高清在线| 91在线看www| caoporn国产精品免费视频| 亚洲一区成人在线| 天天色天天综合网| 欧美系列电影免费观看 | 国产精品久久久影院| 亚洲va中文在线播放免费| 亚洲国产精品人久久电影| 国内偷拍精品视频| 久久99精品久久久久久国产越南 | 在线精品国产| 国产日韩在线精品av| 黄色av免费在线观看| 婷婷综合另类小说色区| 国产精品日日摸夜夜爽| 亚洲成av人片乱码色午夜| 国产精品亚洲视频在线观看| 成人jjav| 欧美在线视频你懂得| 中文字幕高清视频| 国产欧美亚洲一区| 国内视频一区| 超级白嫩亚洲国产第一| 日韩精品一区二区三区中文精品| 性生交大片免费全黄| 美女视频网站久久| 亚洲一区二三| 日韩电影精品| 久久精品色欧美aⅴ一区二区| 中文字幕在线2018| 中文字幕不卡在线| 在线观看亚洲色图| 亚州av乱码久久精品蜜桃| 成人妇女淫片aaaa视频| 日本www在线| 欧美一区二区精品| 精品97人妻无码中文永久在线| 国产又粗又猛又爽又黄91精品| 亚洲欧美久久久久一区二区三区| 福利视频亚洲| 久久999免费视频| 亚洲第一天堂影院| 午夜视频在线观看一区二区| 国产成人精品无码片区在线| 性欧美videos另类喷潮| 欧美日韩一区二区视频在线 | 亚洲国产三级| 女同一区二区| 黄色精品视频| 久久大大胆人体| 欧美性猛交 xxxx| 一本一本大道香蕉久在线精品| 久久午夜福利电影| 黑人巨大精品欧美黑白配亚洲| 国产一级黄色录像片| 粉嫩精品导航导航| 国产成人一区二区三区| 日本美女高清在线观看免费| 欧美xxxxx牲另类人与| 日韩激情在线播放| 国产欧美综合在线观看第十页| 国产欧美激情视频| 在线日本高清免费不卡| 欧美一区1区三区3区公司 | 国产欧美小视频| 国产一区二区三区在线观看免费 | 国产成人无码精品亚洲| 久久精品欧美一区二区三区不卡| 午夜啪啪小视频| 亚洲福利电影| 一区二区免费在线观看| 黄色欧美网站| 成人黄色在线观看| 精品极品在线| 久久精品男人天堂| 天堂中文字幕在线| 制服丝袜亚洲精品中文字幕| 国产无遮挡又黄又爽又色| 欧美韩国日本一区| 成人区人妻精品一区二| 免费成人在线视频观看| 国内精品视频一区二区三区| 日韩国产一区二区| 久久av免费观看| 成人看片毛片免费播放器| 久久久噜噜噜久久久| 五月香视频在线观看| 日韩精品免费一线在线观看| 一级久久久久久久| 欧美日韩性视频| 欧美精品成人久久| 中文字幕一区二区三区四区| 双性尿奴穿贞c带憋尿| 国产乱码精品一区二区三区av| 日韩黄色片视频| 亚洲大胆视频| 成人在线观看毛片| 欧美电影一区| 色女人综合av| 少妇一区二区视频| 久久精品magnetxturnbtih| 日韩中文字幕无砖| 成人激情免费在线| 日本.亚洲电影| 57pao成人国产永久免费| 免费在线中文字幕| 欧美成人免费大片| av大片在线看| 夜夜嗨av色综合久久久综合网| 日韩在线观看视频网站| 欧美va亚洲va香蕉在线| 国产99久一区二区三区a片| 欧美三级韩国三级日本一级| 伊人中文字幕在线观看| 欧美日韩国内自拍| 国产又大又黑又粗免费视频| 一个色妞综合视频在线观看| 国产一区二区视频在线观看免费| 国产精品精品国产色婷婷| 夫妇露脸对白88av| 国产精品午夜在线| 我想看黄色大片| 中文在线资源观看网站视频免费不卡| 欧美色图亚洲激情| 91欧美激情一区二区三区成人| 特级西西人体4444xxxx| 99久久精品国产麻豆演员表| 蜜臀av粉嫩av懂色av| 丁香亚洲综合激情啪啪综合| 91成人在线观看喷潮蘑菇| 国产精品系列在线播放| 青娱乐国产精品视频| 国产激情精品久久久第一区二区 | 欧美一区二区三区爽大粗免费| 亚洲激情成人| 97成人在线观看视频| 性高湖久久久久久久久| 黄色av免费在线播放| 日本欧美大码aⅴ在线播放| xx欧美撒尿嘘撒尿xx| 久久国产婷婷国产香蕉| 日本女人黄色片| 国产乱理伦片在线观看夜一区| 久久黄色一级视频| 99这里只有久久精品视频| 男生裸体视频网站| 国产视频一区在线观看 | 香蕉成人伊视频在线观看| 青青操免费在线视频| 一本到不卡精品视频在线观看| 999视频在线| 884aa四虎影成人精品一区| 精品人妻无码一区二区| 欧美精品一区二区精品网| 日韩在线免费播放| 最新国产成人av网站网址麻豆| 岛国成人毛片| 午夜精品久久久久久久99热| 亚洲人免费短视频| 91网站在线免费观看| 成人精品毛片| 色视频一区二区三区| 午夜激情一区| 欧美极品欧美精品欧美图片| 奇米777欧美一区二区| 亚洲一区和二区| 国产亚洲欧美激情| 免费在线观看黄视频| 一本久久综合亚洲鲁鲁五月天| 亚洲在线免费观看视频| 亚洲第一精品夜夜躁人人躁| 在线免费黄色| 久久免费精品日本久久中文字幕| а√天堂中文在线资源8| 国产精品视频一区二区三区四| 日韩在线观看中文字幕| 日韩欧美视频第二区| 欧美日本一区二区视频在线观看| 91av在线免费播放| 国产成人免费在线观看不卡| 欧美亚一区二区三区| 亚洲精品视频在线观看免费| 人人草在线观看| 欧美精品一区二区三区在线| 在线免费黄色| 日韩免费视频在线观看| swag国产精品一区二区| 一区二区成人国产精品| 亚洲一区自拍| 日本天堂在线播放| 国产精品国产三级国产普通话三级 | 91日韩在线| 欧洲黄色一级视频| 国产成人丝袜美腿| 波多野结衣久久久久| 一本一道波多野结衣一区二区| 国模私拍视频在线| 精品国产依人香蕉在线精品| 日韩av超清在线观看| 精品久久中出| 激情成人综合| 四川一级毛毛片| **欧美大码日韩| 中文字幕av网站| 亚洲免费av片| 日韩伦理在线一区| 极品校花啪啪激情久久| 极品中文字幕一区| 在线成人精品视频| 亚洲欧洲另类国产综合| 一级片在线免费观看视频| 亚洲视频第一页| 午夜激情电影在线播放| 久久亚洲一区二区| 一本一本久久| 精品一区二区视频在线观看| 五月综合激情婷婷六月色窝| www.国产欧美| 欧美第一黄色网| 日韩视频1区| 日本熟妇人妻xxxx| 成人在线综合网| 日韩av片在线播放| 精品国产乱码久久久久久久久| 中文字幕中文字幕在线十八区 | 欧洲精品久久一区二区| 欧美精品久久久久| 荡女精品导航| 国产精品久久中文字幕| 99免费精品视频| 国产精品久久久久久久久久久久久久久久久 | 国产日韩欧美自拍| 91日韩欧美| 亚洲区 欧美区| 亚洲一区二区免费视频| 日本韩国免费观看| 欧美在线一级va免费观看| 羞羞色国产精品网站| 欧美极品欧美精品欧美图片| 国产欧美一区二区精品性色超碰| 中文字幕在线观看国产| www日韩欧美| 国产成人tv| 麻豆av免费在线| 国产精品女同互慰在线看| 国产麻豆一精品一男同| 欧美精品在线第一页| 极品束缚调教一区二区网站 | 国产99久久精品| 五月婷婷激情网| 一区二区在线视频| 成人激情久久| 国产日本在线播放| 久久先锋影音av| 国产一区二区麻豆| 久久久久久国产精品| 中日韩免视频上线全都免费| 日韩精品你懂的| 亚洲专区一二三| 大胆av不用播放器在线播放 | 97视频国产在线| 欧美久久综合网| 日本中文字幕有码| 色综合久久久久综合99| 国产黄a三级三级三级av在线看| 国产精品一区二区三区观看| 日韩国产在线一| 久久丫精品久久丫| 一区二区三区亚洲| 91精品久久久久久综合五月天| 久久婷婷五月综合色国产香蕉| 中文字幕一区免费在线观看| 亚洲欧美日本在线观看| 国产日韩欧美黄色| 99亚洲一区二区| 日本在线一级片| 亚洲欧美激情视频| 人人爱人人干婷婷丁香亚洲| 国产女女做受ⅹxx高潮| 一区二区三区欧美日| 国产日本在线视频| 国产欧美韩日| 久88久久88久久久| 一级片免费在线播放| 久久久久成人精品|