精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

業界突破多模態泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術

人工智能 新聞
來自OPPO研究院和港科廣的科研人員提出了一項新技術——OThink-MR1,將強化學習擴展到多模態語言模型,幫助其更好地應對各種復雜任務和新場景。

用上動態強化學習,多模態大模型也能實現泛化推理了?!

來自OPPO研究院和港科廣的科研人員提出了一項新技術——OThink-MR1,將強化學習擴展到多模態語言模型,幫助其更好地應對各種復雜任務和新場景。

研究人員表示,這一技術使業界突破多模態泛化推理能力

圖片

眾所周知,多模態大模型可以處理多種類型輸入數據并生成相關輸出,但一遇到復雜推理任務,其能力往往表現不佳。

目前大多數多模態模型在訓練時,主要采用監督微調(SFT)的方法。

SFT就像是老師給學生劃重點,讓學生按照固定的模式學習。雖然這種方法在特定任務上確實能讓模型表現得不錯,但難以培養關鍵的通用推理能力。

與此同時,強化學習(RL)作為另一種訓練方法,開始進入人們的視野。

RL就像是讓學生在不斷嘗試中學習,做得好就給獎勵,做得不好就“挨批評”。這種方法理論上可以讓模型更靈活地應對各種任務,提升其推理能力,但卻存在多模態任務通用能力未充分探索、訓練約束易導致次優瓶頸等問題。

圖片

于是乎,OThink-MR1技術應運而生。

那么,它是如何讓多模態模型突破泛化推理能力的呢?

基于動態強化學習

OThink-MR1是一個基于動態強化學習的框架和模型,支持微調多模態語言模型。

其核心“招式”有兩個:一個是動態KL散度策略(GRPO-D),另一個是精心設計的獎勵模型。二者相互配合,讓模型的學習效率和推理能力大幅提升。

圖片

先說動態KL散度策略

在強化學習里,探索新的策略和利用已有經驗是兩個很重要的方面,但以前的方法很難平衡這二者的關系,不是在探索階段浪費太多時間,就是過早地依賴已有經驗。

而動態KL散度策略就像是給模型裝了一個“智能導航儀”,能根據訓練進度動態調整探索和利用的平衡

打個比方,在訓練初期,它讓模型像個充滿好奇心的孩子,大膽地去探索各種可能的策略。而隨著訓練的進行,它又會引導模型逐漸利用之前積累的經驗,沿著更靠譜的路線前進。

這樣一來,模型就能更有效地學習,避免陷入局部最優解。

再說獎勵模型。在OThink-MR1里,獎勵模型就像是老師給學生打分的標準。

對于多模態任務,科研人員設計了兩種獎勵:一種是驗證準確性獎勵,另一種是格式獎勵

比如在視覺計數任務中,模型要數出圖片里物體的數量,如果數對了,就能得到驗證準確性獎勵;同時,如果模型的回答格式符合要求,像按照規定的格式寫下答案,還能獲得格式獎勵。

這兩種獎勵加起來,就像老師從多個方面給學生打分,讓模型知道自己在哪些地方做得好,哪些地方還需要改進,從而更有針對性地學習。

實驗環節

為了驗證OThink-MR1的實力,科研人員進行了一系列實驗。

第一個實驗是探究獎勵項和KL散度項對原始GRPO(一種基于強化學習的方法)在同任務驗證中的影響。

在幾何推理任務中,科研人員調整格式獎勵的權重,發現當格式獎勵的權重不為零時,模型的表現明顯更好。這就好比學生寫作文,不僅內容要正確,格式規范也能加分,這樣能讓學生更全面地提升自己的能力。

同時,調整KL散度的權重時,他們發現權重適中時模型表現最佳,太大或太小都會讓模型成績下降。

圖片

第二個實驗是跨任務評估,這可是一場真正的“大考”。

以往的研究大多只在同一個任務的不同數據分布上評估模型的泛化能力,而這次實驗直接讓模型挑戰完全不同類型的任務。

科研人員選擇了視覺計數任務和幾何推理任務,這兩個任務難度不同,對模型的能力要求也不一樣。

圖片


在跨任務驗證中,用監督微調訓練的模型表現得很差。就像一個只會做一種題型的學生,換了另一種題型就完全不會了。

而經過GRPO-D訓練的模型則表現出色,在從推理任務到理解任務的泛化實驗中,它的成績相比沒有經過訓練的模型提高了很多;在從理解任務到推理任務的泛化實驗中,雖然難度更大,但它也取得了不錯的進步。

這就好比一個學生不僅擅長數學,還能快速掌握語文知識,展現出了很強的學習能力。

圖片

第三個實驗是同任務評估。

實驗結果顯示,在同任務驗證中,采用固定KL散度的GRPO方法不如監督微調,但OThink-MR1中的GRPO-D卻能逆襲。

它在視覺計數和幾何推理任務上,成績都超過了監督微調,這就像一個原本成績一般的學生,找到了適合自己的學習方法后,成績突飛猛進,直接超過了那些只會死記硬背的同學。

圖片

總體而言,OThink-MR1的出現,為多模態語言模型的發展開辟了新的道路。

它讓我們看到了動態強化學習在提升模型推理能力和泛化能力方面的巨大潛力。在未來,基于OThink-MR1這樣的技術,多模態語言模型有望在更多領域發揮重要作用。

論文地址:https://arxiv.org/abs/2503.16081

? 標題:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

? 作者:劉志遠1, 章玉婷2, 劉豐1, 張長旺1, 孫瑩2, 王俊1

? 單位:1.OPPO研究院, 2.香港科技大學(廣州)

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-09 08:40:00

2022-10-31 09:36:47

深度學習數據集

2025-02-08 13:30:00

2025-07-21 08:51:00

2025-09-03 14:05:11

AI智能體研究

2021-02-01 09:51:35

IBM中國研究院

2025-04-02 09:50:00

機器人訓練數據

2023-05-30 10:23:45

模型研究

2020-12-17 18:33:07

IBM計算內存架構人工智能

2024-08-08 13:04:28

2016-06-12 09:31:28

華為

2025-07-22 08:50:00

AI模型框架

2025-05-21 08:47:00

2022-04-22 11:22:47

達摩院阿里巴巴

2020-10-19 10:08:03

微軟斜屏技術

2011-03-11 13:22:16

2025-03-19 09:30:00

點贊
收藏

51CTO技術棧公眾號

五月婷婷欧美激情| 国产精品涩涩涩视频网站| 性一交一乱一透一a级| 一区二区三区精品视频在线观看 | www.久久久久久久久久久| 欧美性猛片xxxxx免费中国| 2欧美一区二区三区在线观看视频| 国产精品欧美日韩一区二区| 青娱乐国产盛宴| 久久99精品久久久久久园产越南| 欧美一区二区视频网站| 国产91对白刺激露脸在线观看| 久久五月精品| 久久精品亚洲精品国产欧美kt∨| 99re视频在线播放| 在线观看你懂的网站| 亚洲成人原创| 久久成人一区二区| 精品人妻互换一区二区三区| av不卡一区| 欧美日韩视频在线第一区| 国产午夜福利在线播放| 国产黄网站在线观看| 久久久久久久久蜜桃| 国产91视觉| 91肉色超薄丝袜脚交一区二区| 在线综合欧美| 久久久久久久久久久av| 999精品在线视频| 欧洲乱码伦视频免费| 国产视频在线观看一区二区| 涩视频在线观看| 国产精久久一区二区| 欧美日韩在线亚洲一区蜜芽| 不卡影院一区二区| av在线最新| 亚洲国产综合在线| 欧美视频在线第一页| a级片国产精品自在拍在线播放| 国产精品区一区二区三区| 欧美一区二区综合| 日本一级在线观看| hitomi一区二区三区精品| 电影午夜精品一区二区三区| 国产区精品在线| 精一区二区三区| 国产情人节一区| 这里只有精品国产| 日韩1区2区日韩1区2区| 国产福利精品av综合导导航| 丰满人妻老熟妇伦人精品| 亚洲欧美视频| 国产精品成人va在线观看| 日本在线播放视频| 首页综合国产亚洲丝袜| 国产成人a亚洲精品| 亚洲成人av影片| 日本美女一区二区三区视频| 国产精品久久网| 97成人在线观看| 狠狠久久亚洲欧美| 97人人香蕉| 农村少妇久久久久久久| 不卡电影一区二区三区| 精品999在线观看| 男人天堂资源在线| 亚洲国产成人私人影院tom| 伊人久久大香线蕉午夜av| 国产色在线观看| 亚洲国产精品一区二区久久恐怖片 | 亚洲欧美自拍另类日韩| 成人综合日日夜夜| 欧美成人乱码一区二区三区| 国产xxxx视频| 欧美亚洲高清| 久久伊人色综合| 精品无码人妻一区二区三区品| 亚洲高清不卡| 国产精品扒开腿做| 国产免费一区二区三区最新不卡| 国产成人免费视频| 久久久精品国产一区二区三区| 免费福利在线视频| 最新热久久免费视频| 国产婷婷一区二区三区| 色综合一本到久久亚洲91| 欧美日韩精品三区| 日本天堂在线播放| 欧美在线免费看视频| 欧美刺激性大交免费视频| 日韩毛片在线视频| 麻豆高清免费国产一区| 国产精品成人一区二区三区| 国产精品一区二区三区四区色 | 久久网免费视频| 老司机久久99久久精品播放免费| 91精品久久久久久久久久| 日韩一级中文字幕| 国产精品青草久久| www.av中文字幕| 成人在线视频区| 亚洲欧美日韩在线一区| 国产1区2区3区4区| 日韩精品乱码免费| 国产一区二区三区高清视频| 黄色网址免费在线观看| 色网站国产精品| 熟妇高潮一区二区| 97精品国产| 日本精品一区二区三区在线| 精品人妻少妇AV无码专区 | 亚洲精品视频免费| 免费在线观看国产精品| 麻豆国产一区二区| 欧美系列一区| 密臀av在线播放| 欧美xxxx老人做受| 欧美性生交大片| 老司机精品导航| 九色综合婷婷综合| 欧美人与牲禽动交com| 欧美剧在线免费观看网站| 亚洲成人网在线播放| 亚洲神马久久| 国产精品久久久一区二区三区| а天堂中文在线官网| 欧美三级电影在线看| 中文字幕被公侵犯的漂亮人妻| 亚洲黄色高清| 3d动漫精品啪啪一区二区三区免费 | 午夜在线视频| 亚洲成人av中文| 国产又粗又猛又爽又黄| 99视频精品全国免费| 国产91在线播放九色快色| 无码国产伦一区二区三区视频 | 91色综合久久久久婷婷| 女人被男人躁得好爽免费视频| 亚洲精品伦理| 原创国产精品91| 中文在线a天堂| 国产免费观看久久| 欧美午夜性生活| 国内精品视频在线观看| 欧美最近摘花xxxx摘花| 婷婷国产在线| 欧美性猛交xxxx乱大交蜜桃 | 中文字幕成人在线观看| 天天天干夜夜夜操| 日本在线电影一区二区三区| 国产精品久久久久久久av电影| 成人在线免费视频| 欧美午夜电影在线播放| 999久久久国产| 美国十次了思思久久精品导航| 亚洲精品国产一区| 伊人久久一区| 欧美高清视频在线| 欧美一区二区在线观看视频| 精品欧美激情精品一区| 亚洲第一页av| 欧美aaaaaa午夜精品| 先锋影音一区二区三区| 久久久加勒比| 欧美精品在线播放| 日本黄视频在线观看| 欧美特级www| 国产调教在线观看| 国产一区二区三区观看| 加勒比成人在线| 精品中文一区| 成人福利免费观看| 国产极品人妖在线观看| 亚洲另类图片色| 国产精品欧美亚洲| 天天射综合影视| 亚洲最大成人综合网| 激情综合色综合久久综合| 国产一区二区片| 国产日产精品_国产精品毛片| 国产日韩欧美在线观看| 国产美女情趣调教h一区二区| 日韩精品中文字幕在线观看| 在线观看中文字幕网站| 亚洲一区二区av电影| 一级片手机在线观看| 国产一区二区美女| 亚洲精品无码久久久久久| 91久久久精品国产| 久久精品综合一区| 欧美性猛交一区二区三区精品| gai在线观看免费高清| 欧美三级小说| 日本一区二区在线视频| 精品国产一级| 日韩av免费一区| 在线观看a级片| 国产一区二区三区在线观看网站| 国产三级三级在线观看| 一本久久a久久精品亚洲| 国产午夜手机精彩视频| 久久午夜色播影院免费高清| 精产国品一二三区| 日韩av中文字幕一区二区三区 | 黄色精品网站| 亚洲精品中文综合第一页| www.成人网| 国产主播喷水一区二区| 中文在线免费二区三区| 欧美俄罗斯乱妇| 毛片在线不卡| 伊人久久五月天| 日本免费一区视频| 欧美一卡二卡三卡四卡| 中文在线资源天堂| 日韩欧美在线字幕| 日本少妇bbwbbw精品| 亚洲色图丝袜美腿| 日韩影视一区二区三区| 2014亚洲片线观看视频免费| 岛国精品一区二区三区| 精久久久久久久久久久| 乌克兰美女av| 男女视频一区二区| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 激情欧美一区| 激情成人开心网| 欧美成人tv| 最新视频 - x88av| 91综合久久| 在线一区日本视频| 日韩一区亚洲二区| 一区二区日本伦理| 日产精品一区二区| 亚洲一区二区精品在线观看| 日韩综合在线| 永久免费精品视频网站| 日韩在线综合| 午夜在线视频免费观看| 91精品国产91久久综合| 欧美日韩视频免费在线观看| 四季av一区二区凹凸精品| 亚洲一二三区精品| 天天综合网网欲色| 一级全黄肉体裸体全过程| 99久久精品费精品国产| 偷拍盗摄高潮叫床对白清晰| 91精品1区| av日韩在线看| 99av国产精品欲麻豆| 国产日韩一区二区在线| 久久夜色精品| 日本超碰在线观看| 韩国v欧美v日本v亚洲v| 伊人影院在线观看视频| 成人免费视频一区二区| 99久久人妻精品免费二区| 91啪亚洲精品| 国产又粗又硬视频| 亚洲欧美偷拍三级| 九九九国产视频| 欧美日韩一区二区三区在线免费观看| 国产成人在线免费视频| 欧洲一区二区av| 国产欧美日韩成人| 亚洲国产精品网站| 成人18在线| 不卡av电影院| 国产乱码午夜在线视频| 国产精品久久77777| 97久久精品一区二区三区的观看方式| 亚洲综合在线播放| 先锋影音国产精品| 一本一本a久久| 亚洲婷婷免费| 日韩中文字幕免费在线| 激情伊人五月天久久综合| jjzz黄色片| 日本一区二区三区四区在线视频 | 成人有码在线视频| 国产一区在线电影| 日韩资源av在线| 中文无码久久精品| 蜜臀av午夜一区二区三区| 狠狠色综合日日| 在线免费观看a级片| 国产精品乱人伦| 免费看日韩毛片| 欧美日韩一二区| 久久91精品国产91久久小草| 一区二区三区免费看| 午夜精品久久久久99热蜜桃导演 | 久久久久久久有限公司| 俺要去色综合狠狠| 日本中文字幕亚洲| 另类小说视频一区二区| 亚洲精品在线视频免费观看| 中文字幕日韩av资源站| 五月婷婷视频在线| 欧美一区二区三区成人| 每日更新在线观看av| 欧美另类xxx| 成人自拍视频网| 黄色小网站91| 中文字幕一区二区三区欧美日韩| 欧美一级片中文字幕| 丁香天五香天堂综合| 日本不卡一区视频| 色婷婷综合五月| 天堂网在线观看视频| 欧美精品一区二区免费| 黑人一区二区三区| 日本一区二区三区免费看| 亚洲高清在线| 91视频免费入口| 国产精品国产三级国产aⅴ中文| 亚洲欧美偷拍视频| 亚洲精品国产福利| 尤物视频在线看| 91麻豆桃色免费看| 色喇叭免费久久综合| 亚洲男人天堂色| 91亚洲大成网污www| 久久精品免费av| 日韩欧美一二区| 国产三级在线播放| 成人午夜一级二级三级| 久久中文视频| 日本人69视频| 中文字幕亚洲欧美在线不卡| 一级一级黄色片| 亚洲欧洲一区二区三区在线观看| 日本不卡网站| 久久久国产精品一区二区三区| 极品少妇一区二区三区| 欧美丰满熟妇bbb久久久| 一区二区三区高清在线| 亚洲av无码片一区二区三区 | 电影一区二区三| 六月婷婷久久| 国产精品久久久免费| 99re久久精品国产| 狠狠躁天天躁日日躁欧美| 无码国产精品96久久久久| 97香蕉久久夜色精品国产| 精品人人人人| 无码人妻精品一区二区三区在线| 成人动漫精品一区二区| 一级片免费网址| 亚洲欧美中文字幕| 日韩欧美一区二区三区免费观看| 日韩福利二区| 免费观看在线色综合| 极品美妇后花庭翘臀娇吟小说| 欧美久久久久久久久久| а√天堂资源地址在线下载| 99在线视频播放| 在线欧美亚洲| 日韩精品无码一区二区三区久久久| 日本久久电影网| 日本不卡三区| 国产精品手机在线| 久久精品官网| 国产馆在线观看| 日韩女优av电影在线观看| 国模精品视频| 神马影院我不卡| 国产精品888| 福利网址在线观看| 日韩视频一区在线| 国产66精品| 成人在线激情网| 亚洲欧美日韩在线| 亚洲欧美日韩精品永久在线| 国产精品久久久999| 欧美女激情福利| xxxx日本免费| 91精品国产综合久久久久久漫画| av小说在线播放| 日韩一区不卡| 国产成人亚洲精品青草天美| 亚洲 欧美 成人| 免费97视频在线精品国自产拍| 美女一区2区| 999久久久精品视频| 亚洲成人动漫在线观看| 中文日本在线观看| 国产精品日韩高清| 日韩高清欧美激情| 久久久久久久9999| 在线观看欧美日韩| 久久久久久久久久久久久久久久久久久久| 熟妇人妻va精品中文字幕 | www.久久久久久.com| 久久亚州av| 伊人免费视频二| 在线精品视频免费播放| 爱啪视频在线观看视频免费| 国产91av视频在线观看| 久久在线免费观看|