精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

視覺(jué)強(qiáng)化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開(kāi)源

開(kāi)源 人工智能
今天給大家重磅推薦一個(gè)突破性的視覺(jué)強(qiáng)化微調(diào)開(kāi)源項(xiàng)目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。

今天給大家重磅推薦一個(gè)突破性的視覺(jué)強(qiáng)化微調(diào)開(kāi)源項(xiàng)目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。

論文地址:  https://arxiv.org/abs/2503.01785

代碼地址: https://github.com/Liuziyu77/Visual-RFT

視覺(jué)強(qiáng)化微調(diào) Visual-RFT 將 DeepSeek-R1 背后的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法和 OpenAI 的強(qiáng)化微調(diào)(Reinforcement Fine-Tuning,RFT)范式成功從純文本大語(yǔ)言模型拓展到了視覺(jué)語(yǔ)言大模型(LVLM)。通過(guò)針對(duì)視覺(jué)的細(xì)分類(lèi)、目標(biāo)檢測(cè)等任務(wù)設(shè)計(jì)對(duì)應(yīng)的規(guī)則獎(jiǎng)勵(lì),Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、數(shù)學(xué)推理、代碼等少數(shù)領(lǐng)域的認(rèn)知,為視覺(jué)語(yǔ)言模型的訓(xùn)練開(kāi)辟了全新路徑!

圖 1 用一張包含許多寶可夢(mèng)的圖片展示了這一過(guò)程,當(dāng)通過(guò)多模態(tài)強(qiáng)化微調(diào) Visual-RFT 訓(xùn)練的模型被提問(wèn)什么寶可夢(mèng)可以釋放技能十萬(wàn)伏特時(shí),模型通過(guò) < think > 推理過(guò)程準(zhǔn)確找出皮卡丘對(duì)應(yīng)的坐標(biāo)框,展示出模型的泛化能力。

圖 1. Visual-RFT 首次實(shí)現(xiàn)將強(qiáng)化微調(diào)能力遷移到多模態(tài)模型中,只需 10~1000 條數(shù)據(jù)就能通過(guò)思考過(guò)程和基于規(guī)則的監(jiān)督提升多模態(tài)大模型的性能

從 R1 到 Visual-RFT:強(qiáng)化學(xué)習(xí)的多模態(tài)突破

OpenAI o1 主打的強(qiáng)化微調(diào)能力(Reinforcement Fine-Tuning)能只用少量樣本就將 o1 遷移到新的任務(wù)上。最近 DeepSeek-R1 解釋了 o1 模型背后的強(qiáng)推理能力來(lái)自基于可驗(yàn)證獎(jiǎng)勵(lì)(Verified Rewards)/ 規(guī)則獎(jiǎng)勵(lì)(Rule-based Verifier)的強(qiáng)化學(xué)習(xí)策略。不過(guò),目前主流的認(rèn)知在于這種基于規(guī)則獎(jiǎng)勵(lì)的方法只適用于數(shù)學(xué)推理、代碼等少數(shù)便于驗(yàn)證的任務(wù)。我們?cè)?Visual-RFT 中,將這一策略遷移到了視覺(jué)語(yǔ)言模型。通過(guò)對(duì)細(xì)分類(lèi)、目標(biāo)檢測(cè)等任務(wù)建立對(duì)應(yīng)的可驗(yàn)證規(guī)則獎(jiǎng)勵(lì),我們解決了傳統(tǒng)方法在視覺(jué)領(lǐng)域中的局限性,只需少量微調(diào)樣本就實(shí)現(xiàn)了更高效、泛化性更強(qiáng)的視覺(jué)理解與推理能力。

傳統(tǒng)的視覺(jué)指令微調(diào)(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要海量數(shù)據(jù)對(duì)模型微調(diào),在數(shù)據(jù)量有限(例如某些難以收集數(shù)據(jù)的特定學(xué)科場(chǎng)景)的情況下帶來(lái)的提升有限。我們提出的視覺(jué)強(qiáng)化微調(diào)(Visual Reinforcement Fine-Tuning)具有少樣本學(xué)習(xí)能力和更強(qiáng)的泛化性,在數(shù)據(jù)量有限的場(chǎng)景下相比指令微調(diào)具有很大的優(yōu)勢(shì)。

為驗(yàn)證 Visual-RFT(視覺(jué)強(qiáng)化微調(diào))的泛化能力和普適性,力求對(duì)視覺(jué)領(lǐng)域的全面覆蓋,我們?cè)诙鄠€(gè)視覺(jué)感知任務(wù)上對(duì) Visual-RFT 進(jìn)行驗(yàn)證,包含 Detection,Classification,Grounding 等。其中,Visual-RFT 在 open vocabulary,few-shot learning 等設(shè)定下,僅僅通過(guò)非常少量的數(shù)據(jù)就取得了顯著的性能提升,輕松實(shí)現(xiàn)能力的遷移,且結(jié)果明顯優(yōu)于 SFT 的微調(diào)方法。在 reasoning grounding (推理定位) 的測(cè)試中,Visual-RFT 展現(xiàn)出強(qiáng)大的視覺(jué)推理能力。評(píng)測(cè)結(jié)果如圖二所示,詳細(xì)實(shí)驗(yàn)信息歡迎參見(jiàn)論文。

圖 2. Visual-RFT(視覺(jué)強(qiáng)化微調(diào))在各種任務(wù)上顯著超越 SFT:包括目標(biāo)檢測(cè)(OD),開(kāi)放目標(biāo)檢測(cè)(OVD),少樣本檢測(cè)與分類(lèi)(FSOD/IC), 推理定位(Reasoning Grounding)

圖 3. 框架圖:Visual-RFT(視覺(jué)強(qiáng)化微調(diào))通過(guò) IoU 和 cls 獎(jiǎng)勵(lì)和強(qiáng)化學(xué)習(xí)策略(例如 GRPO)更新模型參數(shù)

為了在視覺(jué)多模態(tài)領(lǐng)域驗(yàn)證可驗(yàn)證獎(jiǎng)勵(lì)的作用,我們提出了使用基于 IoU 的 verified reward 獎(jiǎng)勵(lì)應(yīng)用于 detection 和 grounding 等任務(wù),使用基于分類(lèi)正確判斷的 cls reward 用于 classification 任務(wù)(如圖三所示)。

圖 4. 部分推理定位結(jié)果展示,通過(guò)引入思考過(guò)程和強(qiáng)化學(xué)習(xí)策略 Visual-RFT(多模態(tài)強(qiáng)化微調(diào))顯著超越 SFT,更加準(zhǔn)確地定位物體。

圖 5. 部分推理細(xì)粒度分類(lèi)結(jié)果展示,通過(guò)引入思考過(guò)程和強(qiáng)化學(xué)習(xí)策略,(多模態(tài)強(qiáng)化微調(diào))Visual-RFT 顯著超越 SFT,更加準(zhǔn)確地定位物體。

部分模型輸出結(jié)果展示如圖 4 和圖 5 所示,相比于傳統(tǒng)的視覺(jué)指令微調(diào)(Visual Instruction/Supervised Fine-Tuning),Visual-RFT(視覺(jué)強(qiáng)化微調(diào))通過(guò)強(qiáng)化學(xué)習(xí)方法,對(duì)問(wèn)題進(jìn)行深入的 think 分析取得更佳推理性能,相較于傳統(tǒng)的指令微調(diào)(SFT)方法取得顯著提升。如詢(xún)問(wèn)模型圖中的運(yùn)動(dòng)員在水下依然保持清晰的視野需要帶什么物體時(shí),通過(guò)傳統(tǒng)指令微調(diào)的方法模型直接將整個(gè)運(yùn)動(dòng)員框出。而 Visual-RFT 通過(guò)引入推理過(guò)程準(zhǔn)確地指出防水眼鏡及其所在的位置并準(zhǔn)確框出。

Visual-RFT 實(shí)驗(yàn)結(jié)果

Visual-RFT(視覺(jué)強(qiáng)化微調(diào))在各大圖文感知任務(wù)中均展現(xiàn)出強(qiáng)大的性能。我們的實(shí)驗(yàn)主要基于視覺(jué)語(yǔ)言大模型基座 QWen2-VL 2B/7B 模型,和傳統(tǒng)的監(jiān)督微調(diào)(Supervised Fine-Tuning)方法進(jìn)行對(duì)比。在開(kāi)放目標(biāo)檢測(cè),少樣本檢測(cè),細(xì)粒度分類(lèi)和推理定位任務(wù)上 Visual-RFT 相比 SFT 全面實(shí)現(xiàn)了性能提升。值得一提的是,我們的測(cè)試數(shù)據(jù)既包含 COCO、LVIS 等通用場(chǎng)景,又包含從互聯(lián)網(wǎng)中收集的卡通人物等開(kāi)放場(chǎng)景數(shù)據(jù)。只需要幾十條數(shù)據(jù),模型通過(guò) Visual-RFT 可以學(xué)會(huì)檢測(cè)某動(dòng)漫中的史萊姆形象。實(shí)驗(yàn)結(jié)果廣泛驗(yàn)證了 Visual-RFT 的卓越性能和魯棒性。

圖 5. 部分實(shí)驗(yàn)結(jié)果展示,Visual-RFT 顯著超越 SFT,建立了新的模型微調(diào)范式

Visual-RFT 已經(jīng)開(kāi)源!歡迎加入!

我們堅(jiān)信開(kāi)源的力量,Visual-RFT 項(xiàng)目已全面開(kāi)源(包含訓(xùn)練、評(píng)測(cè)代碼,數(shù)據(jù))。如果你對(duì)多模態(tài)模型、強(qiáng)化學(xué)習(xí)、視覺(jué)語(yǔ)言理解感興趣,不妨一起來(lái)探索更多可能性吧!

項(xiàng)目地址:https://github.com/Liuziyu77/Visual-RFT

責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-20 17:19:08

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-02-07 13:10:06

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-04-09 09:41:43

2025-02-11 08:35:30

2025-04-15 09:22:00

AI訓(xùn)練模型

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-02-12 12:12:59

2025-03-13 11:07:30

2025-07-04 09:08:00

AI模型架構(gòu)

2025-06-26 09:13:22

2025-02-03 14:17:27

2025-02-03 06:00:00

2025-03-11 02:00:00

AI工具Token-AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

huan性巨大欧美| 亚洲最大成人在线视频| 国产精品一区二区av交换| 欧美午夜精品久久久久久孕妇 | 国内视频在线精品| 日韩欧美精品中文字幕| 一区二区免费在线观看| 亚洲国产福利视频| 久久中文欧美| 中文字幕欧美日韩va免费视频| 国产精品嫩草影视| 电影一区二区三区| 亚洲精品成人精品456| 欧美人xxxxx| 99riav国产| 日韩不卡一二三区| 欧美放荡办公室videos4k| 久久国产柳州莫菁门| 伊人久久亚洲| 在线成人免费视频| 黑鬼大战白妞高潮喷白浆| 成人日日夜夜| 亚洲国产精品99久久久久久久久| 99久久久精品免费观看国产| 国产99久久久久久免费看| 国产综合激情| 日韩最新在线视频| 国产中年熟女高潮大集合| 亚洲成人五区| 欧美美女bb生活片| 天天操天天摸天天爽| 欧美极品少妇videossex| 中文字幕亚洲在| 欧美在线播放一区| 日日躁夜夜躁白天躁晚上躁91| 精品一区二区在线视频| 国产精品久久久久久亚洲调教| 日韩毛片在线播放| 欧美日韩一区自拍| 久久精品国产免费观看| 怡红院一区二区三区| 亚洲动漫精品| 精品视频偷偷看在线观看| 日本一级大毛片a一| 国产精品xnxxcom| 欧美三级电影一区| 久久婷婷国产91天堂综合精品| 蜜桃视频在线观看免费视频| 一区二区欧美视频| 国产91在线亚洲| 国产在线高清视频| 中文字幕在线一区免费| 丝袜足脚交91精品| av在线1区2区| 久久久.com| 日韩精品久久久免费观看| 欧美女子与性| 国产亚洲欧洲一区高清在线观看| 久久久水蜜桃| 精品资源在线看| 久久久久亚洲蜜桃| 日韩欧美一区二区视频在线播放 | www激情久久| 久久国产精品 国产精品| 亚洲人成色777777老人头| 成人av网站免费观看| 国产伦精品一区| 天天综合天天综合| 91欧美一区二区| 欧美国产综合视频| 二区三区在线播放| 中文字幕中文字幕一区二区| 91嫩草国产丨精品入口麻豆| 中文字幕伦理免费在线视频| 一区二区三区中文在线| 久久亚洲精品无码va白人极品| eeuss鲁一区二区三区| 精品久久久久久久久久国产| 日批视频在线免费看| 婷婷综合六月| 欧美精品vⅰdeose4hd| 无人码人妻一区二区三区免费| 日本一区二区三区视频在线看 | 国产日本欧美一区二区三区在线 | 亚洲一区美女| 伊人影院在线视频| 精品久久久久久久久国产字幕| 成人在线观看黄| 欧美91在线|欧美| 日韩午夜av电影| 中文字幕一区二区三区人妻电影| blacked蜜桃精品一区| 精品国偷自产在线视频| 日韩精品视频播放| 人人超碰91尤物精品国产| 亚洲精品日产aⅴ| 亚洲三级中文字幕| 一区二区中文视频| 欧美丰满熟妇bbbbbb百度| 成人国产一区| 精品国产乱码久久久久久影片| mm131丰满少妇人体欣赏图| 欧美成人精品一区二区三区在线看| 久久综合电影一区| 91视频免费网址| 精品一区二区在线观看| 老牛影视免费一区二区| 免费在线观看黄色| 色综合一个色综合亚洲| 超碰中文字幕在线观看| 精品在线91| 欧美激情免费看| 欧美成人一区二区视频| 成人午夜免费av| 在线丝袜欧美日韩制服| 日韩伦理精品| 精品美女在线播放| 我想看黄色大片| 99精品视频免费观看视频| 亚洲va久久久噜噜噜久久天堂| 深夜福利免费在线观看| 亚洲午夜三级在线| 999久久久精品视频| 国产99久久| 午夜精品美女自拍福到在线| aaa一区二区三区| 国产精品色哟哟| 国产免费黄色av| 成人动态视频| 欧美超级免费视 在线| 伊人22222| 国产精品女同一区二区三区| 男女啪啪网站视频| 国产精品一在线观看| 日本高清久久天堂| 亚洲欧美日韩免费| 精品久久久久久中文字幕大豆网| 又大又长粗又爽又黄少妇视频| 国产精品久久天天影视| 国产视频999| 午夜激情视频在线观看| 欧美亚洲动漫精品| 大胸美女被爆操| 美女国产一区二区三区| 日韩一区免费观看| 精品欧美日韩精品| 色小说视频一区| 伊人网视频在线| 欧美国产激情一区二区三区蜜月| 欧美国产激情视频| 成人短视频软件网站大全app| 在线观看日韩欧美| 国产精品久久久久久久久久精爆| 国产91高潮流白浆在线麻豆| 免费的av在线| 精品午夜av| 久久久国产精品免费| 伊人免费在线观看| 久久久久久久网| 黄色三级视频片| 精品在线观看入口| 人妖精品videosex性欧美| 五月激情婷婷综合| 欧美小视频在线观看| 性欧美成人播放77777| 夜夜嗨一区二区三区| 九色91国产| 碰碰在线视频| 中文字幕视频在线免费欧美日韩综合在线看| 亚洲第一在线播放| 国产亚洲va综合人人澡精品| 国产精品无码av无码| 精品黄色一级片| 国产成人精品久久亚洲高清不卡 | 日韩网站在线观看| 国产精品久久久久久久免费看| 国产精品二三区| 亚洲精品成人无码毛片| 精品999网站| 久久爱av电影| 欧美在线va视频| 中文字幕在线看视频国产欧美| 99久久久久久久| 亚洲香肠在线观看| 欧美性xxxx图片| 免费在线一区观看| 中文字幕不卡每日更新1区2区| 成人h动漫精品一区二区器材| 91精品国产色综合久久不卡98| 视频国产在线观看| 精品婷婷伊人一区三区三| 东京热无码av男人的天堂| 国产不卡免费视频| www.com毛片| 久久精品高清| 国产福利久久| 欧美三级网址| 久久成人在线视频| 午夜av免费在线观看| 欧美在线free| 青青草手机在线视频| 国产蜜臀97一区二区三区| 国产欧美激情视频| 国产综合网站| 色综合影院在线观看| 凹凸av导航大全精品| 国产精品福利无圣光在线一区| 日本成人网址| 亚洲精品国产福利| 911美女片黄在线观看游戏| 欧美日韩一区二区在线播放| 制服丨自拍丨欧美丨动漫丨| 成人性生交大片免费看视频在线 | 日韩精品久久久| 亚洲3区在线| 国产精品久久久久久久av大片| 五月花成人网| xxx成人少妇69| 欧美777四色影视在线| 欧美一级片免费看| 中文字幕手机在线视频| 一区二区三区成人| 在线观看亚洲网站| 国产亚洲精品精华液| 中文写幕一区二区三区免费观成熟| 久久青草久久| 欧美黑人经典片免费观看| 婷婷综合社区| 日本不卡高清视频一区| 中文字幕一区图| 日本视频久久久| 亚洲精品一区| 性视频1819p久久| v片在线观看| 在线精品国产成人综合| 国产在线自天天| 日韩成人小视频| 超碰在线人人干| 91麻豆精品国产自产在线| 秋霞精品一区二区三区| 亚洲成在线观看| 精品国产乱码久久久久久鸭王1 | 国产传媒视频在线| 久久久久9999亚洲精品| a视频免费观看| 久久你懂得1024| 国产精品久久不卡| 粉嫩av一区二区三区| 亚洲高清av一区二区三区| 国产精品乡下勾搭老头1| 国内外成人免费在线视频| 久久在线精品| 成人精品视频一区二区| 亚洲综合日本| 亚洲不卡中文字幕无码| 一区二区三区国产盗摄| 欧美亚洲黄色片| 国产精品黄色| 国产自产在线视频| 黑丝一区二区| 800av在线免费观看| 国产精品mv在线观看| 国产1区2区3区中文字幕| 欧美国产高清| 97超碰在线视| 国产精品a级| 久久人妻无码一区二区| 99视频一区| 青青艹视频在线| 国产一区91| 成人在线观看a| 国产一区二区中文字幕| 免费黄视频在线观看| 国产精品99久久久| 95视频在线观看| 国产欧美一区视频| jizz18女人高潮| 国产精品久久国产精麻豆99网站| 亚欧精品视频一区二区三区| 亚洲精品免费播放| 免费观看一级视频| 精品动漫一区二区| 在线免费观看av网址| 欧美一区二区三区免费观看视频| 国产浮力第一页| 亚洲精品一区在线观看| 天天干在线观看| 日韩在线观看免费高清| 尤物视频在线看| 午夜精品久久久久久99热软件| 黄色软件视频在线观看| 欧美精品第一页在线播放| 日韩精品麻豆| 亚洲www在线| 欧美一级全黄| 日本高清视频一区二区三区| 综合精品一区| 91传媒久久久| 国产美女精品人人做人人爽| 亚洲乱妇老熟女爽到高潮的片 | 国产一区免费视频| 国产一区二区三区网| 国产成年人在线观看| 激情欧美丁香| 久久久福利影院| 97久久精品人人做人人爽| 九九九视频在线观看| 国产精品初高中害羞小美女文 | 在线观看一区日韩| wwwav网站| 国产亚洲精品久久久优势| 成人一级福利| 成人亚洲激情网| 亚洲区小说区图片区qvod按摩| 亚洲欧洲久久| 伊人成人在线视频| 午夜在线观看av| 成+人+亚洲+综合天堂| 欧美一区二区三区爽爽爽| 色悠悠亚洲一区二区| 亚洲国产精品18久久久久久| 在线成人免费网站| 精品123区| 久久综合九色欧美狠狠| 欧美福利影院| 久久久国产精品久久久| 国产精品免费久久久久| 久久久久久久久影院| 日韩视频永久免费| www免费在线观看| 国产精品自产拍高潮在线观看| 日本三级久久| 一区二区日本| 精品一区二区三区在线观看国产 | 99久久精品国产精品久久| 中国毛片直接看| 欧美图区在线视频| 视频一区二区三区国产| 欧美久久精品午夜青青大伊人| 日韩欧美少妇| 欧美日韩国产免费一区二区三区 | 久久久国产精彩视频美女艺术照福利| 川上优av中文字幕一区二区| 国产精品视频免费一区二区三区| 99视频精品全国免费| 视频二区在线播放| 久久久不卡影院| 二区视频在线观看| 亚洲精品wwww| 色是在线视频| 精品无人区一区二区三区| 久久国产成人| 蜜桃精品一区二区| 日韩欧中文字幕| 欧美熟妇交换久久久久久分类 | 亚洲电影在线看| 污片视频在线免费观看| 成人精品久久久| 欧美日韩网址| 美女扒开腿免费视频| 亚洲一区二区精品3399| 五月婷婷六月丁香| 欧美亚洲伦理www| 久久av影视| 一本一道久久a久久综合蜜桃| 国产精品天干天干在观线| 中文字幕一区二区久久人妻| 亚洲深夜福利网站| 精品裸体bbb| 在线视频亚洲自拍| 久久99久久精品| 国产一级在线观看视频| 亚洲国产美女久久久久| 丝袜诱惑一区二区| 亚洲一区二区三区涩| 国产综合成人久久大片91| 日韩成人毛片视频| 亚洲精品视频网上网址在线观看| 波多野结衣亚洲| 日韩啊v在线| 美女看a上一区| 久久国产在线视频| 亚洲精品久久久久国产| 电影亚洲精品噜噜在线观看| 国产精品无码乱伦| 国产精品1区2区3区在线观看| 国产精彩视频在线观看| 在线电影中文日韩| 99久久99九九99九九九| 日韩av高清在线看片| 中文在线资源观看网站视频免费不卡 | 色哟哟入口国产精品| 大型av综合网站| 久久黄色免费看| 亚洲激情一二三区| 国产有码在线| 成人资源av| 久久一二三四| 久久精品视频6| 在线看国产精品|