精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

上海AI Lab、浙大EagleLab等提出RRVF:利用「驗證非對稱性」,只輸入圖片學(xué)習視覺推理

人工智能 新聞
一個任務(wù)有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?

本本研究由上海AI Lab前沿探索中心石博天老師帶領(lǐng)的數(shù)據(jù)前沿團隊、浙江大學(xué)EagleLab和上海創(chuàng)智學(xué)院等單位聯(lián)合完成。第一作者陳楊是浙江大學(xué)碩士生,研究方向為多模態(tài)大模型和推理,本工作完成于她在上海AI Lab實習期間,實習所在團隊以Agent-Ready的知識為核心,實現(xiàn)「提取->結(jié)構(gòu)化->推理」全鏈路,包括基于MLLM的文檔理解、基于異質(zhì)圖網(wǎng)絡(luò)的多模態(tài)知識表征、自主終身學(xué)習智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab,正在全身心探索下一代 MLLM 學(xué)習范式和高效的多模態(tài)智能體。論文的共同通訊作者于智是浙江大學(xué) EagleLab 副教授,曾任浙大 ACM 教練并執(zhí)教獲世界總冠軍。功成身退之后,長期致力于用 AI 改善殘障人群生活,在信息無障礙和人工智能領(lǐng)域有深厚造詣。

一個任務(wù)有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?

這,就是驗證非對稱性(Asymmetry of Verification)—— 一個古老但正在重塑 AI 未來的深刻原則。它的核心思想是:對很多任務(wù)而言,驗證一個解的好壞,遠比從頭創(chuàng)造一個解要容易得多。

這一思想,正是近期從 OpenAI 跳槽至 Meta 的思維鏈(CoT)開山作者 Jason Wei 在其最新博客中提出的「驗證者法則」(Verifier's Law)的基石。他斷言:「所有可能被解決且易于驗證的任務(wù),都將被 AI 解決。」

為什么?因為一個任務(wù)如果具備客觀真理、可快速驗證、可規(guī)模化驗證、低噪音、連續(xù)獎勵等特性,就相當于為強化學(xué)習(RL)創(chuàng)造了一個完美的訓(xùn)練場。AI 可以在這個場中進行海量的、高效率的「猜測 - 檢驗」(guess-and-check),通過不斷的迭代優(yōu)化,最終逼近最優(yōu)解。

而這一法則的最佳實踐,已經(jīng)悄然出現(xiàn)在了多模態(tài)領(lǐng)域。上海AILAB和浙江大學(xué)EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美詮釋了如何利用「驗證的非對稱性」來攻克復(fù)雜的視覺推理難題。

圖片


  • 論文標題:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
  • 論文地址:https://arxiv.org/pdf/2507.20766

RRVF:Image2code 的「驗證者法則」訓(xùn)練場

在傳統(tǒng) AI 訓(xùn)練中,我們依賴昂貴的「圖像 - 文本」配對數(shù)據(jù)來教模型進行視覺推理。這不僅成本高昂,而且很多時候限制了 AI 的創(chuàng)造力,例如使用特定的 code 來訓(xùn)練還原 image。

圖片

圖 1: RRVF vs 通用訓(xùn)練方法,只需輸入圖片,利用推理、渲染、反饋進行強化學(xué)習

RRVF 框架則另辟蹊徑,它沒有去教模型「怎么做」,而是構(gòu)建了一個讓模型可以自我驗證的環(huán)境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 視覺反饋),這三個詞精準地概括了其核心工作流。它構(gòu)建了一個端到端優(yōu)化的閉環(huán)系統(tǒng),讓模型在「自我糾正」中學(xué)習。

圖片

圖2: RRVF框架圖

第一步:迭代式視覺推理 (Iterative Visual Reasoning)

  • 面對一張目標圖像(如數(shù)據(jù)圖表),它會進行迭代式多輪思考。在每一輪,模型都會在 < think > 中先寫下自己的思考過程,然后調(diào)用外部工具進行渲染和獲取反饋,在后續(xù)輪次中根據(jù)反饋修正自己的代碼。

圖片

圖 3: 迭代視覺推理算法

第二步:視覺反饋 (Visual Feedback)

  • 外部工具(如 Matplotlib 或 Playwright 瀏覽器)執(zhí)行代碼后,會渲染生成圖片。此時,一個更強大的「視覺裁判」模型(論文中使用了 72B 的 Qwen2.5-VL)會介入,對比渲染圖和原圖,并生成定性的、結(jié)構(gòu)化的自然語言反饋,例如:「圖表類型正確,但顏色不匹配」、「網(wǎng)頁布局基本正確,但缺少了一個按鈕」。這些反饋會作為新的輸入,指導(dǎo)模型進行下一輪的代碼修正。

第三步:視覺裁判 (Visual Judge) & 混合獎勵

  • 在整個迭代過程結(jié)束后,模型會輸出最終的代碼。此時,「視覺裁判」會再次出場,但這次它扮演的是「法官」角色,給出一個定量的視覺相似度分數(shù) R_vision。
  • 但僅僅有視覺分是不夠的。為了讓模型學(xué)得更好,研究者設(shè)計了混合獎勵函數(shù) (Hybrid Reward Design):
  • 視覺相似度獎勵 (R_vision):核心獎勵,分數(shù)越高獎勵越大。
  • 格式正確性獎勵 (R_format):代碼能否跑通?思考和工具調(diào)用的格式對不對?如果出錯,直接給予懲罰。
  • 工具使用獎勵 (R_tool):為了鼓勵模型探索和使用反饋循環(huán),每次成功的工具調(diào)用都會獲得少量獎勵,直到模型表現(xiàn)得足夠好(視覺分超過 0.95)或達到最大次數(shù)。

這三個獎勵通過加權(quán)組合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),構(gòu)成最終的驅(qū)動力。

最后一步:GRPO 算法優(yōu)化

  • 有了精確的獎勵信號,如何高效地更新模型?RRVF 采用了 GRPO(Group Relative Policy Optimization)算法。相比傳統(tǒng)的 PPO,GRPO 更高效,它不需要一個獨立的價值函數(shù),而是通過對一組(論文中是 8 個)候選答案進行比較和打分,直接優(yōu)化策略。

這個設(shè)計,完美地將一個復(fù)雜的「代碼生成」任務(wù),轉(zhuǎn)化成了一個極易被驗證(視覺相似度)和優(yōu)化(混合獎勵 + GRPO)的工程問題。

圖片

圖 4:迭代推理的 case,模型一步步學(xué)會如何準確重建一張餅圖

實驗結(jié)果:驗證的力量,讓 7B 模型超越 72B 老師

RRVF 的實驗結(jié)果,有力地證明了「驗證者法則」的力量。模型基于 Qwen2.5-VL-7B 進行訓(xùn)練,并在圖表生成(ChartMimic, Plot2Code)和網(wǎng)頁生成(WebSight)三個數(shù)據(jù)集上進行了全面評測。

圖片

圖片

圖片

1. 性能碾壓:SFT 學(xué)的是「模仿」,RRVF 學(xué)的是「理解」

在 ChartMimic 上,傳統(tǒng)的監(jiān)督微調(diào)(SFT)雖然有標準代碼答案,但執(zhí)行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下,代碼執(zhí)行率達到了 97.83%,在其他各項指標上均有明顯提升。這證明了 RRVF 真正理解了圖像的結(jié)構(gòu),而非死記硬背。

2. 「學(xué)生」超越「老師」:自學(xué)習效應(yīng)的驚人體現(xiàn)

出乎意料的是,通過 RRVF 訓(xùn)練的 7B 模型,最終的綜合得分(64.36)不僅遠超其基礎(chǔ)模型(38.17),甚至超越了在訓(xùn)練中為它提供反饋和評分的、更強大的 72B 模型(47.30)。這證明 RRVF 不是簡單的知識蒸餾,而是讓模型在自我探索中發(fā)現(xiàn)了比「老師」更優(yōu)的策略,實現(xiàn)了能力的「進化」。

3. 泛化能力:真學(xué)霸從不畏懼新考卷

為了考驗?zāi)P褪欠裾娴膶W(xué)到了通用能力,研究者在未訓(xùn)練的 Plot2Code 數(shù)據(jù)集上進行了零樣本測試。結(jié)果顯示,SFT 模型性能急劇下降(例如執(zhí)行率從 69% 暴跌至 49%),暴露出其「偏科」和「過擬合」的本質(zhì)。

相比之下,RRVF 模型的執(zhí)行率幾乎沒有衰減(例如執(zhí)行率從 97.83% 穩(wěn)定在 96.21%)。這強有力地證明,通過視覺反饋學(xué)習到的,是可遷移的、底層的視覺到代碼的生成邏輯。

這項研究是「驗證者法則」的一次響亮宣告。它告訴我們,未來 AI 發(fā)展的瓶頸,可能不在于模型本身有多大,而在于我們能否為 AI 想解決的任務(wù),設(shè)計出足夠簡單、高效的「驗證環(huán)境」。

一旦我們學(xué)會了如何將復(fù)雜問題轉(zhuǎn)化為易于驗證的問題,那么正如 Jason Wei 所預(yù)言的,一個智能的「鋸齒狀前沿」將會出現(xiàn):在所有可被清晰驗證的領(lǐng)域,AI 將展現(xiàn)出超乎想象的強大能力。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-03-31 09:32:00

視覺生產(chǎn)AI模型

2025-05-09 08:19:00

2025-02-10 14:05:00

訓(xùn)練模型AI

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2022-09-30 15:15:41

模型框架

2025-10-30 09:42:58

2025-09-15 08:53:00

AI模型推理

2021-04-30 15:16:59

機器學(xué)習人工智能計算機

2025-02-19 11:28:00

2024-03-07 12:51:08

模型訓(xùn)練

2020-05-27 10:10:56

對稱加密Hash算法數(shù)字簽名

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2025-04-10 09:38:37

2024-08-08 13:04:28

2023-07-03 09:55:01

2023-06-20 13:44:49

清華推理

2025-08-15 09:00:00

AI編輯強化學(xué)習

2023-11-20 08:52:46

模型訓(xùn)練

2025-06-25 09:02:05

2010-07-28 10:09:01

點贊
收藏

51CTO技術(shù)棧公眾號

精品欧美一区二区久久久久| 成熟丰满熟妇高潮xxxxx视频| 这里只有精品9| 欧美电影一二区| 欧美一区二区福利视频| 国产乱淫av片杨贵妃| 国产香蕉在线| 国产原创一区二区三区| 久久久久成人网| www色com| 成人av综合网| 精品视频1区2区3区| 少妇久久久久久被弄到高潮| 青青青手机在线视频观看| 久久国产精品露脸对白| 国内精品中文字幕| 国产精品www爽爽爽| 亚洲一区二区电影| 欧美性xxxxxx少妇| 少妇人妻无码专区视频| 色综合久久久久综合一本到桃花网| 国产精品一区二区在线观看不卡 | 狠狠综合久久av一区二区小说 | 国产在线视频91| 国产一级淫片a| 欧美3p视频| 亚洲欧美激情精品一区二区| a级大片免费看| 日韩成人影音| 亚洲成av人片在www色猫咪| 亚洲一区三区在线观看| 日韩av成人| 夫妻av一区二区| 成人激情av在线| 无码aⅴ精品一区二区三区| 亚洲午夜激情在线| 久久在线观看视频| 人妻无码一区二区三区免费| 亚洲影院天堂中文av色| 精品国产乱子伦一区| 99999精品| 蜜桃精品在线| 欧美午夜www高清视频| 800av在线免费观看| 免费在线午夜视频| 国产精品久久久久三级| 欧洲精品码一区二区三区免费看| 天天干天天干天天干| 国产精品一区二区三区网站| 成人国产亚洲精品a区天堂华泰| 亚洲中文字幕无码爆乳av| 影音先锋日韩资源| 欧美日韩福利视频| 五月婷婷一区二区| 亚洲国产精品综合久久久 | 免费网站看v片在线a| 国产亚洲欧美色| 日本精品视频一区| 风间由美一区| 中国色在线观看另类| 五码日韩精品一区二区三区视频| 国产在线观看精品一区| 久久久精品综合| 欧美日韩最好看的视频| 欧美日本韩国一区二区| 久久综合色8888| 美女黄毛**国产精品啪啪| 三级视频在线播放| 久久网站最新地址| 欧美中文娱乐网| 二区三区在线播放| 国产精品水嫩水嫩| 中文字幕在线中文字幕日亚韩一区| 香蕉视频在线播放| 亚洲女子a中天字幕| 大陆极品少妇内射aaaaaa| 污污片在线免费视频| 亚洲一区二区视频在线观看| av高清在线免费观看| 中国色在线日|韩| 欧美制服丝袜第一页| wwwwwxxxx日本| 日韩免费成人| 日韩av一区在线| 五月天精品视频| 国产精品福利在线观看播放| 九九热r在线视频精品| 国产精彩视频在线观看| 免费视频一区| 国产区亚洲区欧美区| av一区二区三| 久久先锋资源网| 在线综合视频网站| 欧美24videosex性欧美| 色综合一个色综合亚洲| 手机av在线免费| 欧美顶级毛片在线播放| 在线播放国产精品| 久久久久无码国产精品| 久久久久.com| 亚洲一区二区三区久久 | 午夜毛片在线观看| 免费高清成人在线| 国产精品9999久久久久仙踪林| av女名字大全列表| 综合色中文字幕| 国产午夜福利视频在线观看| 国产精品亚洲欧美日韩一区在线| 亚洲精品日韩在线| 国产av无码专区亚洲av毛网站| 中日韩男男gay无套| 成人春色激情网| 欧美孕妇孕交xxⅹ孕妇交| 综合久久久久久| 欧美日韩一区二区在线免费观看| 9999精品免费视频| 亚洲欧美制服丝袜| 免费中文字幕在线观看| 天堂久久久久va久久久久| 亚洲一区二区三区xxx视频| 国产小视频福利在线| 午夜婷婷国产麻豆精品| 亚洲AV无码久久精品国产一区| 国内黄色精品| 91禁国产网站| 亚洲av永久无码国产精品久久| 国产精品美女久久久久久久网站| 日日橹狠狠爱欧美超碰| 亚洲无线观看| 九九热这里只有精品免费看| 一级黄色片免费看| 久久久精品天堂| 日韩国产欧美亚洲| 久久视频社区| 精品久久久av| 中国一级片黄色一级片黄| 91麻豆视频网站| 国产免费黄色小视频| 日韩中文字幕在线一区| 精品激情国产视频| 一区二区乱子伦在线播放| 久久一二三国产| 亚洲中文字幕无码专区| 国产精品网在线观看| 欧美日韩xxx| 国产毛片毛片毛片毛片毛片| 中文字幕中文乱码欧美一区二区| 性chinese极品按摩| 欧美日韩国产一区二区三区不卡 | 久久亚洲AV无码| 国产综合久久久久影院| 亚洲最新免费视频| 日韩国产大片| 久久激情视频免费观看| 中文字幕在线观看欧美| 中文字幕av不卡| 国产又黄又猛又粗又爽的视频| 香蕉视频一区二区三区| 性欧美视频videos6一9| 人妻少妇一区二区三区| 午夜精品久久久久影视| 性欧美丰满熟妇xxxx性久久久| 伊人成人在线| 黄色一区三区| 免费成人直播| 最近中文字幕mv在线一区二区三区四区| 波多野结衣家庭主妇| 国产欧美一区二区精品秋霞影院 | 无人区在线高清完整免费版 一区二| 日韩精品视频在线观看免费| 亚洲国产成人无码av在线| 久久亚洲欧美国产精品乐播| 一本久道综合色婷婷五月| 精品国产一区二区三区av片| 国产精品一区二区三区在线播放 | 91精品国产99| 青青视频在线观| 精品视频在线免费看| www.超碰97| 日韩福利视频网| 中国成人亚色综合网站| 视频欧美一区| 91精品国产91| av在线电影播放| 欧美一区二区在线不卡| 国产系列精品av| 国产婷婷色一区二区三区四区| 天天干天天爽天天射| 婷婷综合五月| 久久国产精品99久久久久久丝袜 | 海角社区69精品视频| 精品视频一区二区| 国产成人77亚洲精品www| 欧美成人性色生活仑片| 色综合888| 制服丝袜中文字幕亚洲| 国产成人亚洲欧洲在线| 国产精品三级在线观看| 逼特逼视频在线观看| 久热综合在线亚洲精品| 老司机午夜免费福利视频| 日韩aaa久久蜜桃av| 成人激情春色网| 日本黄色免费在线| 久久九九免费视频| 亚洲aaa在线观看| 欧美日韩情趣电影| 国产成人精品一区二三区| 国产精品国产三级国产普通话三级| 人妻 丝袜美腿 中文字幕| 首页欧美精品中文字幕| 国产内射老熟女aaaa| 精品国产中文字幕第一页| 91入口在线观看| 国产精品无码久久久久| 国模私拍一区二区三区| 麻豆传媒视频在线| 亚洲精品自拍偷拍| www.黄色小说.com| 在线观看亚洲成人| www.国产色| 亚洲国产精品嫩草影院| 美女网站视频色| 91麻豆国产福利精品| 色哟哟网站在线观看| 蜜桃av一区二区三区电影| 午夜肉伦伦影院| 欧美激情视频一区二区三区在线播放 | 国产精品亚洲综合在线观看 | 欧美高清xxx| 91国内产香蕉| 超碰在线中文字幕| 久久成人一区二区| yw193.com尤物在线| 亚洲精品一区久久久久久| 亚洲欧美另类日韩| 91精品中文字幕一区二区三区| 最新在线中文字幕| 色一情一乱一乱一91av| 韩国av中文字幕| 亚洲成人av中文| 精品午夜福利视频| 亚洲激情自拍偷拍| 日本天堂中文字幕| 亚洲精品一卡二卡| 成人免费毛片xxx| 中文字幕亚洲视频| 精品丰满少妇一区二区三区| 国产欧美一区二区三区在线老狼 | 女厕嘘嘘一区二区在线播放| 不卡的av一区| 999国产精品一区| 91文字幕巨乱亚洲香蕉| 日韩一区二区三区精品| 97人人模人人爽视频一区二区 | 欧美日韩另类丝袜其他| 九九热hot精品视频在线播放| 岛国一区二区三区高清视频| 亚洲一二三区视频| 国产精品麻豆免费版| 国产精品欧美大片| 精品国产91亚洲一区二区三区www| 国产精品18hdxxxⅹ在线| dy888夜精品国产专区| 成午夜精品一区二区三区软件| 国产99在线播放| 高清精品视频| 久久久久久久有限公司| 最新亚洲精品| 水蜜桃一区二区| 91视频一区| 欧美日韩激情四射| 亚洲国产精品第一区二区三区| 日本a在线免费观看| 日韩视频不卡| 在线视频日韩一区 | 日本成人激情视频| 四虎4545www国产精品| 国产伦精品免费视频| 精品中文字幕一区二区三区| 国产精品国产精品国产专区不卡| 日本午夜精品久久久| 五月天婷亚洲天综合网鲁鲁鲁| 99久久精品费精品国产| 日韩成人三级视频| 麻豆精品网站| 天天干天天色天天干| 成人a区在线观看| 天天躁夜夜躁狠狠是什么心态| 中文字幕在线观看一区| 久久黄色免费视频| 丰满岳妇乱一区二区三区| 亚洲午夜激情视频| 日韩精品一区二区三区视频| 青青操视频在线| 久久亚洲欧美日韩精品专区| 国产精品xx| 国产在线观看91精品一区| 国产精东传媒成人av电影| 亚洲欧美日韩精品在线| 黄色在线成人| 日韩一级免费片| jizz一区二区| 欧美做爰啪啪xxxⅹ性| 欧美日韩在线免费| 国产伦精品一区二区三区免.费| 亚洲精品电影在线| 麻豆传媒在线免费| 国产成人综合精品在线| 4438全国亚洲精品观看视频| 亚洲成人在线视频网站| 激情久久久久久久| 91欧美一区二区三区| 久久久久久久久久久久久女国产乱 | 九九热hot精品视频在线播放| 亚洲高清视频一区| 在线视频精品| 麻豆免费在线观看视频| 国产精品久久影院| 亚洲av中文无码乱人伦在线视色| 日韩欧美一级精品久久| 在线看av的网址| 欧洲亚洲免费视频| 国产精品男女| 妺妺窝人体色www看人体| 青青青爽久久午夜综合久久午夜| 这里只有精品在线观看视频| 亚洲人成在线观看一区二区| 中文字幕+乱码+中文乱码www| 精品一区二区三区三区| 在线观看中文字幕的网站| 91精品久久久久久久久不口人| 九九精品久久| 亚洲 高清 成人 动漫| 成人午夜短视频| 欧美成人黄色网| 91精品一区二区三区久久久久久 | ,亚洲人成毛片在线播放| 亚洲免费福利视频| 蜜桃视频动漫在线播放| 国产高清一区视频| 婷婷另类小说| 久久久福利影院| 亚洲视频香蕉人妖| 一区二区 亚洲| 波霸ol色综合久久| 粉嫩av一区二区三区四区五区| 三区精品视频| 首页欧美精品中文字幕| 男人舔女人下部高潮全视频| 一本色道久久综合亚洲91| 少妇性bbb搡bbb爽爽爽欧美| 2019最新中文字幕| 色老板在线视频一区二区| 成人在线免费观看av| 91麻豆国产精品久久| 日韩精品一区二区亚洲av| 亚洲色图五月天| 日韩一区二区三区免费| 日日夜夜精品网站| 久99久精品视频免费观看| 丁香花五月激情| 精品国产三级电影在线观看| 国模雨婷捆绑高清在线| 激情视频在线观看一区二区三区| 在线一区免费观看| 精品国产av无码| 欧美色综合久久| av网站网址在线观看| 99蜜桃在线观看免费视频网站| 伊人久久成人| 精品无码人妻一区| 在线看日本不卡| 国产一二区在线| 国产91精品一区二区绿帽| 国产亚洲一区在线| 国产探花视频在线播放| 欧美妇女性影城| 成人影音在线| 欧美视频1区| 男女男精品网站| 国产免费无码一区二区视频| 日韩av在线免播放器| 精品国模一区二区三区| 穿情趣内衣被c到高潮视频| a级高清视频欧美日韩| 伊人成年综合网| 欧美精品一区三区| 日韩深夜福利| 手机av在线网| 精品久久久久久国产| av大片在线观看| 国产精品久久亚洲7777| 日韩精品乱码av一区二区| 国产精品视频一区二区三| 亚洲第一视频在线观看| 福利一区二区| 欧美成人高潮一二区在线看| 国产精品久久久久久久裸模 | 黑人巨大亚洲一区二区久|