精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓模型“看視頻寫網頁”,GPT-5僅得36.35分!上海AI Lab聯合發布首個video2code基準

人工智能 新聞
上海人工智能實驗室聯合浙江大學等機構的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網頁重建能力的評測基準。

多模態大模型在根據靜態截圖生成網頁代碼(Image-to-Code)方面已展現出不俗能力,這讓許多人對AI自動化前端開發充滿期待。

然而,一個網頁的真正價值遠不止于其靜態布局。用戶的點擊、篩選、表單提交,乃至游戲中的每一步操作,都構成了其核心的交互功能。這些動態、有狀態的交互邏輯,恰恰是傳統靜態評測無法觸及的盲區。

為了填補這一關鍵空白,上海人工智能實驗室聯合浙江大學等機構的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網頁重建能力的評測基準。

IWR-Bench的核心轉變在于,它不再提供靜態截圖,而是要求模型觀看一段記錄了完整用戶操作流程的視頻,并結合網頁所需的全部靜態資源(如圖片、圖標、子視頻等),去理解并復現整個頁面的動態行為。任務的復雜性跨度很大,從簡單的瀏覽功能,到需要逆向工程游戲規則的2048、訂機票等應用。

這項任務的難度遠超預期。在對28個主流模型的全面測試中,即便是表現最好的模型GPT-5,其綜合得分也僅有36.35分。這一結果清晰地指出了當前模型的核心短板,IWR-Bench不僅為領域提供了一個更具挑戰性的新目標,也為未來的研究指出了一個新的方向。

核心亮點

  • 首個視頻輸入的交互網頁重建評測:從“image-to-code”邁向“video-to-code”,對網頁事件驅動邏輯的生成提出剛性要求
  • 真實場景、完整資源:113個網站任務、1001次交互動作;提供全部靜態資源并匿名化命名,逼近真實開發
  • 自動化Agent-as-a-Judge:用編程代理復現動作軌跡,雙重評分同時評估功能正確性(IFS)與視覺保真度(VFS)
  • 28個LVLM系統測評:最佳模型總分36.35%,IFS僅24.39%、VFS為64.25%;通用多模態模型顯著優于“視頻專長”模型

△10個代表性模型在IWR-Bench任務上的評測總覽

覆蓋全面的真實世界網頁任務

現有的網頁代碼生成基準(如Design2Code、WebSight)主要聚焦于靜態截圖轉代碼(image2code),而IWR-Bench則專注于動態視頻轉可交互網頁代碼(video2code):

傳統任務: 給AI一張網頁截圖 → 生成HTML/CSS代碼IWR任務: 給AI一段用戶操作視頻 + 網頁靜態資源 → 生成包含完整交互邏輯的代碼

值得一提的是,每個任務都提供了完整的靜態資源(圖片、圖標、視頻等),并且所有文件名都經過匿名化處理(如logo.png → asset_001.png),迫使模型必須依靠視覺匹配而非語義推理。靜態資源的引入,也為直接基于渲染結果而非HTML代碼進行評測提供了關鍵幫助。

下圖為IWR-Bench任務和評測總覽,模型輸入包括(a)用戶交互視頻,(b)爬取的靜態資源的縮略圖與文件路徑,要求模型輸出html代碼。評測時,通過agent在瀏覽器上基于(c)標注的操作軌跡進行操作,以實現基于檢查點的自動化評分。

IWR任務對模型的三大核心挑戰包括:

  • 多模態理解:從視頻幀精準捕捉布局、文本與組件狀態
  • 多模態推理:在時間序列中推斷交互邏輯與因果關系,并將視頻元素與靜態資源可靠匹配與綁定
  • 高級代碼生成:將推斷出的狀態機與事件邏輯實現為可運行的前端代碼

IWR任務的規模和覆蓋范圍如下:

  • 113個來自真實網站的任務,分辨率覆蓋桌面與移動端(19種,移動占10.62%)
  • 共1001個交互動作,平均每任務8.9步;其中620個視覺檢查點、403個邏輯斷言
  • 復雜任務包含2048、掃雷等完整游戲邏輯與GUI重建

評測框架和指標

IWR-Bench采用了一套嚴格的自動化評測協議,通過編程代理(基于browser-use庫)來模擬真實用戶的網頁操作。

評測流程

  • 操作執行:代理按照預定義的動作序列操作生成的網頁
  • 功能驗證:檢查每個操作是否能正確執行,以及邏輯斷言是否滿足
  • 視覺對比:在關鍵檢查點截圖,與參考頁面進行多維度對比

雙重評分體系

交互功能分數(IFS):衡量功能正確性

  • 計算成功完成的操作占總操作數的比例, 操作失敗包括瀏覽器執行失敗、邏輯斷言失敗
  • SOTA模型GPT-5的IFS僅為24.39%

視覺保真度分數(VFS):衡量視覺還原度 - 結合低級特征(OCR文本相似度、DINO結構相似度)

  • 融合高級評估(由Gemini-2.5-Pro進行整體評判)
  • SOTA模型GPT-5的VFS為64.25%

評測結果

△IWR-Bench在28個模型上的評測結果

研究人員從中得到了三個關鍵發現。

首先,功能實現是最大瓶頸

所有模型的VFS都顯著高于IFS,這揭示了一個核心問題:

模型能夠較好地復現靜態視覺效果,但在生成事件驅動邏輯方面嚴重不足。

例如,GPT-5能夠達到64.25%的視覺保真度,但功能正確性僅為24.39%——這意味著即使頁面”看起來對”,實際操作時有75%以上的功能無法正常工作。

其次,thinking版本帶來部分提升

“thinking”版本模型普遍表現更好:

  • Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
  • Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
  • Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,說明基礎模型能力仍是決定性因素。

另外,現在的專有視頻理解模型效果不如通用多模態模型

專門針對視頻理解訓練的模型(如VideoLLaMA3、InternVideo)表現墊底,而通用的多模態大模型表現更優。這表明,該任務與傳統的視頻理解任務具有顯著的差異性。

IWR-Bench的推出,標志著AI從“看懂靜態網頁”到“理解動態交互”的關鍵一步。36分的成績告訴我們:這條路還很長。這不僅是對AI多模態能力的一次全面體檢,更是為多模態能力涌現指明了下一階段的攻堅方向。

IWR-Bench由上海人工智能實驗室聯合浙大、2077AI、港中文、斯坦福等單位共同完成,第一作者陳楊是浙江大學碩士生,通訊作者為上海人工智能實驗室沈宇帆、石博天。

論文鏈接:
https://arxiv.org/abs/2509.24709
代碼地址:
https://github.com/L-O-I/IWR-Bench
數據地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項目主頁:
https://l-o-i.github.io/IWR-Bench/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-27 08:35:00

2025-02-12 10:12:00

視頻模型AI

2025-04-01 09:25:00

2025-11-03 08:40:00

2024-04-01 08:00:00

AI模型

2023-06-16 13:02:22

GPT-5GPT-4AI

2025-09-24 13:04:01

2023-06-16 13:38:37

上海昇思AI框架昇思

2025-08-15 12:50:19

2025-10-28 09:03:08

2025-09-23 09:13:37

2025-10-31 09:02:07

2024-01-09 12:53:16

模型訓練

2024-11-13 15:00:00

模型數據

2024-06-17 18:04:38

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2025-08-08 16:22:19

GPT-5CIOIT 團隊

2025-08-20 09:02:00

2011-09-09 14:30:52

2025-07-03 09:27:57

點贊
收藏

51CTO技術棧公眾號

黄色网址在线免费观看| 免费网站在线观看黄| 17婷婷久久www| 亚洲一区二区在线视频观看| 亚洲欧洲综合网| 91n在线视频| 婷婷综合国产| 国产精品国产三级国产普通话蜜臀 | 精品久久中出| 国产成人一级片| 日韩黄色大片网站| 日韩精品中文字幕一区| 国产精品va无码一区二区| 成人高清网站| 国产激情一区二区三区| 全球成人中文在线| 欧美黑人性猛交xxx| 久久99国产精品视频| 日韩美女主播在线视频一区二区三区| 女人另类性混交zo| 91高清视频在线观看| 国产欧美综合色| 韩国成人一区| www.久久成人| 精品亚洲aⅴ乱码一区二区三区| 欧美综合国产精品久久丁香| 欧美日韩国产精品综合| 国产精品久久久久一区二区三区厕所| 日韩av在线网址| 中文字幕 欧美 日韩| 欧美黄色a视频| 91福利视频在线| 波多野结衣50连登视频| 在线观看中文字幕的网站| 日本一区二区动态图| 免费久久99精品国产自| 欧美一级片免费| 懂色av一区二区三区免费观看| 国产欧美在线视频| 国产日韩在线免费观看| 久久五月激情| 日韩美女激情视频| 亚洲天堂视频网站| 亚洲综合不卡| 91福利视频网| 日韩免费视频一区二区视频在线观看| 狠狠色丁香久久综合频道| 久久中文字幕一区| 永久免费看mv网站入口| 天天超碰亚洲| 久久亚洲精品中文字幕冲田杏梨| 特黄一区二区三区| 亚洲成av人片乱码色午夜| 深夜福利一区二区| 99成人在线观看| 久久久人成影片免费观看| 久热在线中文字幕色999舞| 国产麻豆视频在线观看| 在线中文一区| 久久久免费精品视频| 黄色片视频网站| aa级大片欧美三级| 欧美影院在线播放| 波多野结衣网站| 蜜臀精品一区二区三区在线观看| 国产精品视频一| 国产免费不卡视频| 国产成人午夜精品5599| 狠狠干一区二区| 国产视频在线看| 国产精品久久久久久户外露出| 中文字幕乱码一区二区三区| caopon在线免费视频| 一区二区三区在线免费视频| 欧洲精品在线播放| 手机在线理论片| 欧美在线观看禁18| 中文字幕55页| 久久动漫网址| 中文字幕国产日韩| 中文字幕影音先锋| 亚洲作爱视频| 国产精品丝袜一区二区三区| 99精品人妻无码专区在线视频区| 成人午夜视频网站| 欧美在线视频一区二区三区| 国产三区视频在线观看| 五月激情六月综合| 亚洲欧美日本一区二区三区| jizz性欧美2| 日韩欧美国产三级电影视频| 鲁大师私人影院在线观看| 全球成人免费直播| 欧美激情视频播放| 无码人妻丰满熟妇区bbbbxxxx| 激情综合网av| 久久福利电影| 成人高清免费在线| 日韩欧美极品在线观看| 亚洲一二区在线观看| 日韩三级毛片| 久久国产精品久久久| 欧美男人亚洲天堂| 国产一区二区三区观看| 欧美日韩成人一区二区三区| 成人直播在线| 在线视频亚洲一区| www.555国产精品免费| 色一区二区三区四区| 欧美激情va永久在线播放| 亚洲中文无码av在线| 波多野洁衣一区| 三年中文高清在线观看第6集| 三妻四妾完整版在线观看电视剧| 欧美一区二区三区四区高清| 美女洗澡无遮挡| 亚洲精品1234| 亚洲最大av网站| 高h视频在线| 欧美日韩亚洲天堂| 69xxx免费视频| 图片区亚洲欧美小说区| 国产极品jizzhd欧美| 午夜av免费在线观看| 亚洲精品高清在线| 成年人三级黄色片| 成人免费看片39| 91av在线看| 日本久久一级片| 亚洲精品综合在线| 美女黄色片视频| 国内亚洲精品| 清纯唯美亚洲激情| 色呦呦免费观看| 亚洲国产精品麻豆| 香蕉视频免费网站| 欧美私人啪啪vps| 亚洲一区二区三区久久| 欧美jizzhd欧美| 欧美精品日韩一区| 欧美手机在线观看| 黄网站免费久久| 性做爰过程免费播放| av成人在线看| 色老头一区二区三区在线观看| 九九热最新视频| 国产日韩v精品一区二区| av动漫在线观看| 亚洲制服一区| 国产精品扒开腿做| 91最新在线| 欧美丰满一区二区免费视频| 国产乱子轮xxx农村| 久久99久久99精品免视看婷婷| 亚洲欧洲免费无码| 国产精品白丝久久av网站| 久久躁狠狠躁夜夜爽| 国内老熟妇对白xxxxhd| 亚洲日本成人在线观看| 午夜诱惑痒痒网| 国产精品第十页| 国产精品亚洲不卡a| 岛国av免费在线观看| 亚洲精品一区久久久久久| 日日噜噜噜噜人人爽亚洲精品| 久久女同互慰一区二区三区| 无码日韩人妻精品久久蜜桃| 日韩黄色大片| 成人在线视频电影| 涩涩av在线| 亚洲性猛交xxxxwww| 亚洲资源在线播放| 亚洲激情中文1区| 国产真实乱人偷精品| 久久综合九色综合欧美狠狠| 亚洲一区二区在| 99re6热只有精品免费观看| 欧美黑人性视频| 蜜桃免费在线| 欧美一区二区三区不卡| 国产无码精品在线观看| 中文文精品字幕一区二区| 午夜大片在线观看| 国产精品毛片在线| 亚洲最新在线| 极品一区美女高清| 国产精品夜间视频香蕉| 色yeye免费人成网站在线观看| 国产视频在线一区二区| 91麻豆成人精品国产| 五月婷婷欧美视频| 亚洲欧美卡通动漫| 99视频在线精品| 97超碰成人在线| 99成人免费视频| 成年人黄色在线观看| 香蕉视频一区| 97netav| 日韩av大片站长工具| 欧美日韩高清区| а√天堂中文在线资源bt在线 | 天天躁日日躁狠狠躁喷水| 在线观看欧美黄色| 久久久久久久伊人| 中文字幕一区二区三区av| 性欧美丰满熟妇xxxx性久久久| 久久精品国产**网站演员| 国产女大学生av| 午夜精品久久| 亚洲午夜精品久久| 亚洲国产欧美日韩在线观看第一区 | 精品99久久| 国产在线观看一区| 秋霞影院一区| 国产在线拍偷自揄拍精品| 国产欧美一区二区三区精品酒店| 久久99久久99精品免观看粉嫩| 91视频在线观看| 亚洲欧美另类在线观看| 人妻少妇精品无码专区| 日韩欧美一级特黄在线播放| 一区二区视频播放| 色88888久久久久久影院野外| 五月天婷婷网站| 亚洲一区二区高清| 亚洲av鲁丝一区二区三区| 国产精品毛片a∨一区二区三区| 无码h肉动漫在线观看| 99久久精品99国产精品| 国产免费a级片| 国产高清亚洲一区| 无码人妻一区二区三区在线视频| 久久www免费人成看片高清| 午夜激情福利在线| 日韩黄色在线观看| 久草精品在线播放| 日韩激情一二三区| 丁香婷婷激情网| 三级欧美韩日大片在线看| 欧美日韩在线中文| 免费欧美日韩| 国产成人无码一二三区视频| 国产午夜久久| 久久久久人妻精品一区三寸| 国产精品久久久久毛片大屁完整版 | 国产精品一区二区三区精品| 亚洲一区二区三区中文字幕在线观看 | 无码人妻精品一区二| 91福利视频网站| 亚洲怡红院av| 日韩欧美亚洲国产精品字幕久久久 | 精品国产乱码久久久久久闺蜜 | 国产一级爱c视频| 99精品欧美| aaa毛片在线观看| 日本va欧美va精品发布| 国产色视频在线播放| 国产美女娇喘av呻吟久久| 超碰人人cao| 99久免费精品视频在线观看| 一级国产黄色片| 国产亚洲视频系列| www.com.av| 一区二区三区在线观看国产 | 欧美日产国产精品| 99精品视频免费看| 亚洲精品久久久久久下一站 | 天天操天天操天天操| 国产视频精品久久久| 91大神在线网站| 欧美成人sm免费视频| 草草在线观看| 国产精品夫妻激情| 日本超碰一区二区| 久久精品国产精品青草色艺| 成人激情视频| 91精品国产毛片武则天| 亚洲一区二区三区免费在线观看| 凹凸日日摸日日碰夜夜爽1| 激情综合网天天干| 精品国产av色一区二区深夜久久| 久久一日本道色综合| 午夜三级在线观看| 婷婷国产在线综合| 夜夜躁狠狠躁日日躁av| 亚洲电影av在线| 最新电影电视剧在线观看免费观看| 欧美日韩国产成人在线| sis001欧美| 91免费版网站在线观看| 香蕉久久精品| 免费观看亚洲视频| 丝袜亚洲另类欧美综合| 少妇高潮一69aⅹ| 国产精品视频一二三区| 中文字幕一区二区三区手机版| 欧美在线影院一区二区| 欧美一区二区三区激情| 中文字幕日韩av| 亚洲精品一区| 99re在线国产| 久久一区91| 欧美性大战久久久久xxx| 国产成人综合精品三级| 夜夜春很很躁夜夜躁| 亚洲成人免费看| 国产乱码精品一区二区| 亚洲女人天堂视频| 国产盗摄一区二区| 成人中文字幕在线观看| 久久99视频| 亚洲自偷自拍熟女另类| 国产丶欧美丶日本不卡视频| 网爆门在线观看| 日韩欧美高清在线视频| 色欲久久久天天天综合网| 欧美成人精品在线观看| 日本成人一区二区| 手机看片福利永久国产日韩| 亚洲另类视频| 亚洲成人精品在线播放| 最近中文字幕一区二区三区| 特级西西444www大胆免费看| 国产丝袜一区视频在线观看| aa视频在线观看| 国产精品 日韩| 欧美日韩亚洲一区| 欧美污在线观看| 亚洲欧美综合另类在线卡通| 在线观看国产小视频| 精品一区二区三区电影| 咪咪网在线视频| 国产免费一区| 最新亚洲一区| 国产xxxx视频| 婷婷开心激情综合| 少妇人妻精品一区二区三区| 久久久噜久噜久久综合| 欧美影院视频| 日本免费成人网| 国产乱码精品1区2区3区| 日韩三级在线观看视频| 538在线一区二区精品国产| 嫩草在线视频| 亚洲综合中文字幕68页| 夜间精品视频| 色诱av手机版| 性感美女久久精品| 天天操天天干天天干| 欧美一级视频免费在线观看| 性人久久久久| 亚欧在线免费观看| 中文字幕第一区二区| 亚洲无码精品在线播放| www国产精品视频| 国产日本亚洲| 日本中文字幕亚洲| 99久久99久久综合| 久久久精品毛片| 久久精品99国产精品酒店日本| 国产精品亚洲欧美一级在线 | 国产真实乱子伦精品视频| 一区二区视频免费看| 日韩精品一区二区三区视频 | 国产在线拍揄自揄视频不卡99| 亚洲综合中文| 黄色av网址在线观看| 91福利视频网站| √天堂8在线网| 久久国产精品99久久久久久丝袜| 日韩精品电影在线| 最新一区二区三区| 日韩av影院在线观看| 忘忧草在线www成人影院| 国产精品12p| av不卡一区二区三区| 一级久久久久久| 久久高清视频免费| 日韩高清影视在线观看| 日本免费观看网站| 亚洲一区二区三区四区五区黄| 日韩欧美在线观看一区二区| 国产成年人在线观看| 国产精品影视天天线| 国产精久久久久久| 亚洲视频在线免费观看| 亚洲色图图片| 久久这里只有精品23| 久久精品亚洲精品国产欧美kt∨| 一级黄色片在线看| 97视频国产在线| 国产精品国产一区| 国产高清自拍视频| 7777精品久久久大香线蕉| 性爽视频在线| 蜜臀在线免费观看| 国产亚洲一二三区| 六月婷婷综合网| 91精品久久久久久久久久久久久| 一区二区三区精品视频在线观看|