精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o-Image僅完成28.9%任務!上海AI實驗室等發布圖像編輯新基準,360道人類專家嚴選難題

人工智能 新聞
360個全部由人類專家仔細思考并校對的高質量測試案例,暴露多模態模型在結合推理能力進行圖像編輯時的短板。

GPT-4o-Image也只能完成28.9%的任務,圖像編輯評測新基準來了!

360個全部由人類專家仔細思考并校對的高質量測試案例,暴露多模態模型在結合推理能力進行圖像編輯時的短板。

圖片

最近,上海人工智能實驗室聯手上海交大、同濟大學、武漢大學、普林斯頓大學的研究人員,針對圖像編輯AI提出了三個問題:

  • 現有的圖像編輯評測基準是否已經無法跟上時代的步伐?
  • 僅僅停留在“更換顏色”等改變物體表層屬性的測試,是否已顯得過于簡單,無法真正衡量AI的“深度理解”能力?
  • 當指令變得更加復雜,涉及圖片背后的邏輯、上下文關聯甚至隱含意圖時,現有模型能否正確“領會”并精準執行,同時保證生成圖像的質量和與原圖的自然一致性?

為了填補這一空白,深度挖掘并客觀評估視覺編輯模型在理解復雜指令方面的能力上限,團隊推出了一項全新任務——Reasoning-Informed ViSual Editing (RISE)。

另外,他們還配套發布了一個高質量評測基準——RISEBench,覆蓋時間、因果、空間、邏輯四種核心推理類型,每個案例包含原圖和編輯指令。

圖片

例如輸入一張圖像,展示了一片草地上有片枯葉,上方有個放大鏡,任務指令為“畫出該場景在夏天30秒后的模樣”。

圖片

團隊測試了當前性能領先的九個視覺編輯模型,實驗測試結果令人意外:

即使是最強的GPT-4o-Image,在復雜視覺編輯任務中的準確率也僅為28.9%,最強的開源模型BAGEL僅能完成5.8%的任務,其它被測開源模型完成率幾乎為零,顯示出當前開源模型與閉源模型在視覺理解能力上的差距。

以下是更多細節。

RISEBench長啥樣?

與傳統評測基準不同,RISEBench旨在評估視覺編輯模型在各類需要深層理解的指令上的性能。它不僅僅停留在表面修改,更深入地探索視覺編輯模型對時間、因果、空間和邏輯等復雜概念的把握。

圖片

RISEBench精心設計了360道高難度問題,全部由人類專家仔細思考并校對,確保了問題的嚴謹性和挑戰性。這些題目被劃分為四大核心類別,旨在全面考驗模型的推理能力:

  • Temporal Reasoning(時間推理): 考驗模型對時間線索的理解和未來/過去狀態的預測。
  • Causal Reasoning(因果推理): 評估模型能否理解各類動作(碰撞,點燃,物理化學反應等)與結果之間的因果關系。
  • Spatial Reasoning(空間推理): 挑戰模型對物體空間位置、關系、視角變換等想象能力的掌握。
  • Logical Reasoning(邏輯推理): 衡量模型對抽象規則、數學運算、邏輯關系的推斷能力。

為了確保評估的全面性和泛化性,RISEBench的輸入圖像來源廣泛,包括互聯網數據、已有基準、模型生成圖像以及代碼生成圖像等多個不同分布的數據源。

這種多源異構的設計,能夠廣泛細致地考驗模型對不同輸入圖像和指令的應對能力,避免模型在特定數據分布上過擬合。

圖片

自動化的細粒度評估體系

為了精準、高效地評判模型輸出是否符合要求,作者團隊將整體評估拆分成了三個關鍵子維度,并采用前沿的多模態大模型作為評判專家(LMM-as-Judge)的方式,使用GPT-4.1作為評估模型對每個維度進行打分,確保評估的客觀性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否準確理解了指令的深層含義。

  • 對于輸出結果可用文字準確描述的指令,評估模型會判斷生成圖像與給定文本答案是否匹配。
  • 對于最終輸出難以用文字描述的復雜指令,我們針對性地提供了用于參考的圖像回答,評估模型將判斷生成圖像是否與參考圖像相匹配。

2、Appearance Consistency(外觀一致性): 評估生成圖像與原圖在背景以及風格、紋理等與指令無關的視覺元素上的一致性,確保編輯自然。

3、Visual Plausibility(視覺合理性): 衡量生成圖像的整體視覺質量、真實感和視覺合理性,避免出現不自然或失真的效果。

每個維度均為1-5分,當三個維度均為滿分時標記為完成了編輯任務。這種細粒度的評估設計顯著提升了模型打分與人類判斷的對齊程度,為未來視覺編輯模型的發展提供了更加可靠和公正的評估體系。

圖片

視覺編輯模型理解能力遠未及格

作者團隊對近期備受關注的多個閉源及開源模型進行了嚴格評估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及開源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

結果令人深思:

  • 全面欠缺: 測評結果明確指出,當前的視覺編輯模型在完成復雜指令方面仍存在相當大的欠缺。它們距離真正“讀懂”用戶的深層意圖,還有很長的路要走。
  • GPT-4o-Image一騎絕塵,但仍遠低于預期: 即使是目前公認最強的閉源模型GPT-4o-Image,在RISEBench上也僅僅只能完美完成28.9%的任務。
  • 閉源與開源差距顯著: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分別僅能完成13.3%和9.4%的任務,與GPT-4o-Image之間存在著明顯的代際差距。更令人擔憂的是,最強的開源模型BAGEL僅能完成5.8%的任務,這彰顯出當前開源模型與閉源模型之間在視覺理解能力上的巨大鴻溝。 其他被測模型的完成率幾乎為零,暴露出其薄弱的理解能力。

圖片

為了更深入地分析各模型的表現,研究團隊還統計了每個模型在指令理解(Instruction Reasoning)、外觀一致性(Appearance Consistency)和視覺合理性(Visual Plausibility)這三個評估維度上的平均得分,揭示了其短板所在。

結果表明:

  • 領先者全面發展: GPT和Gemini系列模型在所有三個維度上都展現出了相對較高的水準,因此在整體任務完成度上表現相對更佳。
  • 開源模型短板明顯: BAGEL雖然在指令理解能力上僅次于GPT和Gemini,但在生成圖像的視覺合理性上得分較低,這意味著其輸出圖像往往存在更多的失真或模糊現象,影響了最終得分。
  • 各有側重,但均有缺陷: HiDream-Edit雖然具備部分理解能力,但在保持輸出圖像內容一致性上表現較差,容易出現與原圖脫節的情況。Step1X-Edit雖然能生成較高視覺合理性的圖像,但其指令理解能力和一致性表現均較低。
  • 理解力成為決定性因素: 其他模型由于幾乎完全沒有理解能力,且在保持一致性方面也表現不佳,最終導致其整體完成度接近于0。

團隊認為,這些細致的評估結果清晰地揭示了當前視覺編輯模型所面臨的嚴峻挑戰:

不僅僅是簡單的技術實現,更深層次的認知和推理能力才是決定未來模型性能的關鍵瓶頸。

圖片

最后,作者團隊展望未來并表示:

RISEBench的發布,標志著圖像編輯評測標準的一次重大升級。希望它能推動下一代視覺編輯模型發展,引領編輯模型從“模仿”走向“理解”,最終實現真正智能、富有創造力的視覺交互。

論文鏈接:https://arxiv.org/pdf/2504.02826GitHub鏈接:https://github.com/PhoenixZ810/RISEBench

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:45:30

2023-11-07 18:08:03

GPT-4模型

2018-07-05 17:50:14

AI

2025-04-01 09:25:00

2025-05-07 13:51:49

模型數據

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2025-11-14 09:30:12

2024-05-14 11:29:15

2025-07-22 10:45:55

2021-08-04 09:48:05

數字化

2025-01-17 10:30:00

2011-08-04 16:58:12

惠普數學實驗室

2024-12-18 13:24:30

谷歌AI大語言模型

2011-02-24 17:31:41

2012-05-04 13:53:29

視頻加速傲游

2012-05-08 11:47:50

傲游視頻加速測試

2011-09-05 16:01:51

2024-06-28 18:13:05

2024-06-12 11:47:37

點贊
收藏

51CTO技術棧公眾號

欧美激情国内偷拍| 久久成人综合网| 精品伦理精品一区| 2018国产在线| 亚州视频一区二区三区| 欧美日韩在线看片| 精品一区二区三区在线视频| 久久精品国产2020观看福利| 亚洲天堂2018av| 天堂网在线播放| 久久精品首页| 欧美熟乱第一页| 中文字幕黄色大片| 久久久久亚洲av成人片| 免费看成人人体视频| 色嗨嗨av一区二区三区| 鲁片一区二区三区| 老熟妇一区二区三区啪啪| 日本久久久久| 亚洲成av人影院| 久久99精品国产一区二区三区| 久草视频在线观| 精品大片一区二区| 日韩一区二区免费在线观看| 日韩人妻无码精品久久久不卡| 青青草手机在线| 日韩专区在线视频| 自拍偷拍亚洲一区| 北京富婆泄欲对白| 欧美日韩破处视频| 欧美性猛xxx| 国产精品久久久影院| 成人精品在线播放| 麻豆精品一区二区av白丝在线| 欧美精品精品精品精品免费| 醉酒壮男gay强迫野外xx| a一区二区三区亚洲| 一区二区三区四区高清精品免费观看| 鲁丝一区二区三区免费| 亚洲熟女综合色一区二区三区| 99久久精品费精品国产风间由美| 精品久久久久香蕉网| 少妇高潮毛片色欲ava片| 在线观看av的网站| 伊人情人综合网| 亚洲网在线观看| 国产chinese中国hdxxxx| 成人va天堂| 亚洲午夜激情网页| 国产又粗又爽又黄的视频| 黄色av小说在线观看| 久久99精品久久久久久动态图 | 深夜国产在线播放| 欧美极品少妇xxxxⅹ高跟鞋| 国产一区二区三区av在线| 国产麻豆免费观看| 免费观看在线综合色| 久久久久久有精品国产| 欧美激情图片小说| 亚洲不卡av不卡一区二区| 亚洲激情av在线| 日韩免费观看高清完整版在线观看| 日韩xxxx视频| 二区三区在线观看| 国产精品黄色在线观看| 日本黄网免费一区二区精品| 国产免费不卡视频| 国产酒店精品激情| 成人性教育视频在线观看| 69视频免费看| 国产精品乱看| 在线免费av一区| 免费观看日韩毛片| 青娱乐在线免费视频| 国产v亚洲v天堂无码久久久| 视频一区视频二区国产精品| 91伊人久久大香线蕉| 精品一区二区三区中文字幕 | 日本视频在线| 91精品人妻一区二区三区| 18禁一区二区三区| 狂野欧美性猛交xxxx| 色婷婷综合久久久中文字幕| 50路60路老熟妇啪啪| 欧美激情网站| 日韩欧美在线视频日韩欧美在线视频 | 欧美成人精品欧美一| 国产韩国精品一区二区三区| 色偷偷偷亚洲综合网另类| 中文字幕乱码av| 亚洲xxx拳头交| 欧美国产一区二区三区| 日韩激情小视频| 国产探花在线观看| 一区二区三区四区激情| 久久久久久久久久久99| 高清在线视频不卡| 在线看国产一区| 日本一极黄色片| gogo亚洲高清大胆美女人体| 91福利在线免费观看| 中文字幕欧美人妻精品一区| 丝袜老师在线| 欧美日韩一级视频| www.国产福利| 福利欧美精品在线| 亚洲天堂成人在线视频| 999精品视频在线观看播放| 欧美.日韩.国产.一区.二区| 欧美精品成人在线| 国产91av在线播放| 久久精品国产免费| 国产精品一区二区a| 日韩在线观看视频一区| 国产日韩欧美综合一区| 亚洲欧洲久久| 男人天堂亚洲| 岛国av午夜精品| 中文字幕欧美人妻精品一区| 亚洲伊人伊成久久人综合网| 精品国产乱码久久久久久浪潮| 久久久久亚洲AV成人无码国产| 精品在线观看入口| 色黄久久久久久| 国产一级生活片| 日韩高清欧美激情| 成人啪啪免费看| 男女网站在线观看| 日本成人中文字幕| 高清视频一区| aiai在线| 狠狠干狠狠久久| 熟妇女人妻丰满少妇中文字幕| 在线亚洲a色| 欧美黄色片在线观看| 中文字幕欧美人妻精品| 国产在线观看一区二区| 欧美日韩一区二区三区免费| 色婷婷av在线| 欧美丰满少妇xxxxx高潮对白| www.88av| 欧美日韩国产成人精品| 国产精品视频自拍| 亚洲av成人精品一区二区三区在线播放| 久久久亚洲欧洲日产国码αv| 综合视频免费看| 希岛爱理一区二区三区av高清| 亚洲福利视频网| 亚洲色图综合区| 美女视频网站久久| 欧美一区三区二区在线观看| 成年男女免费视频网站不卡| 日韩三级电影网址| 国产色无码精品视频国产| 可以看av的网站久久看| 久久99精品久久久久子伦| 国产后进白嫩翘臀在线观看视频 | 日韩一级性生活片| 日韩一区二区三区高清在线观看| 亚洲图中文字幕| 波多野结衣视频观看| 99国产精品久| 男女猛烈激情xx00免费视频| 哺乳挤奶一区二区三区免费看| 插插插亚洲综合网| 99热这里只有精品在线| 亚洲女同ⅹxx女同tv| 97人人模人人爽人人澡| 欧美精品午夜| 成人av网站观看| 欧美日韩在线中文字幕| 色综合久久99| 激情五月激情综合| 蜜臂av日日欢夜夜爽一区| 一区二区视频在线观看| 外国成人毛片| 日韩在线播放视频| 国产乡下妇女做爰毛片| 成人黄色一级视频| 波多野结衣之无限发射| 香蕉一区二区| 国产精品人人做人人爽| 精品国产免费av| 亚洲v天堂v手机在线| 国产v综合v亚洲欧美久久 | 久久激情视频免费观看| 一级二级三级视频| 亚洲成人一区二区在线观看| 免费在线观看污| 国产成人免费在线观看| 国产熟女高潮视频| 久久国产综合| 国产伦视频一区二区三区| 丰满少妇一区| 午夜精品三级视频福利| eeuss影院www在线观看| 日韩丝袜情趣美女图片| 丁香社区五月天| 亚洲欧美aⅴ...| 极品人妻videosss人妻| 高清成人在线观看| 免费观看成人在线视频| 欧美激情四色| 亚洲高清视频一区| 青青草原在线亚洲| 91超碰rencao97精品| 人人视频精品| 欧美极品少妇xxxxⅹ免费视频| 视频二区在线观看| 欧美一区二区私人影院日本| 国产免费一区二区三区四区五区| 亚洲免费观看在线视频| 91精品啪在线观看国产| 久久精品久久综合| 91蝌蚪视频在线观看| 在线日韩中文| 老司机午夜免费福利视频| 欧洲视频一区| 麻豆成人av| 91嫩草精品| 91精品中国老女人| 精品国产欧美日韩一区二区三区| 97国产精品视频人人做人人爱| 黄网站app在线观看| 亚洲最新中文字幕| 亚洲精品一区二区三区蜜桃 | 97人人爽人人| 日韩av一区二区三区四区| 狠狠97人人婷婷五月| 伊人久久大香线蕉综合热线| 99久re热视频精品98| 日韩在线理论| 亚洲欧洲日夜超级视频| 国产一区二区电影在线观看| 久久99精品久久久久久久久久| jazzjazz国产精品久久| 91视频99| 亚洲一区 二区| 91免费观看网站| 91成人短视频在线观看| 成人精品视频久久久久| 日韩制服一区| 日本久久中文字幕| 345成人影院| 国产99久久精品一区二区永久免费 | 97超碰人人爽| 国产一区二区0| 亚洲天堂av一区二区三区| 久久99精品国产麻豆婷婷| 狠狠躁狠狠躁视频专区| 亚洲欧美久久久| 97公开免费视频| 久久99伊人| 手机看片福利日韩| 日韩电影在线观看电影| 亚州精品一二三区| 理论电影国产精品| 日韩av卡一卡二| 国产美女精品在线| 精品久久久久一区二区| 久久影视一区二区| 大胸美女被爆操| 亚洲精品国产a| 日本少妇bbwbbw精品| 欧美日韩国产页| 国产日韩在线免费观看| 欧美精选午夜久久久乱码6080| 波多野结衣视频在线看| 欧美日韩第一区日日骚| 亚洲第一黄色片| 亚洲精品一区二区三区99| 欧洲免费在线视频| 国产偷国产偷亚洲清高网站| 超碰国产在线| 欧美另类交人妖| 忘忧草在线影院两性视频| 欧美一级淫片videoshd| 日韩欧美一区二区三区在线观看 | 99国产精品久久久久99打野战| 欧美日韩国产电影| 免费av网站观看| 亚洲第一天堂av| 99re在线视频| 性亚洲最疯狂xxxx高清| 欧美理论影院| 亚洲xxxx3d| 国精一区二区| 国产亚洲精品久久久久久久| 亚洲一区二区网站| 午夜视频在线观| 国产成人免费在线| 美国黑人一级大黄| 亚洲精品日韩一| 国产成人精品777777| 欧美一区二区在线不卡| 免费资源在线观看| 欧美国产精品va在线观看| 欧美gv在线| 成人在线小视频| 校花撩起jk露出白色内裤国产精品 | 动漫av一区二区三区| 伊人久久五月天| а√天堂8资源在线| 91精品久久久久久久久久| 日韩精品欧美大片| 伊人久久大香线蕉av一区| 香蕉视频成人在线观看| 国产ts在线观看| 国产精品妹子av| a v视频在线观看| 欧美在线一区二区三区| 亚洲色图狠狠干| 乱亲女秽乱长久久久| 精品123区| 久久av一区二区三区漫画| 欧美国产综合| 日本77777| 国产精品三级视频| 久久青青草原亚洲av无码麻豆 | 欧美特级www| 免费av网站观看| 欧美日韩国产二区| 高清一区二区| 日韩电影在线播放| 国产精品久久久久9999高清| 中文字幕一二三区| 亚洲精品伦理在线| 国产精品久久久久久免费播放| 亚洲欧美国产日韩天堂区| 成年女人在线看片| 国产伦精品一区二区三区| 天天综合亚洲| 在线观看免费av网址| 国产精品久久久久久久久免费丝袜| 日韩av在线天堂| 日韩一区二区免费视频| 国产三级视频在线看| 日本精品性网站在线观看| 无码日韩精品一区二区免费| 久久国产精品网| 成人av电影在线观看| 国产无码精品久久久| 日韩视频国产视频| 神马午夜伦理不卡| 国产免费一区二区| 一区精品久久| 中文字幕人妻一区二区三区| 亚洲成av人综合在线观看| 天堂成人在线视频| 97在线视频免费观看| 同性恋视频一区| 无码人妻丰满熟妇区五十路百度| 久久久精品日韩欧美| 国产精品午夜一区二区| 在线观看不卡av| 91精品福利观看| 国产免费内射又粗又爽密桃视频| 国产成人精品免费看| 日韩xxx高潮hd| 亚洲图片在线综合| 亚洲成人a级片| 青青草综合在线| 99久久精品免费看国产免费软件| 五月天综合激情网| 夜夜躁日日躁狠狠久久88av| 伦一区二区三区中文字幕v亚洲| 五月婷婷综合色| 久久国产剧场电影| 国产一级视频在线播放| 亚洲精品中文字幕女同| 欧美成人h版| 在线一区亚洲| 成人av在线影院| 久久久.www| 亚洲精品一区二区网址| 粉嫩91精品久久久久久久99蜜桃| www.黄色网址.com| 26uuu另类欧美亚洲曰本| 一级黄色片视频| 欧美精品aaa| 欧美综合精品| 亚洲美女性囗交| 欧美日韩在线看| 麻豆传媒在线观看| 国产专区一区二区三区| 日本不卡的三区四区五区| 欧美国产在线看| 中日韩美女免费视频网址在线观看 | 91久久精品一区| 亚洲一区二区动漫| 欧美肥妇bbwbbw| 日韩一区二区三区精品视频| 中文字幕在线看片| 自拍亚洲欧美老师丝袜| 国产精品乡下勾搭老头1| 日韩精选在线观看| 久久久久这里只有精品| 国产成人三级| 大尺度做爰床戏呻吟舒畅| 欧美日韩在线免费视频|