精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這屆出題太難了!新基準讓多模態模型集體自閉,GPT-4o都是零分

人工智能 新聞
對于大模型來說,許多現有的基準已經沒有任何挑戰性,也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現,顯然打破了這個局面。

眼下最頂尖的一批 LMM 是哪些?你可能想到了無所不能的 GPT-4o、Gemini 2 Flash 等等……

但這些大模型,遇到一個名為「ZeroBench」的視覺基準之后,紛紛敗下陣來。

20 多個知名模型,首次作答成績如下,全部是零分:

震驚之后,我們仔細研究了這個 ZeroBench 基準里的問題。

對于大模型來說,許多現有的基準已經沒有任何挑戰性,也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現,顯然打破了這個局面。

ZeroBench 包含 100 個具有挑戰性的全新問題,具體多有挑戰性呢?請聽題:

第題:不用優惠,菜單上每款點一個,總共需要多少港幣?

好家伙,這菜單上下顛倒就算了,還反光看不清字,讓在其中找到每道菜的價格,再做加法,這不是為難我胖虎嗎?

對于需要更多步驟才能得到答案的多模態模型來說,可能它也需要:「服務器繁忙,請稍后再試」。

問題 2:(i) 計算壺鈴的總重量?(ii) 計算重量在 5 至 15 磅之間(含 5 磅和 15 磅)的啞鈴總重量,單位為磅。(iii) 估計每個綠色壺鈴的重量,單位為磅。

知識面不夠寬,還真做不了這題。不光要算總重量,還得挑出綠色的,還得分類統計......

多模態模型見了這題都要暗地里蛐蛐:我連自己重多少斤都不知道,您這讓我數啞鈴?

問題 3:你正試圖破解一個保險箱,需要一個 6 位數密碼。根據失主留下的線索和物品,請推理出完整密碼。

這是在考眼力,考數學,還是在拍《達芬奇密碼》?

看來,ZeroBench 對多模態模型確實很高,不僅得明察秋毫,還得擁有福爾摩斯般的推理能力。

問題 4:在八方位指南針上,身體朝南的鵝占總數的百分比是多少?請精確到小數點后一位。

想要判斷鵝的身體是否朝南,首先得知道這張圖的南在哪邊?接下來還需要考慮冬季夏季,南北半球,上午下午?

停停,在高中畢業之后,我就停止如此深度地使用自己的大腦了。

GPT-4o 做了這道題,分析了半天,最后擺爛了,讓我們重新上傳圖片,「以便它從頭開始處理。」可能它也要停下來發一句:鵝太南(難)了。

問題 5:

(1)現在是英國牛津的傍晚,這個時鐘是根據物品使用方向來安裝的。距離正午大約過去了多少小時?

(2)這個時鐘是用一個八人賽艇隊員的裝備制成的,他的隊伍使用標準裝備。他可能坐在哪些座位?把座位號加起來等于多少?

(3)如果將圖像水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度,時針最接近哪個整點?

(4)把前三個答案相乘等于多少?

「從這塊只有指針的表判斷距離正午的時間」、「表皮是由賽艇隊員的裝備做成的,他的座位號是多少?」,「水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度......」

如果說前幾題查查資料,努努力還能寫出來,現在已經來到連題目都讀不懂的境地了。

看完這些題目,不難理解為什么它叫 ZeroBench —— 因為 AI 做完這些題后,自信可能就歸零了!

想來出題人也是頗費了一番心思才能琢磨出如此刁鉆的角度。ZeroBench 的研究團隊組織了一個 20 多人的專家出題組,每道題都是手工高定。

由于很難事先知道一個問題對多模態模型來說有多難,因此在開發過程中,出題人還會拿最新、最好的模型來「試水」。發現題目太簡單就加料,發現還能做出來就繼續加料,直到調節到「難度適中」。

ZeroBench 概述

項目主頁: https://zerobench.github.io/

論文地址:  https://arxiv.org/pdf/2502.09696

數據集構建

伴隨著大模型能力的不斷進化,想要創建一個難度足夠高的問題集越來越難。

ZeroBench 中的每個問題是由 20 多位人類問題創建者手工定制的。為了增加問題的多樣性,對問題創建者的指導還是比較寬泛的:(1)包含對回答問題至關重要的困難視覺元素,(2)包含多步驟推理,(3)盡可能具有挑戰性。

由于很難事先知道一個問題對 LMM 來說有多難,因此在開發過程中,研究者鼓勵問題創建者在一些前沿模型上對候選問題進行評估,衡量其難度并相應地調整問題。

在獲得了 140 個候選問題后,研究者使用了以下由 4 個部分組成的篩選流程,最終選出了 100 個問題用于 ZeroBench:

  • 反饋。對候選問題進行篩選,必要時通過反復審查和反饋進行改進。
  • 初步評估。為了衡量難度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)對問題進行了初步評估。
  • 審查。在初步評估的基礎上,對每個候選問題都進行了全面審查,以確保這些問題可以回答、格式和注釋正確、難度足夠且簡明扼要。審查人員的分配確保了出題者不會審查到自己的試題。許多試題也被修改了,旨在增加難度。此外,為了降低正確答案被猜中的可能性,必要時還對問題進行了修改,以確保答案范圍足夠廣泛。這就排除了二進制、多項選擇或答案為小整數(即小于 10)的問題。不符合要求的問題都被過濾掉了,因此第一次就有了 106 個合適的問題。
  • 對抗過濾。研究者使用貪婪解碼對每個 LMM 基線的剩余問題進行了評估,并刪除了任何一個模型都能正確回答的問題。每個模型能正確回答的問題差異很大,表現最好的模型也只能得到 4/106 分。有些問題只有一個相對較弱的模型能正確回答。研究者認為這是一種將問題分布與當前模型能力相聯系的有效方法。

經過反復推敲,研究者最終確定了共 100 個問題。為了在評估過程中區分模型性能,他們在審查過程中為每個問題創建了一個或多個子問題。子問題(圖 6)由明確的問題子部分、自然推理步驟或與得出最終答案相關的其他數量生成。

統計

表 1 顯示了 ZeroBench 的核心統計數據,其中包括 100 個主問題和 334 個子問題,在單幅和多幅圖像設置中包含自然圖像和合成圖像。

如圖 4 所示,主問題的文本長度分布廣泛,最長可達 2k 字符;在子問題中,短問題的比例明顯較高。問題中圖片的平均大小(圖 5)分布較為均勻。ZeroBench 中的問題以難度為優先考慮因素,大多數問題都包含多個步驟,需要不同的視覺能力。同樣,問題的背景也往往是混合的,需要不同領域的知識。因此,為每個問題或子問題指定不同的類別是不可行的。

評估

研究者在 ZeroBench 主問題和子問題上對 20 個 LMM 進行了評估,結果見表 2。從中可以得出幾個結論:

對于當下 LMM 的水準而言,ZeroBench 是不可能挑戰成功的。在可重現的環境中,研究者發現所有模型在該基準測試中都只有 0% 的及格率。

有些問題是可以回答的,大多數模型的得分都不是零。表現最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分達到了 7%(正確回答 7 個問題);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表現也相對較好,正確回答了 3 個問題。

子問題區分開了模型的性能。這部分問題對模型的挑戰性較小,所有模型的得分都不為零。雖然與主問題相比,推理模型的難度要低得多,但總體而言,這些模型仍然難以正確回答這些小問題,其中絕大多數都太難了。推理模型在推理過程中通常會產生一個擴展的思維鏈,允許它們在得出最終解決方案之前探索多種路徑。然而,在 ZeroBench 上,此類模型與傳統模型相比似乎并無明顯優勢。

在主問題上,開放源代碼和封閉源代碼模型的表現仍然很差,沒有明顯的區別。不過,通過比較子問題的得分,可以發現兩者的性能差距很大,領先的開源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 個百分點。

錯誤分析

圖 7 展示了在 ZeroBench 子問題中經常出現的視覺解讀錯誤,例如錯誤地計算物體數量、無法「看到」細微細節或準確提取信息,以及難以理解空間關系。更多例子可參考附錄。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-19 09:04:00

2024-06-28 18:13:05

2024-06-27 12:45:30

2025-08-15 12:50:19

2024-05-20 08:20:00

OpenAI模型

2025-05-26 08:33:00

2024-06-12 11:50:23

2025-01-02 11:01:45

2024-10-06 09:00:00

AI訓練數據

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2025-09-16 09:13:00

2025-05-15 09:10:00

2024-05-14 11:29:15

2025-06-04 09:05:18

2024-12-19 09:00:00

模型數學訓練

2024-08-30 14:35:00

2025-05-27 15:59:41

AI工具模型

2025-05-28 11:55:28

模型AI評估

2025-04-01 09:25:00

2025-08-07 14:05:40

OpenAI大模型開源
點贊
收藏

51CTO技術棧公眾號

在线xxxx| 亚洲综合精品国产一区二区三区 | 色婷婷综合在线观看| 色噜噜狠狠狠综合欧洲色8| 99久久婷婷国产综合精品电影 | 91视频.com| 国产精品日韩电影| 久久人人爽人人爽人人| 久久97视频| 91麻豆精品国产91久久久| 精品一区二区三区无码视频| 国产中文字幕在线看| 久久99国产乱子伦精品免费| 97国产suv精品一区二区62| 欧美激情久久久久久久| www.爱久久| 欧美日韩高清在线| 91视频最新入口| 中文字幕资源网在线观看| 2024国产精品| 99久久精品免费看国产四区| 中文人妻av久久人妻18| 欧美一区91| 在线国产精品播放| 久久偷拍免费视频| 中文字幕日韩在线| 欧美人伦禁忌dvd放荡欲情| 丰满少妇被猛烈进入高清播放| 理论片午午伦夜理片在线播放| 91啪九色porn原创视频在线观看| 91色p视频在线| 中国老头性行为xxxx| 妖精视频成人观看www| 另类色图亚洲色图| 一级二级黄色片| 亚洲a级精品| 亚洲国产日韩一区| 国产成人精品一区二区三区在线观看| 欧美黄页免费| 欧美色男人天堂| av片中文字幕| 韩日成人影院| 日韩欧美在线一区| 日韩精品―中文字幕| a级片免费在线观看| 亚洲猫色日本管| 一区二区三区免费看| 国产九九在线| 国产夜色精品一区二区av| 精品欧美一区二区在线观看视频 | 国产91精品露脸国语对白| 成人av色在线观看| 国产精品九九九九| 激情小说亚洲一区| 91免费综合在线| 国产手机视频在线| 国产福利不卡视频| av观看久久| 亚洲精品久久久久久久久久久久久久| 国产福利91精品| 99久久精品免费看国产四区| 亚洲国产精品无码久久| 成人综合在线网站| 精品视频在线观看| 欧美白人做受xxxx视频| 久久免费国产精品| 亚洲一卡二卡三卡四卡无卡网站在线看| 国产一级在线| 国产精品免费免费| 2021国产视频| 第一福利在线视频| 色综合天天综合网国产成人综合天 | 国产精品揄拍一区二区| 中文字幕一区二区人妻痴汉电车| 美女一区二区视频| 亚洲qvod图片区电影| 午夜精品久久久久久久91蜜桃| 国产成人免费av在线| 国产精品区一区二区三含羞草| 欧美一区二不卡视频| 26uuu精品一区二区| 性欧美.com| 91精品久久| 五月激情综合色| 啊啊啊国产视频| 99国内精品久久久久| 精品日产卡一卡二卡麻豆| 中文在线永久免费观看| 国产欧美日韩免费观看| 日韩视频亚洲视频| 五月天婷婷网站| 日韩精品一二区| 91黄色国产视频| 欧美日本网站| 亚洲欧美日韩电影| 日本国产在线播放| 亚洲影视资源| 亚洲国产精品电影| 亚洲熟女少妇一区二区| 91久久午夜| 国产美女被下药99| 色哟哟中文字幕| 中日韩av电影| 久久网站免费视频| 久久天堂久久| 国产香蕉97碰碰久久人人| 好吊色视频在线观看| 日韩精品乱码av一区二区| 91精品婷婷国产综合久久蝌蚪| 少妇激情av一区二区| 亚洲男人电影天堂| 亚洲视频在线a| 久久影院资源站| 精品国内自产拍在线观看| 欧美一区二区三区四| 激情综合五月婷婷| 日本一区二区三区四区高清视频 | 亚洲色图偷拍视频| 希岛爱理av免费一区二区| 操91在线视频| 在线观看黄色网| 久久美女高清视频| 每日在线观看av| 九九99久久精品在免费线bt| 国产一区二区动漫| 亚洲欧美精品一区二区三区| 国产精品 欧美精品| 一区不卡字幕| 91久久久久久白丝白浆欲热蜜臀| 亚洲精美色品网站| 久久久久黄色片| 国产麻豆精品theporn| 色播亚洲婷婷| 范冰冰一级做a爰片久久毛片| 日韩欧美美女一区二区三区| 国产精品一区二区亚洲| 亚洲欧美日韩国产| 国产精品午夜av在线| av激情在线| 91精品国产一区二区三区蜜臀| av免费播放网站| 视频一区视频二区在线观看| 国产在线观看一区| 国产在线美女| 日韩成人在线播放| 青青国产在线观看| 91网站黄www| 国产乱子夫妻xx黑人xyx真爽| 久久1电影院| 97人人做人人爱| 天天干天天爽天天操| 黄色精品一区二区| 亚洲观看黄色网| 亚洲专区免费| 欧美极品视频一区二区三区| 天堂√8在线中文| 亚洲欧美日本精品| 成年人晚上看的视频| 久久精品一区蜜桃臀影院| 成人3d动漫一区二区三区| 国产欧美一区二区精品久久久| 国产不卡视频在线| 999国产在线视频| 欧美精品久久天天躁| 免费高清在线观看电视| 国产精品一区二区在线观看网站 | 久久国产99| 日韩欧美99| 亚洲伦理一区二区| 欧美国产日韩中文字幕在线| 国产77777| 韩曰欧美视频免费观看| 亚洲精品一区二区三区影院忠贞| 美女精品一区二区| 日韩精品一区二区免费| 亚洲裸色大胆大尺寸艺术写真| 国产精品久久91| aaa大片在线观看| 亚洲第一免费网站| 国产午夜无码视频在线观看| 国产精品久久久久影院| 性活交片大全免费看| 国产精品女主播一区二区三区| 欧美在线视频一区二区三区| 亚洲国产91视频| 欧美精品九九久久| 国产精品久久久久久久龚玥菲| 欧美日韩国产高清一区二区三区| 国产在线视频二区| 欧美国产激情一区二区三区蜜月| 成人高清在线观看视频| 国产精品久久久久久久久久妞妞 | 亚洲激情精品| 亚洲精品中文字幕在线| 中文字幕区一区二区三| 国产成人在线一区二区| 亚洲电影视频在线| 亚洲天堂av在线播放| 国产av无码专区亚洲a∨毛片| 欧美日韩国产中字| 91高清免费观看| 久久女同精品一区二区| 久久久精品人妻一区二区三区| 久久动漫亚洲| 国产成人艳妇aa视频在线| 国内精品久久久久久久影视简单| 91久色国产| 国产成人77亚洲精品www| 97免费在线视频| 国产三区视频在线观看| 亚洲视频在线观看| 亚洲欧美黄色片| 欧美裸体bbwbbwbbw| 区一区二在线观看| 亚洲一二三级电影| 日本 欧美 国产| 久久久久久久久久美女| 男人网站在线观看| 国产二区国产一区在线观看| 日本特黄a级片| 噜噜爱69成人精品| 成人午夜免费在线| 欧美日韩国产亚洲一区| 一本色道久久综合亚洲精品婷婷| 影视先锋久久| 精品国产一区二区三区免费| 欧洲大片精品免费永久看nba| 国产精品一区av| av一区在线| 欧美夜福利tv在线| 黄色污污视频在线观看| 超碰91人人草人人干| 国产乱视频在线观看| 亚洲欧洲中文天堂| 亚洲 国产 欧美 日韩| 亚洲国产精品久久91精品| 成人av一区二区三区在线观看| 欧美日高清视频| 一级黄色大片免费| 欧美性大战久久久久久久蜜臀| 天天干天天操天天爱| 欧美日韩免费网站| 久久久久久91亚洲精品中文字幕| 亚洲国产精品久久人人爱| 久久久91视频| 一区二区三区免费网站| 清纯粉嫩极品夜夜嗨av| 亚洲精品欧美二区三区中文字幕| 亚洲色图欧美色| 中文字幕中文字幕一区二区| 亚洲色图100p| 亚洲欧美自拍偷拍色图| 中国毛片直接看| 亚洲综合在线视频| 日韩欧美大片在线观看| 午夜欧美一区二区三区在线播放| 日本三级理论片| 欧美日韩在线另类| 精品黑人一区二区三区| 在线亚洲高清视频| 中国a一片一级一片| 欧美男人的天堂一二区| aa视频在线免费观看| 日韩一区二区视频在线观看| 99久久婷婷国产一区二区三区| 欧美一区二区视频在线观看2022| www.午夜激情| 亚洲第一福利网站| 青青国产在线| 最新国产成人av网站网址麻豆| 久草免费在线观看| 欧美国产日韩xxxxx| а√天堂中文资源在线bt| 欧美孕妇毛茸茸xxxx| 四虎成人在线| 91精品视频免费| 91九色鹿精品国产综合久久香蕉| 国产精品我不卡| 国产精品羞羞答答在线观看| 亚洲欧洲精品一区二区三区波多野1战4| 国产精品黑丝在线播放 | 激情五月深爱五月| 亚洲欧美一区二区三区孕妇| 日韩黄色三级视频| 在线免费视频一区二区| 国产人妻精品一区二区三区| 亚洲成人三级在线| 国产精品影院在线| 欧美夫妻性视频| 91久久国产综合久久91猫猫| 国产日韩欧美综合| 精品女人视频| 一区二区不卡在线视频 午夜欧美不卡'| 亚洲成人tv| 国产裸体舞一区二区三区| 国内成人免费视频| www.超碰97| 成人免费视频在线观看| 久久精品视频久久| 欧美日本国产视频| 天天操天天干天天插| 色偷偷亚洲男人天堂| 在线观看小视频| 国产精品91久久久久久| 一区二区亚洲视频| 深夜福利成人| 亚洲免费黄色| 免费国偷自产拍精品视频| 久久精品人人做人人爽97 | 色悠悠亚洲一区二区| a级片在线免费看| 在线成人免费网站| 小h片在线观看| 97人人澡人人爽| 欧美激情777| 日韩有码免费视频| 波多野结衣亚洲一区| 久久嫩草捆绑紧缚| 日本福利一区二区| 四虎精品在永久在线观看 | 欧美不卡高清一区二区三区| 国产超碰91| 亚洲高清影视| 日韩大片一区二区| 久久久影院官网| 国产精品999久久久| 欧美一区二区在线不卡| 亚洲麻豆精品| 国产精品高潮呻吟视频| 日韩欧美ww| 男女猛烈激情xx00免费视频| 国产一区二区三区综合| 99国产精品免费| 欧洲精品一区二区| 男女视频在线观看| 热re91久久精品国99热蜜臀| 超碰地址久久| 91动漫在线看| 丁香天五香天堂综合| 久久精品亚洲a| 欧美精品在线一区二区三区| jizz在线观看视频| 国产精品久久一区主播| 波多野结衣一区| 色婷婷成人在线| 国产精品久久毛片a| 这里只有精品9| 最新国产成人av网站网址麻豆| 国产精品原创视频| 亚洲永久一区二区三区在线| 捆绑紧缚一区二区三区视频| 国产主播av在线| 制服丝袜日韩国产| 中中文字幕av在线| 国产厕所精品在线观看| 夜夜夜久久久| mm131丰满少妇人体欣赏图| 在线观看av一区| 免费观看在线黄色网| 亚洲影影院av| 亚洲特级毛片| 精品无码在线视频| 在线精品视频一区二区| 在线a免费看| 5g国产欧美日韩视频| 亚洲国产影院| www在线观看免费视频| 欧美日韩在线亚洲一区蜜芽| 免费在线看黄| 国产精品久久九九| 欧美一区=区| 777777国产7777777| 精品毛片乱码1区2区3区| а√在线天堂官网| 亚洲国产日韩综合一区| 国内精品写真在线观看| 欧美亚洲天堂网| 亚洲天堂免费观看| 99久久999| 亚洲不卡中文字幕无码| 国产欧美精品在线观看| a天堂视频在线| 日韩免费观看视频| 亚洲精品久久| 人妻在线日韩免费视频| 欧美日韩一区在线| 第一av在线| 午夜久久资源| 成人三级在线视频| 中文字幕理论片| 国内精品在线一区| 日韩欧美1区| 国产女人18毛片水真多18| 欧美亚洲愉拍一区二区| 肉体视频在线| 日韩高清dvd| www.av亚洲| 国产色综合视频| 国产97人人超碰caoprom| 欧美一区国产在线|