精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌Gemini扳回一局!多模態能力和GPT-4V不分伯仲|港中文128頁全面測評報告

人工智能 新聞
在多模態專有基準MME上,Gemini-Pro的感知和認知綜合表現則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。

谷歌扳回一局!

在Gemini開放API不到一周的時間,港中文等機構就完成評測,聯合發布了多達128頁的報告,結果顯示:

在37個視覺理解任務上,Gemini-Pro表現出了和GPT-4V相當的能力

在多模態專有基準MME上,Gemini-Pro的感知和認知綜合表現則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。

圖片

此前,CMU測評發現Gemini-Pro的綜合能力居然和GPT-3.5差不多。

現在,在多模態這個一大主推的賣點上,Gemini-Pro可算是扳回一局。

那么具體如何?

測評報告一共128頁,咱們就挑重點來看。

圖片

Gemini-Pro的首份多模態能力報告來了

這份測評主要是對Gemini-Pro的視覺理解能力進行評估。

一共涵蓋基礎感知、高級認知、挑戰性視覺任務和各種專家能力四大領域,在37個細分任務項上進行定性比較。

定量評估則在專為多模態大語言模型專門設計的評測基準MME上展開。

首先來看定量測試結果。

MME上綜合表現比GPT-4V強

MME基準包含兩大類任務。

一個是感知,涵蓋目標存在性判斷、物體計數、位置關系、顏色判斷、OCR識別、海報識別、名人識別、場景識別、地標識別和藝術品識別等。

一個是認知,涵蓋常識推理、數值計算、文本翻譯和代碼推理等。

結果如下:

可以看到Gemini-Pro和GPT-4V可謂“各有所長”。

圖片

而計分顯示,Gemini-Pro的總分為1933.4,比GPT-4V(1926.6)要高那么一點點。

圖片

具體來看:

1、Gemini-Pro在文本翻譯、顏色/地標/人物識別、OCR等任務中表現突出;

2、GPT-4V在名人識別任務上的得分為0,主要是因為拒絕回答名人相關的問題;

3、無論是Gemini還是GPT-4V在位置識別任務上表現都不佳,表明他們對空間位置信息不敏感;

4、開源模型SPHINX在感知任務上與GPT-4V以及Gemini平齊甚至更優,但認知和兩者有較大差距。

下面就是四大項任務上的定性結果了。

基礎感知

感知能力直接影響模型在高階任務中的能力,因為它決定了模型獲取和處理原始視覺輸入的準確性和有效性。

報告中分別測試了模型的對象級感知能力、場景級感知能力和基于知識的感知能力。

具體一共10個細分任務:

圖片

鑒于篇幅有限,我們在此只展示其中5個:

1、空間關系

都不分左右。但GPT-4V可以通過上下文少樣本學習這項任務,然后做出正確回答。

圖片

2、物體計數

簡單樣例整體還OK,但復雜一點的全軍覆沒。不過在數NBA籃球運動員時,Gemini-Pro的答案已經相當接近了(正確為42個)。

圖片

3、視覺錯覺

左側樣例中,兩個梨實際上具有相同的亮度。Gemini Pro正確識別,而GPT-4V和SPHNIX被欺騙。

圖片

4、場景理解

模型都能夠描繪場景中的關鍵視覺元素。相比之下,GPT-4V顯示出優越的性能,描述更加詳細,并且幻覺的實例也更少。

圖片

5、視頻場景理解

從視頻中抽取三個時刻的關鍵幀,Gemini Pro能夠將不同幀的信息整合成一個連貫的場景描述。

而GPT-4V只是逐幀描述圖像的內容。相比之下,SPHNIX的描述并沒有表現出對圖像序列的全面理解。

圖片

高級認知

這類任務需要模型進行深入的推理、解決問題和決策。

在此,報告中分別測試了模型的富含文本的視覺推理能力、抽象視覺推理能力、解決科學問題能力、情感分析能力、智力游戲能力。具體包括13項細分任務,同樣限于篇幅我們只展示其中幾項。

圖片

1、代碼生成

將結構化視覺內容轉換為相應的代碼是多模態大模型的一項重要技能,在此分別測試了模型識別公式生成LaTex代碼和識別網頁生成HTML代碼的能力。

Gemini Pro和GPT-4V在公式識別上表現出更好的結果,但仍然會錯誤識別一些小字符或符號。

圖片

三個模型的識別網頁生成相應HTML代碼的能力仍然存在很大的改進空間。

圖片

2、抽象視覺刺激

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。GPT-4V展示了最好的抽象性能,提供了對象如何由形狀組成的詳細描述。Gemini Pro能識別一些簡單的抽象模式。

圖片

3、圖像情感分析

模型都可以很好地描繪視圖,并提供其中可能的情感。GPT-4V觀察是中立的,強調情緒是主觀的,同時給出了更全面的分析。Gemini Pro傾向于直接輸出情感偏好。

圖片

4、情感調節輸出

情感調節輸出是讓多模態大模型描述以預定義情感為條件的視覺上下文。

雖然Gemini Pro和GPT-4V能夠正確地將相應的情感注入到生成的文本中,但它們都遇到了幻覺問題。

圖片

5、數獨游戲

如果僅以圖像作為輸入,盡管Gemini Pro嘗試在輸出矩陣內提供答案,但無法正確識別空白位置,而GPT-4V和SPHNIX則無法進行第一步 光學字符識別。此外,給定相應的文本輸入,Gemini Pro和GPT-4V都可以給出正確的答案。

圖片

挑戰性視覺任務

評估多模態大模型在超出標準視覺問答范圍的各種具有挑戰性的視覺任務中的性能。

需要模型具有深厚的視覺感知和理解能力,評估這類表現將有助于深入了解模型在多領域應用的可行性。

報告中分別測試了模型在圖像視覺任務和時序視覺任務中的性能。具體包括以下7個細分任務:

圖片

在此我們展示3個。

1、指稱表達式理解

Gemini Pro和GPT-4V都能夠識別指稱對象的大致位置,但它們很難提供精確的坐標和框大小。而SPHNIX展示了提供引用對象的準確位置和大小的能力。

圖片

2、目標跟蹤

Gemini Pro和GPT-4V都能夠描繪出要跟蹤的目標的細節,但它們隨后兩幀圖像中提供了錯誤的邊界框。

圖片

3、視覺故事生成

任務要求模型完全理解圖像中的信息,并在生成的故事中對其進行邏輯組織。

Gemini Pro和SPHNIX提供了連貫的故事,但卻和沒有十分貼近漫畫劇情。

GPT-4V為每個插圖提供了精確的描述,卻未能根據任務要求將它們編織成一個有凝聚力的故事。

圖片

各種專家能力

專家能力衡量多模態大模型將其學到的知識和技能應用于不同專業領域的泛化能力。除了上述的感知和認知任務外,多模態大模型在專門和獨特場景下的魯棒性通常具有更實際的參考意義。也是7個細分任務:

圖片

在此我們同樣展示3個:

1、缺陷檢測

缺陷檢測需要高精度和對細節的關注。對于缺陷明顯的圖像,模型都可以提供正確答案,其中GPT-4V輸出更詳細的原因和描述。

對于下圖中的螺紋損壞的樣例,Gemini Pro給出了過于籠統的答案,SPHNIX錯誤地描述了外觀,而GPT-4V給出了標準答案。

圖片

2、經濟分析

報告展示了兩個用于回答問題的股價走勢圖。Gemini Pro擅長專家級金融知識,能夠給出正確答案。GPT-4V由于安全風險而沒有給出明確答案。SPHNIX由于缺乏相關訓練數據無法理解此類問題。

圖片

3、機器人運動規劃

機器人規劃要求機器人能夠確定如何在給定情況下采取行動以實現特定目標。

Gemini Pro和GPT-4V都可以提供有條理且詳細的步驟,并且GPT-4V似乎比Gemini Pro給出了更合理的決定,例如電池的安裝順序,但SPHNIX無法完成手機的組裝,說明其泛化能力有限。

圖片

總結評價:都是“半斤八兩”

鑒于其卓越的多模態推理能力,Gemini確實是GPT-4V的有力挑戰者。

在大多數情況下,與GPT-4V相比,Gemini的回答準確性具有競爭力,并展示了不同的回答風格和偏好。

GPT-4V傾向于生成對感知任務更詳細的描述,并為認知任務提供深入的分析和逐步的中間推理,而Gemini更喜歡對答案提供直接而簡潔的回應,這有助于用戶快速找到相關信息。

不過,兩個模型也存在一定的共性問題,比如空間感知能力不強,復雜OCR和抽象視覺理解不理想,推理過程可能存在不自洽結果,對提示設計的魯棒性不足……在很多情況下仍然陷入困境。

所以,從現階段成果來看,兩者都點“半斤八兩”的意思。

作者最后的結論就是:

大模型的多模態能力總的來說都還有很長的路要走。

具體往哪走?

三個方面:視覺表示編碼(細粒度外觀、空間關系感知)、多模態對齊(減輕幻覺、OCR準確性)以及模型推理能力(定量處理、邏輯一致性)。

關于Gemini Pro與GPT-4V、SPHNIX的更多評估比較,請查看原論文。

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-11-05 15:13:38

AI測評

2023-12-20 15:32:02

模型數據

2023-10-17 12:34:04

2023-12-29 09:55:03

視覺模型

2009-06-26 15:09:57

.NET開發者AjaxjQuery

2023-10-04 18:42:30

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2024-02-02 21:53:58

AI訓練

2023-11-13 18:19:35

AI訓練

2023-11-20 13:53:00

數據訓練

2023-10-17 13:36:00

人工智能數據

2023-09-15 13:32:00

AI模型

2023-12-08 13:07:49

GeminiGPT-4人工智能

2024-04-14 19:53:44

2024-05-20 08:20:00

OpenAI模型

2023-10-12 13:05:00

谷歌AI

2024-05-11 07:00:00

GPT4VGemini大模型

2024-07-23 09:48:59

2025-06-03 08:22:00

模型評估視頻

2023-10-10 13:42:56

訓練數據
點贊
收藏

51CTO技術棧公眾號

亚洲永久精品大片| 亚洲欧美日韩在线观看a三区| 欧美在线一区二区三区| 亚洲a∨一区二区三区| 国产免费黄色片| 韩国av一区| 国产一区二区三区在线视频| 日韩高清在线一区二区| 免费毛片b在线观看| 国产片一区二区三区| 亚洲japanese制服美女| 欧美日韩乱国产| 日韩欧美国产精品综合嫩v| 欧美成人a∨高清免费观看| 国产免费黄视频| 欧美成人视屏| 91视频免费播放| 91色琪琪电影亚洲精品久久| 日本中文字幕第一页| 午夜影院欧美| 日韩av在线一区二区| 亚洲精品免费一区亚洲精品免费精品一区| 菠萝蜜视频在线观看www入口| 国产日本欧洲亚洲| 国产自产在线视频一区| 国产原创中文av| 亚洲午夜伦理| 久久偷看各类女兵18女厕嘘嘘| 亚洲第九十七页| 国产日韩中文在线中文字幕| 91精品1区2区| 欧美 日韩 国产 高清| 黄色片网站在线观看| 久久久五月婷婷| 国产丝袜不卡| www.色视频| 免费成人在线视频观看| 欧美综合激情网| 国产精选第一页| 亚洲欧美日韩高清在线| 亚洲美女又黄又爽在线观看| 国产成人av片| 国产在线视频欧美一区| 欧美日韩精品一区二区三区| 欧美黑人又粗又大又爽免费| 丝袜诱惑一区二区| 午夜精品久久一牛影视| bt天堂新版中文在线地址| 免费看美女视频在线网站| 国产三级精品视频| 日本亚洲自拍| 国产高清一级毛片在线不卡| 久久先锋影音av| 精品欧美日韩| 亚洲人妻一区二区三区| 99久久综合国产精品| 成人区精品一区二区| 精品久久在线观看| 国产高清无密码一区二区三区| 亚洲xxxx3d| 99久久久国产精品无码网爆| 国产一区二区福利| 亚洲free性xxxx护士白浆| 国产特黄一级片| 国产精品1024| 国产成人女人毛片视频在线| 成人小说亚洲一区二区三区 | 九九九九免费视频| 擼擼色在线看观看免费| 狠狠躁天天躁日日躁欧美| 免费看又黄又无码的网站| 欧美激情20| 色94色欧美sute亚洲13| 久久精品影视大全| 亚洲欧美专区| 精品国产伦一区二区三区免费 | 69av视频在线观看| 日本美女一区二区三区视频| 国产女人精品视频| av网站免费大全| 成人高清伦理免费影院在线观看| 国产免费一区| 久草在线青青草| 国产精品美女久久久久久久久| 黄色高清视频网站| 黄色在线看片| 在线亚洲人成电影网站色www| 亚洲一区日韩精品| 中文无码日韩欧| 亚洲男人天堂网站| 国产一二三四视频| 亚洲高清免费| 国产精品一区二区三区免费视频| 99久久精品日本一区二区免费| 成人午夜激情在线| 欧美日韩高清免费| 搞黄网站在线观看| 日韩欧美黄色动漫| 久久人人爽人人片| 九一国产精品| 欧美成人中文字幕| 国产性生活视频| 国产福利91精品一区二区三区| 久久精精品视频| 欧美jizzhd欧美| 色综合咪咪久久| 在线a免费观看| 国产日韩欧美一区二区三区| 久久综合免费视频| 无码人妻久久一区二区三区不卡| 国产一区二区导航在线播放| 日韩jizzz| ****av在线网毛片| 4438x成人网最大色成网站| 免费a级黄色片| 亚洲第一偷拍| 国产精品电影在线观看| 欧美 中文字幕| 亚洲天堂精品在线观看| www.xxx亚洲| 欧美xxxx在线| 欧美大片va欧美在线播放| 日韩乱码一区二区三区| www..com久久爱| 日本天堂免费a| 日韩黄色碟片| 亚洲天堂2020| 制服.丝袜.亚洲.中文.综合懂色| 国产伦精品一区二区三区免费迷| 日韩久久精品一区二区三区| 蜜桃视频动漫在线播放| 日韩视频一区二区三区在线播放 | 中文字幕一区二区三区在线播放| 欧美日韩黄色一级片| 1204国产成人精品视频| 久久影视电视剧免费网站清宫辞电视 | 色七七在线观看| 老牛精品亚洲成av人片| 欧美日韩国产成人在线观看| 91精品国产乱码久久| 国产日本亚洲高清| www.国产区| 亚洲日产av中文字幕| 91精品国产一区| 全部免费毛片在线播放一个| 有码一区二区三区| 91香蕉视频免费看| 自由日本语亚洲人高潮| 91亚洲国产成人久久精品网站| 一级日本在线| 欧美午夜理伦三级在线观看| 成人黄色免费网址| 日本欧美久久久久免费播放网| 青娱乐一区二区| 欧美aaa视频| 在线视频亚洲欧美| 亚洲在线精品视频| 中文字幕亚洲一区二区av在线| 五月婷婷之婷婷| 亚洲电影影音先锋| 成人免费看片网址| 漫画在线观看av| 亚洲人成亚洲人成在线观看| 日本熟妇一区二区三区| 欧美韩国日本综合| 亚洲精品第三页| 综合激情婷婷| 国严精品久久久久久亚洲影视| 麻豆国产在线| 在线午夜精品自拍| 精品久久国产视频| 欧美日韩国产麻豆| 男人舔女人下部高潮全视频 | 久久精品一卡二卡| 欧美激情偷拍| 久久久久久亚洲精品不卡4k岛国| 黑人巨大精品| 日韩综合视频在线观看| 国产美女免费视频| 亚洲成人av电影在线| 免费无码一区二区三区| 老司机精品视频网站| 亚洲永久一区二区三区在线| 视频一区中文字幕精品| 97成人精品视频在线观看| 国产永久av在线| 51久久夜色精品国产麻豆| 国产黄色片视频| 国产日产欧美一区| 久久久久99人妻一区二区三区| 亚洲二区在线| 一本久道久久综合| 国产精品久av福利在线观看| 国产精品精品视频一区二区三区| 成人短视频在线| 日韩精品中文字| 一二三区中文字幕| 五月婷婷久久丁香| 国产精品18在线| www.欧美.com| 手机av在线网站| 久久婷婷久久| 成人在线免费高清视频| 国产欧美日韩精品高清二区综合区| 91精品久久久久久久久久久久久久| 亚洲综合影视| 在线观看日韩视频| 污视频网站在线播放| 9191精品国产综合久久久久久| 在线观看 中文字幕| 国产精品国模大尺度视频| 国产精品无码电影| 国产老妇另类xxxxx| 久久精品视频91| 影院欧美亚洲| 91社在线播放| 欧美一级精品| 快播亚洲色图| 粉嫩久久久久久久极品| 成人夜晚看av| 国产福利亚洲| 日韩av不卡在线| 成人免费图片免费观看| 欧美猛男性生活免费| av一区在线观看| 亚洲视频视频在线| 日韩欧美在线观看一区二区| 日韩一卡二卡三卡四卡| ,一级淫片a看免费| 欧美日韩在线直播| www.久久视频| 色综合天天综合网天天看片| 日本熟女一区二区| 亚洲一区在线观看免费观看电影高清| 免费成人深夜蜜桃视频| 欧美激情一区二区三区全黄| 黄色aaa视频| 91丨porny丨中文| 国产精品一区二区人妻喷水| 国产高清不卡一区二区| 一区二区三区国产好的精华液| 免费不卡在线视频| 992kp快乐看片永久免费网址| 国产精品一区毛片| 奇米影视亚洲色图| 99亚洲一区二区| 欧美精品一区二区三区三州| 在线播放一区| 五十路熟女丰满大屁股| 91久久午夜| 99热自拍偷拍| 久久久蜜桃一区二区人| 妺妺窝人体色www在线小说| 中国女人久久久| 男人靠女人免费视频网站 | 久久精品亚洲一区二区三区浴池| 日本黄色录像片| www日韩大片| 久久成人激情视频| 欧美国产精品v| 亚洲色图27p| 亚洲乱码国产乱码精品精的特点 | 91精品国产高清91久久久久久| 国产精品自拍在线| 色哟哟免费视频| 成人avav影音| 在哪里可以看毛片| 中文字幕亚洲综合久久菠萝蜜| 精品自拍偷拍视频| 亚洲综合色自拍一区| 日韩免费在线视频观看| 五月天视频一区| 天堂网一区二区| 欧美卡1卡2卡| 欧美特级特黄aaaaaa在线看| 日韩精品在线第一页| 成人午夜电影在线观看| 久久深夜福利免费观看| 91福利区在线观看| 国产suv精品一区二区| 巨大黑人极品videos精品| 91精品国产一区二区三区动漫| 风间由美一区二区av101| 欧美精品一区在线发布| 国产精品久久久久久麻豆一区软件 | 熟妇高潮一区二区三区| 亚洲无亚洲人成网站77777| 日本www在线观看视频| 国模叶桐国产精品一区| 国产综合色区在线观看| 91精品国产一区二区三区动漫 | 欧洲一区二区在线| 一区二区电影在线观看| 久久成人免费观看| 久久99九九99精品| 中文成人无字幕乱码精品区| 欧美国产视频在线| 久久这里只有精品国产| 在线亚洲免费视频| 亚洲精品一区二区三区新线路| 亚洲欧洲日韩国产| 亚洲国产精品精华素| 国产成人啪精品视频免费网| 亚洲日本视频在线| 婷婷四房综合激情五月| 精品1区2区3区4区| 九九九九九九九九| 久久久99精品久久| 久久免费公开视频| 欧美精品1区2区3区| 天堂中文在线资| 欧美床上激情在线观看| jizz久久久久久| 久久久7777| 欧美精品大片| 五月天激情播播| 久久免费精品国产久精品久久久久| 福利所第一导航| 欧美色视频在线| 日本一区高清| 国内精品久久影院| 久久wwww| 这里只有精品66| 日韩av电影一区| 亚欧洲乱码视频| 偷拍日韩校园综合在线| 亚洲精品911| 久久最新资源网| 日韩综合av| 亚洲一区二区四区| 免费久久99精品国产| 久久久久久久久久久国产精品| 亚洲黄色免费网站| 国产国语亲子伦亲子| 久久久国产精彩视频美女艺术照福利 | 免费看成人吃奶视频在线| 成人黄色大片网站| 国产成人精品三级| 全程偷拍露脸中年夫妇| 4hu四虎永久在线影院成人| 免费黄网站在线| 国产欧美日韩精品丝袜高跟鞋| 成人在线免费视频观看| 国产主播中文字幕| 国产欧美一区视频| 凹凸精品一区二区三区| 国产一区二区日韩精品欧美精品| av日韩电影| 日韩欧美国产二区| 美国一区二区三区在线播放| 东京热无码av男人的天堂| 欧美性感一区二区三区| 调教视频免费在线观看| 国产日韩在线免费| 中文在线播放一区二区| 四虎国产精品永久免费观看视频| 亚洲精品成人在线| 囯产精品久久久久久| 国语自产偷拍精品视频偷 | 欧美精品久久久久久久久46p| 91精品婷婷国产综合久久性色 | 国产精品家庭影院| 97视频免费在线| 欧美美女15p| 风间由美一区二区av101 | 一区视频免费观看| 日韩女同互慰一区二区| 92久久精品| 蜜桃av久久久亚洲精品| 欧美96一区二区免费视频| 成人信息集中地| 日韩一卡二卡三卡| 国产福利片在线观看| 欧美黄色直播| 九九视频精品免费| 国产无遮挡aaa片爽爽| 日韩国产激情在线| 国产精品蜜月aⅴ在线| 特级黄色录像片| 波多野结衣中文字幕一区二区三区| 你懂的国产在线| 精品国内亚洲在观看18黄| 51vv免费精品视频一区二区 | 欧美亚洲日本在线| 亚洲国产欧美一区二区丝袜黑人 | 色综合色狠狠综合色| 黄网页在线观看| 精品毛片久久久久久| 美国十次了思思久久精品导航| 久久久久人妻一区精品色欧美| 国产网站欧美日韩免费精品在线观看 | 亚洲精品日韩一| 日韩二区三区| 91欧美精品成人综合在线观看| 极品中文字幕一区| 女教师淫辱の教室蜜臀av软件| 精品国产污污免费网站入口| 欧美暴力调教| 国产a级片网站| 国产精品福利一区二区三区|