精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅0.2B就比GPT-4.1強?加州大學新指標:組合推理基準首次超越人類

人工智能 新聞
加州大學河濱分校團隊發現,AI組合推理表現不佳部分源于評測指標過于苛刻。他們提出新指標GroupMatch和Test-Time Matching算法,挖掘模型潛力,使GPT-4.1在Winoground測試中首次超越人類,0.2B參數的SigLIP-B16在MMVP-VLM基準測試上超越GPT-4.1并刷新最優結果。

前沿的人工智能模型雖然在眾多任務上取得了顯著進展,但研究發現,它們在組合推理 (compositional reasoning) 方面仍表現不佳,在多個經典基準測試上甚至低于隨機猜測水平。

加州大學河濱分校Yinglun Zhu研究團隊重新審視了這一問題,發現其根源之一在于評測指標本身——它系統性地低估了模型的真實能力。

博客鏈接:https://yinglunz.com/blogs/ttm.html

論文鏈接:https://arxiv.org/pdf/2510.07632

代碼鏈接:https://github.com/yinglunz/test-time-matching 

團隊據此提出了新的GroupMatch指標,能夠挖掘被現有評測掩蓋的潛在能力,使GPT-4.1首次在Winoground基準測試上超越人類表現。

基于這一洞見,團隊進一步提出一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching(TTM),可在模型推理階段顯著提升性能。

得益于TTM,僅0.2B參數的SigLIP-B16就在MMVP-VLM基準測試上超越了GPT-4.1,刷新了當前最優結果。

研究背景

組合推理(compositional reasoning)體現了AI是否具備「舉一反三」的能力——能否將對象、屬性和關系重新組合,去理解新的情境。

像Winoground這樣的基準測試通過2×2群組設計來考察這種能力:其中兩條文本用詞相同但順序不同,每條只對應其中一張圖像。

盡管這些模型在多模態任務中表現出強大能力,但對比式視覺語言模型(VLMs)和多模態大語言模型(MLLMs)在這類基準測試中表現依然有限。

在Winoground基準測試上,即便是前沿模型的得分也遠低于人類水平(約85.5分);

此前的最佳結果僅為58.75,且是通過對GPT-4V進行scaffolding和prompt tuning實現的。

重新審視評測指標

從隨機猜測到群組匹配

加州大學河濱分校(UCR)研究團隊發現,模型在組合推理任務中的低分,部分源自評測指標本身。

當前廣泛使用的GroupScore指標過于嚴格:它要求每張圖像都與正確的文本匹配、每段文本也與正確的圖像匹配,但并不檢查整個群組的全局一致性

只要有一次錯配,整組得分就會被判為0。

假設每組包含k張圖像和k條文本描述,GroupScore只逐一檢查圖像與文本之間的匹配情況,而忽略整體關系。

在隨機匹配下,成功率僅為 (k?1)! / (2k?1)!;當k = 2時,這個概率只有六分之一。

為解決這一問題,團隊提出了新的GroupMatch指標,用于評估群組內的整體最優匹配,而不是孤立的成對比較。

GroupMatch會考慮所有可能的匹配方式(共k!種),并選擇最可能的那一個。

這樣,在隨機猜測下的成功率提升為1 / k!——當k = 2時為二分之一,比原來的六分之一大幅提高。

更關鍵的是,如果模型能在GroupMatch下找到正確匹配,只需在測試階段對該匹配進行過擬合,就能在原始GroupScore下獲得滿分。

基于這一發現,團隊提出了一個簡單的SimpleMatch兩步法:

1. 使用 GroupMatch 選擇最可能的匹配;

2. 在測試階段對該匹配進行過擬合。

如上圖所示,SimpleMatch揭示了模型中大量「被隱藏」的潛力——它讓僅有0.2B參數的SigLIP-B16超越了此前所有結果,并使GPT-4.1首次在Winoground上超過人類表現。

Test-Time Matching

在測試階段自我迭代提升模型能力

為進一步提升模型表現,UCR研究團隊提出了一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching (TTM)

每次迭代包括三個步驟:

1. 模型對所有群組進行匹配預測;

2. 僅保留置信度高的匹配(即得分差距超過閾值)作為偽標簽,并在這些偽標簽上自我微調;

3. 隨著迭代進行,逐步放寬閾值,以納入更多樣本。

TTM的核心在于兩點:

1. 基于GroupMatch的偽標簽能更有效地利用群組結構,提供更強的監督信號;

2. 閾值的逐步衰減機制讓模型先從高置信數據學習,再逐步擴展覆蓋范圍。

這一算法可以看作測試時訓練 (test-time training) 的一種形式,結合了自訓練 (self-training)、半監督學習 (semi-supervised learning) 和主動學習 (active learning) 的思想。

從實驗結果來看,TTM在多個數據集和模型上都穩定優于 SimpleMatch:相對性能提升最高可達 10.5%,相對錯誤率下降54.8%

值得注意的是,TTM讓SigLIP-L16在ColorSwap數據集上提升至GPT-4.1的水平,并使SigLIP-B16(僅0.2B參數)在MMVP-VLM上超越GPT-4.1,刷新了當前最優結果

TTM的廣泛適用性

雖然前面的結果主要基于方形群組(k×k)的組合推理任務,但TTM同樣適用于矩形群組,甚至是沒有群組結構的數據集。

指標變化不帶來提升的情況

在只有1×k結構的群組中,GroupMatch與GroupScore等價,因此單純更換指標并不會改進結果。

即便如此,TTM在SugarCrepe和WhatsUp等數據集上依然帶來了顯著提升,其中在WhatsUp上的相對增幅高達85.7%,讓原本困難的任務變得可解。

無群組結構的情況

TTM還能將整個數據集視為一個全局的「圖像-文本匹配問題」(assignment problem),并在多項式時間內求解。

即使將Winoground、MMVP-VLM和ColorSwap等數據集全部「打平」為無群組結構,TTM依然能顯著提升表現,最高可帶來33.3%的相對錯誤率下降。

討論與展望

UCR研究團隊重新審視了多模態模型在組合推理上的長期難題,指出:許多被認為的「失敗」,其實源自評測指標的局限。

團隊提出的GroupMatch指標與Test-Time Matching (TTM) 算法表明,模型的組合推理能力早已存在——只需要在測試階段,用合適的方法將其「解鎖」。

在覆蓋16個不同數據集變體的系統實驗中,TTM在多種設置下都展現出穩定而顯著的改進,推動了多模態推理研究的前沿進展。

展望未來,團隊認為有兩個方向值得進一步探索:

  • 重新思考模型評估:同一個模型在不同指標下可能表現出截然不同的能力,這提醒我們需要建立更穩健、更統一的評測框架。
  • 將TTM推廣至組合推理之外:雖然TTM起源于組合推理,但它的核心思想——在測試階段進行匹配式自訓練——具有普適性。該思路有望在更廣泛的多模態和語言任務中發揮作用,推動AI模型邁向真正的「自適應、自進化」。
責任編輯:張燕妮 來源: 新智元
相關推薦

2025-08-15 14:53:43

2023-04-06 10:36:04

谷歌人工智能

2023-12-05 13:28:00

AI模型

2013-08-08 10:10:28

華為云存儲華為

2009-04-01 18:44:48

Vmware虛擬化存儲

2009-01-08 10:09:12

Xiotech存儲虛擬化惠普

2025-06-03 08:12:00

模型框架訓練

2024-06-27 12:45:30

2009-02-24 18:56:01

虛擬化存儲虛擬化南加州大學

2021-04-07 09:47:59

勒索軟件攻擊數據泄露

2009-01-08 17:19:28

服務器虛擬化南加州

2023-09-05 13:12:00

AI數據

2025-06-26 15:16:42

AI獎勵模型GPT-4.1

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2025-06-04 09:05:18

2025-04-16 09:30:16

2021-10-11 10:30:46

機器學習人工智能計算機

2024-08-28 10:30:00

2021-06-25 15:41:45

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

欧美精品在线免费播放| 欧美日韩国产一区二区三区| 国产精品永久免费观看| 久久福利免费视频| 91亚洲无吗| 91高清视频在线| 国产精品久久久影院| 亚洲欧美日韩免费| 久久99精品国产麻豆婷婷| 欧美国产乱视频| 日韩一区二区a片免费观看| 巨大黑人极品videos精品| 亚洲一区二区三区在线播放| 凹凸成人精品亚洲精品密奴| 亚洲成a人片在线不卡一二三区| 国产精品尤物福利片在线观看| 99re6热在线精品视频| 朝桐光av在线| 北条麻妃一区二区三区在线| 久久亚洲精品中文字幕| 性高湖久久久久久久久| 男女男精品视频| www.久久久久久.com| 一起草在线视频| av一级久久| 91福利视频久久久久| 妺妺窝人体色www看人体| 国产亚洲依依| www.亚洲精品| 亚洲一区制服诱惑| 国产美女www爽爽爽| 影院欧美亚洲| 久久99精品久久久久久青青91| 一级黄色电影片| 免费成人黄色网| 欧美性极品少妇精品网站| 日本a级片在线观看| yw视频在线观看| 久久久久久久电影| 国产精品xxx在线观看www| 国产精品嫩草影院精东| 蜜臀a∨国产成人精品| 欧美做受高潮1| 久久亚洲精品国产| 香蕉国产精品偷在线观看不卡| 操91在线视频| 一起操在线播放| 欧美高清在线| 日韩综合中文字幕| 2014亚洲天堂| 天天做天天爱天天综合网| 中文字幕在线观看亚洲| 亚洲色图第四色| 成人精品影院| 色爱av美腿丝袜综合粉嫩av | 日本小视频在线免费观看| 国产精品家庭影院| 亚洲精品中文字幕乱码三区不卡| 三级在线播放| 久久女同性恋中文字幕| 麻豆精品传媒视频| 久久精品色图| 中文字幕av一区二区三区| 一区二区精品视频| 中文字幕资源站| 久草国产精品视频| 激情婷婷亚洲| 97视频免费看| 三级网站在线播放| 美日韩一区二区| 91九色单男在线观看| 国产毛片一区二区三区va在线| 三级影片在线观看欧美日韩一区二区| 欧美精品www| 日韩成人免费在线观看| 午夜影院日韩| 国产精品偷伦视频免费观看国产 | 欧美性猛交xxxx免费看久久久| 免费一级特黄毛片| 欧美电影免费观看| 欧美日韩美少妇| 18深夜在线观看免费视频| 国产一区二区在线视频你懂的| 日韩你懂的电影在线观看| 中文字幕在线国产| 欧美极品中文字幕| 久色乳综合思思在线视频| 国产一级特黄a高潮片| 免费日韩av片| 成人在线小视频| 神马久久久久| 国产精品大尺度| 久艹视频在线免费观看| 中文字幕日本一区二区| 日韩视频免费直播| 成年人在线观看av| 国产精品毛片久久| 午夜精品美女自拍福到在线| 无码人妻精品一区二区三区蜜桃91| 日日摸夜夜添夜夜添国产精品| 国产精品久久色| 高h震动喷水双性1v1| 亚洲av片不卡无码久久| 欧美精品密入口播放| 亚洲欧美在线看| 翔田千里88av中文字幕| 午夜精品一区二区三区视频免费看| 黄色成人在线免费| 黄色三级中文字幕| 综合在线影院| 欧美成人video| 中文字幕免费在线看线人动作大片| 日韩精品水蜜桃| 久久男人av资源网站| 亚洲精品一区二区二区| 国产91精品露脸国语对白| 日本不卡一区二区三区视频| 欧美人与性动交α欧美精品济南到 | 欧美日韩高清一区二区| 久久久精品人妻一区二区三区| 国产精品男女| 日韩精品福利网站| 激情视频免费网站| 欧美三区四区| 可以免费看不卡的av网站| 国产日韩欧美视频在线| 青青视频在线观| 亚洲综合色成人| 污视频网址在线观看| 亚洲动漫精品| 日本免费福利视频| 亚洲最新色图| 国产精品一二三在线| 香蕉视频国产在线| 亚洲综合丁香婷婷六月香| 九九久久久久久| 日韩av密桃| 国产精品久久精品| 加勒比一区二区三区在线| 亚洲成人综合网站| 国产又黄又嫩又滑又白| 中文乱码免费一区二区三区下载| 国内精品免费午夜毛片| 亚洲产国偷v产偷v自拍涩爱| 日韩码欧中文字| 日本在线播放一区二区| re久久精品视频| 欧美壮男野外gaytube| 日本人妖在线| 在线中文字幕一区| 欧美偷拍一区二区三区| 日韩精品成人一区二区在线| 欧美成人第一区| 在线观看欧美日韩电影| 日韩电影免费观看在线观看| 亚洲黄色三级视频| 色爱综合区网| 欧美亚洲自拍偷拍| 日本爱爱爱视频| 青青青爽久久午夜综合久久午夜| 久久久久se| 久久人体大尺度| 国产一区二区三区中文 | 丰满大乳国产精品| 亚洲国产综合视频在线观看| 中国特级黄色大片| 一本色道精品久久一区二区三区 | 午夜精品在线视频| 色综合成人av| 欧美性生交片4| 在线观看天堂av| 国产精品一区免费在线观看| 超碰超碰超碰超碰超碰| aiai久久| 日韩av免费网站| 日韩免费网站| 精品免费一区二区三区| 国产 欧美 日韩 在线| 久久久久久久性| 亚洲精品自拍网| 欧美精品日本| 欧美重口乱码一区二区| 亚洲伦理久久| 国内精品久久久久| 一级毛片视频在线| 精品少妇一区二区三区在线播放 | 国产精品地址| 欧美区高清在线| 亚洲精品大全| 2019中文字幕在线观看| 美女隐私在线观看| 亚洲电影av在线| 欧美亚洲在线播放| 亚洲天堂手机版| 一区二区三区国产精品| 97超碰在线免费观看| 激情五月激情综合网| 欧美一级视频在线播放| 日本不卡高清| 国产精品一区视频| 美女久久久久久| 国产91成人video| 免费黄色在线网站| 亚洲欧美日韩第一区| 99久久亚洲精品日本无码| 欧美日韩国产在线看| 青花影视在线观看免费高清| 91捆绑美女网站| 性生活一级大片| 日韩和欧美一区二区| 国产毛片久久久久久国产毛片| 女同另类激情重口| 亚洲精品欧美一区二区三区| 欧美gay视频| 欧美日韩国产成人在线| www.黄在线观看| 亚洲精品美女久久 | 91精品国产一区二区| 国产污视频网站| 性欧美疯狂xxxxbbbb| 日本中文在线视频| 亚洲国产精品精华液ab| 黄色a一级视频| 丁香啪啪综合成人亚洲小说 | 国产在线播放一区三区四| 久久久久久久久久久久久国产精品| 亚洲欧美在线专区| 亚洲视频在线二区| 激情婷婷综合| 欧美日韩一区综合| 欧美综合精品| 国产一区再线| 国语一区二区三区| 91人人爽人人爽人人精88v| 国产香蕉久久| 国产精品亚洲第一区| 欧美色网在线| 国产福利精品av综合导导航| 中文在线免费二区三区| 91精品国产沙发| free性欧美16hd| 久久久免费在线观看| 特级毛片在线| 欧美激情免费在线| a毛片在线播放| 欧美成人久久久| 国产美女福利在线| 日韩精品永久网址| 国产精品日日摸夜夜添夜夜av| 国产网红在线观看| 久久久久久中文字幕| 久草成色在线| 高清一区二区三区日本久| 波多野结衣乳巨码无在线观看| 久久在精品线影院精品国产| a级片国产精品自在拍在线播放| 色偷偷偷综合中文字幕;dd| www.亚洲视频| 久久久国产精品x99av| 色三级在线观看| 久久久国产91| 国产精品探花在线| 91精品国产高清| 日韩电影网站| 国产自产女人91一区在线观看| 欧美黄色网络| 99视频在线免费观看| 激情av综合| 日韩偷拍一区二区| 亚洲第一天堂| 日韩中字在线观看| 久久精品综合| 天天视频天天爽| 福利91精品一区二区三区| 波多野结衣先锋影音| 国产欧美精品区一区二区三区 | 色综合色综合色综合| 欧美一级黄视频| 日韩午夜激情电影| 天堂av中文在线资源库| 中文字幕视频在线免费欧美日韩综合在线看 | 欧美日韩在线精品| 不卡视频在线| 免费一级淫片aaa片毛片a级| 亚洲一级在线| 五月天婷婷影视| av中文字幕不卡| ass极品国模人体欣赏| 亚洲精品免费播放| 美日韩一二三区| 5858s免费视频成人| 成 人 黄 色 片 在线播放 | 国外av在线| 欧美人在线观看| 久久午夜鲁丝片午夜精品| 亚洲性图久久| 能看的毛片网站| 国产成人在线影院| 谁有免费的黄色网址| 亚洲综合精品自拍| 中文字幕乱码一区二区| 欧美不卡一区二区三区四区| 蜜桃免费在线| 欧美激情视频一区二区| 国产一区一一区高清不卡| 国产精品久久精品视| 日韩欧美在线中字| 中国丰满人妻videoshd | 亚洲国产你懂的| 一区二区日韩在线观看| 日韩国产欧美精品一区二区三区| 91九色在线porn| 88国产精品欧美一区二区三区| 78精品国产综合久久香蕉| 国产精华一区| 国产精品福利在线观看播放| 亚洲色欲综合一区二区三区| 风间由美性色一区二区三区| 91成人精品一区二区| 香蕉加勒比综合久久| 国产精品自产拍| 中文字幕免费精品一区高清| 蜜臀久久精品| 国产精品一 二 三| 欧美一区二区三区久久精品茉莉花| 欧美精品无码一区二区三区| 不卡高清视频专区| 欧美高清视频一区二区三区| 欧美久久久久中文字幕| www免费网站在线观看| 国产成人精品综合久久久| 亚洲69av| 免费在线观看毛片网站| 91香蕉视频污| 国产一级做a爱片久久毛片a| 欧美v日韩v国产v| 中文字幕伦理免费在线视频| 成人黄色短视频在线观看| 欧美a级成人淫片免费看| 久久久国产欧美| 国产欧美在线观看一区| 中文字幕永久在线| 在线一区二区日韩| 看片一区二区| 少妇高潮流白浆| 国产精品88av| 欧美精品一区二区蜜桃| 欧美zozo另类异族| 97人人在线视频| 精品久久中出| 欧美亚洲自偷自偷| 黄色三级生活片| 欧美日本韩国一区二区三区视频| 国产三级视频在线| 国产精品久久久久久搜索| 日本a口亚洲| 手机av在线网站| 一区二区三区久久| 人人妻人人澡人人爽久久av| 久久久之久亚州精品露出| 国产精品玖玖玖在线资源| 日韩中文字幕网站| 国产精品久久久久久久久久精爆| 欧美一区二区黄色| 爱福利在线视频| 久久久久久久久久久久久久久久av| 中国女人久久久| 能免费看av的网站| 精品视频免费在线| 国产黄色在线观看| 国产乱子伦精品| 视频精品一区二区| 手机在线中文字幕| 精品国产自在久精品国产| 欧美巨大丰满猛性社交| 神马影院我不卡午夜| 激情综合色综合久久| 国产一级av毛片| 亚洲欧美综合精品久久成人| 国产亚洲精彩久久| 精品少妇人欧美激情在线观看| 不卡一区在线观看| 99久久久无码国产精品免费蜜柚| 在线亚洲午夜片av大片| 日韩一区二区三区精品| 久久国产亚洲精品无码| 亚洲欧洲日韩综合一区二区| 亚洲av综合色区无码一区爱av| 91地址最新发布| 午夜av一区| 在线免费观看日韩av| 在线不卡一区二区| 亚洲校园激情春色| 久久免费一级片| 国产欧美日韩视频一区二区| 亚洲第九十九页| 国产精品丝袜高跟| 一本久道久久久| 中国毛片直接看| 日韩国产在线看|