僅0.2B就比GPT-4.1強?加州大學新指標:組合推理基準首次超越人類
前沿的人工智能模型雖然在眾多任務上取得了顯著進展,但研究發現,它們在組合推理 (compositional reasoning) 方面仍表現不佳,在多個經典基準測試上甚至低于隨機猜測水平。
加州大學河濱分校Yinglun Zhu研究團隊重新審視了這一問題,發現其根源之一在于評測指標本身——它系統性地低估了模型的真實能力。

博客鏈接:https://yinglunz.com/blogs/ttm.html
論文鏈接:https://arxiv.org/pdf/2510.07632
代碼鏈接:https://github.com/yinglunz/test-time-matching
團隊據此提出了新的GroupMatch指標,能夠挖掘被現有評測掩蓋的潛在能力,使GPT-4.1首次在Winoground基準測試上超越人類表現。
基于這一洞見,團隊進一步提出一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching(TTM),可在模型推理階段顯著提升性能。
得益于TTM,僅0.2B參數的SigLIP-B16就在MMVP-VLM基準測試上超越了GPT-4.1,刷新了當前最優結果。
研究背景
組合推理(compositional reasoning)體現了AI是否具備「舉一反三」的能力——能否將對象、屬性和關系重新組合,去理解新的情境。
像Winoground這樣的基準測試通過2×2群組設計來考察這種能力:其中兩條文本用詞相同但順序不同,每條只對應其中一張圖像。
盡管這些模型在多模態任務中表現出強大能力,但對比式視覺語言模型(VLMs)和多模態大語言模型(MLLMs)在這類基準測試中表現依然有限。
在Winoground基準測試上,即便是前沿模型的得分也遠低于人類水平(約85.5分);
此前的最佳結果僅為58.75,且是通過對GPT-4V進行scaffolding和prompt tuning實現的。
重新審視評測指標
從隨機猜測到群組匹配
加州大學河濱分校(UCR)研究團隊發現,模型在組合推理任務中的低分,部分源自評測指標本身。
當前廣泛使用的GroupScore指標過于嚴格:它要求每張圖像都與正確的文本匹配、每段文本也與正確的圖像匹配,但并不檢查整個群組的全局一致性。
只要有一次錯配,整組得分就會被判為0。
假設每組包含k張圖像和k條文本描述,GroupScore只逐一檢查圖像與文本之間的匹配情況,而忽略整體關系。
在隨機匹配下,成功率僅為 (k?1)! / (2k?1)!;當k = 2時,這個概率只有六分之一。
為解決這一問題,團隊提出了新的GroupMatch指標,用于評估群組內的整體最優匹配,而不是孤立的成對比較。
GroupMatch會考慮所有可能的匹配方式(共k!種),并選擇最可能的那一個。
這樣,在隨機猜測下的成功率提升為1 / k!——當k = 2時為二分之一,比原來的六分之一大幅提高。
更關鍵的是,如果模型能在GroupMatch下找到正確匹配,只需在測試階段對該匹配進行過擬合,就能在原始GroupScore下獲得滿分。
基于這一發現,團隊提出了一個簡單的SimpleMatch兩步法:
1. 使用 GroupMatch 選擇最可能的匹配;
2. 在測試階段對該匹配進行過擬合。

如上圖所示,SimpleMatch揭示了模型中大量「被隱藏」的潛力——它讓僅有0.2B參數的SigLIP-B16超越了此前所有結果,并使GPT-4.1首次在Winoground上超過人類表現。
Test-Time Matching
在測試階段自我迭代提升模型能力
為進一步提升模型表現,UCR研究團隊提出了一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching (TTM)。
每次迭代包括三個步驟:
1. 模型對所有群組進行匹配預測;
2. 僅保留置信度高的匹配(即得分差距超過閾值)作為偽標簽,并在這些偽標簽上自我微調;
3. 隨著迭代進行,逐步放寬閾值,以納入更多樣本。
TTM的核心在于兩點:
1. 基于GroupMatch的偽標簽能更有效地利用群組結構,提供更強的監督信號;
2. 閾值的逐步衰減機制讓模型先從高置信數據學習,再逐步擴展覆蓋范圍。
這一算法可以看作測試時訓練 (test-time training) 的一種形式,結合了自訓練 (self-training)、半監督學習 (semi-supervised learning) 和主動學習 (active learning) 的思想。
從實驗結果來看,TTM在多個數據集和模型上都穩定優于 SimpleMatch:相對性能提升最高可達 10.5%,相對錯誤率下降54.8%
值得注意的是,TTM讓SigLIP-L16在ColorSwap數據集上提升至GPT-4.1的水平,并使SigLIP-B16(僅0.2B參數)在MMVP-VLM上超越GPT-4.1,刷新了當前最優結果。

TTM的廣泛適用性
雖然前面的結果主要基于方形群組(k×k)的組合推理任務,但TTM同樣適用于矩形群組,甚至是沒有群組結構的數據集。
指標變化不帶來提升的情況
在只有1×k結構的群組中,GroupMatch與GroupScore等價,因此單純更換指標并不會改進結果。
即便如此,TTM在SugarCrepe和WhatsUp等數據集上依然帶來了顯著提升,其中在WhatsUp上的相對增幅高達85.7%,讓原本困難的任務變得可解。

無群組結構的情況
TTM還能將整個數據集視為一個全局的「圖像-文本匹配問題」(assignment problem),并在多項式時間內求解。
即使將Winoground、MMVP-VLM和ColorSwap等數據集全部「打平」為無群組結構,TTM依然能顯著提升表現,最高可帶來33.3%的相對錯誤率下降。

討論與展望
UCR研究團隊重新審視了多模態模型在組合推理上的長期難題,指出:許多被認為的「失敗」,其實源自評測指標的局限。
團隊提出的GroupMatch指標與Test-Time Matching (TTM) 算法表明,模型的組合推理能力早已存在——只需要在測試階段,用合適的方法將其「解鎖」。
在覆蓋16個不同數據集變體的系統實驗中,TTM在多種設置下都展現出穩定而顯著的改進,推動了多模態推理研究的前沿進展。
展望未來,團隊認為有兩個方向值得進一步探索:
- 重新思考模型評估:同一個模型在不同指標下可能表現出截然不同的能力,這提醒我們需要建立更穩健、更統一的評測框架。
- 將TTM推廣至組合推理之外:雖然TTM起源于組合推理,但它的核心思想——在測試階段進行匹配式自訓練——具有普適性。該思路有望在更廣泛的多模態和語言任務中發揮作用,推動AI模型邁向真正的「自適應、自進化」。






























