開源即屠榜!UniME多模態框架登頂MMEB全球訓練榜,刷新多項SOTA紀錄
告別CLIP痛點,更懂語義關聯的跨模態理解新SOTA來了!
格靈深瞳、阿里ModelScope團隊,以及通義實驗室機器智能團隊聯合發布通用多模態嵌入新框架UniME,一經推出就刷新MMEB訓練榜紀錄。

△圖片于2025年5月6日08:00 UTC+8截取
UniME作為一個創新性的兩階段框架,所展現的卓越的組合理解力,幫助MLLMs具備學習適用于各種下游任務的判別性表征的能力,并在多個任務中達到了新的SOTA。

目前,該項目已開源,可點擊文末鏈接一鍵獲取~

以下是UniME的更多相關細節。
UniME訓練框架拆解
第一階段:文本判別知識蒸餾
- 訓練
受E5V等之前研究的啟發,研究團隊第一階段選擇使用純文本數據來增強了MLLM中LLM語言組件的嵌入能力。
由于LLM采用自回歸解碼器架構,因果掩碼機制會從本質上限制了它們的判別能力。
為了解決這一限制,團隊引入了如圖所示的文本判別知識蒸餾。

△文本判別知識蒸餾階段的框架
從最先進的基于LLM的嵌入模型NV-Embed V2(該模型在對比訓練中移除了因果注意力掩碼并使用多個多樣化的數據集進行訓練)中轉移知識。
具體來說,團隊首先將LLM組件從MLLM架構中分離出來,并使用嵌入提示處理僅文本輸入:“ Summary the above sentences in one word: \n”。

隨后,通過最小化教師模型和學生模型嵌入之間的Kullback-Leibler(KL)散度來實施判別性分布對齊:
其中T是用來軟化分布表示的溫度超參數。
通過在一個批次內不同樣本之間的關系蒸餾,該方法在相同數據和訓練條件下相較于直接使用對比學習在下游任務中展示出顯著的性能提升。
- 推理
在訓練階段,此方法僅使用純文本輸入,并單獨優化多模態語言模型架構中的語言模型組件,同時保持其他參數不變。
在推理時,恢復原始的視覺編碼器和投影層,以啟用多模態處理。
對于單模態輸入(文本或圖像),使用特定于模態的標準化提示。
對于圖文交錯的輸入,獨立處理每種模態及其相應的提示,并通過元素級求和聚合嵌入從而得到最終的多模態表示。
第二階段:困難負樣本增強指令微調
在完成文本判別知識蒸餾截斷的訓練后,UniME已經具備了初步的判別能力但表現出較弱的視覺敏感性,這種不敏感導致圖文對齊出現偏差,并限制了判別性能。
此外,第一階段使用的通用指令提示限制了UniME在復雜檢索任務中的效果。
為了解決這些限制,研究人員引入了一個額外的困難負例增強指令調整階段,該階段目的在于:
1. 進一步增強模型判別能力。
2. 改善模型跨模態對齊。
3. 加強下游任務中的指令跟隨能力。

△困難負樣本增強指令微調階段的框架
- 錯誤負樣本污染
訓練批次中錯誤負樣本的存在妨礙了在標準InfoNCE損失下有效區分困難負樣本。

- 困難負樣本采樣
困難負樣本在標簽上與正樣本不同但在向量空間中非常接近,這類具有挑戰性的樣本能夠在對比學習過程中顯著增強模型的判別能力。
相比之下,簡單負樣本產生的梯度微不足道,對學習過程的貢獻極小。
因此團隊提出一種困難負樣本采樣策略,旨在優化訓練效率和判別性能。

訓練食譜
- 第一階段:文本判別知識蒸餾
團隊采用QLoRA對大型語言模型組件進行參數高效的微調。
這一階段僅使用純文本輸入并僅訓練極少的參數(通常不超過總數的5%),完整訓練Phi3.5-V和LLaVA-1.6分別需要大約1小時和2小時。
- 第二階段:困難負樣本增強指令微調
為了克服較大批量MLLM訓練時的GPU內存限制,研究人員采用了兩種策略:
- 參照VLM2Vec,使用了GradCache梯度緩存技術將對比損失計算和編碼器更新的反向傳播分離;
- 采用QLoRA對MLLM內所有參數進行參數高效的微調。
將這兩種策略進行組合有效地促進了訓練效率同時顯著降低訓練時的內存開銷。
實戰性能全驗證
訓練數據
研究人員在第一階段的文本判別知識蒸餾中使用了Natural Language Inference(NLI)數據集,該數據集包含約273k個句子對。
對于困難負例增強指令調優階段,使用了MMEB基準提供的訓練數據集,涵蓋了四個核心多模態任務:分類、視覺問答、多模態檢索和視覺定位。
這一全面的訓練語料庫,結合了單模態和多模態輸入數據,共計662k經過精心策劃的訓練對,確保了模型在多樣化的多模態任務中的穩健適應。
下游評測
團隊評估了MMEB中的分布內(20個測試集)和分布外(16個測試集)基準,以評估UniME在多樣化檢索任務中的多模態嵌入能力。
為了進一步檢驗UniME的單模態嵌入性能,研究人員在多個跨模態檢索任務上進行了實驗,包括短標題圖文檢索(Flickr30K和COCO2014),長標題圖文檢索(ShareGPT4V和Urban1K),以及組合式檢索(SugarCrepe)。
實驗結果
- 多模態檢索
在表1中,展示了UniME與現有基線模型的性能對比,其中IND代表分布內數據集,OOD代表分布外數據集,報告的分數是相應數據集上平均精確度,最佳結果用粗體標出,?表示僅文本判別蒸餾的UniME,?表示文本判別蒸餾和困難負樣本增強指令調優的UniME。

△表1:MMEB基準測試結果
在相同的訓練數據和配置設置下,UniME相比E5-V在不同的基礎模型上始終展示出顯著的性能提升。
使用Phi3.5-V模型時,UniME的平均性能提高了4.2%;采用LLaVA-1.6作為基礎模型時,UniME的平均性能進一步提高了4.1%。
這些顯著的性能提升主要歸功于團隊提出的文本判別知識蒸餾方法可以更有效地增強MLLM中LLM語言組件的判別能力。

如圖所示,團隊隨機從COCO中選擇50個樣本,并可視化跨模態余弦相似度矩陣。
與E5-V相比,UniME矩陣的對角線清晰度顯著增強,表明UniME學習到了更具判別性的表征。
在困難負樣本增強指令微調之后,UniME的嵌入判別能力進一步提高。
與VLM2Vec相比,UniME在Phi3.5-V和LLaVA-1.6基礎模型上分別實現了1.3%和10.3%的性能提升。
- 短-長標題跨模態檢索
如表2所示,團隊在零樣本跨模態檢索任務上評估了UniME。

△表2:零樣本文本-圖像檢索的結果
首先,在短標題數據集Flickr30K和MSCOCO上進行實驗。
在文本判別知識蒸餾階段之后,UniME的檢索性能與E5-V相當。
隨后的困難負例增強指令調優進一步提升了UniME的表現,相較于VLM2Vec提高了5.2%-11.3%。
對于在ShareGPT4V和Urban1K數據集上的長標題檢索任務,UniME在所有指標上均表現出優越性能。
在文本判別蒸餾階段后,基于Phi3.5-V模型UniME展示了1.3%-3.8%的性能提升。
隨后通過困難負例增強指令調優的進一步增強,UniME相較于VLM2Vec提高了2.0%-8.3%。
值得注意的是,與EVA-CLIP(8B)相比,UniME在Urban1K數據集上的長標題檢索中,性能提升了14.8%和18.1%。
這一顯著增強主要源于EVA-CLIP(8B)受77文本輸入令牌長度的限制,從而嚴重阻礙了其傳達長標題完整語義信息的能力。
- 跨模態組合檢索
團隊在組合理解基準SugarCrepe上評估了UniME模型區分困難負樣本的能力。
如表2所示,UniME在所有評估指標上均展示出最佳結果。
在文本判別知識蒸餾后,基于Phi3.5-V的UniME在關系替換、對象交換和屬性添加任務中分別比E5-V表現出2.0%、1.0%和15.9%的性能提升。
在第二階段困難負例增強指令微調后,UniME的組合理解能力得到進一步增強,與VLM2Vec相比分別實現了3.9%、4.2%和9.1%的性能提升。
此外,與EVA-CLIP(8B)相比,UniME在這些任務上也顯示出了4.2%、0.6%和6.6%的提升,凸顯了其在區分困難負例方面的強大能力。
消融實驗
- 困難負樣本分析
在下圖中,展示了三種類型負樣本的訓練損失和裁剪前梯度范數:簡單負樣本(批次中最不相似的樣本),隨機負樣本(批次中隨機采樣的負樣本),以及困難負樣本(在移除正例和假負例后批次中最相似的負樣本)。

由于就簡單負樣本容易區分,模型通過學習這類數據很難增強其判別能力,因此訓練損失迅速收斂到接近零。
使用隨機負樣本,訓練損失比簡單負樣本收斂更慢,但最終接近零。
相比之下,困難負樣本帶來更大的挑戰,使得訓練損失始終保持在較高水平。
相應地,簡單負樣本的梯度范數最小,而困難負樣本的梯度范數明顯更高,相差數個數量級。
- 訓練階段的消融
團隊基于Phi3.5-V來對不同訓練階段進行了消融研究。

△表3:不同訓練階段的消融研究
如表3所示,Phi3.5-V的初始嵌入判別能力很弱。
在經過文本判別知識蒸餾后,模型在MMEB基準、短長標題跨模態檢索和組合檢索任務上分別獲得了15%、19.5%、24.9%和19.9%的性能提升。
如果僅進行第二階段負樣本增強指令微調,同一任務的性能提升分別為38.5%、17.3%、21.3%和14.0%。
值得注意的是,第二階段在MMEB基準的性能提升明顯超過第一階段,主要是由于模型在遵循下游任務復雜指令方面的能力得到了改善。
通過整合兩個訓練階段,UniME模型在所有評估的下游任務中實現了最佳性能。
- 輸出分布的可視化
為了進一步探索UniME嵌入捕獲的語義表達,使用此提示“<Image> Summary above image in one word: \n”,并在下圖中展示了不同訓練階段之前和之后,top-k下一個預測詞匯的預測概率。

團隊觀察到,在訓練之前,預測的詞匯更抽象,如“Pastoral”和“Peaceful”。
經過文本判別知識蒸餾后,詞匯轉向更具體的語義,包括“cow”、“waterfront”和“house”,盡管概率分布仍主要集中在“Farm”。
在第二階段困難負樣本增強指令微調后,概率分布在與圖像語義一致的多個詞匯上變得更加均勻,從而使嵌入能夠更準確地表達圖像的語義內容,并增強其判別能力。
論文鏈接:https://arxiv.org/pdf/2504.17432
代碼鏈接:https://github.com/deepglint/UniME
項目鏈接:https://garygutc.github.io/UniME
模型鏈接:https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B
魔搭社區:https://www.modelscope.cn/models/deepglint/UniME






























