MoCa:單向 → 雙向,多模態編碼一步到位
摘要
MoCa 通過“持續預訓練 + 異構對比學習”兩步,把單向注意力 VLM 升級為強大的雙向多模態編碼器。3B 模型即可超越 7B 基線,在 MMEB、ViDoRe-v2 等基準刷新紀錄,并顯著降低對配對標注的依賴。
TLDR:首次將 continual pre-training 引入雙向多模態表征;無標注數據也能練出 SOTA 嵌入。
Paper | https://arxiv.org/abs/2506.23115
Home | https://haon-chen.github.io/MoCa/
為什么要做 MoCa?
因果注意力的單向預測讓 VLM 難以捕獲深層跨模態語義,且對高質量圖文對高度依賴,擴展、泛化及成本都受限。MoCa 旨在:(1) 打破單向束縛;(2) 吞掉無標注數據;(3) 讓小模型也能跑大任務。
雙階段框架

- Modality-aware Continual Pre-training (CPT)
- 文本 MLM + 圖像 MAE 聯合重建。
- 30B 無標注 token→3B 模型學會雙向推理。
- Heterogeneous Contrastive Fine-tuning (CL)
- 長文檔、多圖文、純文本混批訓練。
- 任務感知采樣 + 硬負挖掘,判別力倍增。

核心組件亮點
- 跨模態雙向注意力:深度語義對齊。
- Scaling Law:數據越多→性能越穩。
- 均值池化推理:延遲低、部署易。
對比傳統方案
方案 | 訓練數據 | 注意力 | 泛化 | 成本 |
mmE5 / VLM2Vec | 高質圖文對 | 單向 | 一般 | 高 |
MoCa | 任意圖文流 | 雙向 | 強 | 低 |
實驗速覽


- MMEB:均分 71.5,較 mmE5 ↑ 1.7。
- 小模型勝出:20B CPT 后,3B≈7B 基線。
- 長文檢索:ViDoRe-v2、DocVQA 全面領先。
展望
- 跨語言多模態擴展(視頻、音頻)。
- 更高效的 CPT 調度,進一步減算力。
- 與向量數據庫深度結合,落地海量檢索場景。
MoCa 證明:生成式 VLM 也能當檢索王牌。你看好這條路線嗎?
本文轉載自???AI-PaperDaily???,作者:MIRIX AI
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















