8B硬剛72B!MiniCPM-V 4.5技術報告正式出爐
行業首個具備“高刷”視頻理解能力的多模態模型MiniCPM-V 4.5的技術報告正式發布!

報告提出統一的3D-Resampler架構實現高密度視頻壓縮、面向文檔的統一OCR和知識學習范式、可控混合快速/深度思考的多模態強化學習三大技術。
基于這些關鍵技術,MiniCPM-V 4.5在視頻理解、圖像理解、OCR、文檔解析等多項任務上達到同級SOTA水平,不僅以8B的參數規模超越GPT-4o-latest和Qwen2.5-VL-72B,更在推理速度上具有顯著優勢。
模型一經開源,就廣受社區好評,并直接登上HuggingFace Trending TOP2。
截至目前,MiniCPM-V 4.5在HuggingFace、ModelScope兩大平臺合計下載量超22萬。
接下來,就和我們一起看看報告里講了什么。
研究背景
隨著多模態大模型的迅速發展,其在模型架構、數據工程和訓練方法上的高昂成本和效率瓶頸,正成為其廣泛應用和技術迭代的核心障礙。
而在移動設備和邊緣計算場景中,如何在保持出色性能的同時實現高效推理,給多模態模型研究和應用提出了更加嚴峻的挑戰。
總的來說,MiniCPM-V 4.5通過系統性的技術創新攻克三大效率難題:
- 針對模型架構:為解決處理圖像與視頻時產生的海量視覺Token,團隊采用了統一3D-Resampler架構,大幅降低了視覺編碼的Token開銷,實現最高96倍的壓縮率。在VideoMME上,團隊以相比Qwen2.5-VL7B僅46.7%的顯存和8.7%的時間開銷,獲得了30B以下參數量模型的最優性能。
- 針對訓練數據:為解決多模態文檔處理中對不可靠外部解析工具的依賴和OCR數據工程設計難題,團隊提出了統一文檔OCR與知識學習的新范式,使模型能直接從復雜文檔圖像中學習,顯著降低了數據噪聲和數據工程復雜度。最終在OmniDocBench上取得了通用MLLM中的最好表現。
- 針對訓練方法:為平衡深度思考與日常即時使用兩種需求,團隊使用了混合強化學習策略。該策略在節省30%訓練開銷的同時實現了強大的思考能力,并且推理耗時僅為同規格深度思考模型的42.9%-68.2%,在快速響應與全面分析間取得了可控平衡。
統一的3D-Resampler架構實現高密度視頻壓縮
Takeawys:
- 時間-空間 統一聯合壓縮可充分挖掘多模態數據的冗余性,實現更的高視覺壓縮率。
- 統一的視覺架構可促進感知能力從圖像到視頻的無縫遷移。

傳統多模態模型在處理視頻時面臨的核心挑戰是性能與效率的權衡。
為突破這一困境,MiniCPM-V 4.5引入了創新的3D-Resampler架構。它不再將視頻視為獨立的靜態幀序列,而是同時在時空方向上壓縮,利用連續幀間的高度冗余信息,實現了革命性的效率提升。
該架構能將6個連續的視頻幀(448×448分辨率)高效壓縮為僅64個視覺Token,實現了驚人的96倍視覺壓縮率,而多數主流模型處理同等數據需消耗1,536Token。這一設計讓模型在不增加語言模型計算成本的前提下,能夠感知和處理更多視頻幀,且能獲得更好的視頻理解能力。

更重要的是,3D-Resampler實現了圖像與視頻處理的統一編碼,確保了知識和能力的無縫遷移。
一個有力的證明是,盡管沒有經過專門的視頻OCR數據訓練,模型依然展現出良好的視頻OCR能力。
同時,由于統一的架構設計和參數共享,從2D擴展至3D-Resampler僅需一個輕量化的SFT階段,極大地降低了訓練成本。
高效知識學習:面向文檔的統一OCR和知識學習范式
Takeawys:
對文檔圖像文本進行不同程度的可見性擾動,即可將知識學習、OCR 能力高效地統一到單個學習目標中。
多模態模型在處理文檔時,普遍采用兩種獨立的低效方法。
一方面,文檔知識學習高度依賴脆弱的外部解析工具,不僅效率低下,解析錯誤還常常引入噪聲,需要大量數據工程進行修復。
另一方面,OCR能力學習雖受益于數據增強,但過度的圖像擾動又會導致文字無法辨認,反而誘發模型產生幻覺。
對于以上困難,團隊提出一條核心洞察:
文檔知識獲取和文字識別的關鍵區別,僅在于圖像中文字的可見度。
基于此,MiniCPM-V 4.5使用了一種統一的OCR和知識學習范式:對文檔圖像中的文字區域施加不同程度的損壞,利用“從損壞圖像中重建原文”這一學習目標同時學習兩種任務。如下圖所示,通過控制損壞程度,團隊創造了三種任務:
- 輕微損壞(可靠OCR訓練):文字尚可辨認,模型專注于學習準確、魯棒的文字識別。
- 中度損壞(綜合推理):字符變得模糊,模型可以結合框內視覺線索和上下文進行綜合推理和重建原文。
- 高度損壞(知識學習):文字被完全抹除,模型被強制依賴上下文圖表和文字以及模型內部知識來重建原文,從而實現真正的文檔級理解。

這一方法徹底擺脫了對外部解析器的依賴,杜絕了其引入的噪聲和工程負擔。
同時,它智能地將知識學習和OCR目標無縫融合在同一訓練批次中,極大地提升了數據利用率和訓練效率。
團隊在輕量訓練設置下對該學習范式進行了消融驗證,結果說明面向文檔的統一OCR和知識學習范式有效提升了模型在文檔理解、知識推理、文字識別上的能力:

高效強化學習:可控混合快速/深度思考的多模態強化學習
MiniCPM-V 4.5通過混合強化學習方法,實現了快速思考和深度思考兩種模式的平衡優化。
快速思考模式面向高頻日常使用場景,提供高效的推理體驗;深度思考模式則專注于復雜任務的深入分析。
模型通過少量高難度、高質量的推理樣本進行冷啟動,快速掌握深度思考所必需的反思與回溯能力。
進入強化學習階段,兩種模式被同時優化,不僅顯著增強了深度思考模式的性能,更實現了兩種模式間推理能力的交叉泛化。模型在節省約30%采樣開銷的前提下,仍能達到和僅深思考強化學習的模型相當的表現。

同時,團隊引入了RLPR與RLAIF-V兩項技術:
- RLPR解決了通用域問題的開放式回答(如答案表述相對復雜、含物理單位等)難以獲得可靠獎勵信號的痛點,從模型生成正確答案的概率中獲得獎勵信號(probability-based reward, PR)。
隨著訓練步數增加,結合PR訓練相比常規訓練方法的優勢會逐漸擴大.

- RLAIF-V有效抑制了模型的幻覺現象,通過逐個檢驗模型輸出答案中事實陳述的可靠度并構建偏好數據用于DPO,提升了多種多模態理解任務的可靠性。

評測結果
MiniCPM-V 4.5在OpenCompass綜合評測中取得了77.0的平均分。該評測涵蓋了8個主流多模態基準的綜合指標。
盡管僅有8B參數規模,模型在視覺語言能力上超越了GPT-4o-latest等廣泛使用的專有模型,以及Qwen2.5-VL72B等強大的開源模型,成為30B參數以下性能最佳的開源多模態大模型。

MiniCPM-V 4.5在提供SOTA級多模態表現的同時,具有最佳的推理效率和最低的推理開銷。
在混合思考模式下,MiniCPM-V 4.5在推理耗時僅為同規格深度思考模型的42.9%-68.2%的同時獲得了更好的OpenCompass分數。
同時,得益于高密度視頻壓縮技術,在覆蓋短、中、長三種類型的視頻理解評測集Video-MME上,MiniCPM-V 4.5時間開銷(未計算模型抽幀時間)僅為同級模型的1/10。

模型實測效果展示


One more thing
作為MiniCPM-V系列的最新成果,MiniCPM-V 4.5系統性地從架構、數據和訓練三大維度為解決多模態大模型的效率瓶頸提供了一條可行路徑。
HuggingFace 大佬表示,僅有8B參數的模型也能擅長事實糾正和思考,確實值得更多的關注。

作為清華大學自然語言處理實驗室和面壁智能聯合開發的系列模型,MiniCPM-V和MiniCPM-o系列已經獲得了廣泛的學術和產業認可。
系列模型下載量超過1300萬次,GitHub星標超過2萬次,相關技術論文發表在國際著名期刊Nature Communications上,谷歌學術引用超過600次。
系列模型曾連續多天在Hugging Face Trending、GitHub Trending和Papers With Code Trending Research榜單排名第一,入選HuggingFace2024年度最受歡迎和下載開源模型榜單、中關村論壇年會10項重大科技成果、英特爾中國學術成就獎。
技術報告地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf
GitHub:https://github.com/OpenBMB/MiniCPM-o
HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5




































