橫測六大頂流開源多模態大模型 | 附13大場景實例
前幾天有群友問我,目前開源多模態大模型有哪些比較強,我給了幾個最近出的幾個國內的開源模型。但老實說,真沒橫向對比過,我沒法說哪個更好。
圖片
不過,主打有求必應,這不馬上就安排上了嘛!哈哈哈哈~~
我就給大家帶來一波橫測,有7月開源的智譜的GLM-4.1V-9B-Thinking、昆侖萬維的Skywork-R1V3、階躍的Step3,還有之前開源的千問的Qwen2.5-VL-72B、書生的InternVL3-78B、百度的ERNIE-4.5-VL-424B-A47B。
總共6大開源多模態模型,我設計了13個場景進行測試,看看孰強孰弱。
疊甲環節,以下僅代表個人觀點,測試可能不全面,所以建議各位自己使用時,可以在自己的場景下用自己的數據,進行小批量測試。
切記,實踐是檢驗真理的唯一標準!
先說結論
- 開源多模態模型整體對色彩的把握程度不高,色盲測試不理想,其中step3、ernie、glm4.1-v略好
- 目標對比任務,所有模型全軍覆沒,反映出現在多模態大模型對圖片切割的顆粒度仍有一些問題;
- 數學推理、理解計算任務,skywork-r1v3較好;
- 世界知識跟訓練集相關,幾個開源模型都會將上海金茂大廈識別成上海中心大廈,應該上海中心大廈數據較多導致;
- 空間變換,普遍不好,不過skywork-r1v3看對了主視圖,增加難度后這些模型都不行;
- 表格識別任務,依舊qwen2.5-vl能出來,其他都不行;
- 圖片排序任務,只有skywork-r1v3將一副圖排序正確,但是“先菌子后小人”的排列都沒對;
- 網頁復刻任務,step3、glm4.1-v審美較好,其他可以復刻,但有點丑;
- OCR、目標識別、報告分析任務模型效果普遍偏好,個別模型效果有出入;
- skywork-r1v3在回復的時候時常是英文,尤其是think部分,要硬性增加中文回答字樣,其他模型不需要,可能和其訓練數據有關;
- 沒測視頻,視頻本質是多圖,目標對比、圖片排序、空間變換、空間邏輯等本身就考驗了多圖理解的能力。
總的來說,極度節省資源用glm4.1-v,OCR、表格解析等用qwen2.5-vl,數學/邏輯深度推理skywork-r1v3不錯,均衡internvl3,有資源部署step3,ernie有點太大了~
OCR識別
這個應該是多模態大模型最常用的一個內容,較為基礎,主要考察多模態大模型的內容提取能力,為了增加難度,上手寫體。
Prompt:請識別圖中的文本內容,言簡意賅。
來自網絡
GLM-4.1V-9B-Thinking:回答正確
圖片
Skywork-R1V3: 回答正確。
圖片
Qwen2.5-VL-72B:回答正確
圖片
InternVL3-78B:回答正確
圖片
Step3:回答正確
圖片
ERNIE-4.5-VL-424B-A47B:回答正確
圖片
表格識別
這個是我之前常測的一個內容,很多多模態大模型都不行,主考察多模態大模型的內容提取和指令跟隨能力,需要將表格圖片用HTML進行還原。
Prompt:
## Role
你是一位有多年經驗的OCR表格識別專家。
## Goals
需要通過給定的圖片,識別表格里的內容,并以html表格結果格式輸出結果。
## Constrains
- 需要認識識別圖片中的內容,將每個表格單元格中的內容完整的識別出來,并填入html表格結構中;
- 圖片中的表格單元格中可能存在一些占位符需要識別出來,例如"-"、"—"、"/"等;
- 輸出表格結構一定遵循圖片中的結構,表格結構完全一致;
- 特別注意圖片中存在合并單元格的情況,結構不要出錯;
- 對于內容較多的圖片,一定要輸出完整的結果,不要斷章取義,更不要隨意編造;
- 圖片內容需要完整識別,不要遺漏,同時注意合并單元;
- 最終輸出結果需要是html格式的表格內容。
## Initialization
請仔細思考后,輸出html表格結果。
圖片
GLM-4.1V-9B-Thinking:錯了一點點。
圖片
Skywork-R1V3:回答錯誤
圖片
Qwen2.5-VL-72B:結果正確,錯綜復雜的表格結構可以識別出來
圖片
InternVL3-78B:回答錯誤
圖片
Step3:回答錯誤
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤
圖片
理解計算
主要考察多模態大模型的內容理解能力、計算能力,上傳一個GDP表格,找到最大值并計算占比。
Prompt:找到2024年GDP值最大的省份,并且計算占全國GDP的百分之多少?
2024年總和=1340312.8
圖片
GLM-4.1V-9B-Thinking:最大值找到,但總數沒算對。
圖片
Skywork-R1V3:最大值找到,總數也算對了,牛逼。
圖片
Qwen2.5-VL-72B:最大值找到,但是總數根本沒計算,沒有理解第二題。
圖片
InternVL3-78B:最大值找到,但是總數根本沒計算,沒有理解第二題。
圖片
Step3:最大值找到,但總數沒算對。
圖片
ERNIE-4.5-VL-424B-A47B:最大值找到,但總數沒算對。
圖片
網頁復刻
上傳一個截圖,讓多模態大模型進行還原,主要考察多模態大模型的審美和代碼能力。
Prompt:請幫我1:1還原這個網頁內容,用HTML呈現。
圖片
GLM-4.1V-9B-Thinking:還原度很高
圖片
Skywork-R1V3:看起來確實在嘗試生成方塊,但是有幻覺
圖片
Qwen2.5-VL-72B:復刻出來,但有點丑
圖片
InternVL3-78B:復刻出來,但有點丑
圖片
Step3:復刻出來,樣式還不錯,但有點畫蛇添足了
圖片
圖片
ERNIE-4.5-VL-424B-A47B:復刻出來,但有點丑
圖片
報告分析
主要考察多模態大模型的內容理解能力、知識儲備的能力,上傳一個體檢報告,看看能不能分析出來問題,以及相關的注意事項。
Prompt:請幫我解讀一下報告內容。
我的報告,PS:大家都檢查檢查注意身體
我的報告,PS:大家都檢查檢查,注意身體
GLM-4.1V-9B-Thinking:分析的很詳細,給出的總結建議也很到位。
圖片
Skywork-R1V3:分析的很詳細,給出的總結建議也很到位。
圖片
Qwen2.5-VL-72B:分析的很詳細,但沒給相關的建議。
圖片
InternVL3-78B:只列出了指標,沒有給相應的總結建議。
圖片
Step3:分析的很詳細,給出的總結建議也很到位。
圖片
ERNIE-4.5-VL-424B-A47B:分析的很詳細,給出的總結建議也很到位。
圖片
目標識別
主要考察多模態模型對事物的識別能力,讓模型判斷事物是否準確、或者查東西的個數。
Prompt:圖片上是兩只狗對嗎?
圖片
圖片
Skywork-R1V3:回答正確。
圖片
Qwen2.5-VL-72B:回答正確。
圖片
InternVL3-78B:回答正確。
圖片
Step3:回答正確。
圖片
ERNIE-4.5-VL-424B-A47B:回答正確。
圖片
Prompt:告訴我桌子上菇娘兒的個數。
(好多南方的小伙伴沒吃過,超級好吃喲~)
圖片
GLM-4.1V-9B-Thinking:回答正確。
圖片
Skywork-R1V3:回答正確。
圖片
Qwen2.5-VL-72B:回答正確。
圖片
InternVL3-78B:回答錯誤。
圖片
Step3:回答正確。
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤。
圖片
目標對比
主要考察多模態模型對圖片細致內容解析及分析的能力,還有多圖對比的能力。
Prompt:找到圖片中奔跑的人,并返回行列序號,比如:幾行幾列。
正確答案是6行10列
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤,但是是最接近答案的了。
圖片
Skywork-R1V3:回答錯誤。
圖片
Qwen2.5-VL-72B::回答錯誤。
圖片
InternVL3-78B::回答錯誤。
圖片
Step3::回答錯誤。
圖片
ERNIE-4.5-VL-424B-A47B::回答錯誤。
圖片
Prompt:找到不開心的小恐龍,并返回行列序號,比如:幾行幾列。
正確答案是11行1列
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤,沒有不開心的小恐龍,哈哈哈哈。
圖片
Skywork-R1V3:回答錯誤。
圖片
Qwen2.5-VL-72B:回答錯誤。
圖片
InternVL3-78B:回答錯誤。
圖片
Step3:回答錯誤。
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤。
圖片
Prompt:找不兩幅圖片之間的15處差異。
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤,部分不一樣的地方是對的,但是有的地方在瞎答。
圖片
Skywork-R1V3:回答錯誤,部分不一樣的地方是對的,但是描述大多數是錯的。
圖片
Qwen2.5-VL-72B:回答錯誤,感覺在亂回答
圖片
InternVL3-78B:回答錯誤,部分不一樣的地方是對的,但是描述大多數是錯的。
圖片
Step3:回答錯誤,部分不一樣的地方是對的,但是描述大多數是錯的。
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤,部分不一樣的地方是對的,但是描述大多數是錯的。
圖片
數學做題
數學題是必測了,主要是看多模態大模型的數學能力,測試2025年高考題。
Prompt:解題
圖片
GLM-4.1V-9B-Thinking:前兩問正確,最后一問錯誤,應為3√3+3√2
圖片
Skywork-R1V3:前兩問正確,最后一問錯誤
圖片
Qwen2.5-VL-72B:前兩問正確,最后一問錯誤
圖片

InternVL3-78B:第一問正確,后兩問錯誤
圖片

Step3:第一問正確,后兩問錯誤
圖片
ERNIE-4.5-VL-424B-A47B:第一問正確,后兩問錯誤。
圖片

圖片排序
主要考察多模態模型能否理清多張圖片之間邏輯關系的,能否理解世界事件發展的規律。
Prompt:根據圖中顯示的多個場景,將最有可能發生的事件按順序排列。
正確答案CADB,走到商店,買雪糕,滑倒,打到臉上
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤
圖片
Skywork-R1V3:回答正確
圖片
Qwen2.5-VL-72B:回答錯誤
圖片
InternVL3-78B:回答錯誤
圖片
Step3:回答錯誤
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤
圖片
Prompt:根據圖中顯示的多個場景,將最有可能發生的事件按順序排列。
正確答案CDAB,有蘑菇,采摘并吃掉,有點暈,產生了幻覺蘑菇會走了
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤
圖片
Skywork-R1V3:回答錯誤
圖片
Qwen2.5-VL-72B:回答錯誤
圖片
InternVL3-78B:回答錯誤
圖片
Step3:回答錯誤
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤
圖片
空間邏輯
考察多模態模型在理解圖片的基礎上進行深度的邏輯分析,直接上考公邏輯題了。
Prompt:請回答。
正確答案為A。
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤。
圖片
Skywork-R1V3:回答錯誤。
圖片
Qwen2.5-VL-72B:回答錯誤。
圖片
InternVL3-78B:回答正確。
圖片
Step3:回答錯誤。
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤。
圖片
空間變換
考察多模態模型對圖像的空間轉換能力。
Prompt:請回答。
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤
圖片
Skywork-R1V3:回答正確。
圖片
Qwen2.5-VL-72B:回答錯誤。
圖片
InternVL3-78B:回答錯誤。
圖片
Step3:回答錯誤。
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤。
圖片
Prompt:請回答,哪個選項的六面體展開結果是上面的展開圖。
正確答案為D
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤。
圖片
Skywork-R1V3:回答錯誤。
圖片
Qwen2.5-VL-72B:回答錯誤。
圖片
InternVL3-78B:回答錯誤。
圖片
Step3:回答錯誤。
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤。
圖片
色盲測試
主要考察多模態大模型對顏色的識別能力。
Prompt:圖片里有數字嗎?如果有的話是什么?
正常者能讀出6,紅綠色盲者及紅綠色弱者讀成 5,而全色弱者則全然讀不出上述的兩個字。
來自網絡
來自網絡
GLM-4.1V-9B-Thinking:回答正確。
圖片
Skywork-R1V3:回答錯誤。
圖片
Qwen2.5-VL-72B:答案錯誤,但是不知道為什么回答74。
圖片
InternVL3-78B:回答錯誤。
圖片
Step3:回答正確。
圖片
ERNIE-4.5-VL-424B-A47B:回答正確。

世界知識
考察多模態大模型的世界知識能力,看到標志性建筑,是否可以判斷具體地點。
Prompt:朋友拍了一張圖片,可以告訴我他是在中國哪個城市拍的嗎?
盤錦的紅海灘,算是給家鄉打一波廣子,哈哈哈,十月真的很美~
來自網絡
GLM-4.1V-9B-Thinking:回答錯誤。
圖片
Skywork-R1V3:回答正確,就是盤錦紅海灘。
圖片
Qwen2.5-VL-72B:回答正確。
圖片
InternVL3-78B:回答錯誤。
圖片
Step3:回答正確
圖片
ERNIE-4.5-VL-424B-A47B:回答正確。
圖片
Prompt:朋友拍了一張圖片,可以告訴我他是在中國哪個城市拍的嗎?
上海金茂大廈,算是標志性建筑了。
圖片
GLM-4.1V-9B-Thinking:回答錯誤。
圖片
Skywork-R1V3:回答錯誤。
圖片
Qwen2.5-VL-72B:回答錯誤,是上海金茂大廈,不是上海中心大廈
圖片
InternVL3-78B:
圖片
Step3:回答錯誤
圖片
ERNIE-4.5-VL-424B-A47B:回答錯誤
圖片
寫在最后
整體測下來,各大開源多模態模型在基礎任務上的表現已經可圈可點,
但在空間理解、圖像推理、細節對比等高階任務中,仍存在明顯短板,特別是在圖像切割的精度、目標對比、空間邏輯鏈條推理上,尚有一段路要走。
不過,該說不說,現在開源大模型已經越來越好了,國內可用得開源模型GLM、Qwen、Skywork、InternVL、Step等等等,已經比較多了。
更重要的是,這些開源模型不僅意味著技術平權,也意味著生態自由。國產開源大模型,已經不是有沒有得用得階段,現在是選哪個更合適的階段了。
國內的開源大模型,現在已經是世界開源頂流了,應該沒人反對吧!
連openai都有開源模型了(網傳泄露),應該是因為國內的一些開源模型,感受到壓力了吧。





























