智譜開源的GLM4.5V到底行不行?掏出祖傳多模態理解測試!
7月就很卷了,見國內開源大模型整理,8月沒想到依然卷。
從一開始的騰訊開源小模型,到Qwen開源Image模型,再到小紅書dots.vlm1、面壁MiniCPM-V 4.0,然后今天智譜又發布了GLM4.5V。
對,就這樣卷,利好開源社區、利好我們這些開發者!
那么今天來看看這個GLM4.5V模型到底如何?先上測試,再聊模型細節!
測試除了OCR識別、表格識別、理解計算、網頁復刻、報告分享、目標識別、目標對比、數學做題、圖片排序、空間邏輯、空間變換、色盲測試、世界知識這13個場景之外,額外還增加了Grounding & GUI使用。
智譜GLM4.5基座模型的表現可圈可點,GLM4.5V基于GLM4.5基座模型訓練,實測下來已經是開源多模態大模型Top行列。
- GLM4.5V對色彩的把握程度較高,相較于GLM4.1V有很大提升,同時優于現有多模態開源模型;
- Grounding&GUI Agent很強,有點東西,在目標對比任務出不來的時候,換成Grounding模式,可以有很大提高;
- 表格識別任務,有提升,能跟Qwen2.5-VL打平,但是現在表格識別還是需要那種專門模型效果會更好;
- 網頁復刻任務、ORC任務、目標識別、報告分析任務依舊很好,其他多模態模型在這些任務上也不錯。
- 圖片排序任務變好,第一個可以出來,第二個“先菌子后小人”確實有點難了,會有一些歧義。
- 空間變換、空間邏輯不行,但是其他大模型也都不好,所以這部分,是多模態大模型需要繼續提高的內容。
- 世界知識也相較于之前4.1有很大提高。
- 還有視頻理解效果也很好。
相較于我上次橫測對比,現在ORC、表格解析、文檔解讀、Grounding&GUI我現在會更傾向于GLM4.5V了。

https://mp.weixin.qq.com/s/AQfBPZZW60pnZddWGMS4Zg
OCR識別
Prompt:請識別圖中的文本內容,言簡意賅。

GLM-4.5V:回答正確

表格識別
這個是我之前常測的一個內容,很多多模態大模型都不行,主考察多模態大模型的內容提取和指令跟隨能力,需要將表格圖片用HTML進行還原。
Prompt:
## Role
你是一位有多年經驗的OCR表格識別專家。
## Goals
需要通過給定的圖片,識別表格里的內容,并以html表格結果格式輸出結果。
## Constrains
- 需要認識識別圖片中的內容,將每個表格單元格中的內容完整的識別出來,并填入html表格結構中;
- 圖片中的表格單元格中可能存在一些占位符需要識別出來,例如"-"、"—"、"/"等;
- 輸出表格結構一定遵循圖片中的結構,表格結構完全一致;
- 特別注意圖片中存在合并單元格的情況,結構不要出錯;
- 對于內容較多的圖片,一定要輸出完整的結果,不要斷章取義,更不要隨意編造;
- 圖片內容需要完整識別,不要遺漏,同時注意合并單元;
- 最終輸出結果需要是html格式的表格內容。
## Initialization
請仔細思考后,輸出html表格結果。
GLM-4.5V:對了對了,牛逼的。

再測試一個,

GLM-4.5V:回答正確。

報告分享
主要考察多模態大模型的內容理解能力、知識儲備的能力,上傳一個體檢報告,看看能不能分析出來問題,以及相關的注意事項。
Prompt:請幫我解讀一下報告內容。

GLM-4.5V:分析的很詳細,給出的總結建議也很到位。

理解計算
主要考察多模態大模型的內容理解能力、計算能力,上傳一個GDP表格,找到最大值并計算占比。
Prompt:找到2024年GDP值最大的省份,并且計算占全國GDP的百分之多少?
2024年總和=1340312.8

GLM-4.5V:最大值找對了,廣東數值也是對的,但是總數沒算對,差了一點點。

Grounding & GUI 使用
考驗模型識別&定位的能力
Prompt:打開微信。

目標識別
主要考察多模態模型對事物的識別能力,讓模型判斷事物是否準確、或者查東西的個數。
Prompt:圖片上是兩只狗對嗎?

GLM-4.5V:回答正確。

Prompt:告訴我桌子上菇娘兒的個數。

GLM-4.5V:回答正確。

目標對比
主要考察多模態模型對圖片細致內容解析及分析的能力,還有多圖對比的能力。
Prompt:找到圖片中奔跑的人,并返回行列序號,比如:幾行幾列。
正確答案是6行10列

GLM-4.5V:回答錯誤,行數不對。

然后我又試了一下Grounding問法,看看能不能標記出來,結果讓我大吃一驚,對于4.5V來說,對比可能更難,但是還是可以找到不同的。
回答:正確,找到了奔跑的人

Prompt:找到不開心的小恐龍,并返回行列序號,比如:幾行幾列。
正確答案是11行1列和11行6列

GLM-4.5V:回答錯誤。

回答:錯誤,小恐龍這個需要用嘴是否是平的來找,確實有點難了

Prompt:找不兩幅圖片之間的15處差異。

GLM-4.5V:回答錯誤,前幾個回答的有模有樣,但是到后面會出現一些幻覺,整體來說結果比4.1要好,比其他幾個開源模型要好。

Grounding模式回答:找到了大部分,比純文本回答更加清晰

數學做題
數學題是必測了,主要是看多模態大模型的數學能力,測試2025年高考題。
Prompt:解題

GLM-4.5V:前兩問正確,最后一問錯誤,應為3√3+3√2,這最后一問,還沒看到多模態模型能對得。

網頁復刻
上傳一個截圖,讓多模態大模型進行還原,主要考察多模態大模型的審美和代碼能力。
Prompt:請幫我1:1還原這個網頁內容,用HTML呈現。

GLM-4.5V:東西都有,復刻的不錯。

圖片排序
主要考察多模態模型能否理清多張圖片之間邏輯關系的,能否理解世界事件發展的規律。
Prompt:根據圖中顯示的多個場景,將最有可能發生的事件按順序排列。
正確答案CADB,走到商店,買雪糕,滑倒,打到臉上

GLM-4.5V:回答正確

Prompt:根據圖中顯示的多個場景,將最有可能發生的事件按順序排列。
正確答案CDAB,有蘑菇,采摘并吃掉,有點暈,產生了幻覺蘑菇會走了

GLM-4.5V:回答錯誤,但仔細想了一下,說的也有道理,不過我還是有點堅持,畢竟蘑菇只有在幻覺的情況下,才會變成小人~

空間變換
考察多模態模型對圖像的空間轉換能力。
Prompt:請回答。
答案為B。

GLM-4.5V:回答正確。

Prompt:請回答。

GLM-4.5V:回答錯誤

色盲測試
Prompt:圖片里有數字嗎?如果有的話是什么?

正常者能讀出6,紅綠色盲者及紅綠色弱者讀成 5,而全色弱者則全然讀不出上述的
GLM-4.5V:回答正確。

Prompt:圖片里有數字嗎?如果有的話是什么?
色覺正常的人能清楚地從圖中看出數字74,紅綠色盲者會看到21,而全色盲者可能看不出數字。

GLM-4.5V:回答正確。

空間邏輯
考察多模態模型在理解圖片的基礎上進行深度的邏輯分析,直接上考公邏輯題了。
Prompt:請回答。
正確答案為A。

GLM-4.5V:回答錯誤。

Prompt:請回答。
正確答案為A。

GLM-4.5V:回答正確。

世界知識
考察多模態大模型的世界知識能力,看到標志性建筑,是否可以判斷具體地點。
Prompt:朋友拍了一張圖片,可以告訴我他是在中國哪個城市拍的嗎?
盤錦的紅海灘,給家鄉打一波廣子~

GLM-4.5V:回答正確。

Prompt:朋友拍了一張圖片,可以告訴我他是在中國哪個城市拍的嗎?
上海金茂大廈,算是標志性建筑了。

GLM-4.5V:回答錯誤,識別成了天津的周大福金融中心。

我就好奇,然后搜了一下,還真別說,從仰視圖來看,還真的很難區別,這種就靠訓練數據了,battle一下吧!

聊聊回GLM4.5V
GLM-4.5V模型,由視覺編碼器(AIMv2-Huge)、MLP 適配器和語言解碼器(位置編碼3D-RoPE)三部分組成,總參數 106B,激活參數 12B,沿用GLM-4.1V-Thinking的結構,同時是混合推理模型,可通過“思考模式”開關選擇快速響應或深度推理。

Github:https://github.com/zai-org/GLM-V
HF:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
MS:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e從榜單上來看,全面變強,跟真實測試體驗一致,尤其是在Grouding部分,表現尤為突出。

智譜一如既往的,上線新模型,就在 BigModel.cn 上送Token,這次是 600 萬 Tokens 的免費資源包。
鏈接:https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv
寫在最后
從10B擴展到100B級別,效果上是提升很多,除了網頁復刻、OCR識別、表格識別一如既往的強大,在Grounding、世界知識、色彩辨別上有了很大的提升。
但依舊存在多模態大模型的通病,在空間理解、圖像推理、細節對比等高階任務中存在明顯短板,特別是在圖像切割的精度、空間邏輯鏈條推理上,尚有一段路要走。
最后我想說,開源大模型越來越多,需要自己實測,才能找到那個在自己任務上最擅長的大模型。
本文轉載自?????????NLP工作站?????????,作者:NLP工作站

















