服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!
大家好,我是劉聰NLP。
最近開源社區好起來了,先是華為、百度、騰訊,相繼開源模型,
然后昨天智譜又開源了模型,GLM-4.1V-Thinking,又是被刷屏朋友圈了!
但是說實話,一開始因為這個標題,我都不想測試GLM-4.1V-Thinking了,感覺就很夸張,并且一猜就是干掉了Qwen-2.5-VL-72B。

PS:我Qwen天天被吊打!!
不過,有個好友非要讓我測一下,因為他告訴我,我之前的表格識別,這個9B模型好像可以了。
不測不知道,一測嚇一跳,沒想到真出來了!!
每次有多模態大模型,我基本上都會測試一下,沒想到GLM-4.1V-Thinking竟然還可以。
懶人不愛看版:
- 表格識別效果還可以,大部分表格可以完全識別正確,個別會有一些瑕疵,但已經很強了!
- 圖像理解+計算不錯,可以準確識別圖片內容,并進行理解;
- 多模態做題一般,感覺數學題上,不如純文本大模型效果好;
- 可以通過網站截圖進行1:1復刻,9B模型可以做到,真沒想到;
- OCR手寫體識別也還可以,不過那個經常錯的連體字,沒有識別出來;
- 在我測試的一些任務上,是可以對標Qwen-2.5-VL-72B的,但模型尺寸依然感覺還是小了,太復雜的任務效果不一定優于72B。
- 但因為9B,模型部署成本小了太多,同尺寸模型中,現在應該是Top級別。
實測樣例
表格識別
## Role
你是一位有多年經驗的OCR表格識別專家。
## Goals
需要通過給定的圖片,識別表格里的內容,并以html表格結果格式輸出結果。
## Constrains
- 需要認識識別圖片中的內容,將每個表格單元格中的內容完整的識別出來,并填入html表格結構中;
- 圖片中的表格單元格中可能存在一些占位符需要識別出來,例如"-"、"—"、"/"等;
- 輸出表格結構一定遵循圖片中的結構,表格結構完全一致;
- 特別注意圖片中存在合并單元格的情況,結構不要出錯;
- 對于內容較多的圖片,一定要輸出完整的結果,不要斷章取義,更不要隨意編造;
- 圖片內容需要完整識別,不要遺漏,同時注意合并單元;
- 最終輸出結果需要是html格式的表格內容。
## Initialization
請仔細思考后,輸出html表格結果。簡單表格,結果:完全正確

原表格

生成結果
中等表格,結果基本上正確,只有最后的“觀察檢查”處,將一個單元格分成了兩個,其他沒有問題。

原表格

生成結果
復雜表格,結果完全正確,這個我是萬萬沒想到的,這種犬牙交錯的單元格合并,9B模型竟然識別對了,有點強!

原表格

生成結果
識別計算
prompt:請逐步詳細分析,告訴我在中文數據和英文數據分別占比是多少,并且告訴我總和
結果:正確,77.71%,沒問題


手寫識別
prompt:請逐步詳細分析,輸出圖片中的文字內容
結果:錯了一個字,“娶”->“要”,不過這個字,好多多模態大模型都識別成“要”,不知道為什么,但是從語義上,不應該,一直沒有想明白。


高考考題
prompt:解題
結果:最后一問錯了,是3√3+3√2,不是√10+3,其他正確,但是現在大參數的大模型都能對,畢竟現在很多130+、140+的模型了。
我也測試了一些其他的題,感覺回答的總會有點瑕疵,不知道是不是我的圖片不清晰導致的,后面我再測測看。


網頁復刻
截個魔搭的首頁,之間讓GLM-4.1V復刻
prompt:請1:1復刻圖片中的網頁內容
結果,基本上是1:1復刻的,9B模型做到這一步,很強了。

原網站圖

復刻結果
說實話,整體測試效果我還是有點震驚的,不看榜單效果,但看能不能用這一點來說,GLM-4.1V-Thinking模型還是可以的,并且9B大小,本地部署也是十分友好了。
論文細節
因為同步發了paper,最后再過一下論文的細節。
paper: https://arxiv.org/abs/2507.01006
Github:https://github.com/THUDM/GLM-4.1V-Thinking
HF:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭體驗鏈接:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo模型結構
模型由視覺編碼器、多層感知機適配器、大語言模型解碼器組成,如下圖,其中,將AIMv2-Huge 作為視覺編碼器,將 GLM 作為語言解碼器。

視覺編碼器,采用Qwen2-VL策略,將原始的2D卷積替換為3D卷積,有效提升了處理效率。同時為了支持任意圖像分辨率和寬高比,做了兩個優化,
- 采用2D-RoPE,使模型能夠有效處理具有極端寬高比(超過200:1)或高分辨率(超過4K)的圖像;
- 保留了可學習絕對位置嵌入,并通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入,以保留ViT預訓練模型的原有能力。
語言解碼器,將RoPE擴展到3D-RoPE,在保留模型文本能力的前提下,又進一步增強了模型在多模態輸入處理中的空間理解能力。
Pre-Training
預訓練涉及兩個階段,
- 多模態預訓練,初始階段對所有參數進行120K步驟訓練,最大長度8K,Batch大小1536,同時采用數據樣本拼接打包策略,將文本擴展到最大長度,以充分利用資源。
- 長上下文增量訓練,通過使用視頻和超過8K長度的圖文數據訓練,以增加模型對高分辨率圖像、視頻序列和超長文本的處理能力,最大長度32K,訓練10K步,Batch依然為大小1536。
在預訓練過程中,使用的數據包含圖像字幕、交錯圖文、OCR、Grounding、指令響應、視頻數據等數據。
Supervised Fine-Tuning
微調階段,將基礎視覺語言模型轉變為能夠進行CoT推理模型,讓模型學習推理風格,增強模型冷啟動基礎。
模型訓練最大長度32K,Batch大小32,訓練數據涉及多模態數據外,還有高質量的純文本數據,覆蓋數學、多輪對話、代理和指令遵循等任務。
RL
采用可驗證獎勵強化學習 (RLVR) 和人工反饋強化學習 (RLHF),并且通過課程采樣方法,在STEM 問題、學字符識別 (OCR)、視頻理解、GUI 代理、圖表和文檔理解、邏輯推理、指令遵循等任務上,進行由簡單到復雜的動態強化學習訓練。
對于RLVR,要求模型明確用框標記來標記最終答案,同時只將框內的內容與參考答案進行比較,以解決通過LLMs進行提取出現的不準確性。并且使用<|begin_of_box|>{FINAL_ANSWER}<|end_of_box|>來標記答案,而不是\boxed{}。
同時,為了避免獎勵欺騙,建立領域特定的獎勵系統,包括共享驗證功能、領域特定模塊和單元測試。
除此之外,還建立了格式和風格檢查的獎勵系統,格式就是答案是否被<|begin_of_box|>和<|end_of_box|>包裹,風格就是think或answer內容是否由大量重復內容、或者是否符合指令、流暢、邏輯嚴謹等。
最后,榜單效果,

寫在最后
這次測試GLM-4.1V-Thinking,真的讓我對“9B模型的上限”重新有了認識。
說實話,它不是沒有缺點,有些題也還是答錯了,但在表格識別、網頁復刻這些任務上能跑的這么好,真是很難得。
而且,9B!可以本地部署、部署成本低、延遲也小,那它的實際價值就不止是“效果好”那么簡單了。對于很多開發者來說,自己電腦就能部起來,這才是真正能“用起來”的。
我后面會試試在我自己垂類任務和真實業務中的效果如何,
實踐是檢驗真理的唯一標準,如果你也需要使用多模態模型,不妨親自試試,好壞在各自的心中。
本文轉載自?????NLP工作站?????,作者:NLP工作站

















