服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！

NLP工作站

發布于 2025-7-11 07:48

瀏覽

0收藏

大家好，我是劉聰NLP。

最近開源社區好起來了，先是華為、百度、騰訊，相繼開源模型，

然后昨天智譜又開源了模型，GLM-4.1V-Thinking，又是被刷屏朋友圈了！

但是說實話，一開始因為這個標題，我都不想測試GLM-4.1V-Thinking了，感覺就很夸張，并且一猜就是干掉了Qwen-2.5-VL-72B。

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

PS：我Qwen天天被吊打！！

不過，有個好友非要讓我測一下，因為他告訴我，我之前的表格識別，這個9B模型好像可以了。

不測不知道，一測嚇一跳，沒想到真出來了！！

每次有多模態大模型，我基本上都會測試一下，沒想到GLM-4.1V-Thinking竟然還可以。

懶人不愛看版：

表格識別效果還可以，大部分表格可以完全識別正確，個別會有一些瑕疵，但已經很強了！
圖像理解+計算不錯，可以準確識別圖片內容，并進行理解；
多模態做題一般，感覺數學題上，不如純文本大模型效果好；
可以通過網站截圖進行1：1復刻，9B模型可以做到，真沒想到；
OCR手寫體識別也還可以，不過那個經常錯的連體字，沒有識別出來；
在我測試的一些任務上，是可以對標Qwen-2.5-VL-72B的，但模型尺寸依然感覺還是小了，太復雜的任務效果不一定優于72B。
但因為9B，模型部署成本小了太多，同尺寸模型中，現在應該是Top級別。

實測樣例

表格識別

## Role
你是一位有多年經驗的OCR表格識別專家。

## Goals
需要通過給定的圖片，識別表格里的內容，并以html表格結果格式輸出結果。

## Constrains
- 需要認識識別圖片中的內容，將每個表格單元格中的內容完整的識別出來，并填入html表格結構中；
- 圖片中的表格單元格中可能存在一些占位符需要識別出來，例如"-"、"—"、"/"等；
- 輸出表格結構一定遵循圖片中的結構，表格結構完全一致；
- 特別注意圖片中存在合并單元格的情況，結構不要出錯；
- 對于內容較多的圖片，一定要輸出完整的結果，不要斷章取義，更不要隨意編造；
- 圖片內容需要完整識別，不要遺漏，同時注意合并單元；
- 最終輸出結果需要是html格式的表格內容。

## Initialization
請仔細思考后，輸出html表格結果。

簡單表格，結果：完全正確

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

原表格

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

生成結果

中等表格，結果基本上正確，只有最后的“觀察檢查”處，將一個單元格分成了兩個，其他沒有問題。

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

原表格

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

生成結果

復雜表格，結果完全正確，這個我是萬萬沒想到的，這種犬牙交錯的單元格合并，9B模型竟然識別對了，有點強！

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

原表格

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

生成結果

識別計算

prompt：請逐步詳細分析，告訴我在中文數據和英文數據分別占比是多少，并且告訴我總和

結果：正確，77.71%，沒問題

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

手寫識別

prompt：請逐步詳細分析，輸出圖片中的文字內容

結果：錯了一個字，“娶”->“要”，不過這個字，好多多模態大模型都識別成“要”，不知道為什么，但是從語義上，不應該，一直沒有想明白。

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

高考考題

prompt：解題

結果：最后一問錯了，是3√3+3√2，不是√10+3，其他正確，但是現在大參數的大模型都能對，畢竟現在很多130+、140+的模型了。

我也測試了一些其他的題，感覺回答的總會有點瑕疵，不知道是不是我的圖片不清晰導致的，后面我再測測看。

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

網頁復刻

截個魔搭的首頁，之間讓GLM-4.1V復刻

prompt：請1：1復刻圖片中的網頁內容

結果，基本上是1:1復刻的，9B模型做到這一步，很強了。

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

原網站圖

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

復刻結果

說實話，整體測試效果我還是有點震驚的，不看榜單效果，但看能不能用這一點來說，GLM-4.1V-Thinking模型還是可以的，并且9B大小，本地部署也是十分友好了。

論文細節

因為同步發了paper，最后再過一下論文的細節。

paper: https://arxiv.org/abs/2507.01006
Github：https://github.com/THUDM/GLM-4.1V-Thinking
HF：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭體驗鏈接：https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

模型結構

模型由視覺編碼器、多層感知機適配器、大語言模型解碼器組成，如下圖，其中，將AIMv2-Huge 作為視覺編碼器，將 GLM 作為語言解碼器。

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

視覺編碼器，采用Qwen2-VL策略，將原始的2D卷積替換為3D卷積，有效提升了處理效率。同時為了支持任意圖像分辨率和寬高比，做了兩個優化，

采用2D-RoPE，使模型能夠有效處理具有極端寬高比（超過200:1）或高分辨率（超過4K）的圖像；
保留了可學習絕對位置嵌入，并通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入，以保留ViT預訓練模型的原有能力。

語言解碼器，將RoPE擴展到3D-RoPE，在保留模型文本能力的前提下，又進一步增強了模型在多模態輸入處理中的空間理解能力。

Pre-Training

預訓練涉及兩個階段，

多模態預訓練，初始階段對所有參數進行120K步驟訓練，最大長度8K，Batch大小1536，同時采用數據樣本拼接打包策略，將文本擴展到最大長度，以充分利用資源。
長上下文增量訓練，通過使用視頻和超過8K長度的圖文數據訓練，以增加模型對高分辨率圖像、視頻序列和超長文本的處理能力，最大長度32K，訓練10K步，Batch依然為大小1536。

在預訓練過程中，使用的數據包含圖像字幕、交錯圖文、OCR、Grounding、指令響應、視頻數據等數據。

Supervised Fine-Tuning

微調階段，將基礎視覺語言模型轉變為能夠進行CoT推理模型，讓模型學習推理風格，增強模型冷啟動基礎。

模型訓練最大長度32K，Batch大小32，訓練數據涉及多模態數據外，還有高質量的純文本數據，覆蓋數學、多輪對話、代理和指令遵循等任務。

RL

采用可驗證獎勵強化學習 (RLVR) 和人工反饋強化學習 (RLHF)，并且通過課程采樣方法，在STEM 問題、學字符識別 (OCR)、視頻理解、GUI 代理、圖表和文檔理解、邏輯推理、指令遵循等任務上，進行由簡單到復雜的動態強化學習訓練。

對于RLVR，要求模型明確用框標記來標記最終答案，同時只將框內的內容與參考答案進行比較，以解決通過LLMs進行提取出現的不準確性。并且使用<|begin_of_box|>{FINAL_ANSWER}<|end_of_box|>來標記答案，而不是\boxed{}。

同時，為了避免獎勵欺騙，建立領域特定的獎勵系統，包括共享驗證功能、領域特定模塊和單元測試。

除此之外，還建立了格式和風格檢查的獎勵系統，格式就是答案是否被<|begin_of_box|>和<|end_of_box|>包裹，風格就是think或answer內容是否由大量重復內容、或者是否符合指令、流暢、邏輯嚴謹等。

最后，榜單效果，

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！-AI.x社區

寫在最后

這次測試GLM-4.1V-Thinking，真的讓我對“9B模型的上限”重新有了認識。

說實話，它不是沒有缺點，有些題也還是答錯了，但在表格識別、網頁復刻這些任務上能跑的這么好，真是很難得。

而且，9B！可以本地部署、部署成本低、延遲也小，那它的實際價值就不止是“效果好”那么簡單了。對于很多開發者來說，自己電腦就能部起來，這才是真正能“用起來”的。

我后面會試試在我自己垂類任務和真實業務中的效果如何，

實踐是檢驗真理的唯一標準，如果你也需要使用多模態模型，不妨親自試試，好壞在各自的心中。

本文轉載自?????NLP工作站?????，作者：NLP工作站

標簽

GLM-4.1V-Thinkin

百度

騰訊

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！

實測樣例

表格識別

識別計算

手寫識別

高考考題

網頁復刻

論文細節

模型結構

Pre-Training

Supervised Fine-Tuning

RL

寫在最后

目錄