Qwen2.5-VL-32B 更小更聰明!與grok、gemini同臺打造“治愈老奶奶”,誰更強? 精華
昨日,AI屆“汪峰”Qwen團(tuán)隊發(fā)布了Qwen2.5-VL-32B-Instruct,作為Qwen2.5-VL系列模型的最新迭代,通過強化學(xué)習(xí)優(yōu)化,以32B參數(shù)規(guī)模擊敗上代72B版本,展現(xiàn)出其更智能和輕量級的突出特點。
較前代模型在以下方面有了顯著改進(jìn):
- 更符合人類偏好的回答:調(diào)整輸出風(fēng)格,提供更詳細(xì)、格式更好的答案,更貼近人類偏好。
- 數(shù)學(xué)推理能力提升:在解決復(fù)雜數(shù)學(xué)問題方面,準(zhǔn)確性得到顯著提高。
- 精細(xì)圖像理解和推理:在圖像解析、內(nèi)容識別和視覺邏輯推理等任務(wù)中,準(zhǔn)確性和分析細(xì)節(jié)得到增強。
性能方面,Qwen2.5-VL-32B在多項基準(zhǔn)測試中展現(xiàn)出超越基線模型的表現(xiàn),例如Mistral-Small-3.1-24B和Gemma-3-27B-IT,甚至在多模態(tài)任務(wù)如MMMU、MMMU-Pro和MathVista中超越了更大的Qwen2-VL-72B-Instruct模型。在MM-MT-Bench基準(zhǔn)測試中,該模型在主觀用戶體驗評估方面也優(yōu)于其前代Qwen2-VL-72B-Instruct。


此外,Qwen2.5-VL-32B在視覺能力和純文本能力方面均取得了頂尖表現(xiàn)。例如,在圖像理解任務(wù)中,該模型能夠分析一張中式火鍋圖片,識別其特征,如鍋底的麻辣風(fēng)格、分隔設(shè)計、配菜種類等。

為了更直觀感受,筆者選擇了最近網(wǎng)絡(luò)上流行的“治愈老奶奶”插畫作為綜合場景能力驗證,讓國產(chǎn)代表Qwen與當(dāng)前多模態(tài)生圖領(lǐng)域熱門的模型grok和gemini做一比較。
Qwen系列:

Grok:

Gemini:

從上面可以看出,對于識圖來講,這三個模型都不在話下,但在接下來基于多模態(tài)情景上下文下生圖層面表現(xiàn)各有特點。Gemini最強,能夠完整續(xù)寫故事,并能很好保持人物和風(fēng)格一致性,但對于文字控制不佳。grok支持局部的精細(xì)修改,但風(fēng)格審美有些差強人意。Qwen在風(fēng)格和英文文字控制上表現(xiàn)最好。
總而言之,Qwen2.5-VL-32B 是模型的大小和性能之間的平衡性的代表。小塊頭同樣擁有大智慧!
本文轉(zhuǎn)載自AI工程化,作者:ully

















