阿里開源最強(qiáng)視覺模型家族輕量版:僅4B/8B參數(shù),性能逼近72B旗艦版 原創(chuàng)
?
今天,阿里通義千問團(tuán)隊(duì)正式宣布開源Qwen3-VL系列的4B與8B版本,以更小的參數(shù)量實(shí)現(xiàn)了接近上一代72B旗艦?zāi)P偷男阅鼙憩F(xiàn),為資源受限的開發(fā)環(huán)境提供了新的選擇。
?

兩款模型均提供Instruct和Thinking兩個(gè)版本,滿足不同場景下的使用需求。
?
在多模態(tài)性能方面,Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30項(xiàng)權(quán)威基準(zhǔn)測評中取得SOTA成績,超越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等頂尖模型。
?

?
Thinking版本在MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等23項(xiàng)權(quán)威基準(zhǔn)測評中取得了SOTA成績。
?

?
攻克“蹺蹺板”難題
?
長期以來,小模型面臨著一個(gè)棘手的問題——增強(qiáng)視覺能力時(shí)往往削弱文本理解,反之亦然。這種現(xiàn)象被業(yè)界稱為“蹺蹺板”問題。
?
阿里通過架構(gòu)創(chuàng)新與技術(shù)優(yōu)化,成功解決了這一難題。新模型實(shí)現(xiàn)了“視覺精準(zhǔn)”與“文本穩(wěn)健”的協(xié)同提升,在強(qiáng)化多模態(tài)感知與視覺理解的同時(shí),保持了原有的文本理解能力。
?
這一突破使得Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30項(xiàng)權(quán)威基準(zhǔn)測評中取得SOTA成績。不僅在視覺理解領(lǐng)域表現(xiàn)出色,在純文本任務(wù)上也實(shí)現(xiàn)了整體性能提升。
?
Qwen3-VL-4B特別側(cè)重端側(cè)應(yīng)用,具備更高的性價(jià)比,適用于需要AI視覺理解能力的智能終端部署。這一特性使其在手機(jī)和機(jī)器人領(lǐng)域具有重大意義。
?
模型一經(jīng)發(fā)布,便在外網(wǎng)引起熱烈反響。有網(wǎng)友表示“終于,我在16GB的Mac上可以用了”。
?
作為阿里視覺理解領(lǐng)域迄今最強(qiáng)模型家族,上個(gè)月發(fā)布的Qwen3-VL系列在9月底的Chatbot Arena子榜單Vision Arena中位居第二,成為視覺理解領(lǐng)域的全球開源冠軍。
?
同時(shí),Qwen3-VL還斬獲純文本賽道的開源第一,成為首個(gè)攬獲純文本和視覺兩大領(lǐng)域同時(shí)開源第一的大模型。
?
在全球知名的大模型API三方聚合平臺OpenRouter圖像處理榜單上,Qwen3-VL以48%的市場份額躍升至全球第一。
?
目前,兩款模型已上線魔搭社區(qū)與Hugging Face平臺,并提供FP8版本支持。為了幫助開發(fā)者更好地使用新模型,阿里還推出了Qwen3-VL Cookbook使用指南。該指南涵蓋圖像思維、計(jì)算機(jī)使用Agent、多模態(tài)編程、3D定位、空間推理、視頻理解等多種多模態(tài)用例,為用戶提供高效上手和深度應(yīng)用的支持。
?
阿里通義千問大語言模型負(fù)責(zé)人林俊旸指出,小型視覺語言模型適合部署,尤其在手機(jī)和機(jī)器人領(lǐng)域意義重大。過去小模型與大模型性能差距大,此次發(fā)布的小模型在參數(shù)量大幅減少的情況下,仍能保持接近大模型的性能水平。
?
Qwen3-VL輕量版模型的開源,標(biāo)志著視覺語言模型技術(shù)正朝著更高效、更普惠的方向發(fā)展。這些模型在保持高性能的同時(shí)大幅降低資源需求,為AI技術(shù)在邊緣設(shè)備、移動終端等場景的落地提供了新的可能。
?
隨著模型性能的不斷提升和開源生態(tài)的完善,我們可以預(yù)見將有更多創(chuàng)新應(yīng)用涌現(xiàn),從智能家居到工業(yè)自動化,從移動應(yīng)用到嵌入式設(shè)備,視覺語言模型將以更低的門檻為各行各業(yè)賦能。

















