第一次用 Ollama 跑視覺模型:Qwen2.5-VL 7B 給了我一個(gè)意外驚喜
前幾天在 Mac 上安裝了 Ollama,并下載了 Qwen2.5-VL 7B 做了一些測(cè)試,整個(gè)過程還挺有意思,分享給大家。
一、Mac 安裝 Ollama
進(jìn)入 Ollama 官網(wǎng) ,我的電腦是 Mac Studio ,所以選擇 MacOS 下載 。
image-20251115204120250
image-20251115204120250
下載完成后,雙擊安裝 ,安裝完成后界面如下圖:
圖片
圖片
二、下載 Qwen 2.5 VL 7B
Qwen 2.5-VL 是阿里巴巴通義千問團(tuán)隊(duì)開發(fā)的一款開源的旗艦級(jí)視覺語(yǔ)言模型。
它能夠處理文本、圖像和視頻,并具備強(qiáng)大的視覺理解和交互能力。該模型有不同參數(shù)規(guī)模(如 3B、7B 和 72B),適用于從邊緣 AI 到高性能計(jì)算的多種場(chǎng)景 。
下載 Qwen 2.5 VL 有兩種方式 :
1、通過命令行請(qǐng)求
ollama pull qwen2.5vl:7b
圖片
圖片
2、通過 Ollama GUI 界面安裝
圖片
圖片
在 GUI 界面選擇模型 ,若未下載會(huì)顯示下載圖標(biāo),然后在對(duì)話框中輸入任意文本即可自動(dòng)下載。
三、文本/圖片體驗(yàn)
下載完模型后,即可在對(duì)話框中進(jìn)行對(duì)話。
圖片
圖片
當(dāng)然我們也可以通過 ollama 啟動(dòng)模型后展開對(duì)話:
ollama run qwen2.5vl:7b接下來(lái),進(jìn)行圖片檢測(cè),圖片如下:
檢測(cè)結(jié)果:
我們也可以通過該模型識(shí)別圖像中的文字、公式或抽取票據(jù)、證件、表單中的信息,支持格式化輸出文本:
圖片
圖片
四、程序調(diào)用分析圖片
我們可以編寫 python 調(diào)用 Ollama 接口,實(shí)現(xiàn)模型分析圖片:
圖片
圖片
Ollama 提供兼容 OpenAI 協(xié)議的接口 ,實(shí)現(xiàn)流式對(duì)話。
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5vl:7b",
"messages": [
{ "role": "user", "content": "寫一段代碼" }
]
}'效果見下圖 :
圖片
圖片
五、總結(jié)
Qwen 2.5-VL 7B 簡(jiǎn)直就是“本地視覺小鋼炮”。
筆者認(rèn)為它尤其適合在如下場(chǎng)景中發(fā)揮作用:
- 文檔和票據(jù)解析:發(fā)票、合同、報(bào)表、掃描件,一次推理即可提取文字并生成結(jié)構(gòu)化數(shù)據(jù)
- 表格與圖表解析:財(cái)務(wù)報(bào)表、統(tǒng)計(jì)圖表,快速提取表頭和數(shù)據(jù),方便后續(xù)分析
- 圖片場(chǎng)景理解:倉(cāng)庫(kù)、機(jī)房、辦公室等照片,自動(dòng)識(shí)別物體和整體場(chǎng)景
- 多模態(tài)問答:結(jié)合圖片和文本內(nèi)容回答問題,支持科研、教育或產(chǎn)品原型
- 內(nèi)容審核與合規(guī)檢測(cè):識(shí)別敏感文字或違規(guī)圖像,本地部署保護(hù)隱私
































