Ollama平替!LM Studio本地大模型調(diào)用實(shí)戰(zhàn)
0.前言
可像 Ollama 通過(guò)暴露本地端口,實(shí)現(xiàn)本地客戶(hù)端調(diào)用。
1.選擇模型
在 LM Studio 的 “開(kāi)發(fā)者” 選項(xiàng)卡中選擇模型:
2.端口暴露
設(shè)置暴露的端口(默認(rèn)1234):

啟用 CORS 后,可對(duì)接網(wǎng)頁(yè)應(yīng)用或其他客戶(hù)端工具。
3.啟動(dòng)服務(wù)
點(diǎn)擊狀態(tài)選項(xiàng)卡:
控制臺(tái)會(huì)顯示運(yùn)行日志和訪(fǎng)問(wèn)地址:
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] Success! HTTP server listening on port 1234
2025-04-26 20:55:13 [INFO]
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] Supported endpoints:
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> GET http://localhost:1234/v1/models
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> POST http://localhost:1234/v1/chat/completions
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> POST http://localhost:1234/v1/completions
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> POST http://localhost:1234/v1/embeddings
2025-04-26 20:55:13 [INFO]
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] Logs are saved into /Users/javaedge/.lmstudio/server-logs
2025-04-26 20:55:13 [INFO]
Server started.4.快速上手
4.1 快速ping
列出已加載并就緒的模型:
curl http://127.0.0.1:1234/v1/models/
這也是驗(yàn)證服務(wù)器是否可訪(fǎng)問(wèn)的一種有效方法!
4.2 聊天
這是一個(gè)類(lèi)似調(diào)用OpenAI的操作,通過(guò)??curl???工具訪(fǎng)問(wèn)??/v1/chat/completion??端點(diǎn):
- 在Mac或Linux系統(tǒng),可用任意終端運(yùn)行
- Windows系統(tǒng)用Git Bash
curl http://127.0.0.1:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama-4-maverick-17b-128e-instruct",
"messages": [
{ "role": "system", "content": "Always answer in rhymes." },
{ "role": "user", "content": "Introduce yourself." }
],
"temperature": 0.7,
"max_tokens": -1,
"stream": true
}'該調(diào)用是“無(wú)狀態(tài)的”,即服務(wù)器不會(huì)保留對(duì)話(huà)歷史記錄。調(diào)用方有責(zé)任在每次調(diào)用時(shí)提供完整的對(duì)話(huà)歷史記錄。
流式傳輸 V.S 累積完整響應(yīng)
注意??"stream": true??(流式傳輸:開(kāi)啟)參數(shù):
- ?
?true??(開(kāi)啟)時(shí),LM Studio會(huì)在預(yù)測(cè)出標(biāo)記(token)的同時(shí)將其逐一流式返回 - 如將此參數(shù)設(shè)置為?
?false??(關(guān)閉),在調(diào)用返回之前,完整的預(yù)測(cè)結(jié)果會(huì)被先累積起來(lái)。對(duì)于較長(zhǎng)的內(nèi)容生成或者運(yùn)行速度較慢的模型,這可能需要花費(fèi)一些時(shí)間!
本文轉(zhuǎn)載自???JavaEdge???,作者:JavaEdge
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)
回復(fù)
相關(guān)推薦

















