OpenAI 開源了!五年首發gpt-oss,本地可跑,評分逼近自家商用o4!
8月6日凌晨1點,OpenAI打破五年沉默,首次在GPT-2之后再度開源語言模型。

這款名為gpt-oss的模型,并非一款,而是兩個型號:gpt-oss-120b 和 gpt-oss-20b。
兩者都是Mixture-of-Experts 架構的推理型模型,專注于邏輯推理、步驟分解與工具調用。
更重要的是,這兩個模型全部以Apache 2.0協議開源,意味著任何人都可以隨意使用、修改、部署,甚至商用。
這是OpenAI自2020年以來首次開源權重模型。
gpt-oss 的參數規模極具吸引力。120b模型總參數為1170億,20b模型為209億,并且都原生支持4-bit量化。
也就是說,20B模型壓縮后僅12.8GB,16GB內存顯卡即可本地運行,而120B也能在單張80GB顯卡上完成部署。
OpenAI在訓練階段就使用了MXFP4低精度格式,不是簡單壓縮,而是讓模型自學如何適應低精度,從而大幅節省資源,同時維持性能。
這種訓練級別的量化,區別于后期社區自行壓縮的方案,使得gpt-oss幾乎沒有明顯的性能損失。

換言之,在過去,部署一個大模型動輒要數塊高端顯卡,現在一張消費級卡也能輕松上陣。
1、跑分碾壓,理性硬剛

在Codeforces編程挑戰中,gpt-oss-120b取得2622分,逼近OpenAI自家o4-mini的2719分(OpenAI的商用模型)。
20b版本也達到2516分,領先于DeepSeek R1等同尺寸競品。
在AIME 2024數學競賽中,gpt-oss-120b使用工具后達到96.6%的準確率,幾乎接近o4-mini的98.7%。

在SWE-bench Verified 編程修復任務中,20B模型得分為60%,120B則為62%,距離封閉模型僅有小幅差距。
醫療領域同樣展現實力,在HealthBench評測中,gpt-oss-120b的成績幾乎追平o3模型。

而在AI圈公認的“人類終極考試”測試中,gpt-oss-120b也拿下19%的得分,雖不敵o3,但在開源模型中已屬佼佼者。
在社區用戶實測中,gpt-oss的代碼執行速度遠超多數同類模型,有網友分享對比截圖:當其他模型還在慢慢處理時,gpt-oss-20b三秒就完成推理。

不僅快,結果也準,特別是在數學與邏輯領域,小模型表現出極高的性價比。
當然,OpenAI也未避短。模型在事實準確性方面仍有提升空間,“幻覺”問題依然存在,尤其在知識類問答中偶有錯漏。
模型卡中也明確指出,gpt-oss在“壞念頭”過濾上幾乎未做干預,內容審核交由開發者自行負責。
這意味著,gpt-oss雖然強大,但需要使用者具備一定的技術和倫理把控能力。

為此,OpenAI還專門制定了“最壞場景微調”安全協議,模擬模型在遭惡意訓練下的風險反應。
結果顯示,即便在這種極端情況下,gpt-oss也未越過“高風險”警戒線。
這一套流程不僅由OpenAI內部審核,還交由外部專家團進行評估審查。
2、生態開放,局勢突變

OpenAI還推出了一個在線測試平臺:https://gpt-oss.com
目前,OpenRouter平臺已率先接入gpt-oss,并開放API供開發者調用。
Ollama平臺也已支持該模型,并提供圖形化界面與本地部署功能,大幅降低入門門檻。
從部署到調用,從云端到本地,gpt-oss的路徑已經打通,甚至有用戶半夜實測本地跑通20B,速度驚人。

不僅如此,gpt-oss在中文社區也快速傳播,技術交流群、開發者論壇、跑分分享紛紛上線。
有網友甚至已經開始編寫微調教程、垂直任務調優方案和集成案例,開源氛圍迅速升溫。
而整個開源AI生態,也因OpenAI此舉而被徹底撼動。
過去,開源模型多由社區驅動,OpenAI則始終保持封閉姿態。而這一次,OpenAI親自下場,直接對標DeepSeek、Qwen3、GLM4.5等國內外強手。
正如有用戶評論:“OpenAI終于干了點人事。”





































