OpenAI 開源了！五年首發gpt-oss，本地可跑，評分逼近自家商用o4！

2025-08-06 14:09:40

這款名為gpt-oss的模型，并非一款，而是兩個型號：gpt-oss-120b 和 gpt-oss-20b。兩者都是Mixture-of-Experts 架構的推理型模型，專注于邏輯推理、步驟分解與工具調用。

8月6日凌晨1點，OpenAI打破五年沉默，首次在GPT-2之后再度開源語言模型。

這款名為gpt-oss的模型，并非一款，而是兩個型號：gpt-oss-120b 和 gpt-oss-20b。

兩者都是Mixture-of-Experts 架構的推理型模型，專注于邏輯推理、步驟分解與工具調用。

更重要的是，這兩個模型全部以Apache 2.0協議開源，意味著任何人都可以隨意使用、修改、部署，甚至商用。

這是OpenAI自2020年以來首次開源權重模型。

gpt-oss 的參數規模極具吸引力。120b模型總參數為1170億，20b模型為209億，并且都原生支持4-bit量化。

也就是說，20B模型壓縮后僅12.8GB，16GB內存顯卡即可本地運行，而120B也能在單張80GB顯卡上完成部署。

OpenAI在訓練階段就使用了MXFP4低精度格式，不是簡單壓縮，而是讓模型自學如何適應低精度，從而大幅節省資源，同時維持性能。

這種訓練級別的量化，區別于后期社區自行壓縮的方案，使得gpt-oss幾乎沒有明顯的性能損失。

換言之，在過去，部署一個大模型動輒要數塊高端顯卡，現在一張消費級卡也能輕松上陣。

在Codeforces編程挑戰中，gpt-oss-120b取得2622分，逼近OpenAI自家o4-mini的2719分（OpenAI的商用模型）。

20b版本也達到2516分，領先于DeepSeek R1等同尺寸競品。

在AIME 2024數學競賽中，gpt-oss-120b使用工具后達到96.6%的準確率，幾乎接近o4-mini的98.7%。

在SWE-bench Verified 編程修復任務中，20B模型得分為60%，120B則為62%，距離封閉模型僅有小幅差距。

醫療領域同樣展現實力，在HealthBench評測中，gpt-oss-120b的成績幾乎追平o3模型。

而在AI圈公認的“人類終極考試”測試中，gpt-oss-120b也拿下19%的得分，雖不敵o3，但在開源模型中已屬佼佼者。

在社區用戶實測中，gpt-oss的代碼執行速度遠超多數同類模型，有網友分享對比截圖：當其他模型還在慢慢處理時，gpt-oss-20b三秒就完成推理。

不僅快，結果也準，特別是在數學與邏輯領域，小模型表現出極高的性價比。

當然，OpenAI也未避短。模型在事實準確性方面仍有提升空間，“幻覺”問題依然存在，尤其在知識類問答中偶有錯漏。

模型卡中也明確指出，gpt-oss在“壞念頭”過濾上幾乎未做干預，內容審核交由開發者自行負責。

這意味著，gpt-oss雖然強大，但需要使用者具備一定的技術和倫理把控能力。

為此，OpenAI還專門制定了“最壞場景微調”安全協議，模擬模型在遭惡意訓練下的風險反應。

結果顯示，即便在這種極端情況下，gpt-oss也未越過“高風險”警戒線。

這一套流程不僅由OpenAI內部審核，還交由外部專家團進行評估審查。

OpenAI還推出了一個在線測試平臺：https://gpt-oss.com

目前，OpenRouter平臺已率先接入gpt-oss，并開放API供開發者調用。

Ollama平臺也已支持該模型，并提供圖形化界面與本地部署功能，大幅降低入門門檻。

從部署到調用，從云端到本地，gpt-oss的路徑已經打通，甚至有用戶半夜實測本地跑通20B，速度驚人。

不僅如此，gpt-oss在中文社區也快速傳播，技術交流群、開發者論壇、跑分分享紛紛上線。

有網友甚至已經開始編寫微調教程、垂直任務調優方案和集成案例，開源氛圍迅速升溫。

而整個開源AI生態，也因OpenAI此舉而被徹底撼動。

過去，開源模型多由社區驅動，OpenAI則始終保持封閉姿態。而這一次，OpenAI親自下場，直接對標DeepSeek、Qwen3、GLM4.5等國內外強手。

正如有用戶評論：“OpenAI終于干了點人事。”

責任編輯：姜華來源：大數據文摘