OpenAI“補課”式發(fā)布兩個開放權(quán)重模型GPT-OSS | 5個技術看點 | 時隔六年多,再次擁抱開源
OpenAI終于打破了自GPT-2以來長達六年多的沉寂,再次擁抱開源社區(qū),發(fā)布了兩個全新的開放權(quán)重模型:gpt-oss-120b和gpt-oss-20b。在AI社區(qū)激起了千層浪。畢竟,上一個來自OpenAI的開源模型GPT-2,幾乎以一己之力點燃了全球開發(fā)者對大語言模型的熱情。
我花了點時間研究它之后(源代碼和模型權(quán)重URL參考末尾附錄),有點驚喜,但也有一點失望。驚喜的是,OpenAI確實兌現(xiàn)了承諾,并且模型在特定硬件上的高效表現(xiàn)令人印象深刻;失望的是,無論從模型架構(gòu)的創(chuàng)新性還是從絕對的性能天花板來看,gpt-oss系列似乎都未能帶來革命性的突破,更像是一次“補課”式的發(fā)布。
那么,應該如何全面地看待這次發(fā)布呢?我從以下五個技術看點出發(fā),試著剖析這次備受矚目的發(fā)布,并探討其背后可能的技術考量與戰(zhàn)略布局。
看點一:模型規(guī)模與性能表現(xiàn)
OpenAI此次發(fā)布了兩個不同規(guī)模的模型,均采用Apache 2.0這一非常寬松的開源許可。
- gpt-oss-120b: 擁有1170億(117B)總參數(shù),但每個token在處理時僅激活51億(5.1B)參數(shù)。
- gpt-oss-20b: 擁有210億(21B)總參數(shù),激活參數(shù)量為36億(3.6B)。
官方宣稱,gpt-oss-120b的性能與自家的閉源模型o4-mini不相上下。但根據(jù)最新的《Artificial Analysis智能指數(shù)》v2.2版本的獨立評測,這一說法似乎有些過于樂觀。在該評測中,gpt-oss-120b的得分為58分,雖然表現(xiàn)不俗,但明確落后于Google的Gemini 2.5 Pro(65分)、阿里的Qwen3 235B(65分),甚至還略低于DeepSeek R1(59分)。它處于一個“上游偏中”的位置,性能穩(wěn)健,但遠未達到開源領域的頂尖水平。這直觀地印證了社區(qū)的普遍感受:gpt-oss并未在性能上帶來“王者歸來”般的震撼。

看點二:MoE架構(gòu)的哲學——“更寬、更少、但更專”
gpt-oss系列的核心架構(gòu)是“專家混合(Mixture-of-Experts, MoE)”,這在意料之中。然而,魔鬼藏在細節(jié)中。通過架構(gòu)對比圖【出處引用】,能清晰地看到OpenAI與開源社區(qū)另一位明星選手——阿里的Qwen3模型,在MoE設計哲學上的顯著差異。
gpt-oss-20b的設計可以概括為“更寬、更少、但更專”。具體來看:
- 更寬的專家(Bigger Experts): 其每個專家網(wǎng)絡(FeedForward/SwiGLU模塊)的中間隱藏層維度(intermediate hidden dimension)達到了驚人的2,880。這是一個非常“寬”的設計,意味著每個專家內(nèi)部的容量和計算復雜度都很高。
- 更少的激活專家(Fewer Experts): 它擁有32個這樣的“重型專家”,但每次推理只從中挑選4個來處理輸入。
- 更大的詞表和嵌入維度: 擁有200K的詞匯量和2,880的嵌入維度,為處理更多樣的語言現(xiàn)象提供了基礎。
相比之下,Qwen3 30B-A3B模型則采取了“更深、更多、但更巧”的策略:
- 更巧的專家(Smaller Experts): 其每個專家的中間隱藏層維度僅為768,比gpt-oss小了近4倍。這些專家更“輕量級”。
- 更多的激活專家(More Experts): 同樣擁有32個專家,但Qwen3每次會激活8個,是gpt-oss的兩倍。
- 更小的嵌入維度: 其嵌入維度為2048。
這兩種策略代表了在稀疏模型設計十字路口上的不同方向。Qwen3的策略如同一個“輕量級專家團隊”,通過激活更多小而精的專家進行“集體會診”,依靠數(shù)量優(yōu)勢來彌補單個專家容量的不足,可能在泛化能力上更具優(yōu)勢。而gpt-oss則像是在培養(yǎng)少數(shù)幾位“全科博士”,每一個專家都身懷絕技,路由(Router)的任務是指派少數(shù)幾位最對口的“重型專家”來解決問題。

(GPT-OSS VS Qwen3 圖片引自:Sebastian Raschka)
這兩種設計并無絕對優(yōu)劣,但它再次印證了我的觀點:gpt-oss在架構(gòu)上并未提出革命性的新范式,而是在一個成熟的框架內(nèi),進行了一次深思熟慮但略顯保守的工程選擇。它向我們展示了一種不同的MoE構(gòu)建方式,但這更像是一種“配置”上的差異,而非“發(fā)明”上的突破。
看點三:注意力機制的“復古”與“微創(chuàng)新”
模型架構(gòu)的另一個核心——注意力機制,在gpt-oss上呈現(xiàn)出一種“新舊融合”的有趣面貌。最引人注目是模型的配置文件中赫然出現(xiàn)了attention_bias: true的設置。這是一個可以追溯到GPT-2時代的“復古”設計,在當今主流的等架構(gòu)(DeepSeek V3、Kimi K2、Qwen3等)中早已被棄用。這一選擇的具體動機尚不明確,但無疑為模型增添了一絲神秘色彩。

除此之外,gpt-oss采用的都是些“熟面孔”技術:
- 分組查詢注意力(GQA): 減小KV緩存,提升推理效率,group size為8。
- 旋轉(zhuǎn)位置編碼(RoPE): 當前大模型處理長序列位置信息的標配。
唯一的“微創(chuàng)新”可能是在GptOssAttention代碼中出現(xiàn)的一個名為sinks的參數(shù)。這可能是用于處理注意力機制中“注意力沉陷”(Attention Sinks)現(xiàn)象的一種技術,旨在改善長序列推理的穩(wěn)定性。總體而言,gpt-oss的注意力機制更像是一個穩(wěn)定可靠的“組裝車”,而非一輛擁有全新引擎的“概念車”。
看點四:極致的部署效率與MXFP4量化
如果說架構(gòu)創(chuàng)新乏善可陳,那么gpt-oss在部署效率上的表現(xiàn)則堪稱驚艷。這或許是本次發(fā)布最大的亮點。
OpenAI直接提供了使用MXFP4格式量化后的模型權(quán)重。 MXFP4是一種4位浮點數(shù)格式,通過為一小組(例如32個)數(shù)值共享一個縮放因子,來極大地壓縮模型體積,同時盡可能保持精度。
得益于MoE架構(gòu)和MXFP4量化,兩個模型的部署門檻被降到了前所未有的低度:
- gpt-oss-120b的量化后大小僅為60.8GB,可以輕松運行在單張80GB顯存的NVIDIA H100 GPU上。
- gpt-oss-20b更是只需12.8GB,使其能夠在擁有16GB以上內(nèi)存的高端消費級GPU或筆記本電腦上流暢運行。
這一點與Sam Altman在發(fā)布時所強調(diào)的“在高端筆記本上運行”相吻合。
看點五:開放的“形式”與“誠意”
最后,來談談這次開放本身的意義。在DeepSeek、MoonShot、阿里巴巴等公司憑借開放模型贏得滿堂彩的背景下,OpenAI的這次回歸顯得有些姍姍來遲,甚至帶有一絲“被迫營業(yè)”的意味。
一方面,采用Apache 2.0許可證無疑是充滿誠意的,它為商業(yè)使用和再創(chuàng)作提供了最大的自由度。 這對于構(gòu)建一個真正繁榮的生態(tài)系統(tǒng)至關重要。
但另一方面,這次發(fā)布給人的感覺更像是在履行一個“不得不兌現(xiàn)的承諾”。模型本身僅限文本、以英文為主,并且性能評測(如AAI指數(shù))也證明了它雖好,卻未能登頂開源榜單,這些都似乎在暗示,OpenAI仍然將最尖端的技術保留在其閉源的模o-series模型中。
結(jié)論
總而言之,OpenAI的gpt-oss雙子星是一對優(yōu)缺點同樣鮮明的模型。它們是工程上的杰作,將稀疏架構(gòu)和低比特量化技術運用到了極致,實現(xiàn)了驚人的運行效率,極大地降低了前沿大模型的使用門檻。對于整個AI社區(qū)來說,這無疑是一份厚禮。
然而,我并未從中看到預想中那種引領行業(yè)變革的顛覆式創(chuàng)新。它的架構(gòu)設計更多是現(xiàn)有成熟技術的巧妙整合與哲學取舍,而非開創(chuàng)性的探索。其性能表現(xiàn),正如評測數(shù)據(jù)所示,雖然穩(wěn)健,但“未能超越,僅是看齊”的結(jié)果,也讓那些期待OpenAI再次“一騎絕塵”的人感到些許失落。
附錄
???https://huggingface.co/openai/gpt-oss-120b??
本文轉(zhuǎn)載自??后向傳播??,作者: 張發(fā)恩

















