精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從GPT-2到gpt-oss,深度詳解OpenAI開放模型的進化之路

人工智能 新聞
近日,我們熟悉的 Sebastian Raschka 也發(fā)布了一篇深度技術博客,對 gpt-oss 進行了詳細分析,并回顧了自 GPT-2 以來 AI 社區(qū)取得的進步;此外,他還將其與 Qwen 3 進行了比較。

眾所周知,OpenAI 并不夠 Open,不僅研究論文發(fā)得越來越少,開源模型也是千呼萬喚始出來。其近日發(fā)布的兩個 gpt-oss 開源模型已經(jīng)吸引了無數(shù)關注,網(wǎng)上也已經(jīng)出現(xiàn)了不少解讀文章或視頻。

近日,我們熟悉的 Sebastian Raschka 也發(fā)布了一篇深度技術博客,對 gpt-oss 進行了詳細分析,并回顧了自 GPT-2 以來 AI 社區(qū)取得的進步;此外,他還將其與 Qwen 3 進行了比較。

  • 博客標題:From GPT-2 to gpt-oss: Analyzing the Architectural Advances, And How They Stack Up Against Qwen3
  • 博客地址:https://sebastianraschka.com/blog/2025/from-gpt-2-to-gpt-oss.html

以下為該博客文章的主要內(nèi)容:

gpt-oss-120b 和 gpt-oss-20b 是自 2019 年 GPT-2 發(fā)布以來 OpenAI 發(fā)布的首批開放權(quán)重模型。得益于一些巧妙的優(yōu)化,它們可以在本地運行。

我花了幾天時間閱讀代碼和技術報告,總結(jié)出了其中最有趣的細節(jié)。

本文主要包括以下內(nèi)容:

  • 與 GPT-2 的模型架構(gòu)比較
  • MXFP4 優(yōu)化,使 gpt-oss 模型能夠在單 GPU 上運行
  • 寬度與深度的權(quán)衡(gpt-oss 與 Qwen3)
  • 注意力偏差和 sinks
  • 基準結(jié)果以及與 GPT-5 的比較

1、模型架構(gòu)概述

在更詳細地討論架構(gòu)之前,我們先大概了解一下這兩個模型:gpt-oss-20b 和 gpt-oss-120b。

圖 1:兩個 gpt-oss 模型的架構(gòu)示意圖

如果你對 LLM 架構(gòu)有所了解,可能乍一看會覺得這兩個 gpt-oss 并沒有什么新穎或不尋常之處。

這并不奇怪,因為領先的 LLM 開發(fā)商傾向于使用相同的基礎架構(gòu),然后進行一些較小的調(diào)整。這純粹是我的猜測,但我認為這是因為:

  • 這些實驗室之間存在大量的人員流動。
  • 我們?nèi)匀粵]有找到比 Transformer 架構(gòu)更好的架構(gòu)。盡管現(xiàn)在已經(jīng)有了狀態(tài)空間模型(SSM)和文本擴散模型,但據(jù)我所知,還沒有人證明它們在這種規(guī)模下的性能可媲美 Transformer。
  • 大部分改進可能來自數(shù)據(jù)和算法的調(diào)整,而非重大的架構(gòu)變更。

話雖如此,它們的設計選擇仍然有很多有趣的方面。其中一些在上圖中有所展示(也有一些沒有,但我們稍后也會討論)。在本文的其余部分,我將重點介紹這些特性,并逐一將它們與其他架構(gòu)進行比較。

這里簡單說明一下,gpt-oss-20b 模型可以在配備了 16 GB RAM 的消費級 GPU 上運行。gpt-oss-120b 模型可在配備 80 GB RAM 或更高配置的單塊 H100 處理器上運行。但后面還會提到一些重要的注意事項。

2、自 GPT-2 以來的變化

在比較 gpt-oss 和更新的架構(gòu)之前,讓我們先回到過去,將其與 GPT-2 對比一番(圖 2),看看它到底取得了多大的進展。

圖 2:gpt-oss-20b 與 GPT-2 XL 1.5B 的比較。

gpt-oss 和 GPT-2 都是基于 2017 年的論文《Attention Is All You Need》中提出的 Transformer 架構(gòu)構(gòu)建的僅解碼器 LLM。

但多年時間已過,許多細節(jié)已經(jīng)變化。

然而,這些變化并非 gpt-oss 獨有。正如后面介紹的,它們也出現(xiàn)在許多其他 LLM 中。

2.1 移除 Dropout

2012 年提出的 Dropout 是一種傳統(tǒng)的防止過擬合的技術,其實現(xiàn)方式是在訓練過程中隨機「丟棄」(即將其設置為零)一部分層激活值或注意力分數(shù)(圖 3)。然而,Dropout 在現(xiàn)代 LLM 中很少使用,GPT-2 之后的大多數(shù)模型都已放棄這種技術。

圖 3:將 Dropout 應用于注意力分數(shù)矩陣的示意圖

我推測,GPT-2 之所以使用 Dropout,是因為它繼承自原始的 Transformer 架構(gòu)。研究者可能后面注意到,它并沒有真正提升 LLM 的性能(我在小規(guī)模的 GPT-2 復現(xiàn)運行中也觀察到了同樣的情況)。這可能是因為 LLM 通常只在海量數(shù)據(jù)集上進行單輪訓練,這明顯不同于 Dropout 最初引入時針對的數(shù)百輪訓練方案。因此,由于 LLM 在訓練過程中每個 token 只被識別一次,因此過擬合的風險很小。

有趣的是,雖然 Dropout 在 LLM 架構(gòu)設計中多年來一直被忽略,但我找到了一篇 2025 年的研究論文《Drop Dropout on Single-Epoch Language Model Pretraining》—— 其中包含小規(guī)模的 LLM 實驗 (Pythia 1.4B),證實了 Dropout 在這些單輪訓練方案中會導致下游性能下降。

2.2 RoPE 取代絕對位置嵌入

在基于 Transformer 的 LLM 中,由于注意力機制的存在,位置編碼是必需的。默認情況下,注意力機制會將輸入 token 視為無序的。在原始 GPT 架構(gòu)中,絕對位置嵌入會通過為序列中的每個位置添加一個學習到的嵌入向量(圖 4)來解決這個問題,然后將其添加到 token 嵌入中。

圖 4:絕對位置嵌入示意圖

RoPE(旋轉(zhuǎn)位置嵌入)則是一種不同的方法:它不是將位置信息添加為單獨的嵌入,而是通過根據(jù)每個 token 的位置對查詢和鍵向量執(zhí)行旋轉(zhuǎn)來編碼位置。

RoPE 于 2021 年首次提出,并隨著 2023 年原始 Llama 模型的發(fā)布而得到廣泛采用,此后已成為現(xiàn)代 LLM 的主要組成部分。

2.3 Swish/SwiGLU 取代 GELU

早期的 GPT 架構(gòu)使用 GELU。為什么現(xiàn)在的使用 Swish 而不是 GELU?

在我看來,Swish 的計算成本略低,這就是它的全部優(yōu)勢。在不同的論文中,兩者的建模性能都可能更優(yōu)。在我看來,這些細微的差異可能在標準誤差范圍內(nèi),實際結(jié)果會根據(jù)超參數(shù)敏感度而有所不同。

激活函數(shù)曾經(jīng)是一個熱門的爭論話題,直到十多年前深度學習社區(qū)基本確定采用 ReLU 函數(shù)。此后,研究者提出并嘗試了許多類似 ReLU 的變體,這些變體具有更平滑的曲線,而 GELU 和 Swish(圖 5)是其中最受青睞的變體。

圖 5:Swish 和 GELU 激活函數(shù)的比較,它們都是 ReLU 的更平滑版本。

早期的 GPT 架構(gòu)使用 GELU,其定義為 0.5x * [1 + erf (x /sqrt (2))]。其中,erf(誤差函數(shù)的縮寫)是高斯積分,它使用高斯積分的多項式近似來計算,這使得它的計算成本比 Swish 中使用的 S 型函數(shù)(其中 Swish 只是 x * sigmoid (x))等更簡單的函數(shù)更高。

實際上,Swish 的計算成本略低于 GELU,這可能就是它在大多數(shù)較新的模型中取代 GELU 的主要原因。

如今,Swish 已被應用于大多數(shù)架構(gòu)。然而,GELU 并未被完全遺忘;例如,谷歌的 Gemma 模型仍然使用 GELU。

然而,更值得注意的是,前向模塊(一個小型多層感知器)已被門控的「GLU」所取代,其中 GLU 代表門控線性單元,是在 2020 年的一篇論文中提出的。具體來說,2 個全連接層被 3 個全連接層所取代。

乍一看,GEGLU/SwiGLU 變體似乎比常規(guī)前向?qū)痈茫驗閮H僅是因為增加了一層,參數(shù)就更多了。但這并非易事,因為在實踐中,SwiGLU/GEGLU 中的 W 和 V 權(quán)重層通常被選擇為傳統(tǒng)前向?qū)又?W_1 層大小的一半。

為了更好地說明這一點,來看看常規(guī)和 GLU 變體的具體代碼實現(xiàn):

圖 7:常規(guī)前向模塊(上)和 SwiGLU 變體(下)

因此,假設嵌入維度為 1024。在常規(guī)前向情況下,將會有:

  • fc1:1024 × 4096 = 4,194,304
  • fc2:1024 × 4096 = 4,194,304

也就是說,fc1 + fc2 = 8,388,608 個參數(shù)。

對于 GLU 變體,則有:

  • fc1:1024 × 1024 = 1,048,576
  • fc2:1024 × 1024 = 1,048,576
  • fc3:1024 × 1024 = 1,048,576

即 3 × 1,048,576 = 3,145,728 個權(quán)重參數(shù)。

因此,總體而言,使用 GLU 變體可以減少參數(shù)數(shù)量,并且性能也更好。性能更佳的原因是這些 GLU 變體提供了額外的乘法交互,從而提高了表示能力(這與深度細長的神經(jīng)網(wǎng)絡比淺層寬廣的神經(jīng)網(wǎng)絡表現(xiàn)更好的原因相同,前提是它們訓練得當)。

2.4 混合專家取代單個前向模塊

除了將前向模塊升級為 SwiGLU 之外,gpt-oss 還將單個前向模塊替換為了多個前向模塊,每個 token 生成步驟僅使用一個子集。這種方法被稱為混合專家模型 (MoE),如下圖 8 所示。

圖 8:前向模塊被混合專家 (MoE) 取代。

因此,用多個前向模塊替換單個前向模塊(就像在 MoE 設置中所做的那樣)會顯著增加模型的總參數(shù)數(shù)量。然而,關鍵在于我們不會為每個 token 使用(「激活」)所有專家模型。相反,路由器只會為每個 token 選擇一小部分專家模型。

由于每次只有少數(shù)專家模型處于活動狀態(tài),因此 MoE 通常被描述為稀疏模塊,而密集模塊則始終使用完整的參數(shù)集。然而,通過 MoE 形式積累的大量參數(shù)會增加 LLM 的容量,這意味著它在訓練過程中會積累更多知識。同時,稀疏性可保證推理的高效性,因為我們不會同時使用所有參數(shù)。

(有趣的事實:在大多數(shù) MoE 模型中,專家權(quán)重占模型總參數(shù)的 90% 以上。)

2.5 分組查詢注意力取代多頭注意力

近年來,分組查詢注意力 (GQA) 興起,成為了一種比多頭注意力 (MHA) 計算效率和參數(shù)效率更高的替代方案。

在 MHA 中,每個注意力頭都有自己的一組鍵和值。GQA 通過將多個注意力頭分組以共享相同的鍵和值投影來減少內(nèi)存占用。

例如,如圖 9 所示,如果有 2 個鍵值組和 4 個注意力頭,則注意力頭 1 和 2 可能共享一組鍵和值,而注意力 3 和 4 則共享另一組鍵和值。這種分組會減少鍵和值的計算總量,從而降低內(nèi)存占用并提高效率,而且根據(jù)消融研究,這不會顯著影響建模性能。

圖 9:MHA 與 GQA 的比較。此處,分組大小為 2,其中鍵值對在 2 個查詢之間共享。

因此,GQA 的核心思想是通過在多個查詢頭之間共享鍵和值頭來減少鍵和值頭的數(shù)量。這可 (1) 降低模型的參數(shù)數(shù)量,(2) 減少推理過程中鍵和值張量的內(nèi)存帶寬占用,因為需要從鍵值緩存中存儲和檢索的鍵和值更少。

雖然 GQA 主要是為了提高 MHA 的計算效率,但一些消融研究(例如原始 GQA 論文和 Llama 2 論文中的研究)表明,它在 LLM 建模性能方面與標準 MHA 相當。

2.6 滑動窗口注意力

滑動窗口注意力(下圖 10)最早在 LongFormer 論文(2020 年)中提出,后來由 Mistral 推廣。有趣的是,gpt-oss 每隔一層就應用一次它。你可以將其視為多頭注意力(在本例中為分組查詢注意力 (GQA))的一種變體,其中注意力上下文被限制在較小的窗口中,從而可同時降低內(nèi)存使用量和計算成本。

圖 10:常規(guī)注意力(左)與滑動窗口注意力(右)的比較。

具體來說,gpt-oss 會交替關注完整上下文的 GQA 層和滑動窗口限制為 128 個 token 的 GQA 層。

實際上,Gemma 2 (2024) 也使用了類似的 1:1 比例。今年早些時候發(fā)布的 Gemma 3 則更進一步,改為 5:1 的比例,這意味著每五個滑動窗口(局部)注意力層只有一個完整的注意力層。

根據(jù) Gemma 的消融研究,滑動窗口注意力對建模性能的影響微乎其微,如下圖所示。需要注意的是,Gemma 2 中的窗口大小為 4096 個 token,而 Gemma 3 將其減少到 1024 個 token。在 gpt-oss 中,窗口只有 128 個 token,非常小。

另外,有趣的是,OpenAI 的官方文章指出,滑動窗口注意力顯然已在 GPT-3 中使用:「這些模型使用了交替的密集和局部帶狀稀疏注意力模式,類似于 GPT-3」

我回顧了 GPT-3 的原始論文,那里確實提到了這一點:「我們使用了與 GPT-2 相同的模型和架構(gòu),包括其中描述的修改后的初始化、預歸一化和可逆 token 化,不同之處在于,我們在 Transformer 的各層中使用交替的密集和局部帶狀稀疏注意力模式,類似于 Sparse Transformer。」

2.7 RMSNorm 替換 LayerNorm

最后一個不同于 GPT-2 的小調(diào)整是用 RMSNorm (2019) 替換 LayerNorm (2016),這是近年來的一個常見趨勢。

類似于用 Swish 和 SwiGLU 替換 GELU,RMSNorm 也是合理的效率小改進之一。 RMSNorm 與 LayerNorm 類似,其目的都是對層激活進行歸一化,如下圖 11 所示。

你可能還記得,不久前,BatchNorm 還是這項任務的首選。但后來它逐漸失寵,主要是因為它難以高效并行化(由于均值和方差的批次統(tǒng)計數(shù)據(jù)),并且在小批量下表現(xiàn)不佳。

圖 11:LayerNorm(左)和 RMSNorm(右)在小型線性層中的比較。

如上圖 11 所示,LayerNorm 和 RMSNorm 都會將層輸出縮放到合理的范圍內(nèi)。

LayerNorm 的做法是減去均值并除以標準差,使得層輸出具有零均值和單位方差(方差為 1,標準差為 1)。

RMSNorm 則是將輸入除以均方根。這不會強制要求均值和方差為零,但均值和方差應處于合理范圍內(nèi):均值在 -1 到 1 之間,方差在 0 到 1 之間。在圖 11 所示的特定示例中,均值為 0.77,方差為 0.41。

LayerNorm 和 RMNSorm 都能穩(wěn)定激活尺度并改善優(yōu)化效果,但 RMNSorm 通常更適合大規(guī)模 LLM,因為它的計算成本更低。與 LayerNorm 不同,RMNSorm 沒有偏差(平移)項,并將昂貴的均值和方差計算簡化為一次均方根運算。這將跨特征約簡的次數(shù)從兩次減少到一次,從而降低 GPU 的通信開銷并提高訓練效率。

2.8 GPT-2 的遺產(chǎn)

我仍然認為,在學習 LLM 時,GPT-2 是一個優(yōu)秀的入門架構(gòu)。它足夠簡單易懂,不會迷失在層層優(yōu)化技巧中,但又足夠復雜,能夠讓你扎實掌握現(xiàn)代 Transformer 模型的工作原理。

從 GPT-2 開始,你可以專注于基礎知識(注意力、位置嵌入、規(guī)范化和整體訓練流程),而不會被新架構(gòu)中的額外功能和調(diào)整所淹沒。

事實上,我認為在嘗試疊加新的變化之前,先花時間了解甚至實現(xiàn) GPT-2 是值得的。你不僅能更容易地理解這些變化,而且你可能會更加欣賞它們,因為你將更好地理解它們試圖解決的局限性或問題。

例如,我最近從我的 GPT-2 代碼入手,從零開始實現(xiàn)了 Qwen3 架構(gòu),它與 gpt-oss 非常相似,這就引出了下一個話題:將 gpt-oss 與更新的架構(gòu)進行比較。

從頭開始實現(xiàn) Qwen3:https://github.com/rasbt/LLMs-from-scratch/tree/main/ch05/11_qwen3

3、比較 gpt-oss 與最新架構(gòu) (Qwen3)

現(xiàn)在我們已經(jīng)了解了從 GPT-2 到 gpt-oss 的演變過程,接下來我們將 gpt-oss 與更新的架構(gòu) Qwen3 進行比較,后者于三個月前(2025 年 5 月)發(fā)布。

我之所以選擇 Qwen3,是因為截至撰寫本文時,它是頂級的開放權(quán)重模型之一。此外,Qwen3 也是 MoE 模型,由于其可訓練參數(shù)的總體規(guī)模相對相似,幾乎可以直接與 gpt-oss 相比。

下圖對比了 gpt-oss-20B 與大小相當?shù)?Qwen3 模型。

圖 13:大小相當?shù)?gpt-oss 和 Qwen3 模型。

可以看到,gpt-oss 20B 和 Qwen3 30B-A3B 在架構(gòu)組件上非常相似。除了尺寸之外,主要區(qū)別在于 gpt-oss 采用了滑動窗口注意力,而 Qwen3 則沒有。

我們將在以下小節(jié)中逐一介紹值得注意的細節(jié)。

3.1 寬度與深度

仔細觀察這兩個模型,我們會發(fā)現(xiàn) Qwen3 的架構(gòu)更深,它有 48 個 Transformer 模塊,而不是 24 個。

另一方面,gpt-oss 的架構(gòu)更寬:

  • 嵌入維度為 2880,而非 2048
  • 中間的專家(前向)投影維度也為 2880,而非 768

還值得注意的是,gpt-oss 使用了兩倍的注意力頭,但這并不會直接增加模型的寬度。寬度由嵌入維度決定。

在參數(shù)數(shù)量固定的情況下,哪種方法更有優(yōu)勢?根據(jù)經(jīng)驗,更深的模型更靈活,但由于梯度爆炸和梯度消失(RMSNorm 和 shortcut 連接旨在緩解這些問題)導致的不穩(wěn)定性問題,訓練起來可能更困難。

更寬的架構(gòu)具有推理速度更快的優(yōu)勢(每秒 token 吞吐量更高),這是因為并行化程度更高,但內(nèi)存成本也更高。

就建模性能而言,遺憾的是,據(jù)我所知,除了 Gemma 2 論文(表 9)中的一項消融研究(ablation study)之外,目前尚無很好的同類比較(在參數(shù)大小和數(shù)據(jù)集保持不變的情況下)。該研究發(fā)現(xiàn),對于 9B 參數(shù)架構(gòu),較寬的設置略優(yōu)于較深的設置。在 4 個基準測試中,較寬的模型平均得分為 52.0,而較深的模型平均得分為 50.8。

3.2 少量大型專家 vs. 大量小型專家

如上圖 14 所示,值得注意的是,gpt-oss 的專家數(shù)量出奇地少(32 個而不是 128 個),并且每個 token 僅使用 4 個而不是 8 個活躍專家。然而,每個專家的數(shù)量都比 Qwen3 中的專家數(shù)量要多得多。

這很有意思,因為最近的趨勢和發(fā)展表明,更多、更小的模型是有益的。在總參數(shù)大小不變的情況下,這種變化在來自 DeepSeekMoE 論文的下圖中得到了很好的展示。

圖 15:來自《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》的圖片,https://arxiv.org/abs/2401.06066

值得注意的是,與 DeepSeek 的模型不同,gpt-oss 和 Qwen3 都沒有使用共享專家。

公平地說,gpt-oss 中專家數(shù)量較少可能是 20B 規(guī)模的副作用。查看下面的 120B 模式,它們確實增加了專家(和 Transformer 模塊)的數(shù)量,同時保持其他所有參數(shù)不變,如下圖所示。

圖 16:兩個 gpt-oss 架構(gòu)比較,其中更大的 120B 模型僅擴展了 Transformer 模塊和專家的數(shù)量。

20B 和 120B 模型如此相似的一個無聊解釋可能是因為 120B 模型是主要關注點。而創(chuàng)建較小模型最簡單的方法是使其更短一些(減少 Transformer 模塊)并減少專家數(shù)量,因為大多數(shù)參數(shù)都存儲在專家數(shù)量中。然而,有人可能會猜測他們是否先訓練 120B 模型,然后砍掉一些 Transformer 模塊和專家數(shù)量用于繼續(xù)預訓練(而不是從隨機權(quán)重開始)。

無論如何,這是因為只縮放這兩者(Transformer 模塊和專家數(shù)量)的情況并不常見。例如,在查看多種尺寸的 Qwen3 MoE 模型(下圖 17)時,它們在更多方面彼此之間進行了更均衡的縮放。

圖 17:各種 Qwen3 模型的架構(gòu)差異。

3.3 注意力偏差和 sinks

gpt-oss 和 Qwen3 都使用分組查詢注意力。主要區(qū)別在于,如前所述,gpt-oss 通過在每個第二層中滑動窗口注意力來限制上下文大小。

然而,有一個有趣的細節(jié)引起了我的注意。gpt-oss 似乎為注意力權(quán)重使用了偏差單元(bias units),如下圖所示。

圖 18:gpt-oss 模型在注意力層中使用了偏差單元。

自 GPT-2 時代以來,我就沒見過這些偏差單元被使用,它們通常被認為是多余的。事實上,我發(fā)現(xiàn)了一篇最近的論文,從數(shù)學上證明了至少對于鍵變換 (k_proj) 來說,情況確實如此。此外,實證結(jié)果表明,使用和不使用偏差單元之間幾乎沒有差異(見下圖 19)。

圖 19:來自 https://arxiv.org/pdf/2302.08626 的表格,顯示了使用和不使用偏差單元從頭開始訓練模型時的平均測試損失。

你可能注意到的另一個細節(jié)是圖 18 代碼截圖中 sinks(sinks)的定義。在一般模型中,注意力 sinks 是放置在序列開頭的特殊「始終關注」token,用于穩(wěn)定注意力,這在長上下文場景中尤其有用。也就是說,如果上下文變得很長,開頭這個特殊的、被關注的 token 仍然會被關注,并且它可以學習存儲一些關于整個序列的普遍有用的信息。

在 gpt-oss 實現(xiàn)中,注意力 sinks 并非輸入序列中的實際 token。相反,它們是學習到的每人偏差邏輯單元 (per-headbias logits),并附加到注意力分數(shù)中(圖 20)。其目標與上述注意力 sinks 相同,但不修改 token 化的輸入。

圖 20:gpt-oss 中注意力 sinks 的使用

3.4 許可證

最后,與 Qwen3 類似,gpt-oss 模型采用了 Apache 2.0 開源許可證,這非常棒(這也是我自己的開源項目所偏好的許可證)。這意味著這些模型可以不受限制地蒸餾成其他模型或用于商業(yè)產(chǎn)品。

開放權(quán)重 LLM vs 開源 LLM:這種區(qū)別多年來一直存在爭議,但值得澄清以避免混淆。一些模型開發(fā)者只發(fā)布模型權(quán)重和推理代碼(例如 Llama、Gemma 和 gpt-oss),而另一些模型開發(fā)商則會將所有東西都開源,包括訓練代碼、數(shù)據(jù)集和權(quán)重。(例如 OLMo)

按照更嚴格的定義,gpt-oss 是一個開放權(quán)重模型(就像 Qwen3 一樣),因為它包含權(quán)重和推理代碼,但不包含訓練代碼或數(shù)據(jù)集。然而,業(yè)界對這一術語的使用并不一致。

我曾經(jīng)以為「gpt-oss」中的「oss」表示開源軟件(open source software);然而,令我驚訝的是,OpenAI 在其官方公告文章中明確地將 gpt-oss 描述為開放權(quán)重模型。

4、其他有趣細節(jié)

雖然前面幾節(jié)描述了該架構(gòu)自 GPT-2 以來的演變,并討論了它與 Qwen3(以及大多數(shù)其他近期模型)的相似之處,但還有一些值得注意的細節(jié)尚未提及。

這些要點不適合放在前面幾節(jié),但仍然值得一提。

4.1 訓練概況

遺憾的是,關于 gpt-oss 的訓練集大小和算法的信息并不多,但我從其模型卡 (1) 和宣布文章 (2) 中找到了一些有趣的拼圖碎片:

由此,我們知道 gpt-oss 模型是推理模型。訓練計算量是 210 萬個 H100 GPU 小時數(shù),與規(guī)模約 5.6 倍的 DeepSeek V3 模型所需的 278.8 萬個 H800 GPU 小時數(shù)的訓練計算量大致相當。遺憾的是,目前尚無關于 Qwen3 訓練時間的信息。

有趣的是,gpt-oss 的訓練時間估算包含了用于指令遵循的監(jiān)督學習和用于推理的強化學習,而 DeepSeek V3 只是一個預訓練的基礎模型,DeepSeek R1 是在此基礎上單獨訓練的。

4.2 推理工作

如上一節(jié)所述,gpt-oss 模型是推理模型。然而,特別有趣的是,它們的訓練方式使得用戶可以通過推理時間縮放輕松控制推理程度。

具體來說,gpt-oss 模型可以接收「推理工作量:低 / 中 / 高」指令作為其系統(tǒng)提示詞的一部分,這可直接影響響應長度和準確率,如圖 21 所示。

圖 21:不同推理工作量下 gpt-oss 模型的響應長度和質(zhì)量

這種可調(diào)整性非常有用,因為它使我們能夠平衡成本、計算量和準確率。例如,如果任務很簡單,例如回答一個簡單的知識問題或修復一個小拼寫錯誤,我們可以跳過擴展推理。這能節(jié)省時間和資源,同時避免不必要的冗長響應和冗長的推理痕跡。

與 Qwen3 或 OLMo 不同,OpenAI 沒有發(fā)布強化學習訓練之前的基礎模型,這多少有些遺憾。基礎模型對于研究推理方法的研究者來說是極其寶貴的起點(這也是我目前喜歡使用 Qwen3 Base 的原因之一)。我猜測,OpenAI 的決定更多是出于行業(yè)和生產(chǎn)用例的考慮,而非研究方面的考慮。

請注意,原始 Qwen3 模型也有一個用于啟用 / 禁用思考(推理)模式的開關(通過在 tokenizer 中設置 enable_thinking=True/False 來啟用 / 禁用推理行為)。然而,Qwen3 團隊在過去幾周更新了他們的模型,并從混合模型轉(zhuǎn)向了專用的 Instruct/Thinking/Coder 變體。

原因是混合模式下的模型性能低于單個模型:「在與社區(qū)討論并反思此事后,我們決定放棄混合思考模式。現(xiàn)在我們將分別訓練 Instruct 和 Thinking 模型,以實現(xiàn)最佳質(zhì)量。」

4.3 MXFP4 優(yōu)化:一個細小卻重要的細節(jié)

一個有趣的驚喜是,OpenAI 還發(fā)布了為 MoE 專家采用了 MXFP4 量化方案的 gpt-oss 模型。

量化格式曾經(jīng)是一個小眾話題,主要與移動或嵌入式 AI 相關,但隨著模型規(guī)模的擴大,這種情況發(fā)生了變化。在這種情況下,MXFP4 優(yōu)化能讓模型在單臺 GPU 設備上運行。

實際效果如下:

  • 大型模型(例如 120B)可安裝在單臺 80GB H100 或更新的 GPU 上。雖然不是消費級硬件,但租用一臺單 H100 的機器比租用多臺 H100 的機器便宜得多。此外,我們不必擔心在 GPU 之間分配模型并增加通信開銷。 AMD MI300X 顯卡從第一天起就支持,真是太好了!
  • 較小的 20B 模型甚至可以使用 16 GB 顯存;需要注意的是,它必須是 RTX 50 系列或更新的 GPU 才能支持 MXFP4。

請注意,這些模型也可以在較舊的硬件上運行,但不支持 MXFP4,因此會消耗更多內(nèi)存。如果沒有 MXFP4 優(yōu)化,bfloat16 模型將消耗更多內(nèi)存,例如 48 GB(gpt-oss-20b)和 240 GB(gpt-oss-120b)。

順便說一句,我可以在 Mac Mini 上使用 ollama 輕松運行 gpt-oss-20b 模型。它占用大約 13.5 GB 的內(nèi)存。嗯,很合理。

4.4 基準成績

這些模型還比較新,還沒有多少可靠的獨立基準測試結(jié)果。比如 LM Arena 排行榜上,gpt-oss 尚未上榜。因此,根據(jù) LM Arena 用戶的數(shù)據(jù),Qwen3-Instruct 目前仍然引領開放權(quán)重模型(圖 22)。

圖 22:LM Arena 排行榜當前視圖(截至 2025 年 8 月 12 日)

只看 gpt-oss 發(fā)布博文中提供的推理基準測試,我們可以看到 gpt-oss 模型與 OpenAI 的專有模型以及 Qwen3 的性能相當(圖 23)。

圖 23:主要基準測試圖表來自官方 gpt-oss 官方公告。「no tools」的 gpt-oss-120b 數(shù)據(jù)取自官方模型卡,Qwen3 數(shù)據(jù)取自官方 Qwen3 代碼庫。

然而,需要注意的是,gpt-oss-120b 的大小幾乎只有 Qwen3 A235B-A22B-Thinking-2507 模型的一半,而且可以在單臺 GPU 上運行。

然而,基準測試性能并不總是反映實際可用性。在過去幾天有限的使用中,我發(fā)現(xiàn) gpt-oss 相當強大。不過,正如其他人所觀察到的,它似乎確實有相對較高的幻覺傾向(這一點在其模型卡中也有提到)。

這可能源于它在訓練過程中過于注重數(shù)學、謎題和代碼等推理任務,這可能導致它「遺忘了一些常識」。不過,由于 gpt-oss 在設計時就考慮到了工具的使用,因此隨著時間的推移,這一限制可能會逐漸減弱。開源 LLM 中的工具集成仍處于早期階段,但隨著它的成熟,我預計我們會越來越多地讓模型在回答事實或基于知識的查詢時參考外部資源(例如搜索引擎)。

屆時,更明智的做法是優(yōu)先考慮推理能力而不是記憶能力。這很像人類在學校(或生活中)的學習,解決問題的能力往往比記憶事實更重要。

5、gpt-oss 和 GPT-5

OpenAI 度過了忙碌的一周,在 gpt-oss 發(fā)布后不久就發(fā)布了備受期待的 GPT-5 模型。GPT-5 的發(fā)布非常有趣。如果說有什么要說的,那就是我真的很驚訝,他們的開源模型在基準性能方面與他們最好的產(chǎn)品相比竟也如此出色(圖 24)。

圖 24:主要基準圖表來自 GPT-5 官方公告。gpt-oss 數(shù)據(jù)取自官方模型卡和公告,Qwen3 數(shù)據(jù)取自官方 Qwen3-Coder 代碼庫。

總而言之,盡管有些人認為該版本被過度炒作,但我很高興我們擁有了一套真正強大的開放權(quán)重模型,它們與最好的專有模型并無太大差距。

當然,基準測試通常不能準確反映實際使用情況,而且由于使用情況有限,現(xiàn)在下結(jié)論還為時過早。但我認為,對于喜歡使用開放權(quán)重和本地(或私有托管)模型的人來說,這是件好事。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-18 09:15:00

2025-08-07 14:05:40

OpenAI大模型開源

2023-08-17 08:00:00

2025-08-08 04:11:00

GPT-OSS大模型算法

2023-06-05 14:04:59

模型AI

2025-08-13 11:42:09

2025-08-15 08:17:41

2025-08-07 09:05:45

2024-12-20 14:37:47

2023-05-10 17:33:56

2023-12-16 09:45:56

論文GPT-4AI

2020-01-30 14:50:16

谷歌Android技術

2024-04-09 12:23:27

C語言AI

2023-11-06 09:26:00

模型測評

2023-07-07 09:32:57

GPT-4OpenAI

2023-12-15 12:52:17

AI模型

2023-05-10 14:54:23

AI

2023-11-26 17:50:00

AI模型

2025-08-12 09:12:00

2023-04-09 16:17:05

ChatGPT人工智能
點贊
收藏

51CTO技術棧公眾號

国产精品视频九色porn| 亚洲高清资源在线观看| 欧洲国内综合视频| 在线观看日本一区| 亚洲欧美高清视频| 久久国产精品99国产| 中文字幕在线成人| 岛国精品一区二区三区| 日韩欧美另类一区二区| 伊人一区二区三区| 欧美日韩一区在线视频| 99热精品在线播放| 久久综合五月| 欧美激情按摩在线| a级片在线观看| 一区中文字幕| 欧美亚洲动漫制服丝袜| 国产一二三在线视频| av在线电影播放| 本田岬高潮一区二区三区| 国产精品中文久久久久久久| 日韩美女视频网站| 你懂的亚洲视频| 曰本色欧美视频在线| 亚洲熟女一区二区三区| 久久av日韩| 一本大道久久精品懂色aⅴ| 看全色黄大色大片| 最新av网站在线观看| 91网站视频在线观看| 亚洲r级在线观看| 男人天堂视频在线| 国产精品一级| 久久久久久久久爱| 欧美三级在线免费观看| 久久视频在线| 一本色道久久综合亚洲精品小说| 国产日韩视频一区| 精品国产一区二区三区2021| 欧美在线|欧美| 国产精品亚洲a| 日韩大片免费观看| 精品av在线播放| 青青草综合在线| 黄色网在线免费观看| 中文字幕免费不卡| 日韩亚洲一区在线播放| 国产色a在线| 久久精品一区蜜桃臀影院| 精品国产_亚洲人成在线| www夜片内射视频日韩精品成人| 蜜臀久久99精品久久久画质超高清 | 国产高清不卡视频| 韩国v欧美v日本v亚洲v| 国产精品一区二区久久| 伊人色综合久久久| 另类综合日韩欧美亚洲| 国产日韩欧美在线观看| 91中文字幕在线视频| 蜜芽一区二区三区| 91精品国产综合久久香蕉的用户体验 | av在线第一页| 国产免费观看久久| 亚洲第一导航| 色视频在线免费观看| 国产精品初高中害羞小美女文| 日韩区国产区| 在线观看av的网站| 亚洲女性喷水在线观看一区| 国产大尺度在线观看| 97超碰资源站在线观看| 亚洲激情欧美激情| 久久久久久免费看| 国产资源在线观看入口av| 精品女厕一区二区三区| 欧美日韩第二页| 电影亚洲一区| 欧美一级日韩免费不卡| 久久性爱视频网站| 一本色道久久综合狠狠躁的番外| 国产一区二区三区欧美| 国产午夜精品久久久久久久久| 天天色综合色| 欧美精品久久久久久久免费观看| 五月婷婷激情网| 丝袜诱惑制服诱惑色一区在线观看| 国产精品日韩欧美| a级片在线免费看| 99久久99久久免费精品蜜臀| 欧美大陆一区二区| 婷婷免费在线视频| 亚洲国产欧美在线| 天天操天天爽天天射| 国产成人免费视频网站视频社区| 亚洲а∨天堂久久精品喷水| 欧美做受xxxxxⅹ性视频| 日韩一区三区| 欧美精品久久久久久久| 无码人妻精品一区二区三区蜜桃91 | 高h震动喷水双性1v1| 久久综合狠狠综合| 国产精品av免费| 欧美极品videos大乳护士| 欧美性生交片4| 制服丝袜在线第一页| 日韩精品久久| 亚州成人av在线| 中文字幕人妻色偷偷久久| 成人污污视频在线观看| 亚洲mv在线看| 草草在线视频| 欧美电影在线免费观看| 老司机福利av| 欧美午夜不卡| 国产精品亚洲综合天堂夜夜| 深夜福利视频网站| 中文字幕一区二区三区四区 | 日韩av网站在线观看| 波多野结衣久草一区| p色视频免费在线观看| 亚洲成人一区在线| 中文字幕一区二区在线观看视频| 婷婷成人在线| 久久久久久久久久久免费精品| 中文字幕日韩三级| 久久日韩粉嫩一区二区三区| 免费高清一区二区三区| 蜜桃在线一区| 久久天天躁狠狠躁夜夜av| 久久久久久久久久一级| 99在线视频精品| 欧美乱做爰xxxⅹ久久久| 素人啪啪色综合| 亚洲欧美日韩国产中文| 日本一区二区三区免费视频| 久久精品国产成人精品| 色阁综合伊人av| 中文字幕 亚洲一区| 亚洲色图88| 国产精品一区久久久| 嫩草研究院在线| 亚洲国产精品一区二区久久恐怖片| 欧美日韩中文不卡| 欧美理论电影大全| 日韩免费在线播放| 男人久久精品| 一本在线高清不卡dvd| 精品无码国产一区二区三区51安| 狠狠综合久久| 国产不卡一区二区在线观看| 女人黄色免费在线观看| 日韩欧美黄色影院| 国产亚洲精品成人| 成人黄色一级视频| 日日摸日日碰夜夜爽无码| 高清一区二区三区| 26uuu另类亚洲欧美日本一 | 精品国产凹凸成av人网站| 欧美日韩大片在线观看| 顶级嫩模精品视频在线看| 日本阿v视频在线观看| 国产香蕉精品| 2019中文字幕免费视频| 国产在线观看免费| 欧美三级视频在线观看| 99精品中文字幕| 国产乱对白刺激视频不卡| 欧洲精品视频在线| 激情av综合| 国产成人午夜视频网址 | 欧美第一淫aaasss性| 欧美一级性视频| 欧美色videos| 亚洲一区电影在线观看| 国产精品一区二区不卡| 日本a在线免费观看| 免费看成人吃奶视频在线| 国产成人激情小视频| 色网站在线看| 亚洲国产精品视频在线观看| 欧美日韩一级黄色片| 中文字幕视频一区| 男人的天堂影院| 久久久亚洲人| 91免费网站视频| 91蜜桃臀久久一区二区| 欧美做爰性生交视频| 国产特黄在线| 欧美日韩国产综合一区二区三区| 北条麻妃在线观看视频| 粉嫩13p一区二区三区| 缅甸午夜性猛交xxxx| 青青草国产免费一区二区下载 | 午夜一区二区三区| 免费一级欧美在线大片| 97高清免费视频| 国产中文字幕在线| 91精品国产91久久久久久一区二区| 日本精品人妻无码77777| 国产91富婆露脸刺激对白| 久草资源站在线观看| 色喇叭免费久久综合网| 久久精品日产第一区二区三区| 制服诱惑亚洲| 欧美大奶子在线| 欧美精品少妇| 日韩免费一区二区三区在线播放| www.国产色| 国产精品入口麻豆原神| 少妇极品熟妇人妻无码| 免费观看成人鲁鲁鲁鲁鲁视频| 欧美在线观看黄| 久久最新网址| 成人欧美一区二区三区视频 | 亚洲一区二区三区四区不卡| 国产精品福利导航| 国产伦精一区二区三区| 成年人观看网站| 欧美精品播放| 日韩精品另类天天更新| 国内精品偷拍| 成人黄色激情网| gay欧美网站| 欧美高清视频在线| 国产一二区在线| 亚洲色图综合久久| 日本高清视频免费看| 91成人免费电影| 青青青国产在线| 一区二区三区av电影| 国产日韩精品中文字无码| 大美女一区二区三区| 伦伦影院午夜理论片| 日韩精品电影一区亚洲| www..com日韩| 日韩精品诱惑一区?区三区| 日本不卡在线播放| 少妇一区二区三区| 国产精品久久久久久免费观看| 成人性生交大片免费网站| 九九精品视频在线| 成人欧美亚洲| 中文字幕欧美精品日韩中文字幕| 五十路在线视频| 欧美成人三级在线| 在线观看色网站| 欧美吻胸吃奶大尺度电影| 无码人妻丰满熟妇区bbbbxxxx| 精品福利在线视频| 久久亚洲天堂网| 欧美日韩国产在线看| 久久黄色免费网站| 国产精品国产自产拍在线| 影音先锋男人资源在线观看| 久久蜜桃av一区精品变态类天堂 | www.久久久.com| 国产精品丝袜高跟| 日本.亚洲电影| 97视频免费在线观看| 麻豆mv在线观看| 538国产精品一区二区免费视频 | 国产精品久久久久久久av电影| 午夜av不卡| 456亚洲影院| 色偷偷色偷偷色偷偷在线视频| 欧美在线观看日本一区| 超级碰碰久久| 国产成人精品a视频一区www| 在线观看福利电影| 国产精品偷伦一区二区 | 亚洲网站在线| 欧美不卡在线播放| 久久精品一区| 激情视频综合网| 久久9热精品视频| 一起草最新网址| 成人免费观看视频| 爱爱免费小视频| 中文字幕av免费专区久久| 貂蝉被到爽流白浆在线观看| 亚洲国产精品成人综合| 国产1区2区3区4区| 午夜久久久影院| 无码人妻丰满熟妇精品区| 欧美一区二区视频观看视频| 精品黑人一区二区三区在线观看| 日韩欧美国产不卡| 天堂中文在线官网| 色妞色视频一区二区三区四区| 免费a级在线播放| 欧美福利视频网站| 亚洲最大网站| 亚洲中国色老太| 久久悠悠精品综合网| 欧美日韩在线一二三| 一区二区中文| 久久久999免费视频| 日韩国产成人精品| 97超碰免费在线观看| 久久精品视频一区二区三区| 午夜精品一区二区三级视频| 亚洲综合另类小说| 国产农村妇女aaaaa视频| 在线综合亚洲欧美在线视频| 成人毛片视频免费看| 亚洲香蕉伊综合在人在线视看| 欧美人体视频xxxxx| 日韩av123| aaa国产精品| 中文字幕第一页亚洲| 米奇777在线欧美播放| 四虎1515hh.com| 国产欧美一区二区三区在线看蜜臀 | 日韩精品一区二区在线| 欧洲天堂在线观看| 欧美成人亚洲成人| 日韩av免费| 国产一区二区不卡视频在线观看| 国产高清欧美| 六月丁香婷婷在线| 国产寡妇亲子伦一区二区| 中文字幕一二三四区| 亚洲成人综合视频| 国产精品丝袜黑色高跟鞋| 亚洲精品小视频| 日本不卡1234视频| 亚洲www在线| 成人久久久久| 免费在线观看的毛片| 成人黄色在线看| 成人在线观看高清| 色欧美片视频在线观看 | 亚洲天堂免费观看| 91桃色在线观看| 国产精品12| 综合一区av| 手机av在线网| 中文字幕一区不卡| www.亚洲激情| 亚洲欧美一区二区三区四区| 波多野结衣视频一区二区| 亚洲一区二区在线| 久久密一区二区三区| 黑鬼大战白妞高潮喷白浆| 久久亚洲私人国产精品va媚药| 69av.com| 4438x成人网最大色成网站| 免费在线观看av| 国产精品免费视频久久久| 免费久久精品| 在线免费观看av的网站| 久久久国产精品麻豆| 一级片视频在线观看| 亚洲色图15p| 神马久久资源| 色综合久久88色综合天天提莫| 青青国产91久久久久久| 蜜桃传媒一区二区亚洲| 欧美性jizz18性欧美| 邻居大乳一区二区三区| 日本三级韩国三级久久| 天堂网av成人| 午夜欧美福利视频| 欧美国产日产图区| 中文字幕欧美色图| 欧美日韩国产成人在线| 一区二区三区视频免费视频观看网站 | 中文天堂在线播放| 日韩视频免费大全中文字幕| 欧美91在线|欧美| 一区二区在线不卡| 国产成人精品网址| 国产午夜精品无码一区二区| 亚洲国产精品999| 欧美一区国产| 亚洲 日韩 国产第一区| 国内精品国产成人| 毛片在线免费视频| 亚洲另类欧美自拍| 小明成人免费视频一区| 日本精品免费视频| 国产91丝袜在线18| 日本视频在线观看免费| 色偷偷噜噜噜亚洲男人| 成人乱码手机视频| 丝袜人妻一区二区三区| 日本一区二区三区在线观看| 中文字幕视频二区| 欧美激情免费在线| 久久av影视| 色网站在线视频| 日韩毛片一二三区| 欧洲视频在线免费观看| 国产久一一精品| 亚洲欧美在线专区| bl动漫在线观看| 欧美三级三级三级爽爽爽| 17videosex性欧美| 色乱码一区二区三在线看| 国产精品99久久久久久久vr|