剛剛,GPT-5內測搶先泄露!推理強到離譜,智商被曝140超越人類天才
就在明天,GPT-5總算要靴子落地了。

周五凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano將同時推出。全網用戶都可以立即通過API和ChatGPT訪問這三個模型。

經過十來天的營銷和造勢,眾位看官們的熱情也是被激到了最高點,明天OpenAI要是拿不出什么硬貨來,恐怕是要被嘲了。
就在今天,還有關于GPT-5的消息放出。
比如這種GPT-5基準測試的結果,已經開始全網瘋傳。
數據顯示,它在SimpleBench上的得分已經達到了90%,高于之前的62%。而人類高中生在此基準上的得分為85.7%。

另外還有兩張泄露的GPT-5基準測試如下。
比如,GPT-5的智商或逼近140。

在ARC-AGI 2的Benchmark上,GPT-5也是一騎絕塵。

與此同時,一些GPT-5的驚人實測,也已經提前放出了!
GPT-5的驚人示例
注意,無論是上圖中的基準測試,還是下面的demo,都是通過Copilot得到的。
很多網友發現,在某些情況下,微軟Copilot已經開始調用GPT-5。

在Copilot產品中出現的「智能模式」字樣,都暗示著由GPT-5驅動的專門推理或自適應行為。

SVG機器人檢查(通過Copilot上的GPT-5)
TestingCatalog通過某些使用場景(例如Robot SVG 測試)確認,Copilot在某些情況下已在GPT-5上悄悄運行。

Copilot的智能模式自稱是GPT-5
而通過Copilot,已經有手快的網友給GPT-5測試來不同示例。
他的評價是:我懷疑這只是GPT-5的一個小版本,但仍然具有推理能力。這頭猛獸的威力,會讓你大吃一驚!
1. 「旋轉六邊形中的彈跳球」測試。

2. 制作一個GTA克隆版。
可以看出GPT-5表現很不錯,它做出了地圖和幾輛NPC汽車,碰撞機制也做得很好。

3. 制作一個未來感十足的AI按鈕。

4. 制作一個可運行的單文件俄羅斯方塊游戲。

5. 用HTML/JS編寫一個像素畫編輯器。
用戶可以設置網格大小、選擇顏色,并可以將圖片導出為PNG格式。

6. 在一個 HTML文件中制作一個可拖拽的看板(待辦事項/進行中/已完成),所有代碼均使用HTML/JS/CSS。

7. 制作一個神經網絡可視化工具,結果令人驚呆。

8. 在一個HTML文件中制作一個康威生命游戲模擬器。
用戶可以繪制單元格、播放/暫停、調整速度以及保存/加載模式。

9. 使用Three.js制作一個3D飛行模擬器。

10. 用純HTML/JS創建一個橫向卷軸平臺游戲。
鍵盤控制、收集金幣、勝負條件——一個文件,像素畫風。

11. 在一個HTML/JS文件中編寫一個交互式化學分子構建器——拖動原子、捕捉鍵、實時查看分子式更新。

12. 用一個HTML文件制作一個3D太陽系模擬器——包含行星軌道、點擊查看詳情、太陽動畫以及時間加速/減速控制。
網友稱,這是實測的所有示例中自己最喜歡的一個。

GPT-oss基準測試+實測來了
而GPT-5還沒發布,OpenAI就已經憑GPT-oss給全網整了個大的。
就在昨天,時隔數年后OpenAI終于對得起自己的名字了──
經過數月預告之后,他們發布了自2019年以來的首批開放權重的大語言模型:
? gpt-oss-120b:共1168億個參數,其中活躍參數為51億個。
? gpt-oss-20b:共209億個參數,其中活躍參數為36億個。
直接躋身HuggingFace模型榜單第一和第二。

就在剛剛,多項基準測試結果出爐,GPT-oss直接一舉登頂開源王座。
智能體基準測試平臺hud發推:
gpt-oss 120B(高配版)在GPQA Diamond、AIME 2024、AIME 2025和Codeforces等評測中,領先于主流開源模型(Deepseek R1、Qwen3、Llama 4、Kimi K2),斬獲最高分。


有人發現,在Intelligence基準測試中,GPT-oss-120b在高推理設置下的得分為8.6%,僅略低于o3。
可以說,它是名副其實的SOTA開源模型。


「ArtificialAnalysis」也對OpenAI gpt-oss模型進行了獨立的基準測試。

OpenAI的gpt-oss模型的獨立基準測試顯示:gpt-oss-120b超越了Meta的Llama模型,躋身全美開源權重模型No.1,其智能指數得分達到58。
在日新月異的AI領域,這已恍如隔世。要知道,ChatGPT本身發布至今還不到三年。

在智能上,這兩種模型在大小和稀疏性方面都得分極高。可以看到,120B擊敗了o3-mini,但落后于o4-mini和o3。
注意,120B是可以在單個H100上運行的最智能的模型,而20B是可以在消費級GPU上運行的最智能的模型。在ArtificialAnalysis的大多數評估中,這兩種模型的排名似乎相似,表明它們沒有突出的弱點。
如果和其他開放權重模型pk的話,雖然GPT-oss-120b的得分沒有超過DeepSeek R1 0528的59分或Qwen3 235B 2507的64分,但值得注意的是,它的總參數和活動參數都比這兩個模型小得多。
DeepSeek R1的總參數為671B,活動參數為37B,并且以FP8精度原生發布,這使其總文件大小(和內存需求)比GPT-oss-120b大了10倍以上。
Epoch AI在測試后得出結論:盡管使用了相似的計算量,GPT-oss-20b在基準測試中的表現比GPT-3好得多。

GPT-oss-20b在MMLU上的得分比GPT -3高41.4pp,在GPQA diamond上的得分可能高出41.5pp以上。

在HealthBench上,GPT-oss-120b幾乎與o3持平,超過了GPT-4o和o4-mini,使其成為OpenAI目前為止效率最高的模型。

實際測試:本地可跑
GPT-oss-120b輕松通過「旋轉六邊形中的彈跳球」測試:

而且還有人發現,AlphaXiv基于GPT OSS可以快速獲取下上文、標準參考文獻等,幫我們更快理解研究論文。
一個非常好用的功能是,我們可以針對論文的任何部分進行手動選擇、進行針對性提問,還能艾特其他論文,快速進行比較。

關鍵是,這次在筆記本電腦上的確可以跑:
在MacBook M4 Max 上,gpt-oss 120b:
48 token/s 高性能模式
35 token/s 正常模式
23 token/s 低功耗模式
在NVIDIA RTX 5090上,gpt-oss-20b運行速度非常快,每秒能處理大約160到180個令牌。

但OpenAI為何重金豪賭開源模型?
卷死對手,豪賭未來
就在今天,外媒The Information發表了一篇深度分析:OpenAI為何愿意花巨大代價,重金豪賭開源模型?

微妙的是,這其中少不了中國開源大軍的影響。
在智能方面,OpenAI的gpt-oss尚不及DeepSeek R1的59和Qwen3 235B的64──開源最強還是中國制造。
去年年底,DeepSeek憑借開放權重模型R 1異軍突起,一鳴驚人。
而OpenAI再次擁抱開源AI,是一步妙棋。
首先,通過為開發者和美國政府提供能開放權重模型新選項,OpenAI可以贏得他們的好感,樹立正面可靠的公共形象。
這更是一場高風險但明智的豪賭,賭的是這些模型能擊垮競爭對手。
具體而言,奧特曼正是向其對手扎克伯格學了一招,后者的Meta公司將Llama模型作為開放權重發布,目的就是讓開發者不再愿意為Meta對手的模型付費。
頗具諷刺意味的是,現在Meta成了被OpenAI此番開放權重發布沖擊最大的公司。Meta最新的Llama 4表現平平,令人失望。

Meta開啟了一輪AI研究員的招聘,已經瘋狂到如此地步:人工智能工程師Yangshun Tay透露,他在領英上曬出OpenAI的offer后,Meta在幾小時內就主動聯系了他。

然而,面臨威脅的不僅是 Meta。由于新的開放權重模型性能極為出色,開發者很可能會因此放棄Anthropic、谷歌甚至OpenAI自家的商業模型。既然能用上免費的開放權重模型,誰還會為GPT-4o或o1買單呢?
不過,正如之前所指出的,盡管舊模型的成本在快速下降,但開發者似乎仍愿意為最頂尖的模型支付費用。因此,OpenAI可能在賭:
舊模型的收入占比已經足夠小,就算為了在此過程中擊敗對手而犧牲掉這部分收入,也毫不足惜。
OpenAI敢于這么做,可能預示著其即將推出的GPT-5模型將非常強大。換言之,OpenAI必然相信,GPT-5的卓越性能足以讓開發者心甘情愿地為其支付高昂的費用。
另外一些開發者告訴媒體記者,對于需要將AI模型運行在自己「本地部署」服務器上的大型企業而言,OpenAI的新模型不啻為一大福音。
一位創始人談到,迄今為止,他們在本地部署性能稍遜的Llama和Mistral模型,然后再偶爾調用OpenAI、Anthropic 或谷歌提供的云端AI服務。而現在,他們將能夠完全在本地環境使用OpenAI品牌的模型了。





































