剛剛，GPT-5內測搶先泄露！推理強到離譜，智商被曝140超越人類天才

2025-08-07 16:21:27

人工智能新聞

GPT-5終于要來了，就在剛剛，已經有人通過Copilot放出了GPT-5的驚人實測，推理能力強到離譜。明天凌晨，GPT-5、GPT-5 Mini和GPT-5 Nano全家桶將悉數登場，全網已經high起來了。

就在明天，GPT-5總算要靴子落地了。

周五凌晨，GPT-5、GPT-5 Mini和GPT-5 Nano將同時推出。全網用戶都可以立即通過API和ChatGPT訪問這三個模型。

經過十來天的營銷和造勢，眾位看官們的熱情也是被激到了最高點，明天OpenAI要是拿不出什么硬貨來，恐怕是要被嘲了。

就在今天，還有關于GPT-5的消息放出。

比如這種GPT-5基準測試的結果，已經開始全網瘋傳。

數據顯示，它在SimpleBench上的得分已經達到了90%，高于之前的62%。而人類高中生在此基準上的得分為85.7%。

另外還有兩張泄露的GPT-5基準測試如下。

比如，GPT-5的智商或逼近140。

在ARC-AGI 2的Benchmark上，GPT-5也是一騎絕塵。

與此同時，一些GPT-5的驚人實測，也已經提前放出了！

GPT-5的驚人示例

注意，無論是上圖中的基準測試，還是下面的demo，都是通過Copilot得到的。

很多網友發現，在某些情況下，微軟Copilot已經開始調用GPT-5。

在Copilot產品中出現的「智能模式」字樣，都暗示著由GPT-5驅動的專門推理或自適應行為。

SVG機器人檢查（通過Copilot上的GPT-5）

TestingCatalog通過某些使用場景（例如Robot SVG 測試）確認，Copilot在某些情況下已在GPT-5上悄悄運行。

Copilot的智能模式自稱是GPT-5

而通過Copilot，已經有手快的網友給GPT-5測試來不同示例。

他的評價是：我懷疑這只是GPT-5的一個小版本，但仍然具有推理能力。這頭猛獸的威力，會讓你大吃一驚！

1. 「旋轉六邊形中的彈跳球」測試。

2. 制作一個GTA克隆版。

可以看出GPT-5表現很不錯，它做出了地圖和幾輛NPC汽車，碰撞機制也做得很好。

3. 制作一個未來感十足的AI按鈕。

4. 制作一個可運行的單文件俄羅斯方塊游戲。

5. 用HTML/JS編寫一個像素畫編輯器。

用戶可以設置網格大小、選擇顏色，并可以將圖片導出為PNG格式。

6. 在一個 HTML文件中制作一個可拖拽的看板（待辦事項/進行中/已完成），所有代碼均使用HTML/JS/CSS。

7. 制作一個神經網絡可視化工具，結果令人驚呆。

8. 在一個HTML文件中制作一個康威生命游戲模擬器。

用戶可以繪制單元格、播放/暫停、調整速度以及保存/加載模式。

9. 使用Three.js制作一個3D飛行模擬器。

10. 用純HTML/JS創建一個橫向卷軸平臺游戲。

鍵盤控制、收集金幣、勝負條件——一個文件，像素畫風。

11. 在一個HTML/JS文件中編寫一個交互式化學分子構建器——拖動原子、捕捉鍵、實時查看分子式更新。

12. 用一個HTML文件制作一個3D太陽系模擬器——包含行星軌道、點擊查看詳情、太陽動畫以及時間加速/減速控制。

網友稱，這是實測的所有示例中自己最喜歡的一個。

GPT-oss基準測試+實測來了

而GPT-5還沒發布，OpenAI就已經憑GPT-oss給全網整了個大的。

就在昨天，時隔數年后OpenAI終于對得起自己的名字了──

經過數月預告之后，他們發布了自2019年以來的首批開放權重的大語言模型:

? gpt-oss-120b：共1168億個參數，其中活躍參數為51億個。

? gpt-oss-20b：共209億個參數，其中活躍參數為36億個。

直接躋身HuggingFace模型榜單第一和第二。

就在剛剛，多項基準測試結果出爐，GPT-oss直接一舉登頂開源王座。

智能體基準測試平臺hud發推：

gpt-oss 120B（高配版）在GPQA Diamond、AIME 2024、AIME 2025和Codeforces等評測中，領先于主流開源模型（Deepseek R1、Qwen3、Llama 4、Kimi K2），斬獲最高分。

有人發現，在Intelligence基準測試中，GPT-oss-120b在高推理設置下的得分為8.6%，僅略低于o3。

可以說，它是名副其實的SOTA開源模型。

「ArtificialAnalysis」也對OpenAI gpt-oss模型進行了獨立的基準測試。

OpenAI的gpt-oss模型的獨立基準測試顯示：gpt-oss-120b超越了Meta的Llama模型，躋身全美開源權重模型No.1，其智能指數得分達到58。

在日新月異的AI領域，這已恍如隔世。要知道，ChatGPT本身發布至今還不到三年。

在智能上，這兩種模型在大小和稀疏性方面都得分極高。可以看到，120B擊敗了o3-mini，但落后于o4-mini和o3。

注意，120B是可以在單個H100上運行的最智能的模型，而20B是可以在消費級GPU上運行的最智能的模型。在ArtificialAnalysis的大多數評估中，這兩種模型的排名似乎相似，表明它們沒有突出的弱點。

如果和其他開放權重模型pk的話，雖然GPT-oss-120b的得分沒有超過DeepSeek R1 0528的59分或Qwen3 235B 2507的64分，但值得注意的是，它的總參數和活動參數都比這兩個模型小得多。

DeepSeek R1的總參數為671B，活動參數為37B，并且以FP8精度原生發布，這使其總文件大小（和內存需求）比GPT-oss-120b大了10倍以上。

Epoch AI在測試后得出結論：盡管使用了相似的計算量，GPT-oss-20b在基準測試中的表現比GPT-3好得多。

GPT-oss-20b在MMLU上的得分比GPT -3高41.4pp，在GPQA diamond上的得分可能高出41.5pp以上。

在HealthBench上，GPT-oss-120b幾乎與o3持平，超過了GPT-4o和o4-mini，使其成為OpenAI目前為止效率最高的模型。

實際測試：本地可跑

GPT-oss-120b輕松通過「旋轉六邊形中的彈跳球」測試：

而且還有人發現，AlphaXiv基于GPT OSS可以快速獲取下上文、標準參考文獻等，幫我們更快理解研究論文。

一個非常好用的功能是，我們可以針對論文的任何部分進行手動選擇、進行針對性提問，還能艾特其他論文，快速進行比較。

關鍵是，這次在筆記本電腦上的確可以跑:

在MacBook M4 Max 上，gpt-oss 120b：

48 token/s 高性能模式

35 token/s 正常模式

23 token/s 低功耗模式

在NVIDIA RTX 5090上，gpt-oss-20b運行速度非常快，每秒能處理大約160到180個令牌。

但OpenAI為何重金豪賭開源模型？

卷死對手，豪賭未來

就在今天，外媒The Information發表了一篇深度分析：OpenAI為何愿意花巨大代價，重金豪賭開源模型？

微妙的是，這其中少不了中國開源大軍的影響。

在智能方面，OpenAI的gpt-oss尚不及DeepSeek R1的59和Qwen3 235B的64──開源最強還是中國制造。

去年年底，DeepSeek憑借開放權重模型R 1異軍突起，一鳴驚人。

而OpenAI再次擁抱開源AI，是一步妙棋。

首先，通過為開發者和美國政府提供能開放權重模型新選項，OpenAI可以贏得他們的好感，樹立正面可靠的公共形象。

這更是一場高風險但明智的豪賭，賭的是這些模型能擊垮競爭對手。

具體而言，奧特曼正是向其對手扎克伯格學了一招，后者的Meta公司將Llama模型作為開放權重發布，目的就是讓開發者不再愿意為Meta對手的模型付費。

頗具諷刺意味的是，現在Meta成了被OpenAI此番開放權重發布沖擊最大的公司。Meta最新的Llama 4表現平平，令人失望。

Meta開啟了一輪AI研究員的招聘，已經瘋狂到如此地步：人工智能工程師Yangshun Tay透露，他在領英上曬出OpenAI的offer后，Meta在幾小時內就主動聯系了他。

然而，面臨威脅的不僅是 Meta。由于新的開放權重模型性能極為出色，開發者很可能會因此放棄Anthropic、谷歌甚至OpenAI自家的商業模型。既然能用上免費的開放權重模型，誰還會為GPT-4o或o1買單呢？

不過，正如之前所指出的，盡管舊模型的成本在快速下降，但開發者似乎仍愿意為最頂尖的模型支付費用。因此，OpenAI可能在賭：

舊模型的收入占比已經足夠小，就算為了在此過程中擊敗對手而犧牲掉這部分收入，也毫不足惜。

OpenAI敢于這么做，可能預示著其即將推出的GPT-5模型將非常強大。換言之，OpenAI必然相信，GPT-5的卓越性能足以讓開發者心甘情愿地為其支付高昂的費用。

另外一些開發者告訴媒體記者，對于需要將AI模型運行在自己「本地部署」服務器上的大型企業而言，OpenAI的新模型不啻為一大福音。

一位創始人談到，迄今為止，他們在本地部署性能稍遜的Llama和Mistral模型，然后再偶爾調用OpenAI、Anthropic 或谷歌提供的云端AI服務。而現在，他們將能夠完全在本地環境使用OpenAI品牌的模型了。

責任編輯：張燕妮來源：新智元

GPT-5 AI 模型