OpenAI砸碎了程序員的飯碗
一、O3究竟是什么?
1. 名稱由來
為避免版權(quán)糾紛,OpenAI放棄了o2的命名,直接將其稱為o3。
圖片
2. 編程能力
在編程領(lǐng)域,o3取得了驚人的成績。在人類在線編程競技平臺codeforces上,o3模型的Elo得分達到2727分,排名第175位。在168076名全球參賽程序員中,o3擊敗了99.9%的程序員,超越了此前的GPT - 4o和o1等模型。這意味著o3在編程競技中已達到頂尖水平,甚至超越了許多大廠中眾多程序員的實力。要知道,字節(jié)跳動、騰訊、阿里等大廠都有10萬量級的員工,每個公司里,光年薪百萬的程序員都超過175個人了。o3的發(fā)布,將是沖擊碼農(nóng)崗位需求和薪資的里程碑事件。
圖片
3. 真實軟件工程能力
在SWE - bench測試中(SWE - bench挑戰(zhàn)AI模型根據(jù)給定的Github代碼庫(codebase)和問題描述(issue)生成相應(yīng)的代碼補?。╬atch)來解決問題,測試平臺不僅關(guān)注算法解題能力,還全面評估AI模型在實際軟件工程任務(wù)中的表現(xiàn),包括但不限于代碼缺陷檢測、代碼質(zhì)量評估、代碼變更預(yù)測等,其中SWE - bench Verified是其經(jīng)過五年經(jīng)驗碼農(nóng)人工驗證的子集,包含500個樣本),o3跑分達到71.7,能為71.7%的問題生成正確代碼補丁并通過單元測試,在模型中處于領(lǐng)先地位,甚至領(lǐng)先o1 20多個點的acc。這可能意味著,至少有70%本來需要程序員去救火的工程問題,o3能直接去解了。而問題的總量可能不會更多(甚至可能會因為o3打底早期代碼而變得更少),但需要人類程序員去解決的需求卻大量減少了。
圖片
4. 數(shù)學(xué)能力
在數(shù)學(xué)測試中,o3同樣表現(xiàn)驚艷。在AIME 2024(數(shù)學(xué)測試基準(zhǔn))中得分96.7%,相當(dāng)于在AMO美國數(shù)學(xué)奧林匹克競賽上只答錯1道題;在GPQA Diamond(博士級科學(xué)問題測試)中得分87.7%,甩開上一代o1接近10個百分點。
5. 圖形邏輯推理能力
在ARC - AGI測試中(測試形式為圖形邏輯推理,每輪舉出3 - 5個例子,圖形為1x1到30x30的網(wǎng)格圖形,讓AI根據(jù)圖形變化規(guī)律預(yù)測下一個圖形形式),o3微調(diào)成o3 low和o3 high兩個模型。o3 low得分75.7%,符合公共排行榜成本要求,成為新榜單TOP1;o3 high得分87.5%,超越人類評估閾值(85),但訓(xùn)練成本大約是o3 low的172倍,超出1萬美元成本要求。此前的ChatGPT各種型號在這項測試中的得分慘不忍睹,如GPT - 3為0%,GPT - 4為2%,GPT - 4o為5%,o1 - preview為21%,o1滿血版為32%,o1 Pro為50%左右。
圖片
6. 高級數(shù)學(xué)推理能力
在FrontierMath測試(由Epoch AI推出,專門評估AI高級數(shù)學(xué)推理能力,地獄級難度,測試內(nèi)容為最新未發(fā)表題目,經(jīng)驗豐富的人類數(shù)學(xué)專家解答也需數(shù)小時或數(shù)天,1998年菲爾茲獎得主Tim Gowers評價即使答對一個問題也遠超現(xiàn)在能力范圍)中,o3在不限制時間的情況下得分可達25.2%,而此前最強模型得分僅2%。
圖片
圖片
7. O3強大的原因
OpenAI研究員表示,o1驗證了LLM + RL范式可行,但o3通過scaling up真正發(fā)揮了該范式的威力,證明了對于編程、數(shù)學(xué)等任務(wù),RL范式可提升上限。
8. O3的缺點
o3成本極高,在ARC - AGI團隊描述中,是有史以來最昂貴的模型之一。除此之外,模型思考時間變長,o1的平均思考時間是8.92秒,o3 mini(high)平均思考時間達到23.33秒,差不多是o1的兩倍,o3旗艦版平均思考時間可能已達分鐘級。
圖片
二、O3 mini即將推出
好消息是,o3 mini預(yù)計明年1月底推出,上線后將開放API調(diào)用,并附帶o1的所有API功能。
o3的出現(xiàn)無疑是人工智能發(fā)展的一個重要里程碑,它在多個領(lǐng)域展現(xiàn)出的強大能力,不僅讓我們看到了技術(shù)的巨大進步,也讓我們對未來充滿了期待和擔(dān)憂。它是否真的會如預(yù)測的那樣,對碼農(nóng)職業(yè)產(chǎn)生巨大沖擊?又將如何改變我們的生活和工作?讓我們一起拭目以待吧!
本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

















