國慶假期AI圈徹底打瘋了,谷歌Gemini 3.0 Pro泄露,血戰Claude 4.5! 精華
國慶各種新聞滿天飛,大佬們都不過節的。。。
今天快速梳理了一下所有的新聞,給家人們補補課。
Anthropic、OpenAI、Google
假期前后,御三家,接連放出王炸。
誰才是下一代最強模型?
Anthropic Claude Sonnet 4.5
首先是Anthropic,扔出了Claude Sonnet 4.5,世界上最好的編碼模型。
在SWE-bench上,Sonnet 4.5拿下了77.2%的平均分,直接把其他所有模型甩在身后。
在無人監督的情況下,連續工作30個小時來處理復雜的多步驟編程任務,內部代碼編輯錯誤率直接從9%降到了0%。

除了寫代碼,它在操作系統級的任務(OSWorld基準測試)上也把分數從42.2%飆升到61.4%,新模型可以更熟練地操作瀏覽器、填表格,像一個真正的數字員工。
Google Gemini 3.0 Pro
就在Anthropic發布新品后不久,谷歌內部測試的Gemini 3.0 Pro演示視頻就被泄露了,效果只能用驚人來形容。可能是有史以來最強的前端和網頁開發模型。

在演示中,無論是模擬物理定律(小球重力摩擦),還是一鍵生成復雜的終端界面,Gemini 3.0 Pro都顯得游刃有余。


坊間傳聞,它最快下周就會上線,新一輪AI大戰一觸即發。

除此之外,還有Gemini 2.5 Computer Use模型發布,實現類人化界面控制。
OpenAI API上新
OpenAI也沒閑著。GPT-5 Pro、Sora 2、Sora 2 Pro的API悄然上線。
GPT-5 Pro每百萬Token的輸出價格120美元。
Sora 2 也是被玩瘋了,但是限制比較多,不允許生成真人內容、不允許人臉輸入、禁止使用受版權保護的角色和音樂。

GPT-5 Instant更新,更具共情力,特別優化了對自我傷害、強烈絕望、家庭暴力求助等場景的處理。
在10月6日OpenAI DevDay上,OpenAI Agent Builder發布,支持拖拽式構建AI智能體,沒啥新鮮的。
國產AI
國內的AI賽道也沒放假~ 還有裁員?
模型
- 螞蟻集團Ling-1T:發布并開源了萬億參數的旗艦模型,在競賽數學、邏輯推理等多個高難度基準上登頂開源榜首。

- 智譜GLM-4.6:性能全面對齊Claude Sonnet 4,但API價格僅為后者的1/21,打出了“1/7價格享受到Claude Sonnet智能”的口號。

- 騰訊混元圖像3.0:在加州大學伯克利分校推出的LMArena全球盲測中,擊敗26個全球頂尖模型,登頂文生圖榜單第一,廣子滿天飛。

- Qwen繼續開源: Qwen/Qwen3-VL-30B-A3B-Instruct,仍然保持跑分王的地位,在智能體任務等領域 reportedly 媲美GPT-5-Mini。。

- 字節跳動豆包大模型:發布豆包大模型1.6-vision,被稱為國產最強視覺模型。

裁員
- 智譜AI被曝大裁員及收縮業務線,員工:單方面解除,賬號被直接關停

其它花邊新聞
OpenAI
- 被曝完成股份出售,估值達5000億美元,創新高
- 上半年業績:營收43億美元,燒掉25億美元
- 收購個性化金融AI助理應用程序Roi

Anthropic:換帥

本文轉載自???探索AGI???,作者:獼猴桃

















