谷歌Gemini 3把GPT-5.1打成計量單位!馬斯克奧特曼都服了
不得了。
谷歌Gemini 3 Pro進步太大了,與上一代2.5 Pro之間差出一個GPT-5.1(狗頭)。
新模型在幾乎所有基準測試中超過GPT-5.1和Claude4.5,包括人類最后的考試、ARC-AGI-2這些專為AGI準備的測試,數學的AIME 2025帶工具拿滿分,還刷新了之前讓大模型全員得0分的LiveCodeBench Pro紀錄。
圖片
用戶投票的大模型競技場也是一樣,馬斯克的Grok4.1昨天才刷完榜,今天就被反超了。
圖片
這下奧特曼和馬斯克也不得不佩服了,前后腳出來點贊祝賀。


測試期間看Gemini 3模擬Windows、Mac、Linux三大操作系統界面,還以為它只擅長設計前端呢,原來設計出的程序他真能用啊。
設計一個樂高編輯器,一次嘗試就完成了界面+負責空間邏輯和所有編輯器功能。

谷歌官方用Gemini 3 Pro設計的游戲更是發布在了油管上可以直接玩,純靠AI都能搭起一個4399小游戲網了你敢信?
在智能體任務上,Gemini 3 Pro不光擅長編程,還強化了現實生活任務的長期規劃能力,模擬管理自動售貨機一年賺了5000美元,取得所有模型中最高的收入。

從今天起,谷歌宣布“以整個公司的體量”發布Gemini 3系列模型,包括首次在發布當天就將Gemini整合進搜索,上線獨立APP,還推出全新的智能體開發平臺。
還有一個更強Gemini 3 Deep Think深度思考模式,正在路上。
至于這么大的能力飛躍如何實現的,只有研究VP Oriol Vinyals透露了一點:預訓練還沒結束,后訓練也還有很大改進空間。

Gemini系列的集大成者
回看Gemini系列這幾年的演進,有點像打怪升級了,每一代都在補上一代的短板,然后在下一代里又把所有能力都打磨一遍。
1代奠定根基,把多模態能力和超長上下文打通,Gemini成為第一個能夠處理百萬級tokens上下文的大模型。
2代就開始變得有行動力,在1代的基礎上記住大量信息后,它就整合海量信息進行決策和規劃,這也為智能體能力鋪了路。
到了Gemini 2.5,谷歌則開始認真搞思考和推理,給它加了思考引擎,讓它能做更深入的推理、鏈式思考,甚至模仿人類分步解決問題。
現在的3代更是能力的集大成者,不是簡單堆料,而是深度融合,多模態、推理、Agent能力這些特性一起進化,主打“你敢想,我實現”。
而且,Gemini 3更明顯的變化是更懂人話了。
不用糾結提示詞是否寫得“有水平”,只要把需求一丟,再長的提示詞它也能抓住語境、明白意圖,然后回你一句更簡潔又直接的答案,沒有彩虹屁的那種(doge)。

多模態方面更是開掛,文本、圖像、視頻、音頻和代碼一股腦地無縫理解。
比如說,給它看一段球賽的長視頻,它就能總結打法,把球員技巧整理出來,然后順便教你復現動作。
怎么感覺,上傳自己的訓練視頻,就可以直接讓Gemini 3當教練了……

在搜索場景里,Gemini 3也不是直接扔給你一堆鏈接,而是把即時查詢的信息組織成你真正能用的東西,生成可交互式的內容。

反重力開發平臺,殺入AI編程戰場
這次與旗艦模型Gemini 3 Pro同步推出的,還有Google Antigravity(反重力)實驗性智能體開發平臺。
其核心理念是構建一個“智能體優先”(agent-first)的開發環境,將開發者從繁瑣的編碼工作中解放出來,轉向更高層次、面向任務的架構師角色。
官方展示了如何用1分鐘開發一個航班追蹤程序。

與Cursor為代表的AI IDE相比,Google Antigravity的智能體已被提升到一個獨立的界面,并可直接訪問編輯器、終端和瀏覽器。智能體可以代表用戶自主規劃和執行復雜的端到端軟件任務,同時驗證自身的代碼。
全新的管理器視圖旨在同時控制多個智能體,使每個智能體都能更加自主地工作。

谷歌對這款開發工具的野心很大,他不僅支持Gemini系列模型,也允許使用GPT-OSS、Claude第三方模型。
Antigravity目前以公共預覽版的形式免費提供,并承諾為Gemini 3 Pro的使用提供“慷慨的速率限制”,一發布就吸引了大量開發者來“薅羊毛”。
目前Claude Code收入占Anthropic總營收約21%,OpenAI也在不斷圍繞Codex做文章。
AI編程工具,看來是下一個必爭之地了。
參考鏈接:[1]https://blog.google/products/gemini/gemini-3/#learn-anything





































