谷歌Gemini 3把GPT-5.1打成計量單位！馬斯克奧特曼都服了

作者：量子位 2025-11-19 09:37:53

新模型在幾乎所有基準測試中超過GPT-5.1和Claude4.5，包括人類最后的考試、ARC-AGI-2這些專為AGI準備的測試，數學的AIME 2025帶工具拿滿分，還刷新了之前讓大模型全員得0分的LiveCodeBench Pro紀錄。

不得了。

谷歌Gemini 3 Pro進步太大了，與上一代2.5 Pro之間差出一個GPT-5.1（狗頭）。

圖片

用戶投票的大模型競技場也是一樣，馬斯克的Grok4.1昨天才刷完榜，今天就被反超了。

圖片

這下奧特曼和馬斯克也不得不佩服了，前后腳出來點贊祝賀。

測試期間看Gemini 3模擬Windows、Mac、Linux三大操作系統界面，還以為它只擅長設計前端呢，原來設計出的程序他真能用啊。

設計一個樂高編輯器，一次嘗試就完成了界面+負責空間邏輯和所有編輯器功能。

谷歌官方用Gemini 3 Pro設計的游戲更是發布在了油管上可以直接玩，純靠AI都能搭起一個4399小游戲網了你敢信？

在智能體任務上，Gemini 3 Pro不光擅長編程，還強化了現實生活任務的長期規劃能力，模擬管理自動售貨機一年賺了5000美元，取得所有模型中最高的收入。

從今天起，谷歌宣布“以整個公司的體量”發布Gemini 3系列模型，包括首次在發布當天就將Gemini整合進搜索，上線獨立APP，還推出全新的智能體開發平臺。

還有一個更強Gemini 3 Deep Think深度思考模式，正在路上。

至于這么大的能力飛躍如何實現的，只有研究VP Oriol Vinyals透露了一點：預訓練還沒結束，后訓練也還有很大改進空間。

Gemini系列的集大成者

回看Gemini系列這幾年的演進，有點像打怪升級了，每一代都在補上一代的短板，然后在下一代里又把所有能力都打磨一遍。

1代奠定根基，把多模態能力和超長上下文打通，Gemini成為第一個能夠處理百萬級tokens上下文的大模型。

2代就開始變得有行動力，在1代的基礎上記住大量信息后，它就整合海量信息進行決策和規劃，這也為智能體能力鋪了路。

到了Gemini 2.5，谷歌則開始認真搞思考和推理，給它加了思考引擎，讓它能做更深入的推理、鏈式思考，甚至模仿人類分步解決問題。

現在的3代更是能力的集大成者，不是簡單堆料，而是深度融合，多模態、推理、Agent能力這些特性一起進化，主打“你敢想，我實現”。

而且，Gemini 3更明顯的變化是更懂人話了。

不用糾結提示詞是否寫得“有水平”，只要把需求一丟，再長的提示詞它也能抓住語境、明白意圖，然后回你一句更簡潔又直接的答案，沒有彩虹屁的那種（doge）。

多模態方面更是開掛，文本、圖像、視頻、音頻和代碼一股腦地無縫理解。

比如說，給它看一段球賽的長視頻，它就能總結打法，把球員技巧整理出來，然后順便教你復現動作。

怎么感覺，上傳自己的訓練視頻，就可以直接讓Gemini 3當教練了……

在搜索場景里，Gemini 3也不是直接扔給你一堆鏈接，而是把即時查詢的信息組織成你真正能用的東西，生成可交互式的內容。

這次與旗艦模型Gemini 3 Pro同步推出的，還有Google Antigravity（反重力）實驗性智能體開發平臺。

其核心理念是構建一個“智能體優先”（agent-first）的開發環境，將開發者從繁瑣的編碼工作中解放出來，轉向更高層次、面向任務的架構師角色。

官方展示了如何用1分鐘開發一個航班追蹤程序。

與Cursor為代表的AI IDE相比，Google Antigravity的智能體已被提升到一個獨立的界面，并可直接訪問編輯器、終端和瀏覽器。智能體可以代表用戶自主規劃和執行復雜的端到端軟件任務，同時驗證自身的代碼。

全新的管理器視圖旨在同時控制多個智能體，使每個智能體都能更加自主地工作。

谷歌對這款開發工具的野心很大，他不僅支持Gemini系列模型，也允許使用GPT-OSS、Claude第三方模型。

Antigravity目前以公共預覽版的形式免費提供，并承諾為Gemini 3 Pro的使用提供“慷慨的速率限制”，一發布就吸引了大量開發者來“薅羊毛”。

目前Claude Code收入占Anthropic總營收約21%，OpenAI也在不斷圍繞Codex做文章。

AI編程工具，看來是下一個必爭之地了。

參考鏈接：[1]https://blog.google/products/gemini/gemini-3/#learn-anything

責任編輯：武曉燕來源：量子位