Gemini 3深夜來(lái)襲:力壓GPT 5.1,大模型谷歌時(shí)代來(lái)了
Gemini 3 還沒(méi)現(xiàn)身,推特先崩為敬。
沒(méi)有哪家模型的發(fā)布比 Gemini 3 更萬(wàn)眾矚目,根據(jù) Gemini 之前 3 個(gè)月更新一次的頻率,AI 社區(qū)自 9 月起便對(duì) Gemini 3 翹首以盼。
今天,谷歌開(kāi)發(fā)者關(guān)系負(fù)責(zé)人、Google AI Studio 負(fù)責(zé)人一條僅含「Gemini」一詞的推文,積蓄了數(shù)月的期待終于迎來(lái)了爆發(fā)點(diǎn),推特相關(guān)話題瞬間沸騰。

有趣的是,臨近發(fā)布節(jié)點(diǎn),推特竟「應(yīng)景」地崩了幾次。盡管「幕后黑手」是 Cloudflare,但這崩潰的時(shí)機(jī)簡(jiǎn)直精準(zhǔn)得讓人懷疑有人背后搞鬼(小聲蛐蛐:畢竟推特是各家模型的宣傳主陣地)。
不知道今早剛發(fā)了 Grok 4.1 的馬斯克此時(shí)作何感想,反正網(wǎng)友的梗圖已經(jīng)鋪天蓋地了。

就在剛剛,Gemini 3 終于正式登場(chǎng),讓我們看看在萬(wàn)眾矚目下登場(chǎng)的它到底有多強(qiáng)。
一、最智能模型
事實(shí)證明,Google 沒(méi)有讓等待的人失望,Gemini 3 正式發(fā)布,再一次定義了 SOTA,奧特曼和馬斯克也發(fā)來(lái)賀電。


Google 將其定義為「通往 AGI 的重要一步」,并強(qiáng)調(diào)這是目前世界上多模態(tài)理解能力最強(qiáng)、交互最深度的智能體。
Gemini 3 不僅在基礎(chǔ)推理能力上刷新了 SOTA 標(biāo)準(zhǔn),更通過(guò)推出全新的 Google Antigravity 平臺(tái)和 Deep Think 模式,試圖重塑開(kāi)發(fā)者生態(tài)與 AI 輔助體驗(yàn)。
2. 全面霸榜的推理怪獸
Gemini 3 Pro 被官方稱為「最先進(jìn)的推理模型」,在幾乎所有主流 AI 基準(zhǔn)測(cè)試中均顯著超越了前代 Gemini 2.5 Pro,并且全面壓制了 Claude Sonnet 4.5 和 GPT-5.1 等主要競(jìng)品。
Gemini 3 Pro 以 1501 Elo 的突破性高分登頂 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情況下達(dá)到 37.5%)和 GPQA Diamond(91.9%)上獲得最高分,展示了博士級(jí)的推理能力。它還在數(shù)學(xué)方面為前沿模型樹(shù)立了新標(biāo)準(zhǔn),在 MathArena Apex 上達(dá)到了 23.4% 的最新 SOTA 水平。
除了文本與邏輯,Gemini 3 Pro 還重新定義了多模態(tài)推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81% 和 87.6% 的高分,這意味著無(wú)論是解析復(fù)雜的科學(xué)圖表還是理解動(dòng)態(tài)視頻流,它都游刃有余。
更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成績(jī),顯示出在事實(shí)準(zhǔn)確性上的巨大進(jìn)步 —— 它不僅強(qiáng),而且可靠。

3. 拒絕奉承的思維伙伴
Gemini 3 Pro 的進(jìn)化不僅在于跑分,更在于交互的質(zhì)感。它摒棄了以往 AI 常見(jiàn)的陳詞濫調(diào)和過(guò)度奉承,變得聰明、簡(jiǎn)潔且直接:告訴你需要聽(tīng)到的,而不僅僅是你愛(ài)聽(tīng)的。
它充當(dāng)真正的思維伙伴,為你提供理解信息和表達(dá)自我的新方式,從通過(guò)生成高保真可視化的代碼來(lái)翻譯晦澀的科學(xué)概念,到創(chuàng)造性的頭腦風(fēng)暴。
4. Gemini 3 Deep Think
Gemini 3 Deep Think 模式進(jìn)一步拓展了智能的邊界,帶來(lái)了 Gemini 3 在推理和多模態(tài)理解能力上的重大進(jìn)步,幫助你解決更復(fù)雜的問(wèn)題。
在測(cè)試中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情況下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表現(xiàn)均優(yōu)于 Gemini 3 Pro 已相當(dāng)出色的成績(jī)。此外,它在 ARC-AGI-2(代碼執(zhí)行,已通過(guò) ARC Prize 驗(yàn)證)上也取得了前所未有的 45.1% 的得分,展現(xiàn)了其解決全新挑戰(zhàn)的能力。

Gemini 3 Deep Think 模式在一些最具挑戰(zhàn)性的 AI 基準(zhǔn)測(cè)試中表現(xiàn)出色。
二、學(xué)習(xí)、構(gòu)建與規(guī)劃
1. 學(xué)習(xí)任何事情
Gemini 從一開(kāi)始就旨在無(wú)縫整合任何主題的多種模態(tài)信息,包括文本、圖像、視頻、音頻和代碼。Gemini 3 結(jié)合了其先進(jìn)的推理、視覺(jué)和空間理解能力、領(lǐng)先的多語(yǔ)言性能以及百萬(wàn)級(jí) token 上下文窗口,進(jìn)一步拓展了多模態(tài)推理的邊界,幫助你以最適合自己的方式學(xué)習(xí)。
例如,如果你想學(xué)習(xí)如何烹飪家族傳統(tǒng)菜肴,Gemini 3 可以解讀并翻譯不同語(yǔ)言的手寫(xiě)食譜,生成可與家人分享的食譜。

或者,如果你想學(xué)習(xí)某個(gè)新主題,就可以提供學(xué)術(shù)論文、長(zhǎng)篇視頻講座或教程,它可以生成交互式記憶卡片、可視化或其他格式的代碼,幫助你掌握相關(guān)知識(shí)。
它甚至可以分析你的匹克球比賽視頻,找出可以改進(jìn)的地方,并制定訓(xùn)練計(jì)劃,幫助你全面提升球技。
為了幫助你更好地理解網(wǎng)絡(luò)上的信息,搜索中的 AI 模式現(xiàn)在使用 Gemini 3 來(lái)實(shí)現(xiàn)新的生成式 UI 體驗(yàn),例如沉浸式視覺(jué)布局、交互式工具和模擬,所有這些都是根據(jù)你的查詢即時(shí)生成的。
2. 開(kāi)發(fā)任何東西
在 2.5 Pro 成功的基礎(chǔ)上,Gemini 3 兌現(xiàn)了將開(kāi)發(fā)者的任何想法變?yōu)楝F(xiàn)實(shí)的承諾。它在零樣本生成方面表現(xiàn)出色,能夠處理復(fù)雜的提示和指令,從而渲染出更豐富、更具交互性的 Web 用戶界面。
Gemini 3 是谷歌迄今為止構(gòu)建的最佳 Vibe 編碼和 Agent 編碼模型,它使谷歌的產(chǎn)品更加自主,并顯著提升了開(kāi)發(fā)者的效率。它在 WebDev Arena 排行榜上名列榜首,獲得了令人矚目的 1487 Elo 分?jǐn)?shù)。此外,它在 Terminal-Bench 2.0 測(cè)試中也取得了 54.2% 的成績(jī),該測(cè)試旨在評(píng)估模型通過(guò)終端操作計(jì)算機(jī)的工具使用能力。同時(shí),它在 SWE-bench Verified 測(cè)試中也大幅超越了 2.5 Pro 版本(得分為 76.2%),該測(cè)試用于衡量編碼代理的性能。
現(xiàn)在,用戶可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能體開(kāi)發(fā)平臺(tái) Google Antigravity 中的 Gemini 3 進(jìn)行構(gòu)建 。它也適用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平臺(tái)。
比如編寫(xiě)一款具有更豐富的視覺(jué)效果和更強(qiáng)交互性的復(fù)古 3D 太空飛船游戲。

再比如編寫(xiě)更豐富、更具交互性的 Web UI 和應(yīng)用程序:

3. 規(guī)劃任何事
自 Gemini 2 智能體之后,Gemini 顯著提升了長(zhǎng)周期任務(wù)中的規(guī)劃能力。
Gemini 3 的規(guī)劃能力在 Vending-Bench 2 測(cè)試中進(jìn)一步得到印證:Gemini 3 在模擬售貨機(jī)經(jīng)營(yíng)測(cè)試中登頂該排行榜,全程通過(guò)長(zhǎng)周期規(guī)劃管理虛擬商業(yè)運(yùn)營(yíng)。
在完整模擬年度的運(yùn)營(yíng)中,Gemini 3 Pro 始終保持穩(wěn)定的工具調(diào)用與決策連貫性,在持續(xù)專注任務(wù)目標(biāo)的同時(shí)實(shí)現(xiàn)了更高投資回報(bào)。

Gemini 3 Pro 展現(xiàn)出更卓越的長(zhǎng)周期規(guī)劃能力,與其他前沿模型相比,能創(chuàng)造更高的回報(bào)。
Gemini Agent 還可以幫助整理 Gmail 收件箱。
Gemini 3 現(xiàn)已全面開(kāi)放。即日起,普通用戶和訂閱用戶分別可通過(guò) Gemini App 及搜索 AI 模式使用新模型;開(kāi)發(fā)者與企業(yè)客戶也能通過(guò) AI Studio、Vertex AI 等渠道接入。至于備受期待的「深度思考模式」,預(yù)計(jì)將在未來(lái)幾周內(nèi)面向 Google AI Ultra 訂閱用戶獨(dú)家上線。
另外,根據(jù)此前泄露的模型卡,還有許多值得關(guān)注的關(guān)鍵信息:Google 使用 TPU 從頭開(kāi)始訓(xùn)練這個(gè)模型,作為一個(gè) MoE,具有 1M 輸入和 64k token 輸出,MoE 意味著他們可以負(fù)擔(dān)得起使其變得便宜。

定價(jià)方面,Gemini 3.0 Pro 引入了基于上下文長(zhǎng)度的分級(jí)定價(jià)機(jī)制:200k tokens 以下的任務(wù),輸入 / 輸出價(jià)格為 $2.00/$12.00(每百萬(wàn) token);超過(guò) 200k tokens 則分別為 $4.00 和 $18.00。

三、全新的「智能體優(yōu)先」開(kāi)發(fā)體驗(yàn)
Google Antigravity 是 Google 全新的智能體開(kāi)發(fā)平臺(tái),使開(kāi)發(fā)者能夠在更高、以任務(wù)為導(dǎo)向的層面上進(jìn)行操作。利用 Gemini 3 先進(jìn)的推理、工具使用和智能體編程能力,Google Antigravity 將 AI 輔助從開(kāi)發(fā)者工具箱中的一個(gè)工具轉(zhuǎn)變?yōu)榉e極的合作伙伴。
雖然 Google Antigravity 的核心是熟悉的 AI IDE(集成開(kāi)發(fā)環(huán)境)體驗(yàn),但其智能體已被提升到一個(gè)專用界面,并被賦予直接訪問(wèn)編輯器、終端和瀏覽器的權(quán)限?,F(xiàn)在,智能體可以代表你自主規(guī)劃并同時(shí)執(zhí)行復(fù)雜的端到端軟件任務(wù),同時(shí)驗(yàn)證它們自己的代碼。
除了 Gemini 3 Pro,Google Antigravity 還緊密結(jié)合了 Google 最新的用于瀏覽器控制的 Gemini 2.5 Computer Use 模型,以及其頂級(jí)的圖像編輯模型 Nano Banana (Gemini 2.5 Image)。
四、一手體驗(yàn)
既然 Gemini 3 Pro 預(yù)覽版上線了 AI Studio 平臺(tái),我們也來(lái)上手體驗(yàn)了一把。
Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Prompt: Create a visually stunning Space Invaders game.

鵜鶘騎自行車曾難倒一眾大模型,這次我們也讓 Gemini 3 試了下。Prompt:An animated SVG of a pelican riding a bicycle.

相比之前版本,Gemini 3 已有較大進(jìn)步,不過(guò)仍有 bug,比如自行車的腳蹬在天上空轉(zhuǎn)。
我們又換了一個(gè)更為清晰的提示詞:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 這次 Gemini 3 生成的自行車似乎沒(méi)有腳蹬。

五、寫(xiě)在最后
在 X 博主 Chubby 發(fā)起的「到 2026 年底,哪家公司擁有最好的 LLM?」投票中,Google Gemini 遙遙領(lǐng)先。

這種市場(chǎng)信心的回升也體現(xiàn)在了數(shù)據(jù)上,Alphabet CEO Sundar Pichai 在官方博客中回顧了 Gemini 過(guò)去兩年的進(jìn)展:AI Overviews 月活躍用戶已達(dá) 20 億,Gemini 應(yīng)用月活突破 6.5 億,此外更有超過(guò) 70% 的云客戶以及 1300 萬(wàn)開(kāi)發(fā)者正在使用其生成式模型。
回望過(guò)去兩年,從 Bard(Gemini 前身)發(fā)布時(shí)的倉(cāng)促應(yīng)戰(zhàn)與股價(jià)暴跌,到痛定思痛合并 Google DeepMind、召回創(chuàng)始人、斬獲諾貝爾獎(jiǎng),Google 完成了一場(chǎng)教科書(shū)般的「大象轉(zhuǎn)身」。

那個(gè)曾經(jīng)定義了 Transformer、如今「All in Gemini」的巨人,已經(jīng)做好了全面反擊的準(zhǔn)備。
至于它到底能不能終結(jié)「最好的 LLM」之爭(zhēng)?別急,讓子彈(和服務(wù)器)再飛一會(huì)兒。
參考鏈接:https://blog.google/products/gemini/gemini-3/#gemini-3





































