Gemini 3.0正式發(fā)布，LMArena 總榜第一，屠榜所有評(píng)測(cè)

51CTO技術(shù)棧

發(fā)布于 2025-11-19 11:13

瀏覽

0收藏

就在剛剛，Google 正式發(fā)布萬眾期待的 Gemini 3.0——號(hào)稱全球最強(qiáng)的多模態(tài)理解與推理模型，也是谷歌迄今最強(qiáng)的智能體模型。

Gemini 3.0正式發(fā)布，LMArena 總榜第一，屠榜所有評(píng)測(cè)-AI.x社區(qū)

官方稱，它不僅更聰明、更能看、更能理解，還能提供更強(qiáng)的交互性與可視化。簡(jiǎn)單來說，就是更擅長解釋復(fù)雜概念、用更直觀的方式展示想法。

Gemini 3.0正式發(fā)布，LMArena 總榜第一，屠榜所有評(píng)測(cè)-AI.x社區(qū)

?? Gemini 3 Pro：全面碾壓 2.5 Pro

LMArena 總榜第一，1501 Elo，直接刷新歷史記錄
博士級(jí)推理能力
Humanity’s Last Exam：37.5%
GPQA Diamond：91.9%
數(shù)學(xué)推理創(chuàng)紀(jì)錄：MathArena Apex 達(dá)到 23.4%

在多模態(tài)測(cè)試中表現(xiàn)同樣驚人：

MMMU-Pro：81%
Video-MMMU：87.6%
SimpleQA Verified：72.1%（事實(shí)正確率顯著提升）

Gemini 3.0正式發(fā)布，LMArena 總榜第一，屠榜所有評(píng)測(cè)-AI.x社區(qū)

意味著它能高可靠地處理科學(xué)、數(shù)學(xué)到復(fù)雜視覺理解的一切問題。

?? Gemini 3 Deep Think：進(jìn)一步突破智能極限

深度思考模式更猛：

Humanity’s Last Exam：41%
GPQA Diamond：93.8%
ARC-AGI-2（代碼執(zhí)行 AGI 測(cè)試）：45.1%（史無前例）

Gemini 3.0正式發(fā)布，LMArena 總榜第一，屠榜所有評(píng)測(cè)-AI.x社區(qū)

?? Vibe 編碼能力全面升級(jí)

WebDev Arena：1487 Elo（第一名）
Terminal-Bench 2.0：54.2%（電腦終端工具使用能力）
SWE-bench Verified：76.2%（遠(yuǎn)超 2.5 Pro）

Gemini 3.0正式發(fā)布，LMArena 總榜第一，屠榜所有評(píng)測(cè)-AI.x社區(qū)

它是目前谷歌最強(qiáng)的“能寫代碼、能操作電腦、能獨(dú)立完成任務(wù)”的智能體。

Gemini 產(chǎn)品負(fù)責(zé)人 Tulsee Doshi 在媒體圓桌會(huì)上說：“它不再是把文字和圖像分開處理，而是能理解它們之間的細(xì)微聯(lián)系，并用最適合你的方式輸出。”

谷歌表示，模型加強(qiáng)的代碼能力，讓它能直接生成演示文稿或交互式圖形，用來解釋復(fù)雜內(nèi)容。DeepMind CTO Koray Kavukcuoglu 認(rèn)為，這不只是對(duì)程序員重要，對(duì)學(xué)生和用 AI 學(xué)東西的人來說，影響都會(huì)很大。

從今天起，在 Google Search 中 @Geminiapp 或 AI 模式可用 Gemini 3 Pro。開發(fā)者可在 Google AI Studio 和 Vertex AI 直接調(diào)用。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

標(biāo)簽

Gemini 3.0

LMArena

AI 模式

贊

回復(fù)