Gemini 3.0正式發(fā)布,LMArena 總榜第一,屠榜所有評(píng)測(cè)
就在剛剛,Google 正式發(fā)布萬眾期待的 Gemini 3.0——號(hào)稱全球最強(qiáng)的多模態(tài)理解與推理模型,也是谷歌迄今最強(qiáng)的智能體模型。

官方稱,它不僅更聰明、更能看、更能理解,還能提供更強(qiáng)的交互性與可視化。簡(jiǎn)單來說,就是更擅長解釋復(fù)雜概念、用更直觀的方式展示想法。

?? Gemini 3 Pro:全面碾壓 2.5 Pro
- LMArena 總榜第一,1501 Elo,直接刷新歷史記錄
- 博士級(jí)推理能力
- Humanity’s Last Exam:37.5%
- GPQA Diamond:91.9%
- 數(shù)學(xué)推理創(chuàng)紀(jì)錄:MathArena Apex 達(dá)到 23.4%
在多模態(tài)測(cè)試中表現(xiàn)同樣驚人:
- MMMU-Pro:81%
- Video-MMMU:87.6%
- SimpleQA Verified:72.1%(事實(shí)正確率顯著提升)

意味著它能高可靠地處理科學(xué)、數(shù)學(xué)到復(fù)雜視覺理解的一切問題。
?? Gemini 3 Deep Think:進(jìn)一步突破智能極限
深度思考模式更猛:
- Humanity’s Last Exam:41%
- GPQA Diamond:93.8%
- ARC-AGI-2(代碼執(zhí)行 AGI 測(cè)試):45.1%(史無前例)

?? Vibe 編碼能力全面升級(jí)
- WebDev Arena:1487 Elo(第一名)
- Terminal-Bench 2.0:54.2%(電腦終端工具使用能力)
- SWE-bench Verified:76.2%(遠(yuǎn)超 2.5 Pro)

它是目前谷歌最強(qiáng)的“能寫代碼、能操作電腦、能獨(dú)立完成任務(wù)”的智能體。
Gemini 產(chǎn)品負(fù)責(zé)人 Tulsee Doshi 在媒體圓桌會(huì)上說:“它不再是把文字和圖像分開處理,而是能理解它們之間的細(xì)微聯(lián)系,并用最適合你的方式輸出。”
谷歌表示,模型加強(qiáng)的代碼能力,讓它能直接生成演示文稿或交互式圖形,用來解釋復(fù)雜內(nèi)容。DeepMind CTO Koray Kavukcuoglu 認(rèn)為,這不只是對(duì)程序員重要,對(duì)學(xué)生和用 AI 學(xué)東西的人來說,影響都會(huì)很大。
從今天起,在 Google Search 中 @Geminiapp 或 AI 模式可用 Gemini 3 Pro。開發(fā)者可在 Google AI Studio 和 Vertex AI 直接調(diào)用。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??

















