通往通用人工智能的關鍵一步?DeepMind放大招,3D世界最強AI智能體SIMA 2
您的 AI 伙伴「游戲陪玩」版已上線。
今天,Google DeepMind 發(fā)布了 SIMA 2,一個在虛擬 3D 世界中能自主游戲、推理并持續(xù)學習的通用 AI 智能體。
DeepMind 創(chuàng)始人哈薩比斯將其定義為通往通用人工智能的關鍵一步。

去年,谷歌 DeepMind 推出了 SIMA (Scalable Instructable Multiworld Agent,可擴展、可指導的多世界智能體),這是一個能夠跨越多種虛擬環(huán)境、遵循基本指令的通才 AI,標志著 AI 在 3D 世界中將語言轉化為行動的初步探索。
SIMA 2 則代表了這一研究的重大飛躍,是創(chuàng)建通用和有益 AI 智能體研究的下一個里程碑。通過集成 Gemini 模型的先進能力,SIMA 正在從一個被動的、模仿人類操作的指令遵循者進化為一個交互式的游戲伴侶。
SIMA 2 不僅能遵循人類指令,還能在未見過的復雜環(huán)境中(如各種開放世界游戲)進行自主規(guī)劃、解釋行動步驟、與用戶實時對話(支持文本、語音或圖像輸入),并通過試錯與 Gemini 反饋的閉環(huán)機制自我迭代,提升技能。
這對機器人技術和人工智能的未來具有重要意義,因為它正在構建未來物理世界智能體所需的核心「認知構建模塊」。
評論區(qū)也對它的應用進行了大膽構思。

所以是 GTA 6 先發(fā)布,還是 AGI 先實現(xiàn)?

推理的力量
第一版 SIMA 學會了在各種商業(yè)視頻游戲中執(zhí)行超過 600 種語言遵循技能,如「左轉」、「爬梯子」和「打開地圖」。它像人一樣在這些環(huán)境中操作,通過「查看」屏幕并使用虛擬鍵盤和鼠標進行導航,而無需訪問底層的游戲機制。
盡管 SIMA 1 是優(yōu)秀的「技能執(zhí)行者」,但它缺乏深度規(guī)劃和意圖理解,僅限于被動模仿。
SIMA 2 則標志著從指令跟隨到主動認知的躍進。通過嵌入 Gemini 模型作為核心引擎,SIMA 2 不僅響應指令,還能進行多步驟推理:從語言解析意圖、制定計劃,到執(zhí)行行動。

MineDojo:SIMA 1(左)嘗試執(zhí)行指令時,SIMA 2(右)在從未見過的游戲中成功完成任務。

ASKA:SIMA 1(左)嘗試執(zhí)行「尋找篝火」指令時,SIMA 2(右)在從未見過的游戲中成功完成任務。
SIMA 2 的新架構集成了 Gemini 強大的推理能力,幫助它理解用戶的高級別目標,在追求目標過程中執(zhí)行復雜的推理,并在游戲中熟練執(zhí)行以目標為導向的行動。它將 SIMA 1 的 語言 -> 行動 模式,升級為了 語言 -> 意圖 -> 計劃 -> 行動 的多步驟認知鏈。
DeepMind 使用混合數(shù)據(jù)訓練了 SIMA 2,包括帶語言標簽的人類演示視頻以及 Gemini 生成的標簽。因此,SIMA 2 現(xiàn)在可以向用戶描述它打算做什么,并詳細說明它為實現(xiàn)目標正在采取的步驟。

超越簡單的指令跟隨:SIMA 2 不僅能回答用戶問題,還能對其自身行為及所處環(huán)境進行推理。
在測試中,DeepMind 發(fā)現(xiàn)與該智能體互動的感覺,更像是與一個能夠對當前任務進行推理的伙伴合作,而不是向它下達命令。
并且,得益于 DeepMind 與現(xiàn)有及新游戲合作伙伴的合作,DeepMind 已經(jīng)能夠在更廣泛的游戲上訓練和評估 SIMA 2。
這就是 Gemini 為具身 AI 帶來的力量:一個世界級的推理引擎,現(xiàn)在能夠在復雜的交互式 3D 環(huán)境中感知、理解并采取行動。

SIMA 2 通過分析環(huán)境與用戶意圖,能夠理解抽象概念并執(zhí)行邏輯指令。
泛化性能的飛躍
Gemini 的加入也帶來了泛化能力和可靠性的提升。SIMA 2 現(xiàn)在能比其前身理解更復雜、更細微的指令,并且在執(zhí)行這些指令時成功率更高,尤其是在那些它從未訓練過的情景或游戲中,例如新的維京生存游戲 ASKA,或 MineDojo(一個流行開放世界沙盒游戲 Minecraft 的研究用實現(xiàn))。
- SIMA 2 能夠理解并完成長期且復雜的任務

SIMA 2 能夠成功執(zhí)行長而復雜的指令。
- SIMA 2 能夠理解多模態(tài)提示

用戶正在屏幕上繪制草圖。
- SIMA 2 能夠理解不同的語言甚至表情符號

看它如何正確解讀表情符號來執(zhí)行任務。
此外,它遷移學習概念的能力——例如,將其在一種游戲中對「采礦」的理解應用到另一種游戲中的「收獲」——是實現(xiàn)像人類認知中那樣的廣泛泛化能力的基礎。事實上,由于這種能力,SIMA 2 在多種任務上的表現(xiàn)已顯著接近人類玩家的水平。
終極測試:在全新構想的世界中游戲
為了測試 SIMA 2 泛化能力的極限,DeepMind 將其與另一個突破性研究項目 Genie 3 相結合,后者可以從單個圖像或文本提示生成新的、實時的 3D 模擬世界。
當 DeepMind 挑戰(zhàn) SIMA 2 在這些新生成的世界中游戲時,DeepMind 發(fā)現(xiàn)它能夠合理地確定自己的方位、理解用戶指令,并朝著目標采取有意義的行動,盡管它以前從未見過這樣的環(huán)境。它展現(xiàn)了前所未有的適應能力。

SIMA 2 在 Genie 3 生成的新世界中運行
邁向可擴展、多任務的自我提升
SIMA 2 最令人興奮的新能力之一是其自我提升的能力。DeepMind 觀察到,在整個訓練過程中,SIMA 2 智能體能夠執(zhí)行日益復雜和新穎的任務,這是通過試錯法和基于 Gemini 的反饋自舉實現(xiàn)的。
例如,在最初從人類演示中學習后,SIMA 2 可以過渡到完全通過自我導向的游戲在新游戲中學習,在以前未見過的世界中發(fā)展其技能,而無需額外的人類生成數(shù)據(jù)。在后續(xù)訓練中,SIMA 2 自身的經(jīng)驗數(shù)據(jù)可用于訓練下一個、能力更強的智能體版本。DeepMind 甚至能夠在新創(chuàng)建的 Genie 環(huán)境中利用 SIMA 2 的自我提升能力——這是在多樣化的、生成的世界中訓練通用智能體的一個重要里程碑。

這種迭代改進的良性循環(huán)為未來鋪平了道路,即智能體可以以最少的人工干預進行學習和成長,成為具身 AI 領域的開放式學習者。

ASKA:左側展示的是初代 SIMA 2 智能體失敗的任務案例,右側則顯示經(jīng)過多代訓練后,SIMA 2 在完全無需人類反饋或游戲數(shù)據(jù)的情況下實現(xiàn)了自我進化。
展望未來:通往通用具身智能的旅程
SIMA 2 跨越不同游戲環(huán)境的操作能力,是通用智能的一個關鍵試驗場,它允許智能體掌握技能、練習復雜推理,并通過自我導向的游戲持續(xù)學習。
雖然 SIMA 2 是邁向通才型、交互式、具身智能的重要一步,但它本質上是一項研究工作,其目前的局限性突顯了未來工作的關鍵領域。
DeepMind 發(fā)現(xiàn),這些智能體在處理需要大量、多步驟推理和目標驗證的超長時程復雜任務時仍面臨挑戰(zhàn)。SIMA 2 對其交互的記憶也相對較短——它必須使用有限的上下文窗口來實現(xiàn)低延遲交互。最后,通過鍵盤和鼠標界面執(zhí)行精確的低級別操作,以及實現(xiàn)對復雜 3D 場景的穩(wěn)健視覺理解,仍然是整個領域在持續(xù)應對的開放性挑戰(zhàn)。
這項研究為面向行動的 AI 提供了一條新路徑的基礎驗證。SIMA 2 證實,一個利用多樣化的多世界數(shù)據(jù)和 Gemini 強大推理能力、為實現(xiàn)廣泛能力而訓練的 AI,可以成功地將許多專用系統(tǒng)的能力統(tǒng)一到一個連貫的、通才型的智能體中。
SIMA 2 也為機器人技術的應用提供了堅實的路徑。它學到的技能——從導航、工具使用到協(xié)作任務執(zhí)行——都是未來物理世界 AI 助手所需的智能物理具身化的一些基本構建模塊。

































