《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標精華

發布于 2025-4-30 07:38

瀏覽

0收藏

如何開發一個通用算法，使其能夠在不同任務領域中不依賴大量人工調參，甚至無需人類先驗數據即可實現“開箱即用”的效果？這種通用性的重要性不言而喻。它不僅意味著AI能夠更廣泛地適應真實世界的復雜場景，還將顯著降低應用AI技術的門檻，讓開發者得以聚焦于更高層次的創新。

在這一背景下，“世界模型”（World Models）成為了重要突破口。通過學習環境的緊湊表示并預測未來情景，世界模型為AI提供了一種類似人類“想象力”的能力，讓算法能夠在“腦海中”進行推演，而無需過度依賴真實交互數據。這一特性不僅提升了效率，還為強化學習的規劃與推理開辟了新路徑。

基于此，第三代 Dreamer 算法橫空出世。自然（Nature）近期發表Google DeepMind 最新研究成果《通過世界模型掌握各種控制任務》（Mastering diverse control tasks through world models），研究團隊提出了一個真正意義上的通用RL算法：它能夠以固定的超參數配置處理超過 150 項多樣化的控制任務，從經典的Atari游戲到模擬機器人任務，再到極具挑戰的Minecraft鉆石獲取，Dreamer一次性解決了這些高度異構的問題，創造了人工智能領域的里程碑。

尤其值得一提的是，Dreamer在Minecraft中達成了一個被廣泛認為極為困難的挑戰——從無到有地獲取鉆石。相比其他方法依賴人類專家數據或手工設計的課程指導，Dreamer完全依靠自身，從稀疏的獎勵信號中推斷出復雜策略。這不僅是技術的突破，更是人工智能在通用性和自主性方面的一次飛躍。

這項研究由Google DeepMind與多倫多大學的科學家聯合完成。Google DeepMind作為AI領域的領軍者，一直以解決“科學中的大問題”為使命，而多倫多大學更是在機器學習研究領域享有盛譽。來自這兩大機構的精英們共同打造了Dreamer的“基因”，他們深厚的技術積累與卓越的跨領域合作能力無疑為研究的成功奠定了基礎。

1.Dreamer 算法概述

算法發展歷程

Dreamer 算法并非從一開始就具備如今的強大能力，它的發展歷程可以說是步步攀登，從最初的連續控制專精到如今通用性極強的第三代版本。DreamerV1 是這一系列的開端，它主要專注于連續控制任務，通過構建世界模型為強化學習算法賦予了一定的環境理解能力。但是它的局限性顯而易見——應用領域較窄，只能處理特定類型的任務。

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

圖1 |Dreamer的訓練過程。世界模型使用編碼器（enc）將感官輸入xt編碼為離散表示zt，這些離散表示由具有給定動作的循環狀態ht的序列模型預測。輸入被重建為x?t使用解碼器（dec）來塑造表示。行動者和評論家預測vt處的行為并重視vt，并從抽象表示z?的軌跡中學習t，并對世界模型預測的rt進行獎勵。

DreamerV2 向前邁進了一大步，實現了在 Atari 游戲等離散任務中的人類級別表現。其技術核心在于將世界模型擴展到像素輸入的場景，同時優化了模型的數據效率。然而它仍然局限于相對有限的任務范圍，未能完全跨越領域邊界。

直到 DreamerV3 的問世，這一系列算法終于突破了障礙，成為真正意義上的通用算法。它能夠在超過 150 個多樣化任務中表現優異，涵蓋了連續和離散動作、低維度和高維度視覺輸入、稀疏和密集獎勵等，標志著從單一領域專精到廣泛通用的躍遷。

核心思想：世界模型

Dreamer 的成功離不開其核心思想——世界模型。這一技術的精妙之處在于，它為強化學習算法提供了類似人類“想象力”的能力，讓算法能夠對環境進行推演，從而優化行動策略。

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

圖2|實驗中使用的不同視覺領域。Dreamer在這些領域取得了成功，從Atari游戲中的機器人運動和操縱任務，程序生成的ProcGen關卡，以及需要空間和時間推理的DMLab任務，到Minecraft的復雜和無限世界。我們還對Dreamer進行了非視覺領域的評估。

首先，世界模型通過自編碼器（Autoencoder）提取環境的感官輸入x _t的緊湊表示z _t。接著，序列模型以循環狀態h _t的形式預測表示序列，該循環狀態由過去的動作at _t ?1和當前時間步 t的隨機表示組成。公式表示如下：

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

世界模型結合了隨機表示z _t和循環狀態 h _t構建了模型狀態 s_t，并用于預測獎勵rt和回合繼續標志 c_t，同時重建輸入以確保表示的有效性。

通過預測未來情景，世界模型使 Dreamer 的強化學習代理能夠在腦海中模擬潛在行動的效果，而無需過度依賴真實環境交互數據。

主要組件

Dreamer 算法的架構由三個主要組件構成，各司其職，共同實現高效學習：

世界模型：世界模型是整個算法的基石，它不僅負責感知環境，還通過預測潛在動作的結果為規劃提供支持。其架構包括編碼器、序列模型，以及用于重建輸入和預測獎勵的模塊。通過歸一化、平衡和變換技術，世界模型能夠在多任務、多領域中實現穩健學習。
行為者（Actor）：行為者負責選擇行動策略，以最大化預期回報。它通過探索正則化（熵正則化）的方式在探索與利用間找到平衡。
評論者（Critic）：評論者基于世界模型生成的想象軌跡，對每個狀態的回報分布進行估計。它通過兩熱編碼方法對獎勵和價值預測進行魯棒化處理，支持從稀疏獎勵信號中提取重要信息。

這三大組件相輔相成，共同確保 Dreamer 的性能不僅在單一領域表現優異，更能擴展到不同任務場景。

2.方法論與技術細節

Dreamer 算法的突破性核心在于其世界模型的巧妙設計以及為強化學習奠定的魯棒性方法。

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

圖3 |世界模型的視頻預測。展示了一個程序迷宮和一個四足機器人。給定5個上下文圖像和一個看不見的視頻的完整動作序列，Dreamer在沒有中間圖像的情況下預測未來45幀。通過像素觀測，世界模型可以了解每個環境的底層結構。

世界模型的建立

Dreamer 的世界模型是實現高效學習的基石，通過將感官輸入映射為緊湊的表示，并預測潛在行為的未來結果，賦予了算法“想象力”。

輸入映射與隨機表示（z _t）的學習

Dreamer 使用編碼器（encoder）將輸入x _t轉化為隨機表示_z t，捕捉了環境在每一時刻的特征。

循環狀態（$$h_t$$）的構建及與隨機表示的結合

為了捕捉時間序列信息，Dreamer 引入了循環狀態h _t，結合隨機表示z _t形成模型狀態 st，用于預測環境動態，通過這一構建，Dreamer 能夠從歷史信息中提取規律，并預測未來可能的環境狀態。

預測獎勵、繼續信號及重建輸入的綜合損失設計

Dreamer 的世界模型不僅預測獎勵rt，還判斷回合是否繼續（繼續信號 c _t ，并重建原始輸入x _t。

魯棒預測與回報歸一化

在稀疏獎勵場景下，Dreamer 通過 symlog 和symexp 技術穩定優化過程。結合回報歸一化（采用百分位范圍裁剪策略），該方法確保了不同任務的信號尺度兼容性，從而實現跨領域的穩定學習。

消融實驗分析

為了驗證各項技術的貢獻，研究團隊進行了全面的消融實驗。結果表明：

每項魯棒性技術對任務性能均有顯著影響，其中 KL 平衡和自由位貢獻最大；
消除無監督重建信號的學習會顯著降低性能，驗證了任務無關梯度的重要性。

這些實驗不僅揭示了技術協同作用的重要性，也為未來算法優化指明了方向。

優化器與經驗回放

Dreamer 的優化過程基于自適應梯度剪裁和 LaProp 優化器，實現了梯度穩定性與高效學習的平衡：

自適應梯度剪裁：當梯度超過 L2 范數的 30% 時進行裁剪，避免了異常值對學習的干擾。
LaProp 優化器：相較于 Adam，LaProp 提供了更平滑的動量更新，避免了學習過程中的不穩定現象。

在數據利用方面，Dreamer 使用均勻回放緩沖區結合在線隊列進行經驗回放，通過回放比率控制每個時間步的訓練頻率，從而優化了數據效率。

模型擴展性

Dreamer 的設計使其能夠通過簡單的調整擴展至更大規模的模型。實驗顯示，參數數量從 1200 萬擴展到 4 億后，Dreamer在任務性能和數據效率上均實現了顯著提升。此外，固定超參數設置下的跨尺度表現也驗證了其在資源配置上的靈活性與魯棒性。

3.基準測試與綜合評估

Dreamer 算法的卓越表現并非憑空而來，它經歷了嚴苛的基準測試，涵蓋多個領域的豐富任務。這些測試不僅驗證了算法的魯棒性，還展現了其跨領域學習能力。

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

圖4|基準分數。Dreamer在所有領域使用固定超參數，在各種基準測試和數據預算中都優于經過調優的專家算法。Dreamer的性能也大大優于廣泛適用的PPO算法的高質量實現。IMPALA和R2D2+在DMLab上使用的數據量是前者的十倍。

各領域實驗設計

Dreamer 的實驗設置橫跨多個基準領域，囊括了強化學習的經典挑戰與前沿應用。這些任務包括：

Atari 游戲：57 項任務測試算法在離散動作與視覺輸入下的表現，例如《太空侵略者》（Space Invaders）等經典游戲。
ProcGen 游戲集：16 款游戲引入了隨機化關卡與視覺干擾，旨在評估算法的泛化能力。
DMLab 環境：30 項三維任務挑戰空間與時間推理能力，包括在迷宮中尋找路徑。
Atari100k：僅有 400,000 幀的數據預算，使其成為強化學習領域的效率測試基準。
控制任務：包括 Proprio 控制（機器人運動）與 Visual 控制（基于圖像的高維控制），涵蓋從經典動力學到機器人操作的范圍。
BSuite：23 個環境的總計 468 項配置，通過獎勵尺度、記憶、探索等測試算法的魯棒性。

這些任務的設計極具挑戰性，覆蓋了連續與離散動作、稀疏與密集獎勵，以及二維與三維場景，確保了實驗的多樣性與全面性。

測試協議與固定超參數跨領域訓練

Dreamer 采用了固定超參數設置，以驗證其在不同任務中的通用性與適應能力。所有實驗均遵循標準的測試協議，例如：

Atari 任務使用“黏性動作”（Sticky Actions）模擬現實中的動作干擾。
ProcGen 使用難度較高的設置以及無限級別隨機化。
DMLab 的運行預算為 100 萬步，但為了與以前采用 10 億步基線的工作對比，提供了這些算法在更高數據量下的參考表現。
控制任務的預算為 1 百萬步，分為低維傳感輸入與高維視覺輸入兩組。

在環境實例方面，Dreamer 的實驗使用了單 GPU 運行，環境實例數因任務需求而異。例如，Atari100k 使用單實例保證數據預算，而 Minecraft 實驗則采用了 64 個遠程 CPU 實例加速運行。

為了確保結果的可靠性，每項實驗運行了多個種子。特別是 Minecraft 實驗使用了 10 個種子，統計其成功率，明確了算法的穩定性。

評估指標與對比基線

為了評估 Dreamer 的性能，研究團隊選擇了多種基線算法進行對比，包括：

高質量 PPO：基于 Acme 框架實現，調整了學習率與熵正則化因子以最大化性能。
IMPALA：一種高效擴展的強化學習算法，適用于復雜三維場景。
Rainbow 和 IQN：兩個針對 Atari 游戲領域優化的專家算法。
TD-MPC：一種結合經典規劃與連續動作的算法，專為視覺任務設計。

通過對比可以發現，Dreamer 不僅匹配甚至超越了專家算法的表現。例如，在 ProcGen 游戲中，它顯著優于調優的 PPO 與 Rainbow。在DMLab 環境中，它的數據效率比 IMPALA 高出 10 倍。

此外，在連續控制任務中，Dreamer 的表現超越了 TD-MPC 等專用方法。這些對比清晰地展示了其魯棒性與廣泛適用性。

模型消融實驗結果

為了進一步分析 Dreamer 算法的技術貢獻，研究團隊對其進行了消融實驗。這些實驗驗證了各項技術的協同作用，并揭示了關鍵性改進：

自由位與 KL 平衡：對多個任務的性能提升尤為顯著。
Symlog 與 Symexp：在處理稀疏獎勵和大尺度信號方面表現出了穩定性優勢。
無監督梯度信號的重要性：移除任務無關重建信號的實驗結果表明，這一機制對于學習過程至關重要。

實驗結果以圖形形式展現了各技術對性能的影響，清晰地揭示了 Dreamer 算法的內在機制。

4.Minecraft 鉆石挑戰案例研究

《我的世界》（Minecraft）不僅是全球最受歡迎的游戲之一，更以其開放性和復雜性成為人工智能研究的重要場景。在這里，玩家面對的不僅僅是像素化的方塊世界，還有稀疏獎勵、長時序策略和開放式目標的嚴峻挑戰。Dreamer 算法在這一任務中的表現，不僅證明了其技術深度，更展示了人工智能適應多樣性任務的潛力。

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

圖5 | Minecraft Diamond挑戰賽的表現。a、據我們所知，Dreamer是第一個完成通往鉆石的所有12個里程碑的算法，從沒有人類數據或課程的稀疏獎勵開始。b、在鉆石任務中發現三個最新項目的訓練有素的代理人的比例，以及他們獲得該項目的事件比例。盡管之前的算法已經發展到鐵鎬，但Dreamer是唯一一個發現鉆石的比較算法，并且在每次訓練中都會這樣做。陰影區域表示一個標準偏差。

環境構建與任務定義

Minecraft 的世界充滿了復雜的元素與無數的可能性。為了讓這一環境適用于強化學習，研究團隊基于 MineRL v0.4.4 構建了“Minecraft 鉆石環境”。該環境以一系列需要收集資源、制作工具的步驟為基礎，其終極目標是獲取鉆石，一種極其稀有且難以獲取的資源。

MineRL 競賽環境的特點MineRL 提供了抽象的制作（Crafting）動作，并允許代理通過視覺感知和低級控制與環境交互。然而，這一環境也存在多項限制：

a.稀疏獎勵：僅在收集特定物品（如木材、石塊或鐵塊）時提供獎勵，并且一次回合內只能獲得一次相同物品獎勵。

b.復雜的技術樹：代理需要遵循一系列遞進步驟（如制作工具、采集資源），最終才能獲得鉆石。

定制修改研究團隊對環境進行了一系列改進以提高學習效率：

a.動作空間優化：將復雜的字典動作轉化為簡單的25 類動作，這些動作覆蓋了移動、跳躍、開采和制作等核心功能。

b.獎勵設計：為每個里程碑（如成功獲取木板、鐵鎬等）分配統一的獎勵（+1），讓回報更加直觀。

c.塊破壞速度加速：破壞一塊方塊默認需要幾百個時間步，研究團隊通過加速破壞時間，降低了動作序列探索的難度，同時保留了 Minecraft 核心的挑戰性。

鉆石作為長期稀疏獎勵任務的挑戰性

在這個任務中，鉆石的獲取被視為 AI 的“終極考驗”，因為它需要代理完成長時序的規劃與探索：

探索復雜性：鉆石僅存在于深地下的礦脈中，代理需要經歷從地表到地底的漫長路徑，并找到正確的開采區域。
稀疏獎勵信號：代理需要通過 12 個里程碑的逐步解鎖獲得獎勵，而每個里程碑的完成都依賴于之前目標的成功完成。
長時序依賴：在整個學習過程中，代理需要記住哪些資源已被收集、哪些工具已被制作，還要確保自己的存活狀態（如避免饑餓或生命值歸零）。

這些特點讓 Minecraft 成為了強化學習領域中難度最高的任務之一。

Dreamer 在 Minecraft 中的表現

Dreamer 算法的最大亮點在于其“開箱即用”的能力。無需依賴人類先驗數據，也無需專門為任務設計的課程指導，Dreamer 展現出了非凡的適應性。

開箱即用的成功表現在 Minecraft 環境中，Dreamer 完全依靠自己的世界模型和無監督目標，成功從頭開始學習并實現鉆石獲取。這一成就標志著 Dreamer 成為第一個在 Minecraft 鉆石挑戰中完成目標的算法。
多輪實驗與成功率統計研究團隊運行了多輪實驗，每輪模擬約 1 億環境步，相當于 100 天的游戲時間。結果顯示，Dreamer 能在所有實驗中成功解鎖鉆石獎勵，其成功率顯著高于其他算法（如 Rainbow、IMPALA 等）。
橫向對比

a.Dreamer 無需人類數據支持，而許多基線算法（如 VPT）依賴于大規模專家演示。

b.算法的計算資源需求也更低：Dreamer 使用 1 張 GPU 即可完成訓練，而同類算法需要數百 GPU 才能接近類似的表現。

技術難點與解決策略

Dreamer 在解決 Minecraft 鉆石挑戰的過程中，克服了多項技術難點，其方法在多個方面具有啟示意義：

稀疏獎勵與長時序依賴

a.Dreamer 的世界模型通過預測環境動態，幫助代理從稀疏獎勵信號中提取有用的信息。

b.代理能夠“想象”未來可能的情景，從而有效規劃一系列復雜步驟來完成目標。

無監督目標與跨任務遷移

a.Dreamer 強調無監督學習目標的重要性，世界模型的重建信號與任務獨立，使得算法能夠快速適應不同任務。

b.這一策略也為 AI 的跨任務遷移能力奠定了技術基礎，表明強化學習不再局限于單一領域的專用優化。

5.討論與未來研究方向

值得注意的是，較大的模型不僅可以提高任務性能，而且需要更少的環境交互。d、更高的重播率可以提高Dreamer的性能。再加上模型大小，這使得從業者能夠通過使用更多的計算資源來提高任務性能和數據效率。

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標-AI.x社區

圖6|Dreamer的燒蝕和穩健擴展。a、平均而言，所有單獨的魯棒性技術都有助于Dreamer的性能，盡管每種單獨的技術可能只影響一些任務。個別任務的訓練曲線包含在補充信息中。advnorm，優勢規范化。b、Dreamer的性能主要取決于其世界模型的無監督重建損失，這與大多數主要依賴獎勵和價值預測梯度的先前算法不同7,9,10。c、 Dreamer的性能隨著模型尺寸的增大而單調增加，參數從1200萬到4億不等。

DreamerV3 的出現，標志著強化學習領域的一次里程碑式的突破。它不僅在技術上解決了固定超參數跨領域學習的難題，更以驚人的效率和適應性刷新了我們對強化學習的認知。在超過 150 項多樣化任務中，Dreamer 展現了強大的能力，涵蓋離散與連續動作、低維與高維輸入、稀疏與密集獎勵等。這一算法以統一的技術解決多樣化問題，擺脫了傳統強化學習算法高度依賴人工調參的局限。

在實驗成果方面，DreamerV3 在經典基準測試（如 Atari 游戲集、DMLab 和 ProcGen 等）以及復雜的開放世界任務（如 Minecraft 鉆石挑戰）中表現卓越。它的“開箱即用”特性無需人類數據支持或適應性課程設計，彰顯了其跨領域的強適應性。這不僅大幅降低了人工智能應用的門檻，也為算法在實際場景中的廣泛應用鋪平了道路。

此外，Dreamer 優雅地平衡了數據效率與計算資源。盡管固定超參數設置可能聽上去局限性較強，但實驗結果證明 Dreamer 能夠以較少的數據和計算資源實現頂級表現。從高效的數據利用到對硬件預算的合理適配，這一算法為強化學習研究提供了一種新的思路。

對強化學習研究的啟示

DreamerV3 的成功并非偶然，它為強化學習領域帶來了許多啟發，尤其是在以下幾個方面：

無監督預訓練的潛力Dreamer 強調世界模型的無監督學習目標，通過重建信號讓模型能夠獨立構建環境的理解。這表明，未來的算法可以借助無監督預訓練學習更廣泛的知識基礎，為更復雜的任務提供支持。
世界模型的廣泛適用性Dreamer 的世界模型展現了在復雜環境中的規劃能力。這一技術不僅適用于游戲和仿真任務，還能延伸至從互聯網視頻中學習世界知識、開發通用智能體等領域。比如，AI 能夠從無數的線上內容中提取豐富的環境動態，應用于交通規劃、醫療診斷甚至科學實驗。

Dreamer 算法為強化學習研究提供了一種全新的范式：從任務特定的調優逐步邁向廣泛的普適性。

未來工作展望

盡管 DreamerV3 已取得令人矚目的成績，但它的未來發展空間仍然廣闊。以下是幾個關鍵的研究方向：

進一步擴展世界模型的訓練規模隨著計算資源的不斷提升，世界模型可以擴展到更大規模的數據集與參數空間。通過增加模型的復雜度與泛化能力，Dreamer 有望處理更多樣化的任務。
探索更復雜的環境與任務Minecraft 鉆石挑戰已經證明 Dreamer 在開放世界任務中的潛力，但還有更多領域等待開發，例如實時動態環境、多人交互任務等。同時，融合語言與視覺的多模態輸入將進一步提升算法的適用性與表現。
實際應用與商業落地前景Dreamer 的“開箱即用”特性使其在工業場景中有著極大的應用潛力。從自動駕駛到智能客服，從機器人操作到科學研究，其普適性與數據效率使其能夠勝任多種實際任務，并且有望促進人工智能商業化的進一步推進。

DreamerV3 的出現不僅刷新了技術的邊界，更為人工智能的未來繪制了一幅藍圖。作為一項通用算法，它的成功故事不僅是技術發展的縮影，也是人工智能邁向普遍適用性的象征。在不遠的將來，我們或許會看到以世界模型為核心的人工智能，徹底改變我們認知與工作方式的時代。

參考資料：???https://www.nature.com/articles/s41586-025-08744-2??

本文轉載自??獨角噬元獸??，作者：FlerkenS

標簽

DreamerV3

AGI

Dreamer

已于2025-4-30 10:15:41修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標精華

1.Dreamer 算法概述

算法發展歷程

核心思想：世界模型

主要組件

2.方法論與技術細節

世界模型的建立

輸入映射與隨機表示（z _t）的學習

循環狀態（$$h_t$$）的構建及與隨機表示的結合

預測獎勵、繼續信號及重建輸入的綜合損失設計

魯棒預測與回報歸一化

消融實驗分析

優化器與經驗回放

模型擴展性

3.基準測試與綜合評估

各領域實驗設計

測試協議與固定超參數跨領域訓練

評估指標與對比基線

模型消融實驗結果

4.Minecraft 鉆石挑戰案例研究

環境構建與任務定義

Dreamer 在 Minecraft 中的表現

技術難點與解決策略

5.討論與未來研究方向

對強化學習研究的啟示

未來工作展望

目錄

51CTO

51CTO博客

51CTO學堂

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標 精華

1.Dreamer 算法概述

算法發展歷程

核心思想：世界模型

主要組件

2.方法論與技術細節

世界模型的建立

輸入映射與隨機表示（z t）的學習

循環狀態（$$h_t$$）的構建及與隨機表示的結合

預測獎勵、繼續信號及重建輸入的綜合損失設計

魯棒預測與回報歸一化

消融實驗分析

優化器與經驗回放

模型擴展性

3.基準測試與綜合評估

各領域實驗設計

測試協議與固定超參數跨領域訓練

評估指標與對比基線

模型消融實驗結果

4.Minecraft 鉆石挑戰案例研究

環境構建與任務定義

Dreamer 在 Minecraft 中的表現

技術難點與解決策略

5.討論與未來研究方向

對強化學習研究的啟示

未來工作展望

目錄

《自然》發表強化學習的大殺器！DreamerV3劍指AGI終極目標精華

輸入映射與隨機表示（z _t）的學習