從模仿到自我進化,谷歌DeepMind發布下一代機器人基礎模型的訓練新范式
具身基礎模型(Embodied Foundation Models, EFMs)是機器人領域的核心驅動力,它們的目標是像大型語言模型(LLMs)之于自然語言一樣,成為機器人感知、推理與行動的通用底座。
早期的機器人學習多依賴單任務模仿學習——讓機器人在特定場景中重復人類演示的動作。然而,這種方法的局限顯而易見:一旦任務或環境發生變化,模型往往需要從零開始訓練。
隨著多模態感知與大規模數據集的興起,EFMs 開始向多任務、多模態預訓練演進。它們不僅能處理視覺、語言、動作等多種輸入,還能在不同任務間遷移知識。
這一趨勢與 LLM 的發展路徑高度相似:先通過海量數據進行預訓練,再通過后訓練(post-training)適配特定任務。
在 LLM 領域,監督微調(SFT)+ 人類反饋強化學習(RLHF)的兩階段范式已被證明能顯著提升模型的實用性與安全性。然而,機器人領域的EFMs 仍大多停留在 SFT 階段,缺乏類似 RLHF 的后訓練強化環節。
這背后有三個核心瓶頸:
- 缺乏后訓練強化環節:機器人模型在模仿學習后往往直接部署,錯失了通過交互進一步優化的機會。
- 獎勵函數設計困難:現實世界的任務目標復雜多變,人工設計獎勵函數既費時又容易引入偏差。
- 真實環境獎勵測量成本高:在物理世界中評估任務完成度需要傳感器、人工標注或復雜的檢測系統,成本與延遲都很高。
正是在這樣的背景下,谷歌DeepMind最近提出了一個大膽的設想:借鑒 LLM 的兩階段后訓練模式,讓機器人具備自我改進(Self-Improvement)的能力。通過一種無需人工獎勵工程的機制,機器人可以在真實環境中自主收集數據、評估表現,并不斷優化策略。

值得一提的是,這項工作由Google DeepMind 與 Generalist AI 的頂尖團隊聯合完成,技術陣容包括 Seyed Kamyar Seyed Ghasemipour、Ayzaan Wahid、Jonathan Tompson、Pannag Sanketi 和 Igor Mordatch——他們在機器人基礎模型、多模態學習、強化學習和大規模平臺建設方面都有深厚積累。這不僅是技術上的一次突破,也被視為 Google DeepMind 在年度機器人研究中的重磅之作。
1.方法框架總覽
這項研究的核心是一個兩階段后訓練流程,旨在將 EFMs 從“會模仿”提升到“會自我優化”。

圖1:技術團隊提出的兩階段微調方法概述。
第一階段是監督微調(Supervised Fine-Tuning, SFT)。在這一階段,模型基于人類演示數據進行訓練,不僅學習在給定觀測和目標下輸出正確動作,還同時預測一個名為Steps-to-Go 的量——即完成任務還需要多少步。這一額外預測任務為后續的自我改進提供了關鍵信號。
第二階段是自我改進(Self-Improvement),本質上是一次在線強化學習過程。不同于傳統 RL 依賴人工設計的獎勵函數,這里直接利用模型在 SFT 階段學到的 Steps-to-Go 預測來構造獎勵:如果執行某個動作后,預測的剩余步數減少了,就給正獎勵;反之則給負獎勵。同時,Steps-to-Go 也充當了成功檢測器——當預測步數低于某個閾值時,任務被判定為完成。
這種設計的妙處在于,它完全繞過了人工獎勵工程的難題,讓機器人能夠在真實環境中自動生成可用的獎勵信號,并且可以擴展到多臺機器人并行執行。換句話說,這是一種可擴展的自我改進機制:模型先通過模仿學習掌握基本技能,再通過與環境的交互不斷打磨策略,最終實現性能與泛化能力的雙提升。
2.階段一:監督微調(SFT)——為自我改進打下地基
在這套“自我升級”的兩階段流程中,監督微調(Supervised Fine-Tuning, SFT)是整個體系的地基。它的任務不僅是讓模型學會“照葫蘆畫瓢”,更是為后續的自我改進階段埋下關鍵的信號源。
研究團隊首先準備了一個模仿學習數據集DD,其中包含了大量人類或高性能策略在不同任務中的演示軌跡。每條數據都由一系列時間步組成,每個時間步包含觀測 oto_t(例如攝像頭畫面、傳感器讀數)、目標 gg(可能是語言描述、目標位置或任務指令),以及對應的動作ata_t(機械臂關節角度、末端執行器控制信號等)。
與傳統的行為克隆不同,這里模型的輸出不僅包括動作at,還要額外預測一個量——Steps-to-Go。這個預測值代表模型認為從當前狀態到達目標還需要多少步操作。換句話說,模型在執行動作的同時,還在心里默默數著“離終點還有幾步”。
訓練目標因此變成了“雙線并行”:
- 行為克隆(BC)部分,依然是經典的最大化條件概率 P(at∣ot,g),確保模型在給定觀測和目標時能輸出與演示一致的動作。
- Steps-to-Go 預測部分,則是一個回歸任務,要求模型盡可能準確地估計剩余步數。這一預測并不會直接影響動作輸出,但它將在第二階段的獎勵構造中發揮決定性作用。
這種設計的巧妙之處在于,Steps-to-Go 預測天然具備兩種能力: 一是提供密集獎勵信號。在真實環境中,獎勵往往是稀疏的——只有任務完成時才有明確反饋。而 Steps-to-Go 的變化可以在每一步都給出“離目標更近了還是更遠了”的即時評價。 二是充當成功檢測器。當預測的剩余步數低于某個閾值時,就可以判定任務已經完成,無需額外的人工標注或復雜的傳感器判斷。
因此,SFT 階段不僅讓模型學會了模仿,還賦予了它一種“自我感知進度”的能力。這種能力將在下一階段被轉化為自我改進的驅動力,讓機器人在沒有人工獎勵工程的情況下,也能在真實世界中不斷打磨自己的技能。
3.階段二:自我改進(Self-Improvement)——讓機器人學會“打磨自己”
如果說監督微調(SFT)是為機器人打下了“會做事”的基礎,那么自我改進階段就是賦予它“會反思、會進步”的能力。這一步的核心,是讓機器人在沒有人工獎勵工程的情況下,依靠自身的預測信號去評估和優化行為。
研究團隊的關鍵突破在于獎勵構造機制。他們沒有為每個任務手工設計復雜的獎勵函數,而是直接利用 SFT 階段學到的 Steps-to-Go 預測來生成獎勵。公式非常簡潔:

這里 d(o,g) 表示模型預測的“剩余步數”。如果執行某個動作后,預測的剩余步數減少了,說明離目標更近了,獎勵為正;反之則為負。這種獎勵塑形方式天然與任務進度掛鉤,不需要額外的人工干預。
與此同時,Steps-to-Go 還承擔了成功檢測的角色。當預測的剩余步數低于某個閾值 s 時,系統就判定任務完成。這意味著機器人可以在沒有外部傳感器或人工標注的情況下,自主判斷自己是否成功完成了任務。

圖2:Aloha單次插入任務的示例軌跡和表示模型預測(即d(o,g))下E[要走的步數]的圖。關鍵時刻:1)模型認為事件即將成功完成,2)政策意外地放棄了掛鉤,d(o,g)增加,3)政策從不適合插入的壞角度重新調整掛鉤,因此d(o、g)保持高位,4)政策放棄掛鉤,提供了正確重新調整掛鉤的機會,從而減少了d(o,g),5)政策將掛鉤向內推,d(o、g)標志著政策即將成功,6)右手將插座從左手的握把中敲出,這增加了d(0、g)。
在強化學習算法的選擇上,團隊刻意追求穩定性而非極限性能。他們采用了On-policy REINFORCE方法,不引入值函數,也不做數據重用。雖然這種策略在樣本效率上不如一些離策略方法,但它的梯度估計更穩定,尤其適合在真實機器人上進行在線訓練,避免策略震蕩帶來的風險。
更令人印象深刻的是,這套自我改進機制可以多機器人并行運行。在實驗中,單個操作者就能同時監控多臺機器人,它們各自執行任務、采集數據、更新策略。整個過程幾乎不需要人工干預,形成了一個可擴展的、自我驅動的學習閉環。
4.理論分析與直覺
這套自我改進機制的理論基礎,核心在于一種巧妙的獎勵塑形(Reward Shaping)。傳統的強化學習中,如果獎勵信號稀疏,策略往往會在探索中迷失方向。
而這里的獎勵直接來源于 Steps-to-Go 的變化——它天然地引導策略向著任務完成的方向前進,同時又不會讓機器人偏離在監督微調(BC)階段已經掌握的“安全區”。換句話說,策略被溫和地“牽引”在 BC 擅長的狀態空間附近,既能探索新路徑,又不至于走向災難性失敗。

圖3:上圖展示了模型在第一階段從逐步預測目標中學習到的復雜細節水平。每個圖都捕捉到了Aloha Single Insertion任務推出中的一個有趣時刻。每個都由5個連續的幀組成,在每個幀的下方,我們可視化了模型對成功前步驟的預測概率分布。x軸表示要執行的步驟數,y軸表示概率質量。在第一幀中,策略即將成功插入掛鉤并完成任務,因此模型預測策略很可能很快就會成功。
在下一個框架中,該政策過早地放開了掛鉤,掛鉤即將下降。因此,考慮到從快速恢復到較長恢復時間的可能性范圍,預測的步驟急劇擴大為多峰分布。隨著政策在第四和第五幀中的復蘇,模型的預測范圍縮小到單峰分布,在短期內成功的可能性很高。底部在前兩個框架中,策略有望成功完成任務,因此模型預測策略很可能很快就會成功。
在第三幀中,插座開始從左夾具中滑出。盡管這種滑動在左腕相機上幾乎不可見,在任何其他相機視圖中都不可見,但該模型立即捕捉到了這一事件,并且其預測在多種模式下顯著擴大。具體來說,該模型將一些概率質量放在立即保存上,并將剩余的概率質量分布在一系列可能的恢復時間內。在第四和第五幀中,插槽完全滑出夾具,因此該模型消除了即時保存結果的概率質量。
另一個關鍵優勢是低方差基線。在 REINFORCE 這樣的策略梯度方法中,梯度估計的方差往往是穩定性的最大敵人。Steps-to-Go預測在這里不僅是獎勵的來源,還能作為一種天然的基線,顯著降低梯度估計的波動,讓訓練過程更加平滑可控。
這對于真實機器人尤為重要,因為策略不穩定意味著機械臂可能會做出不可預測甚至危險的動作。
更有意思的是,這種方法具備很強的狀態敏感性。由于 Steps-to-Go 是直接從視覺和任務目標中預測出來的,它能夠捕捉到那些人類肉眼也許會忽略的細微變化——比如物體在抓取過程中輕微滑落、推塊的角度偏差、插銷任務中姿態的微小錯位。這種敏感性讓獎勵信號更精準,也讓策略優化更高效。

圖4:點群導航域。來自模仿學習數據集的樣本軌跡,以及BC(第一階段)和自我改進(第二階段)策略。
5.實驗設計
為了驗證方法的有效性,研究團隊在多個平臺和任務上進行了系統評估。
LanguageTable 是一個單臂推塊任務平臺,機器人需要根據語言指令將彩色方塊推到指定位置。這類任務考驗的是視覺理解、語言解析與低層控制的協同能力。
Aloha 則是一個雙臂插銷任務平臺,涉及精細的雙手協調與高精度操作,難度顯著高于單臂任務。
BananaTable 是一個泛化測試場景,引入了模型在訓練中從未見過的物體——香蕉。機器人不僅要完成推送任務,還要學會應對香蕉這種容易滾動、旋轉的特殊形狀。這是對模型跨物體泛化能力的直接考驗。
在數據規模上,團隊設置了多種比例的模仿數據(10%、20%、80%),并在此基礎上對比了單純的 BC 與 BC+Self-Improvement 的表現差異。同時,他們還測試了不同的預訓練初始化方式,包括多模態預訓練的 PaLI、單模態的 Uni-PaLI,以及完全隨機初始化(Scratch),以評估預訓練對自我改進效果的影響。

圖5:第二階段自我提升結果。
Orange:第一階段行為克隆策略(相當于RT2基線(Brohan等人,2023))。藍色:第二階段在線自我提升后的政策,只需要少量的額外劇集。模擬和真實LanguageTable以及Aloha域的結果表明,我們提出的兩階段后訓練方法比單獨的監督學習具有更高的成功率和樣本效率。
我們的Real2Sim LanguageTable,特別是BananaTable的結果表明,我們將在線自我提升和網絡規模的預培訓相結合,使政策能夠快速獲得遠遠超出第一階段模仿學習數據集的新技能。隨機種子之間的差異很小,突顯了我們方法的穩健性。以上值是3顆種子的平均值。雖然第一階段LanguageTable數據集包含不同的任務,但為了公平起見,上述LanguageTable圖中的x計算了Block2Block發作的次數(占完整模仿學習數據集中Block2Block總發作次數的百分比)。
評估維度涵蓋了四個方面:
- 性能提升:在相同數據量下,BC+Self-Improvement 是否優于單純 BC。
- 樣本效率:在有限的額外在線數據下,性能提升的幅度有多大。
- 真實機器人可行性:方法在物理環境中是否穩定、安全且可擴展。
- 泛化能力:不僅包括跨域(如 Real2Sim 遷移),還包括對全新技能和新物體的適應能力。
這樣的實驗設計既覆蓋了從模擬到真實的全鏈路驗證,又在任務類型、數據規模和初始化條件上做了充分的對照,確保結論具有說服力和推廣性。
6.實驗結果與分析

圖6:語言表環境。左圖:用于我們現實世界實驗的四個LanguageTable機器人站。右,現實世界LanguageTable機器人站的頂部攝像頭視圖。右,模擬LanguageTable機器人站的底部攝像頭視圖。
從實驗數據來看,這套“自我升級”機制的表現可以用一句話概括——少量在線強化學習數據,就能換來成倍的性能提升。在 LanguageTable 這樣的單臂推塊任務中,研究團隊只額外采集了不到 2% 的在線 RL 數據,成功率就從 45% 飆升到75%,而如果單純增加 8 倍的模仿數據,成功率也只能提升到60% 左右。
這種效率差異在真實機器人上同樣成立:僅用 20% 的模仿數據,加上 3% 的自我改進數據,就能達到接近 88% 的成功率,甚至超過了用 80% 模仿數據訓練的基線模型。

圖7:模擬Aloha單次插入任務中的四個攝像頭視圖。
這種趨勢在更復雜的 Aloha 雙臂插銷任務中依然明顯。5K 條模仿數據加上 2.5K 條自我改進數據,性能就超過了單純 10K 條模仿數據的模型,并接近 15K 條模仿數據的水平。這意味著,自我改進不僅能節省數據采集成本,還能在相同數據預算下獲得更高的性能上限。

圖8:左消融結果表明,基礎模型的網絡規模預訓練對于實現有效的第2階段訓練至關重要,特別是在小數據集規模的情況下。正確的“成功率”
在LanguageTable Real2Sim域轉移任務的第二階段自我改進期間繪制。與Uni-PaLI模型相比,PaLI模型的獎勵標簽顯著加快了自我提升。
預訓練的重要性在消融實驗中被凸顯得淋漓盡致。多模態預訓練的 PaLI 初始化在低數據量下的表現顯著優于單模態的 Uni-PaLI,更是遠遠甩開了隨機初始化(Scratch)。這說明,預訓練不僅是加速收斂的“助推器”,更是讓自我改進階段有的放矢的“導航儀”。
泛化能力的測試同樣令人印象深刻。在 Real2Sim 遷移實驗中,研究團隊先在真實機器人上訓練,再將模型遷移到模擬環境進行自我改進,僅用 3% 的額外數據,成功率就從 22% 提升到 59%。在 BananaTable 任務中,機器人面對從未見過的香蕉物體,最初的推送策略很容易讓香蕉滾動或旋轉,但經過 8 小時的自我改進,成功率從 63% 提升到 85%,并且學會了新的推法——先調整角度防止旋轉,再穩步推進。
可視化分析揭示了這些性能提升背后的行為變化。自我改進后的機器人在動作上更加穩健,能夠主動修正偏差,甚至在物體出現輕微滑落時及時調整抓取姿態。這種細膩的狀態感知和策略調整,正是 Steps-to-Go 獎勵機制帶來的直接收益。
7.創新點總結
這項技術的最大亮點之一,是徹底擺脫了人工獎勵工程。通過在 SFT 階段引入 Steps-to-Go 預測,研究團隊讓機器人在自我改進階段可以直接利用自身的進度感來生成獎勵和成功信號,省去了繁瑣的任務特定獎勵設計。
其次是高樣本效率。相比單純擴充模仿數據,自我改進能用極少的在線數據換來更大的性能提升,這對于真實機器人訓練尤其重要,因為現實世界的數據采集成本遠高于模擬環境。
第三個亮點是泛化能力。無論是跨域遷移(Real2Sim),還是面對全新物體與技能,機器人都能在短時間內適應并優化策略。這種能力意味著模型不僅能“學會”,還能“學會學習”。
最后,這套方法具備可擴展的多機器人自我改進特性。單個操作者可以同時管理多臺機器人,它們各自采集數據、更新策略,形成一個分布式的、自我驅動的學習網絡。這為未來大規模機器人群體的自主進化提供了可行路徑。(END)
參考資料:???https://arxiv.org/abs/2509.15155??
本文轉載自??波動智能??,作者:FlerkenS

















