精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

“最強具身VLA大模型”,究竟強在哪兒?

人工智能 新聞
Physical Intelligence刷屏全網的機器人基礎模型π*0.6,一亮相就秀出了實力。

看似輕描淡寫,實則力透紙背。

Physical Intelligence刷屏全網的機器人基礎模型π*0.6,一亮相就秀出了實力:

讓機器人連續一整天制作意式濃縮咖啡,數小時不間斷折疊各類衣物,還能精準組裝工廠所需的包裝紙箱。

π*0.6的加持下,這些任務的成功率都達到了90%以上。

然而,仔細閱讀論文就會發現,比起連做13個小時咖啡,π*0.6真正的突破在于引入了一種更直覺的學習方法——Recap:

  • 指導:用人類示范教它基礎動作
  • 輔導:糾錯指導讓它修正錯誤
  • 練習:從自主經驗中不斷優化、變得更強

這徹底扭轉了過去機器人只會逼近 “真值” 的模仿學習模式,讓機器人能從自己的錯誤中成長。

就連網友也直呼:

從錯誤中學習,這不比人都強?

最強VLA模型——π*0.6

π*0.6延續了Physical Intelligence此前一貫的VLA(視覺-語言-動作模型)路線,是今年四月份發布π0.5以來最新的VLA模型。

總的來說,π*0.6的核心貢獻在于提出了一種通用訓練方法——基于優勢條件策略的經驗與糾偏強化學習(RL with Experience & Corrections via Advantage-conditioned Policies,RECAP)。

RECAP讓VLA能夠使用獎勵反饋和人類介入進行訓練,其主要包含三個階段:

  • 離線RL:基于多機器人、多任務的示范數據(包括失敗數據)訓練價值函數和策略
  • 微調:用人類示范將π*0.6適配到具體任務(咖啡/折衣服/組裝盒子)
  • 在線階段:機器人自主執行任務,獲得稀疏獎勵,并結合專家在線糾偏,更新價值函數,再通過優勢條件化改進策略

接下來,讓我們具體來看。

首先,對于為什么RECAP選擇價值函數,而不是標準的策略梯度,這里有個關鍵的巧思。

一方面,真實機器人數據極度異構:包括人類示范、專家干預、以及機器人在不同策略下的執行軌跡。標準的策略梯度方法需要on-policy的新鮮數據,難以有效吸收這些歷史混合數據,因此天然不適合具身場景。

另一方面,VLA模型基于Flow Matching生成連續動作,這類模型沒有顯式的log π(a|s),導致無法像傳統策略那樣對直接求梯度。

換句話說,PPO、REINFORCE 這些算法在這種模型結構上根本施展不開。

因此,RECAP沒有走傳統RL的路線,而是采用了一個巧妙的“優勢條件化”策略:

模型仍按監督學習方式訓練,但額外給它一個輸入,告訴它當前動作的優勢值(advantage)。優勢越高,代表“這個動作更值得模仿”。

于是整個流程變成了:

價值函數負責評價 → 優勢條件化負責表達 → VLA用監督學習吸收所有數據

換句話說,RECAP用價值函數判斷動作質量,再用優勢條件化把原本需要RL求解的策略更新,重新寫成了大模型最擅長的監督學習問題。

訓練價值函數與策略提取

為了讓模型從異構數據中學習,首先需要訓練一個能夠識別“好壞”的價值函數。無論數據來自哪里(演示或自主嘗試),處理過程如下:

  • 計算經驗回報:對每條軌跡,從當前時間步到結束計算累計回報,并歸一化、離散化成201個區間,為價值函數提供訓練目標。
  • 訓練分布式價值函數:用多任務分布式價值函數預測離散價值分布,通過最小化交叉熵損失進行訓練,再提取連續價值函數,得到每個狀態-動作的實際價值。
  • 計算優勢(advantage):用動作的實際回報減去價值函數預測,得到優勢值,并二值化形成高/低優勢指標,作為策略訓練的額外輸入,引導模型選擇更優動作。

有了優勢信號,我們就能實現高效的策略提取。這種方法完美滿足了前文提到的對離線RL的需求:

  • 充分利用多樣化的離策略數據:包括最初的人類示范、專家干預,以及機器人自主執行的軌跡(既有最新策略的,也有早期策略的)。
  • 可擴展性:方法需要能夠應用于大型VLA模型,包括那些使用流匹配(flow matching)或擴散(diffusion)生成動作的模型。
  • 同時利用優劣數據:既要有效利用近似最優的動作,也要利用次優動作的數據,這對于通過自主經驗提升策略尤其重要。

通過這種設計,RECAP成功地在不依賴昂貴在線PPO更新的情況下,利用混合質量的離線數據實現了機器人的自我進化。

在線階段:專家糾錯 + 自主經驗

在機器人自主執行階段,RECAP通過兩類數據持續優化策略:

  • 專家糾錯:專家遠程干預糾正嚴重錯誤(如紙箱折疊順序顛倒),每一次糾錯動作都會被標記為“正向優勢”,訓練模型學習如何恢復錯誤。
  • 自主經驗:模型自主完成的軌跡,無論成功還是失敗,都納入訓練數據。通過價值函數和優勢指標,自動篩選有效信號,優化精細動作。

模型架構與性能

π*0.6是在π0.6基礎上構建的,而π0.6又是對π0.5的升級版本。

π0.6的Backbone從Pi0、π0.5的Gemma(2.6B)擴展到Gemma3(4B),Action Expert參數量也升級到了860M。

在模型架構方面,π0.6延續了π0π0.5架構,通過流匹配(flow matching) 和離散動作token 輸出生成動作片段。

從實驗來看,研究團隊在三個高難度的現實任務中評估了模型:折疊多樣化的衣物、組裝紙箱(工廠環境)和制作濃縮咖啡。

在最難的任務(如折疊多樣化衣物和制作咖啡)中,RECAP將任務的吞吐量(每小時成功次數)提高了一倍以上,相比于僅進行監督微調(SFT)的模型,RECAP將任務失敗率降低了約2倍。

與此同時,模型表現出極高的穩定性,例如連續13小時制作咖啡、連續2小時折疊衣物而無需人為重置。

從失敗經驗中學習

正如開頭提到的,Recap最具啟發性的地方,莫過于它讓機器人能夠從錯誤經驗中學習

俗話說“失敗乃成功之母”,但在傳統的模仿學習,乃至更廣泛的監督學習中,逼近真值或最優解通常被認為是最直接、最有效的策略。

這種方法在大規模語言模型(LLM)和其他機器學習系統上確實表現出色,數學上也簡潔優雅。

然而,對于現實世界的機器人,僅僅知道如何做對,卻不知道如何從錯誤中恢復,就會成為關鍵障礙。

在LLM等生成靜態輸出的AI系統中,監督學習假設數據是獨立同分布(i.i.d.),預測輸出不會影響后續輸入,因此偶爾的偏差不會帶來致命問題。

但對于需要持續與外界互動的系統,例如機器人,情況則完全不同。

模仿學習中模型的每一次動作都會影響未來狀態,一旦出現輕微錯誤,就可能進入訓練數據未覆蓋的新狀態,從而觸發滾雪球式誤差。這些錯誤疊加后,任務可能徹底失敗。

因此,要想讓機器人“每次都成功”,光靠復制示范數據是不夠的。

解決之道在于:讓視覺-語言-動作(VLA)模型能夠從自身實際犯過的錯誤中學習,就像人類通過練習不斷糾正失誤一樣。

問題在于,這些經歷該如何標注?如果簡單地讓模型復制過去的行為,它只會學會重復錯誤。關鍵是如何從“壞數據”中提煉出有效的訓練信號。

Recap通過指導中輔以糾正,練習中輔以強化來實現這一點:

教練式糾偏(corrections)當機器人犯錯時,專家通過遙操作介入,示范如何恢復、如何更好地完成任務。

不同于傳統的示范教學,這里不是教“該怎么做”,而是教“當事情出錯時該如何修正”。

這種針對性糾偏彌補了傳統模仿數據的不足,是防止錯誤累積的關鍵。

強化學習(reinforcement learning)

然而,僅僅依靠人類提供糾正措施是遠遠不夠的,機器人需要自主學習。

機器人需要根據一個回合的總體結果自行判斷其行為的好壞,并迭代地學習執行好的行為,同時避免壞的行為。

由此,就引出了基于對錯獎勵的強化學習。

如上文所說,為了實現強化學習,核心在于解決信用分配(credit assignment)的問題。

比如,要知道機器人執行的哪些動作導致了好的結果,哪些動作導致了壞的結果。

這里,Recap通過訓練一個價值函數(value function)來應對這一挑戰,它可以預測當前狀態相較于其他狀態的優劣。

△圖源:Reinforcement learning: An introduction

舉例來說,在經典的格子世界中,智能體會通過一次次嘗試更新每個狀態的價值:落在好格子上,價值提高;掉進壞格子里,價值降低。

隨著價值評估逐漸準確,智能體自然會傾向于選擇那些通向高價值狀態的動作。

同樣的邏輯放到機器人身上:價值函數的變化為模型提供了一個簡單而強大的判斷信號。

  • 讓價值上升的動作:代表機器人朝任務成功更近了一步,應當被強化;
  • 讓價值下降的動作:意味著偏離目標,需要被抑制或修正。

舉例來說,在折疊衣服任務中(左圖),紅色區域表示機器人突然將衣服拉起的錯誤動作,對應價值下降;而綠色區域表示機器人正確完成折疊時,價值上升。

可以說,價值函數幫助機器人識別“關鍵步驟”與“錯誤來源”,讓它真正具備在復雜真實環境中從經驗中變強的能力。

當訓練好價值函數后,下一步是“策略抽取”:讓策略(即VLA模型)以價值變化為條件進行訓練。

所有數據——包括成功和未成功——都被保留,同時告知模型哪些動作是有效的、哪些動作應避免。

這種優勢條件化(advantage-conditioned)訓練能夠讓模型在保留全部經驗的前提下,從失敗中學習,從而表現超越單純示范數據的水平。

綜上,Recap不僅讓機器人學會了執行任務,更重要的是,它讓機器人學會了自我糾正和優化策略,為后續復雜任務的魯棒性和效率提升提供了可擴展的解決方案。

與此同時,如果從好數據(示范)少,壞數據(錯誤經驗)多的視角來看,π*0.6 的突破可能更具深遠意義 ——

它證明了機器人能從真實執行中收集的 “不完美經驗” 里,提煉出高效的學習信號,這也為后續機器人研究開辟了全新思路,提供了極具價值的探索方向。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-10 13:31:28

2020-06-28 07:49:06

WiFi 6WiFi 5網絡技術

2015-01-08 14:52:29

google云計算分布式計算框架

2022-07-01 06:03:08

WiFi 7WiFi 6

2019-07-23 16:00:36

區塊鏈存儲5G

2011-12-12 13:09:45

云計算

2022-02-25 10:03:11

對象數據算法

2025-09-09 09:13:00

AI模型數據

2015-08-27 13:45:25

2013-12-04 09:33:15

軟件成本

2014-04-17 10:16:50

2023-09-12 11:38:18

2025-07-10 14:55:12

機器人AI模型

2025-07-10 14:50:46

AI模型訓練

2021-12-01 07:26:12

AIOps企業

2025-07-25 10:19:44

2013-05-10 10:58:56

ERP

2024-06-04 09:25:51

2025-04-25 02:30:00

機械臂大模型多模態
點贊
收藏

51CTO技術棧公眾號

91久久伊人青青碰碰婷婷| 欧美一区二区在线视频| 日韩欧美视频一区二区三区四区| 天天综合久久综合| 婷婷综合五月| 亚洲国产小视频在线观看| 欧美,日韩,国产在线| 成人三级黄色免费网站| 国产米奇在线777精品观看| 992tv在线成人免费观看| 美女100%露胸无遮挡| 人人爱人人干婷婷丁香亚洲| 欧美日韩中文字幕| 艳母动漫在线观看| 欧洲天堂在线观看| 国产成人免费视频网站| 国产成人精品久久二区二区| 国产大学生自拍| 欧美人与物videos另类xxxxx| 欧美成人女星排行榜| 另类小说色综合| 不卡视频观看| 亚洲女人****多毛耸耸8| 欧美深深色噜噜狠狠yyy| 亚洲黄色小说网| 美国一区二区三区在线播放| 欧美伊久线香蕉线新在线| 婷婷久久综合网| 国产一区二区在线| 亚洲国产欧美精品| 香蕉视频色在线观看| 精品肉辣文txt下载| 欧美日韩激情网| www.激情网| h片在线免费| 国产精品人成在线观看免费| 麻豆精品传媒视频| 亚洲黄色小说网址| 国产aⅴ精品一区二区三区色成熟| 国产精品久久久91| 国产精品久久久久久人| 亚洲国产日本| 欧美激情国产日韩精品一区18| 影音先锋男人资源在线观看| 久久高清免费| 中文字幕无线精品亚洲乱码一区 | 不卡欧美aaaaa| 91久久精品www人人做人人爽| 91一区二区视频| 毛片av一区二区| 国产欧美日韩91| 中国一级特黄视频| 麻豆国产一区二区| 国产精品亚洲精品| 在线免费观看中文字幕| 日本aⅴ精品一区二区三区| 国产成人午夜视频网址| 国产99免费视频| 日韩av网站在线观看| 国产精品成人一区| 中文字幕无线码一区| 久久精品国产秦先生| 91色视频在线导航| av网站在线观看免费| 国产91高潮流白浆在线麻豆| 国产精品日韩一区二区免费视频| 亚洲精品字幕在线观看| 成人h版在线观看| 极品校花啪啪激情久久| 久久精品国产亚洲a∨麻豆| 国产视频一区二区三区在线观看| 亚洲v欧美v另类v综合v日韩v| 午夜视频在线观看免费视频| 最新日韩av在线| 欧美性猛交内射兽交老熟妇| 岛国片av在线| 色网站国产精品| 夜夜夜夜夜夜操| 午夜免费欧美电影| 亚洲摸下面视频| 精品人体无码一区二区三区| 亚洲区综合中文字幕日日| 欧美日韩成人网| 日本一区二区三区精品| 久久精品国产一区二区| 国产传媒一区| 国产福利免费在线观看| 成人欧美一区二区三区小说| 国产免费黄色一级片| 春暖花开亚洲一区二区三区| 91精品国产入口在线| 美女久久久久久久久| 国产尤物久久久| 欧美成人精品在线观看| 国产精品视频一区在线观看| 国内精品国产三级国产a久久| 国产精品自拍首页| 91视频在线观看| 亚洲国产精品影院| 99sesese| 日韩高清影视在线观看| 久久久国产一区二区| 国产精品人人人人| 国产电影精品久久禁18| 欧美成熟毛茸茸复古| 在线观看免费视频你懂的| 在线免费观看不卡av| 蜜臀aⅴ国产精品久久久国产老师| 国产一区二区三区四区五区| 欧美人与物videos| 在线免费a视频| 91视频国产资源| 青青草综合在线| 国产精品久久久久久久久免费高清| 精品国产乱码久久久久久免费| av黄色在线免费观看| 1024成人| 91在线观看免费网站| 免费人成在线观看网站| 亚洲国产日韩综合久久精品| 亚洲天堂2018av| 日韩欧美黄色| 国模私拍一区二区三区| 国产福利第一页| 国产精品成人一区二区三区夜夜夜 | 91性高潮久久久久久久| 欧美码中文字幕在线| 2019中文在线观看| 日韩在线视频免费| 亚洲一区欧美一区| 亚洲熟女乱综合一区二区| 99九九热只有国产精品| 国产精品成人久久久久| 欧美白人做受xxxx视频| 精品久久中文字幕| 日本不卡视频一区| 欧美日韩一卡| 91网免费观看| 黄网av在线| 日韩精品一区二区三区在线观看 | 嫩草精品影院| 岛国av午夜精品| 中文人妻一区二区三区| 影音先锋中文字幕一区| 国产伦精品一区二区三区四区视频| 亚洲色图美国十次| 日韩精品一区二区三区在线| 毛片a片免费观看| 国产乱子轮精品视频| 日本三日本三级少妇三级66| 亚洲精品tv| 精品国产一区二区三区在线观看 | 亚洲黄色三级视频| www.色精品| 99999精品视频| 女厕嘘嘘一区二区在线播放 | 999精品嫩草久久久久久99| 日韩在线视频网站| 国产女人高潮毛片| 亚洲第一福利一区| 精品中文字幕在线播放| 蜜桃视频一区| 亚洲欧美日韩综合国产aⅴ| 国产欧美 在线欧美| 久草资源在线观看| 欧美大黄免费观看| 奇米影视第四色777| ww亚洲ww在线观看国产| 国产v亚洲v天堂无码久久久| 日韩久久电影| 亚洲影视九九影院在线观看| 欧洲成人综合网| 国产偷国产偷亚洲清高网站| 成人一级免费视频| 成人欧美一区二区三区小说| 亚洲色图欧美日韩| 日韩精品久久理论片| 国产精品av免费| 成人香蕉社区| 国产精品嫩草视频| a天堂中文在线官网在线| 亚洲国产精品99| 国产suv精品一区二区33| 中文字幕一区二区三区在线观看| avtt中文字幕| 水野朝阳av一区二区三区| 黄色网址在线免费看| 久久97久久97精品免视看秋霞| 国产精品久久久久久久久久久久久久 | 精久久久久久久久久久| 日韩一级性生活片| 色无极亚洲影院| 国产伦精品一区二区三区照片91 | 日韩av不卡一区二区| 视频一区二区视频| 香蕉一区二区| 亚洲淫片在线视频| 欧美xnxx| 91国自产精品中文字幕亚洲| 免费在线观看黄| 亚洲美女又黄又爽在线观看| 99国产精品99| 色婷婷香蕉在线一区二区| 麻豆亚洲av成人无码久久精品| 国产色综合久久| 黑森林av导航| 国产美女在线观看一区| 黑人粗进入欧美aaaaa| 在线观看的日韩av| 特级毛片在线免费观看| 免费久久精品| 国产精品亚洲不卡a| 亚洲国产伊人| 国产精品ⅴa在线观看h| 免费成人在线电影| 欧美日本黄视频| 久操免费在线| 深夜福利国产精品| 欧美高清电影在线| 亚洲精品美女久久 | 亚洲人成电影网| 欧美一级视频免费| 欧美一区二区视频在线观看2022| 波多野结衣黄色网址| 欧美日韩亚洲一区二区三区| 久久久久久蜜桃| 亚洲精品成人a在线观看| www.4hu95.com四虎| 国产亚洲福利社区一区| 成人影视免费观看| 92国产精品观看| a级片在线观看视频| 国产成人精品一区二区三区四区| 亚洲精品成人在线播放| 美女网站在线免费欧美精品| 蜜臀视频一区二区三区| 日日摸夜夜添夜夜添国产精品| 少妇性饥渴无码a区免费| 在线视频精品| 免费无遮挡无码永久视频| 亚洲精选在线| 777精品久无码人妻蜜桃| 亚洲国产高清一区二区三区| 欧美一级视频在线播放| 亚洲美女一区| 欧美在线观看www| 国产精品人人爽人人做我的可爱| 日本中文字幕网址| 亚洲综合精品| 国产精品乱码久久久久| 蜜桃精品视频在线| 中文字幕免费高清在线| 国产精品自拍三区| 娇妻高潮浓精白浆xxⅹ| av成人老司机| 强伦人妻一区二区三区| 亚洲国产精品激情在线观看| 快灬快灬一下爽蜜桃在线观看| 亚洲国产精品国自产拍av| 黄色片网站在线播放| 一区二区三区日韩在线观看| 国产精品99re| 色婷婷av一区二区| 中文字幕视频一区二区| 91麻豆精品国产综合久久久久久 | 99视频精品全部免费看| 黑人一区二区三区四区五区| 尤物av无码色av无码| 日韩和的一区二区| 亚洲高清视频免费| 成人免费高清在线| 日韩乱码人妻无码中文字幕久久| 中文欧美字幕免费| 在线观看成人毛片| 欧美性猛交xxxx| 在线观看国产黄| 欧美不卡一二三| 免费成人av电影| 欧美成人激情视频免费观看| 福利在线免费视频| 91精品国产综合久久久久久蜜臀 | 美女mm1313爽爽久久久蜜臀| 亚洲911精品成人18网站| 91影院在线免费观看| 日本不卡一区视频| 亚洲福利一二三区| 中文字幕人妻精品一区| 欧美r级在线观看| 国产区av在线| 欧美精品成人91久久久久久久| 在线观看福利电影| 91夜夜未满十八勿入爽爽影院| 欧亚精品一区| 99精品视频网站| 性欧美精品高清| 日本少妇xxx| 欧美激情自拍偷拍| 四虎永久在线精品| 正在播放亚洲一区| 国产中文字幕在线| 久久久久久久999| 四虎国产精品永久在线国在线| 国产综合 伊人色| 911精品美国片911久久久| 国产免费一区二区三区视频| 国产精品一区不卡| 黄色三级生活片| 黑人巨大精品欧美一区二区免费| 国产成年妇视频| 色诱女教师一区二区三区| 亚洲涩涩在线| 99视频在线免费观看| 欧美gay男男猛男无套| 免费观看精品视频| 不卡视频一二三| 久久成人在线观看| 91麻豆精品91久久久久同性| 黄视频在线观看免费| 992tv在线成人免费观看| 北条麻妃一区二区三区在线| 少妇高潮流白浆| 精品无人区卡一卡二卡三乱码免费卡| 中文字幕一二三四区| 精品成人乱色一区二区| 午夜精品久久久久久久99热黄桃| 色偷偷av一区二区三区乱| 色综合一本到久久亚洲91| 精品国产乱码久久久久久88av| 欧美激情第8页| 波多野结衣中文字幕在线播放| 国产精品久线在线观看| 中国女人真人一级毛片| 一个色综合导航| 欧美日韩精品一区二区三区视频| 欧美久久综合性欧美| 香蕉久久久久久久av网站| 美女又爽又黄视频毛茸茸| 五月婷婷激情综合| 蜜桃视频在线观看www| 久久免费精品视频| 理论片一区二区在线| 日本午夜激情视频| 成人免费三级在线| 91看片在线播放| 日韩美女av在线| 免费电影日韩网站| 日韩视频专区| 毛片av中文字幕一区二区| 日韩欧美国产成人精品免费| 欧美精品成人一区二区三区四区| 免费人成在线观看播放视频 | 国产麻花豆剧传媒精品mv在线| 久久综合丝袜日本网| 岛国av中文字幕| 宅男66日本亚洲欧美视频| 91在线成人| 日韩国产精品毛片| 国产成人精品在线看| 99精品视频99| 国产亚洲精品久久久| 久久不卡日韩美女| 日本精品福利视频| 成人综合激情网| 手机看片久久久| 色偷偷偷亚洲综合网另类| 国产精品成人**免费视频| 久草视频这里只有精品| 91色porny在线视频| 久久久国产免费| 蜜臀久久99精品久久久无需会员| 136福利精品导航| aaa毛片在线观看| 中文字幕一区二区三区蜜月 | kk眼镜猥琐国模调教系列一区二区| 欧美三级韩国三级日本三斤在线观看| 日韩h在线观看| 国产精品麻豆成人av电影艾秋| 91亚洲精品国产| 国产视频一区二区在线观看| 国产福利第一页| 日本午夜人人精品| 中文字幕人成人乱码| av网站免费在线播放| 欧美福利视频一区| 在线观看涩涩| 400部精品国偷自产在线观看| 久久综合久久综合久久| 国产一区二区在线不卡| 91精品国产99久久久久久| 水蜜桃久久夜色精品一区| 91九色蝌蚪porny| 欧美日韩一区二区在线观看| 免费看电影在线| 亚洲欧洲日韩精品| fc2成人免费人成在线观看播放| 中文字幕 欧美激情| 久久久久久国产三级电影| 99久久视频| 91精品人妻一区二区三区| 日韩亚洲欧美在线观看|