驚呆了!訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
最近,似乎早已把GPT拋在腦后的OpenAI又整了個新活。
在經過海量無標注視頻以及一點點標注過的數據訓練之后,AI終于學會了在「我的世界」(Minecraft)里制作鉆石鎬。
而整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成,總計要操作24000次。

這個東西吧,看似簡單,但對AI來說卻非常困難。
7歲小孩看10分鐘就能學會

對于最簡單的木鎬,讓人類玩家從頭開始學過程并不太難。
一個死宅不到3分鐘用單個視頻就能教會下一個。

演示視頻全長2分52秒
然而,鉆石鎬的制作就復雜多了。
不過即便如此,一個7歲小孩也只需看上十分鐘的演示視頻,就能學會了。

這個任務的難點,主要在如何挖到鉆石礦。
過程大概可以概括為12個步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊制作木棍,木棍制作工坊裝具臺,工臺造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠制作鐵鎬,鐵鎬去挖鉆石。

現在,壓力來到了AI這邊。
正巧,CMU、OpenAI、DeepMind、Microsoft Research等機構自2019年起,就搞了一個相關的比賽——MineRL。
參賽選手需要自研出一個「自主從零開始打造工具、自動尋找并挖掘鉆石礦」的人工智能體,而獲勝條件也很簡單—最快者勝出。
結果如何?
在首屆MineRL比賽結束之后,「7歲小孩看10分鐘視頻就學會,AI用了8百萬步還搞不定」,可是上了Nature雜志的。
數據雖多,但我用不上啊
「我的世界」作為沙盒建筑游戲,其玩家策略、游戲內虛擬環境的高開放性,特別適合作為各種AI模型學習、決策能力的測試場和試金石。
而且作為一款「國民級」的游戲,想在網上找到和「我的世界」相關的視頻簡直易如反掌。
然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來說都只是在畫面上呈現出的結果。

換句話說,看視頻的人只能知道up主干了個啥,干的怎么樣,但沒法知道是怎么干的。
更具體點,電腦屏幕上呈現出來的只是結果,而操作步驟是up主在鍵盤上的不停點擊,以及鼠標的不停移動,這部分是看不到的。
甚至,連這個過程都是經過剪輯的,人看了估計都學不會,更別說AI了。
雪上加霜的是,不少玩家抱怨在游戲里刨木頭的枯燥度,太像做作業完成任務。結果一波更新之后,有不少工具可以直接白撿……這下,連數據都不好找了。
而OpenAI想要讓AI學會玩兒「我的世界」,就必須找到一個辦法,能夠讓這些海量的未標注的視頻數據派上用場。
視頻預訓練模型——VPT
于是,VPT應運而出。


論文地址:https://cdn.openai.com/vpt/Paper.pdf
這東西說新也新,但是卻并不復雜,是一種半監督式的模仿學習方法。
首先,收集一波數據標注外包們玩游戲的數據,其中包含視頻和鍵鼠操作的記錄。

VPT方法概述
然后,研究人員用這些數據搞了個逆動力學模型(inverse dynamics model,IDM),可以推測出視頻中每一步進行的時候,鍵鼠都是怎么動的。
這樣一來,整個任務就變得簡單多了,只需要比原來少很多的數據就可以實現目的。
用一小撮外包數據搞完IDM之后,就可以用IDM接下來標注更大規模的無標記數據集了。

基礎模型訓練數據對微調的影響
在訓練了70000個小時以后,OpenAI的行為克隆模型就能實現各種別的模型做不到的工作了。
模型學會了怎么砍樹收集木頭,怎么用木頭做木條,怎么用木條做桌子。而這一套事兒需要一個比較熟練的玩家操作小50秒的時間。

除了做桌子,模型還能游泳,打獵,吃東西。
甚至還有「跑跳搭」的騷操作,也就是起跳的時候腳下放個磚塊或者木塊,跳著跳著就能搭個柱子。這屬于是骨灰級玩家的必修課了。


制作桌子(0 shot)

打獵(0 shot)

「跑跳搭」簡陋版(0 shot)
而為了讓模型能完成一些更精細的任務,一般還會把數據集微調成更小的規模,區分細小的方向。
OpenAI做了一項研究,展示了用VPT訓練過的模型,再經過了微調之后,有多適應下游的數據集。
研究人員邀請人玩兒了10分鐘的「我的世界」,用基礎材料搭了個房子。他們希望通過這種方式可以加強模型執行一些游戲初期的任務的能力,比如說搭一個工作臺。
當對該數據集進行完微調以后,研究人員不僅發現模型在執行初期任務時更加得心應手,還發現模型自個兒研究明白了怎么分別做出一張木制的工作臺,和一張石制的工具臺。
有時候,研究人員還能看到模型自己搭建簡陋的避難所,搜查村子,還有搶箱子。

制作一把石鎬的全過程(下方標注的時間是一名熟練玩家執行同樣的任務的耗時)

制作石鎬
然后我們來看看,OpenAI的專家們是怎么進行的微調。
他們使用的辦法是,強化學習(RL)。
大多數RL方法通過隨機探索先驗來解決這些挑戰,例如模型通常被激勵通過熵獎勵隨機行動。VPT 模型應該是RL更好的先驗模型,因為模擬人類行為可能比采取隨機行動更有幫助。
研究人員將模型設置為收集鉆石鎬這類艱巨任務,這是「我的世界」中前所未有的功能,因為執行整個任務時使用本機人機界面時會變得更加困難。
制作鉆石鎬需要一系列漫長而復雜的子任務。為了使這項任務易于處理,研究人員為序列中的每個項目獎勵智能體。

他們發現,從隨機初始化(標準RL方法)訓練的RL策略幾乎沒有獲得任何獎勵,從不學習收集日志,而且很少收集木棍。
與之形成鮮明對比的是,VPT模型的微調不僅可以學習如何制作鉆石鎬,而且在收集所有物品方面的成功率,甚至達到人類水平。
而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計算機模型。

























