Dynalang——一種使用語言學習世界模型的AI新技術(shù)

作者：朱先忠 2023-08-21 08:00:00

人工智能夢寐以求的目標之一是創(chuàng)造出能夠通過遵循自然語言指令在現(xiàn)實世界中有效完成任務的智能體。大型語言模型（LLM）在實現(xiàn)這一目標方面取得了重大進展，展示了處理定義明確的任務的令人印象深刻的能力。

譯者 | 朱先忠

審校 | 重樓

簡介

這篇文章是我們對人工智能最新研究報道的一部分。

人工智能夢寐以求的目標之一是創(chuàng)造出能夠通過遵循自然語言指令在現(xiàn)實世界中有效完成任務的智能體。大型語言模型（LLM）在實現(xiàn)這一目標方面取得了重大進展，展示了處理定義明確的任務的令人印象深刻的能力。然而，它們的能力目前還是有限的——在面臨需要更廣泛了解世界的任務時往往達不到要求。

加州大學伯克利分校科學家的一篇新研究論文提出了應對這一挑戰(zhàn)的創(chuàng)新方法。本文介紹了一種名為Dynalang的新技術(shù)，旨在設(shè)計能夠借助自然語言學習世界模型的強化學習代理。這種方法不僅僅是教人工智能執(zhí)行任務；而且還使得人工智能能夠理解其所在環(huán)境的上下文，并更有力、更高效地執(zhí)行任務。

物理世界中的大型語言模型

PaLM-SayCan使用大型語言模型（LLM）使機器人能夠用自然語言執(zhí)行指令（來源：谷歌博客，地址：https://ai.googleblog.com/2023/02/google-research-2022-beyond-robotics.html）。

LLM的最新進展在各個領(lǐng)域引發(fā)了一波熱潮，包括機器人和現(xiàn)實世界中的任務執(zhí)行代理。LLM的一個非常有前景的方面是它們能夠彌合語言和視覺數(shù)據(jù)之間的差距，從而產(chǎn)生視覺語言模型（VLM）。

VLM能夠?qū)⑽谋居成涞揭曈X數(shù)據(jù)；反之亦然，這一功能已在不同的應用領(lǐng)域中得到利用，包括文本到圖像模型和AI圖像搜索領(lǐng)域。這項技術(shù)的一個更先進的應用是將自然語言命令映射到現(xiàn)實世界中的動作。這有時被稱為“具身語言模型”（Embodied Language Models）。

如今，已經(jīng)出現(xiàn)一些技術(shù)，其將強化學習與VLM相結(jié)合，以訓練能夠執(zhí)行特定指令的代理。

然而，當前的模型有它們明顯的局限性，例如，它們擅長執(zhí)行非常特定的任務的命令，例如“拿起藍盒子”。不過，最近的進一步研究成果能夠為這些命令添加上一層抽象，使VLM驅(qū)動的代理能夠理解和執(zhí)行更復雜的指令，例如“撿起代表滅絕動物的玩具”。

但在現(xiàn)實世界中，命令和話語往往與上下文有關(guān)。例如，如果是洗碗或上菜，“我把碗收起來了”這句話對代理來說可能意味著不同的事情。加州大學伯克利分校的研究人員指出，“當語言不談論任務時，它只與代理應該采取的最佳行動弱相關(guān)。”

最近，研究人員提出了一種不同的方法。他們建議，與其訓練代理立即完成任務，不如先訓練他們在語言指令的幫助下學習世界模型來預測未來。研究人員寫道：“與下一個表征預測如何允許語言模型形成世界知識的內(nèi)部表征類似，我們假設(shè)預測未來表征為主體理解語言及其與世界的關(guān)系提供了豐富的學習信號。”

這種方法可以幫助人工智能代理了解其環(huán)境的上下文，從而更有力、更高效地執(zhí)行任務。

Dynalang

Dynalang使用語言更好地學習世界模型（來源：GitHub）

加州大學伯克利分校的研究人員提出了一種名為Dynalang的技術(shù)，他們將其描述為“一種從在線體驗中學習語言和圖像世界模型并使用該模型學習如何行動的代理。”這項技術(shù)的方法獨特，并提供了兩種不同的訓練模式。

首先，Dynalang學習通過文本和視覺觀察來對世界進行建模。研究人員解釋說，“我們訓練世界模型，當代理在環(huán)境中行動時，利用在線收集的經(jīng)驗來預測未來的潛在表征。”這種方法反映了人類用來將環(huán)境中的觀察結(jié)果映射到語言的一種自我監(jiān)督學習形式。研究人員稱之為“語言條件世界模型”。值得注意的是，Dynalang是多模態(tài)的，這意味著它不僅預測文本，還支持預測未來的視覺表現(xiàn)。

其次，Dynalang通過對世界模型和任務表征的強化學習來學習其行動策略。研究人員寫道：“我們訓練政策采取行動，最大限度地提高任務回報，將世界模型的潛在代表性作為輸入。”。

從本質(zhì)上講，Dynalang旨在通過語言和視覺觀察來學習一個世界模型，然后使用這個模型來學習如何在各種環(huán)境中有效地行動。這種方法可能會在不同的環(huán)境中增強人工智能代理的穩(wěn)健性和效率。

Dynalang的工作原理

加州大學伯克利分校的研究人員利用不同機器學習技術(shù)的巧妙組合開發(fā)了Dynalang。Dynalang的核心是一個旨在執(zhí)行動作的人工智能系統(tǒng)，其結(jié)構(gòu)基于強化學習循環(huán)。這個循環(huán)由代理、環(huán)境、操作、狀態(tài)和獎勵組成。Dynalang的根本目標是培養(yǎng)一個能夠最大限度地提高回報的代理。

Dynalang是一個基于模型的強化學習系統(tǒng)，這意味著它可以根據(jù)世界模型預測動作和狀態(tài)。同時，使用過去動作的回放緩沖區(qū)作為監(jiān)督學習流來訓練世界模型。根據(jù)環(huán)境的不同，動作空間可以由電機命令、文本生成和其他類型的動作組成。

Dynalang的一個有趣的特性是，它能夠以令牌流形式接收文本指令和描述，同時還可以一起傳遞圖像幀信息。這與在一組任務的開頭提供完整的指令文本的其他技術(shù)形成了鮮明對比。研究人員解釋道，“對于人類來說，閱讀、聽力和口語會隨著時間的推移而延長，在此期間，我們會接收新的視覺輸入，并可以執(zhí)行運動動作。類似地，我們在每個時間步長為我們的代理提供一個視頻幀和一個語言令牌，代理產(chǎn)生一個運動動作，在適用的環(huán)境中，每個時間步長產(chǎn)生一個語言標記。”

與語言模型的許多應用程序一樣，Dynalang可以在原始數(shù)據(jù)（文本和圖像）上進行預訓練，在那里它可以學習每個模型的潛在表示。然后，它可以在較小的傳感器和動作數(shù)據(jù)集上進行微調(diào)。然而，正如研究人員所指出的，有一點需要注意：“與典型的語言建模目標不同，該模型沒有明確地訓練為從前綴預測下一個令牌，除非通過在下一時間步長時的預測表示。”

Dynalang的效果如何？

Dynalang支持在不同類型的環(huán)境中工作——使用語言提示和指令來更好地學習世界模型（來源：GitHub）。

Dynalang的研究論文目前尚未正式印刷出版，這意味著它還沒有經(jīng)過嚴格的同行評審。然而，該論文的作者包括人工智能研究領(lǐng)域備受尊敬的人物，例如伯克利機器人學習實驗室主任兼伯克利人工智能研究實驗室聯(lián)合主任Pieter Abeel。這為論文中的成果發(fā)現(xiàn)提供了一定程度的可信度。

研究人員讓Dynalang在各種環(huán)境中進行測試，每種環(huán)境都有獨特的設(shè)置和挑戰(zhàn)。在可能的情況下，他們將Dynalang的性能與在相同環(huán)境中運行的基線強化學習模型進行了比較。

HomeGrid就是這樣一個環(huán)境，它是一個多任務網(wǎng)格世界，代理在其中接收語言形式的任務規(guī)范以及語言提示，這些提示包括對對象的描述，環(huán)境中的動力信息以及相關(guān)動作的糾正。

研究人員指出，“值得注意的是，代理在HomeGrid中從未接受過關(guān)于提示含義的直接監(jiān)督，而且提示通常與他們所指的對象或觀察結(jié)果相去甚遠。”這意味著，代理必須通過將提示與世界模型觀察到的狀態(tài)相關(guān)聯(lián)來學習提示的含義。實驗表明，Dynalang善于利用這些提示，而RL模型則必須通過試錯來學習動作分布。

在另一個環(huán)境VLN-CE（Vision-and-Language Navigation in Continuous Environments：連續(xù)環(huán)境中的視覺和語言導航）中，需要代理在3D環(huán)境中導航以到達指定的目的地。每一組任務都包括一個環(huán)境和自然語言說明，說明如何到達目的地。

實驗表明，Dynalang在實現(xiàn)目標方面明顯比純RL方法更有效，因為它學會了將文本指令與環(huán)境觀察和行動聯(lián)系起來。

然而，作者警告說，“[Dynalang]還不能與最先進的VLN方法（其中許多方法使用專家演示或?qū)I(yè)架構(gòu)）競爭。”這意味著，雖然Dynalang不如SOTA技術(shù)有效，但它也需要更少的手動注釋，并且可以從接近原始的數(shù)據(jù)中學習。

本論文還探討了另外兩個有趣的環(huán)境：Messenger游戲環(huán)境和LangRoom包含的問答挑戰(zhàn)。如果您要想詳細分析Dynalang在這些環(huán)境中的表現(xiàn)，我建議閱讀全文。

本論文的一個關(guān)鍵發(fā)現(xiàn)是，在純文本數(shù)據(jù)集上對模型進行預訓練可以顯著提高模型在最終任務中的性能。這表明，模型從文本中學習的能力是其整體有效性的關(guān)鍵因素。

然而，研究人員承認，Dynalang還有相當大的改進空間。他們認為，更好的語言建模技術(shù)和架構(gòu)能夠支持長期的操作，可以提高模型的性能。我個人很感興趣的是，如果它與更先進的轉(zhuǎn)換器模型相結(jié)合的話它將如何改進。

此外，這些技術(shù)在現(xiàn)實世界中的表現(xiàn)如何還有待觀察，而現(xiàn)實世界往往比受控環(huán)境更不可預測和復雜。但研究人員對Dynalang的潛力持樂觀態(tài)度，尤其是在利用網(wǎng)上大量未標記數(shù)據(jù)方面。研究人員寫道，“在沒有動作或獎勵的情況下對視頻和文本進行預訓練的能力表明，Dynalang可以擴展到大型網(wǎng)絡(luò)數(shù)據(jù)集，為實現(xiàn)與世界上的人類交互的自我改進的多模式代理鋪平了道路。”

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：New AI technique uses language to learn world models，作者：Ben Dickson

責任編輯：華軒來源： 51CTO

人工智能大型語言模型