大模型在機器人領域的應用:機遇、挑戰與前景 原創 精華
摘要: 大型語言模型(LLMs)已經顯著擴展,并逐漸融入各個領域。在機器人任務規劃中,LLMs利用其先進的推理和語言理解能力,基于自然語言指令制定精準高效的行動計劃。然而,對于需要與復雜環境交互的具體任務,僅限于文本的LLMs在與機器人視覺感知的兼容性方面往往面臨挑戰。本研究全面概述了LLMs和多模態LLMs在各種機器人任務中的新興應用。此外,我們提出了一個利用多模態GPT-4V增強具體任務規劃的框架,通過結合自然語言指令和機器人視覺感知,提升機器人在具體任務中的表現。基于多樣化數據集的結果表明,GPT-4V有效提升了機器人在具體任務中的表現。這項對LLMs和多模態LLMs在多種機器人任務中的廣泛調查和評估豐富了對LLM為中心的具體現智能的理解,并為彌合人-機-環境交互中的差距提供了前瞻性見解。
I. 介紹
隨著預訓練模型在模型規模和數據量上的擴展,一些大型預訓練模型在一系列復雜任務中展現出了顯著的能力。大型語言模型(LLMs)因其出色的上下文推理能力在各個領域得到了廣泛關注。這種新興的能力使人工智能算法以前所未有的方式發揮作用,重新塑造了人們利用人工智能算法的方式,并促使人們重新評估通用人工智能(AGI)的可能性。
隨著LLMs的快速發展,指令微調和對齊微調已經成為將其適配于特定目標的主要方法。在自然語言處理(NLP)領域,LLMs在一定程度上可以作為一種通用的語言相關任務的解決方案。這些基于Transformer的大型模型在多個領域中取得了非凡的成就,深刻地改變了人工智能的最新發展現狀。研究范式也轉向了利用這些模型來解決子領域特定的問題。在計算機視覺(CV)領域,研究人員也在開發類似于GPT-4和Gemini的大型模型,這些模型結合了視覺和語言信息,從而支持多模態輸入。這種增強LLMs的策略不僅提高了它們在下游任務中的表現,還為機器人技術的發展提供了重要的指導,確保其與人類價值觀和偏好的對齊。這種方法已經在許多領域廣泛采用,甚至在卷積神經網絡(CNN)一直主導的領域也是如此。
LLMs處理和內化大量文本數據的能力為增強機器的理解和自然語言分析能力提供了前所未有的潛力。這種能力擴展到理解如手冊和技術指南等文檔,并將這些知識應用于進行連貫、準確且符合人類需求的對話中。通過對話,自然語言指令從文本提示被轉化為機器可理解的代碼,從而觸發相應的動作,使機器人在適應各種用戶命令方面更加靈活。將現實世界的傳感器模態整合到語言模型中,有助于建立詞匯與感知之間的聯系,使其能夠應用于各種具體任務。然而,純文本的LLMs缺乏對物理世界的經驗性接觸和觀察的實際結果,這使得它們在特定環境中的決策應用上面臨挑戰。因此,將多模態整合到LLMs中對于有效執行機器人任務至關重要。此外,機器人技術領域呈現出更微妙的任務變體,不同于NLP和CV領域可以利用來自互聯網的大量數據集,獲取用于機器人交互的大規模、多樣化的數據集非常困難。這些數據集通常要么集中于單一環境和物體,要么強調特定任務領域,從而導致它們之間存在顯著差異。這種復雜性在將LLMs與機器人技術結合時提出了更大的挑戰。
如何克服機器人技術帶來的挑戰并利用LLMs在其他領域的成就來推動機器人領域的發展,是本綜述中所探討的核心問題。在本文中,工作的貢獻可以總結為以下四個主要方面:
- 我們細致地調查和綜合了現有的LLM在機器人領域的文獻,探討了在三個不同任務類別(規劃、操作、推理)中的最新進展。
- 我們總結了LLMs為機器人領域提供的主要技術方法,探討了訓練通用機器人策略的潛力,并為該領域的研究人員提供了基礎性的綜述。
- 我們評估了多模態GPT-4V在不同環境和場景下的機器人任務規劃的有效性。
- 我們總結了調查的主要發現,討論了未來需要解決的重大挑戰,并提出了前瞻性的觀點。

圖1. 提議的GPT-4V增強具體任務規劃的框架。我們使用視頻數據的初始幀及其相應的文本指令作為輸入。我們的框架利用GPT-4V將指令分解為一系列任務計劃,并從預定義的動作池中選擇相應的表示。同時,我們可以分析與指令相關的目標物體以及指令前后環境的變化。最后,我們使用GPT-4V將生成的任務計劃與真實計劃進行比較和評分。
(注釋:圖1展示了一個基于GPT-4V的增強具體任務規劃框架的工作流程。在這個框架中,視頻數據的初始幀及其相應的文本指令被用作輸入。GPT-4V利用這些輸入生成任務計劃,并從預定義的動作池中選擇合適的動作序列來完成任務。框架的工作流程可以總結如下:
1. 輸入:系統接收視頻的第一幀和相應的自然語言指令。這些輸入提供了任務的環境和目標信息。
2. 任務分解:GPT-4V根據輸入的自然語言指令,將任務分解為一系列具體的步驟或動作。這些步驟包括從動作池中選擇合適的動作,并且如果需要,還可以生成新的動作。
3. 動作選擇與序列化:GPT-4V根據分解的任務步驟,選擇和排序相應的動作,以形成一個完整的任務計劃。這些動作被組織成一個連貫的序列,指導機器人執行任務。
4. 環境和任務評估:在任務計劃生成后,GPT-4V會通過“環境狀態”對任務計劃進行評估。這包括評估任務計劃與真實視頻演示的匹配程度,并根據計劃與視頻的一致性進行評分。GPT-4V還會對任務執行后的環境變化進行理解和反饋。
5. 輸出:最終的任務計劃作為輸出,包括一個按步驟分解的行動方案,以及對任務計劃和環境狀態的評估和評分。
圖1整體上展示了GPT-4V如何在多模態環境中利用視覺和語言信息來生成并評估復雜任務的執行計劃。這個框架展示了GPT-4V在處理機器人任務規劃時的高效性和靈活性,尤其是在結合視覺和語言提示方面的能力。)
II. 相關工作
A. 基于LLM的機器人技術
基于大型語言模型(LLMs)的機器人研究取得了顯著進展。這些模型表現出了卓越的自然語言理解和常識推理能力,大大增強了機器人理解上下文和執行指令的能力。目前的研究重點在于利用LLMs解析復雜的上下文和指令,包括解決模糊性、消除歧義以及理解隱含信息。該領域的一個關鍵進展是視覺語言模型的發展,這些模型顯著提高了諸如視覺問答和圖像字幕生成等任務的表現。這些進步大大提升了機器人在物理世界中的推理能力,特別是在復雜命令導航方面。通過視覺語言處理系統,機器人能夠理解圖像內容并將其與相關的語言信息(如圖像描述和命令執行)結合起來。這種多模態信息處理同樣適用于視聽一體化。
另一個LLM的重要進展是在人與機器人交互中的應用,通過互動學習過程更好地符合人類的需求和偏好。例如,通過將強化學習與人類反饋結合,機器人能夠不斷改進其任務執行,解決大模型應用中遇到的語義模糊問題。通過結合人類的指導與大型語言模型,機器人能夠更精確地調整指令,從而更好地實現自主學習和環境適應,以實現更精確和針對性的控制。機器人還可以通過互動學習用戶的行為、偏好和需求,從而提供更個性化和定制化的交互體驗。這些進展不僅增強了機器人技術的實用性,還為未來的人機交互開辟了新的可能性。
B. 使用LLMs的多模態任務規劃
在LLMs領域中的多模態任務規劃構成了一種人工智能學科的復雜交叉,結合了不同的數據模態——如文本、視覺和聽覺輸入——以促進更全面和細致的人工智能驅動分析。這種跨學科的方法超越了LLMs傳統上以文本理解和生成為主的界限,開啟了一個時代,這些模型能夠在統一的情況下解釋、關聯和處理多個數據流。在這種背景下,LLM的角色從簡單的語言處理演變為一種更具整合功能的角色,能夠合成和回應復雜的數據交互。
在LLMs的多模態任務規劃領域,最近的進展以“內部獨白”和“SayCan”等項目為代表,展示了該領域日益復雜和精致的發展。“內部獨白”的方法代表了這一領域的重大飛躍,因為它整合了來自環境的多模態反饋源。這種整合使得任務規劃更加可靠和具有上下文意識,將不同的感官輸入協調起來,以對AI的周圍環境形成更一致的理解。同樣,“SayCan”框架為LLM應用引入了一個新的維度。該系統將LLMs作為模型的“手和眼”,生成最佳的長時間任務指令,并有效地評估當前場景下指令的可執行性。這一方法不僅增強了AI理解和與其直接環境交互的能力,還利用LLMs的細致理解來規劃和執行復雜的連續動作。
將這些先進技術整合到“內部獨白”和“SayCan”中,并應用于基于LLMs的多模態任務規劃中,標志著向創建更能感知多種數據流并能夠將這些流綜合為可操作智能的AI系統邁出了重要的一步。這一進展指向了一個未來,在這個未來中,AI能夠以更加動態、上下文感知和自主的方式導航并與現實世界互動,推動了AI驅動創新和跨學科融合的可能性邊界。
III. 機器人任務的范圍
A. 規劃
1) 自然語言理解:在機器人規劃中,大型語言模型(LLMs)因其先進的自然語言理解能力而表現出色。它們將自然語言指令轉化為可執行的機器人行動序列,這是機器人規劃的一個關鍵方面。本研究表明,LLMs即使在沒有視覺輸入的情況下,也能僅基于語言指令生成準確的行動序列。然而,當加入少量視覺信息時,它們的表現會顯著提升,從而生成更精確的視覺語義計劃。這些計劃將高層次的自然語言指令轉化為虛擬代理執行復雜任務的可操作指導。這一能力凸顯了LLMs整合多模態信息的潛力,從而提升其理解能力。它還展示了LLMs解釋和整合來自不同模態的信息的能力,從而形成對任務更全面的理解。此外,研究還進一步確認了LLMs在生成自然語言理解的行動序列方面的有效性。LLMs在同步解釋自然語言命令與物理環境方面也顯示出巨大潛力。采用“基于環境的解碼”方法,它們能夠生成與物理模型概率相一致的行為序列,展示了這種方法在機器人規劃任務中的有效性。
復雜順序任務規劃的研究強調了LLMs能力的顯著進展。Text2Motion的研究表明,LLMs不僅擅長處理語言信息,還能夠解決技能序列中的依賴關系。這是通過幾何上可行的規劃實現的,標志著在解釋抽象指令和理解復雜任務結構方面的重大進展。此外,LLM-Planner研究通過將LLMs與傳統規劃器結合,增強了LLMs在機器人規劃中的自然語言理解能力。這種協同作用展示了如何利用LLMs的自然語言處理(NLP)能力來提高規劃任務的效率和精度。此外,LLM+P利用經典規劃器的能力,通過采用規劃域定義語言(PDDL)和問題提示,為LLMs創建特定任務的問題文件。這種整合顯著增強了LLMs在處理長期規劃任務中的效果。同樣,SayPlan通過整合經典路徑規劃器解決了規劃時間跨度的問題。通過這樣做,SayPlan能夠將從抽象和自然語言指令中獲得的大規模、長時間任務計劃落實,并使移動操作機器人成功執行這些任務。此外,LLMs在作為搜索算法中的啟發式策略和常識知識庫方面也顯示出潛力。這種雙重角色不僅增強了這些算法中的推理能力,還幫助預測可能的結果。這樣的方法充分利用了LLMs的潛力,通過其先進的推理能力有效地規劃復雜任務。這種雙重應用突顯了大型語言模型在任務規劃和問題解決方面的廣泛且多功能的潛力。
LLMs的研究展示了其在解析和理解自然語言方面的卓越能力。這種能力不僅僅停留在簡單的文本匹配,還擴展到對任務目的和上下文的深刻語義理解。LLMs的一個關鍵特點是將其理解的指令轉化為可執行的機器人行動序列,這在機器人任務規劃中至關重要。LLMs顯著提升了指令生成的質量和適應性,使得生成的行動序列既能考慮上下文又能適應特定環境。這些模型在處理各種任務規劃復雜性和類型方面表現出多樣性,從簡單的物理交互到復雜的長期序列規劃。這些研究強調了LLMs作為獨立決策者以及與其他模態和規劃算法合作的潛力。這種合作在解釋自然語言和推進機器人規劃方面至關重要。隨著研究的進展,預計LLMs將在機器人和自動化系統領域發揮越來越重要的作用。
2) 復雜任務推理和決策:在復雜任務推理和決策領域,由LLMs賦能的機器人表現出了卓越的能力。這些基于LLMs的機器人規劃任務已經遠遠超出了單純的文本生成和語言理解的范疇。最新的研究表明,語言模型在處理復雜任務、進行邏輯推理、做出明智決策和參與互動學習方面展現了巨大的潛力。這些突破不僅拓展了我們對基于LLMs的機器人規劃潛力的理解,也為創新的實際應用打開了大門。
在探索預訓練語言模型(PLMs)在互動決策中的應用時,研究展示了如何將目標和觀察轉化為嵌入序列,并用PLMs初始化網絡。這種策略的泛化能力在多變量環境和監督模態中尤其有效。多模態領域的一個重要進展是LM-Nav系統的發展。該系統基于PLMs,集成了語言、視覺和行動模型,通過高層次的自然語言命令引導機器人導航。顯著的是,它通過融合預訓練的視覺導航、圖像-語言關聯和語言理解模型,減少了對代價高昂的軌跡注釋監督的依賴。
針對特定環境中的LLMs,研究人員考察了它們在自然語言反饋和復雜任務規劃中的推理能力。這種能力對于遵循高層次的任務指令并增強模型在現實世界中的適用性至關重要。為了解決自然語言理解和決策中的一致性容錯問題,創新性的ReAct模型克服了在交互環境中語言推理的先前局限性。它解決了諸如幻覺生成和錯誤信息傳播等挑戰。通過利用LLMs的潛力來維持工作記憶和抽象概念化高層目標,ReAct模型在各種任務中實現了顯著的性能提升。同時,為了解決在機器人領域應用LLMs時產生的自信幻覺預測問題,KnowNo模型為任務完成提供了統計保證,同時減少了在復雜多步驟規劃場景中對人工幫助的需求。值得注意的是,KnowNo無需微調模型即可無縫集成LLMs,提供了一種輕量級且有前途的模型不確定性處理方法。這種方法與基礎模型的不斷演進能力相吻合,提供了可擴展的解決方案。
此外,還提出了一種使用預設錯誤提示的策略,使LLMs能夠提取可執行的計劃。這種方法為任務執行中的代理獨立性和適應性提供了新的視角。在多代理協作方面,將語言模型與行動代理集成的探索也在不斷增加。通過將LLMs與在特定環境中執行任務的代理配對,建立了一個由規劃者、執行者和報告者組成的系統。這種安排顯著提高了復雜任務中的推理和執行效率。
LLMs的研究正在呈現一個顯著的趨勢:這些模型越來越擅長理解和執行復雜任務,并且與現實世界的情境緊密對接。這一進展不僅彰顯了預訓練模型的適應性和多功能性,也預示了下一代AI的到來。隨著這些技術的發展,我們預計會出現一波創新應用,準備顛覆各個行業。復雜任務中LLMs的強大語言理解和生成能力對于推理和決策過程的復雜性起到了重要作用。該領域的每一項研究都探討了LLMs在復雜認知功能中的潛力。許多模型采用自監督學習,一些還結合微調以更好地與特定任務對齊。這種方法使得LLMs在下游任務輔助推理中表現出色,從而做出更精確和定制化的決策。
盡管LLMs在復雜推理和決策中的應用廣泛,但具體的技術和方法有所不同,特別是在任務處理、學習策略和反饋機制方面。這些模型在家居自動化、機器人導航和任務規劃等現實世界的應用中展示了它們廣泛且不斷發展的實用性。
3) 人機交互:在人機交互領域,具備通用人工智能(AGI)語言模型的高級推理能力使機器人具備了顯著的泛化能力,使其能夠適應新環境中的新任務規劃。此外,LLMs的自然語言理解界面促進了人與機器人之間的溝通,為人機交互開辟了新的可能性。大量研究強調了LLMs在支持智能任務規劃方面的進展,這反過來又提升了多智能體協作通信的效率。研究表明,使用自然語言來增強多智能體合作的效率是一種有效的方法。
一個值得注意的例子是OpenAI的ChatGPT,通過嚴格的實驗評估了其在機器人應用中的能力。研究結果表明,ChatGPT在邏輯推理、幾何推理、數學推理以及空中導航、操作和控制具身代理等復雜任務中表現出色。它通過自由形式的對話、解析XML標簽以及合成代碼等技術實現了這一點。此外,ChatGPT允許用戶通過自然語言命令進行交互,這為開發與人類自然交互的創新機器人系統提供了重要指導和見解。
類似地,提出了一個利用大規模語言模型進行協作具身智能的框架。該框架使語言模型能夠用于高效的規劃和溝通,促進多種智能體與人類協作,解決復雜任務。實驗結果表明,這種方法在該領域顯著優于傳統方法。
B. 操作
1) 自然語言理解:在機器人控制領域,LLMs的自然語言理解能力可以幫助機器人進行常識性分析。例如,LLM-GROP展示了如何從LLM中提取語義信息,并將其用于在復雜環境中響應自然語言命令時,作為任務和運動規劃的一部分,做出關于物體放置的常識性、語義有效的決策。該研究提出了一個將語言置于智能體核心的框架。通過利用這些模型中包含的先驗知識,可以設計出能夠在現實世界中直接解決復雜任務的更好的機器人代理。通過一系列實驗,證明了該框架如何利用底層模型的知識和功能,以更高的效率和靈活性解決各種問題。同時,研究引入了一種新方法,即語言條件碰撞函數(LACO),該方法僅使用單視圖圖像、語言提示和機器人配置來學習碰撞函數。LACO預測機器人和環境之間的碰撞,從而實現靈活的條件路徑規劃。
除了自然語言理解能力之外,LLMs的強大推理能力也起到了顯著作用。例如,在VIMA的研究中,引入了一種新的多模態提示配方,將不同的機器人操作任務轉化為統一的序列建模問題,并在多模態任務和系統泛化評估協議中實現。實驗表明,VIMA能夠通過單一模型解決視覺目標實現、一次性視頻模仿和新概念基礎等任務,具有強大的模型擴展性和零樣本泛化能力。同樣,TIP提出了一種文本-圖像提示(Text-Image Cueing),這是一個將LLMs與多模態生成模型連接起來,以生成合理的多模態程序計劃的雙模提示框架。
除了提示方法外,基于預訓練語言模型微調下游任務也是機器人控制領域的一種常見方法。例如,有研究表明,預訓練的視覺語言表示可以有效提高現有探索方法的樣本效率。R3M研究了如何利用不同人類視頻數據上的預訓練視覺表示來實現下游機器人操作任務的數據高效學習。LIV模型在一個大型泛化的人類視頻數據集上訓練,并在一個小型機器人數據集上進行微調,能夠在三種不同的評估設置中超越最先進的方法,并成功執行現實世界的機器人任務。
這一系列研究共同說明了LLMs和自然語言理解技術在提升機器人智能方面的重要作用,特別是在理解和執行復雜的基于語言的任務中。這些研究的一個關鍵點是模型泛化的重要性以及在各種領域應用這些模型的能力。雖然每項研究都分享了這一共同主題,但它們在具體的關注點和應用方法上有所不同。例如,LLM-GROP專注于語義信息的提取和應用,而VIMA和TIP則集中于無需先例的多模態處理和學習。此外,微調預訓練語言模型的方法旨在提高應用效率和特定任務的優化。總體而言,這些研究表明,將復雜的自然語言處理技術與機器學習策略相結合,可以顯著提高機器人系統的效率,特別是在理解和執行復雜任務的能力方面。這一進展是實現機器人操作更高智能和自主性的關鍵一步。
2) 互動策略:在互動策略領域,TEXT2REWARD框架引入了一種創新方法,利用LLMs生成互動獎勵代碼。該方法自動生成密集的獎勵代碼,增強了強化學習。此外,通過利用大型語言模型來定義可優化的獎勵參數,以完成各種機器人任務,高層語言指令或修正與低層機器人動作之間的差距得到了有效彌合。由語言模型生成的獎勵作為中間接口,促進了高層指令與低層機器人動作之間的無縫通信與協調。
VoxPoser提出了一個多功能的機器人操作框架,能夠直接從LLMs中提取可操作性和約束條件。這種方法顯著增強了機器人對開放式指令和多樣化物體的適應能力。通過將LLMs與視覺語言模型相結合,并利用在線互動,VoxPoser能夠高效學習與復雜任務動態模型的交互。LLMs的應用還延伸到了人機交互領域。LILAC系統通過一個可擴展的、基于語言驅動的人機交互機制體現了這一點。它將自然語言對話轉化為低維控制空間中的可操作指令,使機器人指導更加精準和用戶友好。重要的是,每次用戶修正都會細化這個控制空間,使指令越來越精確。InstructRL提出了另一個旨在增強人類與AI合作的創新框架。該框架側重于訓練強化學習代理理解和執行人類提供的自然語言指令。該系統利用LLMs根據這些指令制定初始策略,引導強化學習代理在協調中實現最佳平衡。
最后,對于基于語言的人機界面,開發了一種新穎、靈活的接口LILAC,它允許用戶使用文本輸入和場景圖像來改變機器人軌跡。該系統將預訓練的語言和圖像模型(如BERT和CLIP)結合起來,使用Transformer編碼器和解碼器來操作3D和速度空間中的機器人軌跡。該方法在模擬環境中證明了其有效性,并通過現實世界的應用展示了其實用性。
所有這些技術和方法在不同程度上依賴于先進的語言建模,以增強人機交互和機器人控制。它們共同強調了LLMs在解釋和執行人類意圖方面的關鍵作用。每種方法的目標都是提高機器人的適應性和靈活性,使其能夠更有效地處理各種任務和環境。具體而言,TEXT2REWARD側重于生成和優化獎勵代碼,這提高了強化學習策略的有效性。相反,VoxPoser則專注于從LLMs中提取操作變量和約束條件。與此同時,LILAC和InstructRL采用了不同的方法來解釋和執行自然語言指令。LILAC優先將對話映射到控制空間,而InstructRL則專注于訓練強化學習代理理解和執行自然語言指令。此外,最后討論的基于語言的人機交互研究探討了如何直接從文本和圖像中提取用戶意圖,并將其應用于各種機器人平臺。這一方面使其區別于其他可能未包含此功能的方法。總體而言,這些研究標志著將LLMs技術集成到機器人領域的重大進展。盡管它們的應用領域和方法各有側重,但它們共同展示了在人工智能創新方面的潛力。此外,它們為未來在人機交互方面的探索鋪平了道路。
3) 模塊化方法:機器人控制領域的最新進展強調了模塊化方法,允許創建更復雜和功能豐富的機器人系統。這一趨勢的關鍵方面在最近的研究中得到了突出體現。PROGRAMPORT提出了一個基于程序的模塊化框架,專注于機器人操作。它通過將自然語言的語義結構轉化為編程元素來解釋和執行語言概念。該框架包括在學習通用視覺概念和特定任務操作策略方面表現卓越的神經模塊。這種結構化方法顯著增強了視覺基礎和操作策略的學習能力,提高了對未見樣本和合成環境的泛化能力。
接下來,研究人員探索了利用LLMs加速機器人系統中策略適應的可能性,特別是在遇到新工具時。通過生成幾何形狀和描述性工具模型,然后將其轉化為向量表示,LLMs促進了快速適應。這種語言信息與元學習的結合在適應不熟悉的工具方面顯示出了顯著的性能提升。
此外,將基于ViLD和CLIP的視覺語言模型NLMap與SayCan框架結合,帶來了更靈活的場景表示。這種結合在處理開放世界場景中的自然語言指令時,特別是在長期規劃中,效果尤為顯著。NLMap增強了基于LLMs的規劃器理解其環境的能力。
“Scaling Up and Distilling Down”框架結合了LLMs的優勢、基于采樣的規劃器和策略學習。它自動生成、標記和提取豐富的機器人探索經驗,形成了一個多任務策略,不僅繼承了長期行為和強大的操作技能,還在訓練分布之外的場景中表現出更好的性能。
MetaMorph引入了一種基于Transformer的方法,用于學習適用于廣泛模塊化機器人設計空間的通用控制器。這種方法使得機器人形態可以作為Transformer模型的輸出。通過在多樣化的形態上進行預訓練,通過這種方法生成的策略展示了對新形態和任務的廣泛泛化能力。這展示了機器人領域中廣泛預訓練和微調的潛力,類似于視覺和語言領域的發展。
在這些研究中,都采用了模塊化方法,增強了系統對新任務和環境的靈活性和適應性。這些研究廣泛利用了深度學習技術,特別是與LLMs的協同作用,以增強機器人系統的理解和決策能力。此外,這些研究的一個重要焦點是自然語言處理(NLP)的應用。無論是通過直接解釋語言指令,還是通過語言豐富的學習和適應過程,都能明顯看出這一點。主要目標是提高機器人在新環境和任務中快速泛化和適應的能力。雖然所有研究都采用了深度學習和LLMs,但它們的具體實現和應用各有不同。一些研究集中于語言描述和理解,另一些則探索了視覺和語言的融合。研究目標也有所不同,從適應新工具到長期戰略規劃,再到多態機器人控制。盡管技術方法、應用領域和目標任務各不相同,每項研究都對推進機器人系統的智能化和適應能力做出了顯著貢獻。
C. 推理
1) 自然語言理解:在機器人推理任務領域,基于自然語言理解的LLMs作為重要的知識庫,提供了對各種任務至關重要的常識性見解。大量研究表明,LLMs能夠有效地模擬類似人類的狀態和行為,特別是在研究機器人執行家庭清潔功能時尤為相關。這種方法不同于傳統方法,后者通常需要昂貴的數據收集和模型訓練。相反,LLMs利用現成的方法在機器人領域進行泛化,并得益于它們通過廣泛的文本數據分析所培養的強大總結能力。此外,LLMs的常識性推理和代碼理解能力促進了機器人與物理世界之間的聯系。例如,Progprompt通過在LLMs中引入編程語言特性,已被證明能夠提高任務性能。這種方法不僅直觀,而且足夠靈活,能夠適應新場景、代理和任務,包括實際的機器人部署。同時,GIRAF利用大型語言模型的力量,更靈活地解釋手勢和語言命令,從而準確推斷人類意圖,并對手勢含義進行情境化處理,以實現更有效的人機協作。
該領域的一個創新發展是Cap(Code as Policies),它倡導為機器人生成以語言模型為中心的程序。這些程序可以適應機器人操作棧的特定層次:解釋自然語言命令、處理感知數據,以及為原始語言控制參數化低維輸入。這種方法的基本原理是,分層代碼生成有助于創建更復雜的代碼,從而推動這一領域的前沿發展。
家庭清潔應用和Cap中的以機器人為中心的語言模型生成程序都突顯了LLMs在提供常識性知識和解釋自然語言指令方面的優勢。傳統的機器人技術通常需要大量的數據收集和專業的模型訓練。相比之下,LLMs通過利用其在文本數據上廣泛的訓練來減輕這一需求。LLMs的代碼理解和生成能力尤其關鍵,使機器人能夠更有效地與物理世界交互并執行復雜任務。然而,這些應用的重點有所不同:家庭清潔功能側重于日常任務和環境適應性,而Cap則側重于通過語言模型生成程序(LMPs)編程和控制機器人更技術性的行為。
總結而言,將LLMs集成到機器人推理任務中,凸顯了它們在自然語言理解、常識知識提供、代碼理解和生成方面的顯著能力。這些特性不僅減輕了傳統機器人技術中通常伴隨的數據收集和模型訓練負擔,還增強了機器人泛化和靈活性。通過適當的訓練和調整,LLMs可以應用于各種場景和任務,展示了它們在機器人和人工智能未來中的巨大潛力和廣泛適用性。
2) 復雜任務推理和決策:在復雜任務推理和決策領域,各種研究利用LLMs的推理能力來增強特定下游任務的精細化。例如,SayCan利用LLMs中嵌入的廣泛知識與強化學習相結合,用于具體化任務。這種方法涉及使用強化學習來發現個體技能價值函數的見解,然后使用這些技能的文本標簽作為潛在響應,而LLM則為任務完成提供整體語義指導。
另一個值得注意的發展是Instruct2Act框架。它提供了一個用戶友好的通用機器人系統,利用LLMs將多模態命令翻譯為機器人的一系列動作。該系統使用LLMs生成的策略代碼,通過調用各種視覺基礎模型的API,實現對任務集的視覺理解。
還探索了使用LLMs進行自我規劃和PDDL(規劃域定義語言)規劃的可能性。研究表明,LLMs的輸出可以有效地指導啟發式搜索規劃器。
在失敗解釋和修正任務領域,REFLECT框架利用從多感官觀察生成的機器人的過去經驗的層次化總結來查詢LLM以進行失敗推理。獲得的失敗解釋可以指導基于語言的規劃器修正失敗并成功完成任務。
此外,預訓練多模態模型的適應是一種常見策略。通過將視覺-語言模型的預訓練與機器人數據集成來訓練視覺-語言-動作(VLA)模型,研究人員發現,使用互聯網數據訓練的參數多達550億的模型可以生成高效的機器人策略。這些模型表現出增強的泛化性能,并得益于網絡上廣泛的視覺-語言預訓練能力。
Socratic Models代表了另一種方法,通過多個大型預訓練模型之間的結構化對話促進新的多模態任務的聯合預測。該方法在多個任務中實現了零樣本性能。
在這些研究中,主要關注點是利用LLMs自動化推理和決策過程。這是通過利用LLMs提供或使用高級語義知識來增強任務執行。一些方法將LLMs與其他模態(如視覺和動作)結合起來,以加深任務理解和執行。其他方法在以前未見過的任務上表現出有效的性能,展示了零樣本或少樣本學習的能力。
每項研究都采用了獨特的方法來整合LLMs。例如,SayCan結合了強化學習,而Instruct2Act則專注于多模態指令的直接映射。采用的技術——從強化學習和啟發式搜索到多模態預訓練——在機器人操作、規劃和自動化決策等不同應用領域中差異顯著。這些研究共同展示了LLMs在管理復雜任務推理和決策方面的巨大潛力。通過將LLMs與其他技術(如強化學習和多模態數據處理)結合,可以實現更深層次的語義理解和更有效的決策支持。這在機器人和自動化領域尤為明顯,這些集成方法為新應用鋪平了道路。然而,這些方法的有效性高度依賴于任務的具體性質、使用的數據和模型的訓練方法。因此,每種方法的選擇和應用必須根據具體上下文進行精心調整。
3) 互動策略:LLMs的最新進展顯著推動了互動策略的發展,展示了在語言生成和類人推理方面的出色能力。Matcha利用LLMs增強了互動多模態感知,展示了LLMs在理解各種輸入數據(如視覺和聽覺)方面的潛力。該方法提出了一種增強的LLM多模態互動代理。該代理不僅利用LLMs固有的常識知識來實現更合理的互動多模態感知,還展示了LLMs在進行此類感知和解釋行為中的實際應用。
生成代理是一種互動計算代理,旨在模擬人類行為。這些代理的架構旨在存儲、綜合和應用相關記憶,從而利用大型語言模型生成合理的行為。LLMs與這些計算代理的整合有助于創建更先進的架構和互動模式。這種結合使得人類行為的模擬更加逼真,擴展了LLMs的潛在應用。
基于LLMs的互動策略重點在于將LLMs與其他感知系統(如圖像識別和語音處理)融合。此類結合旨在模擬或增強人類能力,提升認知和處理能力。這些進展在智能助手、機器人和增強現實系統領域具有深遠意義。
在討論的工作中,顯著強調了多模態感知,重點是提高系統理解和與其環境互動的能力。此外,人類行為的模擬旨在復制AI中的人類思維和行為過程。這兩個方向的融合有望創造出更強大和多功能的智能系統。預計這些系統將能夠以更復雜和人性化的方式與人類互動,呈現出重大的技術挑戰,并引發關鍵的倫理和社會適應問題。
IV. 基于GPT-4V的具身任務規劃
基于前述對具身任務和LLMs的研究,本研究開發了一個基于GPT-4V的具身任務規劃框架,并進行了評估實驗,如圖1所示。以下部分將詳細介紹數據集、提示設計和實驗結果。
A. 數據集
為了全面評估GPT-4V在多模態具身任務規劃中的能力,我們從9個數據集中選取了40多個案例,重點關注操作和抓取。這些動作在遵循指令的機器人技術中至關重要,涉及到各種場景中的人類指令,例如廚房中的物品拾取和桌面重新排列。選定的數據集通過Google Open X-Embodiment Dataset訪問。在每個案例中,視頻演示和自然語言指令作為輸入,用以評估GPT-4V作為機器人“大腦”的表現。此設置使得基于自然語言指令的機器人動作規劃更加穩健。
B. 提示設計
提示的設計在查詢LLMs時起著關鍵作用。一個信息豐富且結構清晰的提示能夠產生與給定指令更加一致和精確的輸出。在這里,我們通過結合圖像更新了[114]中的文本提示,創建了一個多模態提示,引導GPT-4V生成機器人任務規劃。多模態提示由五個部分組成:
- 系統角色解釋:明確任務和GPT-4V在其回應中所采用的角色。
- 預定義動作池:一組預定義的機器人動作,GPT-4V可以從中選擇并按步驟順序完成任務。為了解決詞匯限制問題,如果有必要,GPT-4V還可以生成新動作。
- 示例輸出:一個JSON格式的示例,用于說明期望的輸出并確保一致性。
- 按案例提供的環境圖像和自然語言指令:包括從視頻演示中提取的第一幀作為環境圖像。
- 評估:GPT-4V需要將生成的任務計劃與真實視頻演示進行比對,根據其與視頻的吻合度進行評分并提供解釋。
前三個部分作為系統消息輸入到每個查詢中,而后兩個部分則根據測試數據作為用戶消息輸入。完整的提示如附錄圖4所示。
V. 實驗結果
在我們的實驗框架中,大型語言模型(LLMs)首先生成針對每個機器人任務目標的分步驟指令。隨后,模型根據這些生成的指令,從預定義的動作池中選擇最合適的動作和對象,形成每一步的動作計劃。在獲得LLMs生成的指令后,我們通過將其與相應視頻數據集中的真實指令(Ground-Truth)進行比較,對生成的結果進行了定量評估。在9個公開可用的機器人數據集上進行了嚴格的測試,得出了深刻且有啟發性的發現。
例如,在RT-1機器人動作數據集中,如圖2上部所示,多模態LLMs準確識別了目標對象,并熟練地分解和執行了任務。正如圖2左上角所示,基于給定的環境和指令,LLMs生成的指令如下:1)將手移動到底部抽屜的目標位置;2)抓住目標;3)將帶有目標的手移動到柜臺;4)將目標放在柜臺上。在提供了詳細的分步驟文本指令后,LLMs從動作池中選擇并列出了一組符合當前策略的指令和對象。例如,“移動手(底部抽屜)”是第一個文本指令的功能表達,便于后續直接使用此動作計劃與控制機器人手臂的接口代碼。此外,通過LLMs生成的“環境狀態”可以明顯看出,這些模型能夠有效理解在一系列操作后環境中關鍵對象的空間關系變化。圖2中的“匹配評分”也展示了模型的精準性。
在上述測試案例中,場景涉及的對象較少,任務指令相對簡潔明了。因此,我們進一步進行了測試,涉及語義模糊的任務描述和復雜場景。圖2中部左側展示了來自QT-Opt數據集的一個測試案例,其中指令僅為“抓取任何物體”,沒有具體說明場景中的任何實體。LLMs生成的結果是一系列適合抓取任何物體的通用指令,與真實情況保持了高度一致。對于復雜場景,如圖2中部右側所示,我們測試了來自Berkeley Bridge數據集的一個示例案例。輸入指令為“將銀色鍋從紅色罐子前面移到桌子前緣的藍色毛巾旁邊”,涉及場景中多個對象及其空間關系。在這里,LLMs不僅掌握了任務的目的,還熟練地執行了任務細節,展現了其高級的圖像理解和邏輯推理能力。
在圖2和圖3中進一步展示了LLMs在各種復雜場景(包括數據集[108]–[113])中的有效性。在這些實驗中,LLMs表現出色,即使在設置復雜或有特定要求的任務中也是如此。表I顯示了GPT-4V在九個不同數據集中自評的平均匹配得分,表明生成的任務計劃與真實演示之間的一致性始終保持在較高水平。這鞏固了我們方法的有效性,并突顯了多模態LLMs在機器人任務執行中的強大圖像理解和邏輯推理能力。附錄中還提供了其他測試結果。
表 I 數據集描述及GPT-4V自評的平均匹配得分,比較其生成的任務計劃與九個測試數據集中真實演示的對比情況。



圖 2. 為不同數據集生成的任務計劃:RT-1 機器人動作(上部面板)、QT-Opt(中部左側)、Berkeley Bridge(中部右側)、Freiburg Franka Play(下部左側)和USC Jaco Play(下部右側)。
(注釋:圖2展示了GPT-4V為不同數據集生成的任務計劃。圖中的每個面板代表了一個特定數據集的示例任務,展示了GPT-4V在不同場景下如何生成和執行任務計劃。
1. RT-1 機器人動作(上部面板):
- 這個面板展示了GPT-4V在RT-1數據集上的任務計劃示例。任務涉及從抽屜中取出目標物體,并將其放置在柜臺上。GPT-4V生成了詳細的分步驟指令,例如“將手移動到底部抽屜的目標位置”、“抓住目標”、“將帶有目標的手移動到柜臺”和“將目標放在柜臺上”。這些步驟顯示了GPT-4V在處理簡單、明確任務時的準確性和執行能力。
2. QT-Opt(中部左側):
- 這個面板展示了GPT-4V在QT-Opt數據集上的任務計劃。指令是模糊的,如“抓取任何物體”,并未具體說明抓取的對象。GPT-4V生成了一系列通用指令,適用于抓取場景中的任何物體。這顯示了GPT-4V在處理語義模糊任務時的泛化能力,并且與真實情況保持高度一致。
3. Berkeley Bridge(中部右側):
- 這個面板展示了GPT-4V在Berkeley Bridge數據集上的復雜場景任務計劃。指令涉及多個物體及其空間關系,例如“將銀色鍋從紅色罐子前面移到桌子前緣的藍色毛巾旁邊”。GPT-4V準確理解了任務的目的,并成功生成了詳細的動作計劃,展示了其高級的圖像理解和邏輯推理能力。
4. Freiburg Franka Play(下部左側):
- 這個面板展示了GPT-4V在Freiburg Franka Play數據集上的任務計劃。任務的復雜性在于需要精確地操作物體并與環境中的多個對象交互。GPT-4V在此場景中展示了其在控制和操作機器人手臂時的能力。
5. USC Jaco Play(下部右側):
- 這個面板展示了GPT-4V在USC Jaco Play數據集上的任務計劃。任務要求機器人在多物體的場景中進行操作和抓取,GPT-4V成功生成了適當的動作序列,顯示了其處理復雜操作任務的適應性。
總結:
圖2中的這些面板共同展示了GPT-4V在不同數據集和場景下的任務計劃能力。無論是簡單任務、模糊指令,還是復雜場景,GPT-4V都展示了出色的任務理解、分解和執行能力。通過這些示例,圖2說明了GPT-4V在多種環境下的廣泛應用潛力,尤其是在結合自然語言和視覺提示來生成機器人任務計劃方面。)

圖 3. 為不同數據集生成的任務計劃:Berkeley Autolab UR5(左上)、NYU VINN(右上)、BC-Z(左下)和TOTO Benchmark(右下)。
(注釋:圖3展示了GPT-4V為不同數據集生成的任務計劃,每個面板代表一個特定數據集的任務示例,進一步展示了GPT-4V在處理多樣化機器人任務時的能力。
1. Berkeley Autolab UR5(左上角):
- 這個面板展示了GPT-4V在Berkeley Autolab UR5數據集上的任務計劃。UR5是一個常用于研究的機械臂,任務通常涉及精確的物體操作和放置。GPT-4V生成的任務計劃展示了其在處理機械臂操作時的精確性和邏輯性,成功地指導機器人完成物體的抓取和移動任務。
2. NYU VINN(右上角):
- 這個面板展示了GPT-4V在NYU VINN數據集上的任務計劃。VINN數據集通常涉及復雜的視覺感知和操作任務。GPT-4V展示了其在處理涉及多個物體和復雜視覺輸入的任務時的能力。通過對視覺信息的理解,GPT-4V生成了能夠有效執行任務的詳細計劃,展示了其在復雜環境中的任務規劃能力。
3. BC-Z(左下角):
- 這個面板展示了GPT-4V在BC-Z數據集上的任務計劃。BC-Z通常涉及機器人與環境中的多個物體交互,任務可能包括物體的分類、排序或移動。GPT-4V在這一場景中展示了其在處理多個目標和操作步驟時的靈活性,生成的計劃能夠應對多物體的復雜場景。
4. TOTO Benchmark(右下角):
- 這個面板展示了GPT-4V在TOTO Benchmark數據集上的任務計劃。TOTO Benchmark通常用于評估機器人在執行標準化任務時的性能。GPT-4V通過生成符合標準的操作步驟,展示了其在遵循任務規范、確保操作一致性和可靠性方面的能力。
總結:
圖3展示了GPT-4V在不同復雜性和要求的任務中的適應性和多功能性。無論是精確的機械臂操作、復雜的視覺感知任務,還是多物體交互和標準化任務,GPT-4V都能生成有效的任務計劃。這些任務計劃展示了GPT-4V在不同類型的機器人任務中的廣泛應用潛力,尤其是在處理多樣化場景和任務要求時的能力。圖3進一步鞏固了GPT-4V作為多模態任務規劃工具的強大表現,并突顯了其在不同應用領域中的適用性。)
VI. 限制、討論與未來工作
我們概述了將大型語言模型(LLMs)集成到機器人系統中以應對各種任務和環境的過程,并評估了GPT-4V在多模態任務規劃中的表現。雖然GPT-4V作為任務規劃的機器人“大腦”展示了令人印象深刻的多模態推理和理解能力,但它也面臨一些局限性:1) 生成的計劃同質化,缺乏詳細的具身設計和針對復雜環境與任務的特定且穩健的設計。2) 當前的多模態LLMs,如GPT-4V和Google Gemini [28],需要精心設計且冗長的提示來生成可靠的輸出,這需要領域專家的知識和大量技巧。3) 機器人受限于預定義的動作,限制了其執行自由度和穩健性。4) GPT-4V API的閉源性質及其相關的時間延遲可能會阻礙嵌入式系統開發和實時商業應用。未來的研究應著力解決這些挑戰,以開發更穩健的AGI機器人系統。
另一方面,GPT-4V在機器人領域展示的高級推理和視覺-語言理解能力突顯了以LLM為中心的AGI機器人系統的潛力。展望未來,以多模態LLM為中心的AGI機器人在多個領域具有應用潛力。在精密農業領域,這些機器人可以在各種勞動密集型任務中替代人類勞動,特別是在收獲環節。這包括像水果采摘和作物表型分析[115][116]這樣的任務,這些任務需要在農場復雜環境中進行高級推理和精確操作[117]。在醫療領域,對安全性和精確性的關鍵需求對多模態LLMs的感知和推理能力提出了更高要求。這一點在機器人輔助篩查和手術中尤為重要,在這些場景中,定制化的任務以滿足個人需求至關重要[118]。此外,利用對比學習模型,如CLIP [119],將大腦信號與自然語言對齊,表明在以LLM為中心的AGI機器人系統中開發腦機接口(BCIs)有著可行的路徑[120]。這些系統可能能夠讀取和解釋人類大腦信號,如EEG和fMRI,用于復雜任務完成中的自我規劃和控制[80][121]。這一進展可能顯著縮小人類與環境互動中的差距,并減輕體力和認知勞動。
VII. 結論
在本文中,我們概述了將大型語言模型(LLMs)集成到各種機器人系統和任務中的情況。我們的分析顯示,LLMs表現出令人印象深刻的推理、語言理解和多模態處理能力,可以顯著增強機器人對指令、環境和所需動作的理解。我們評估了最近發布的GPT-4V模型,在9個數據集的30多個案例中進行具身任務規劃。結果表明,GPT-4V能夠有效利用自然語言指令和視覺感知生成詳細的行動計劃,以完成操作任務。這表明使用多模態LLMs作為具身智能的機器人“大腦”是可行的。
然而,在朝著更實用和更有能力的基于LLM的AI系統前進的過程中,仍然存在一些挑戰有待解決,包括模型透明度、穩健性、安全性和實際應用性。具體而言,大型神經模型的黑箱特性使得難以完全理解其內部推理過程和失敗模式。此外,在沒有性能下降的情況下,彌合仿真與現實世界之間的差距仍然是一個持續存在的難題。通過標準化測試、對抗訓練、策略適應方法和更安全的模型架構來解決這些問題仍需深入研究。依賴LLMs的自主智能系統的責任和監管協議也需要仔細考慮。以謹慎、道德和社會責任的方式克服這些多方面的挑戰,仍然是我們在這一領域推進進展的關鍵。
隨著語言模型繼續從多模態數據中積累廣泛的基礎知識,我們預期將迅速推動它們與機器人技術和基于仿真的學習相結合的發展。這可能使得在部署前,使用從仿真到現實的技術直觀地開發和驗證智能機器人變得可能。此類發展可能會深刻增強和改變我們構建、測試和部署智能機器人系統的方式。
總體而言,自然語言處理與機器人技術的協同集成是一個充滿機遇和挑戰的前沿領域,值得未來廣泛的跨學科研究。
Wang J, Wu Z, Li Y, et al. Large language models for robotics: Opportunities, challenges, and perspectives[J]. arXiv preprint arXiv:2401.04334, 2024.
Northwestern Polytechnical University
The University of Georgia
Shaanxi Normal University
Massachusetts General Hospital and Harvard Medical School,
?
本文轉載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/67qyniokMIuLYdGzw5GSPg??

















