大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述
圖片
引言:具身智能與大模型的完美結(jié)合
具身智能(Embodied AI)旨在開發(fā)具有物理形態(tài)的智能系統(tǒng),使其能夠在真實環(huán)境中感知、決策、行動和學(xué)習(xí)。這一領(lǐng)域被認(rèn)為是通往通用人工智能(AGI)的有希望之路。盡管經(jīng)過數(shù)十年的探索,但要使智能體在開放動態(tài)環(huán)境中實現(xiàn)人類水平的智能,以執(zhí)行通用任務(wù),仍然是一個巨大的挑戰(zhàn)。
近年來,大模型的突破性進(jìn)展徹底改變了具身智能領(lǐng)域,通過增強感知、交互、規(guī)劃和學(xué)習(xí)能力,為通用智能體奠定了基礎(chǔ)。本文將全面解析大模型賦能的具身智能在決策制定和具身學(xué)習(xí)方面的最新進(jìn)展。

技術(shù)背景
具身智能的基本概念
具身智能系統(tǒng)通常包含兩個主要組成部分:物理實體和智能體。物理實體(如人形機器人、四足機器人和智能車輛)執(zhí)行動作并接收反饋,作為物理世界和數(shù)字世界之間的接口。智能體形成認(rèn)知核心,實現(xiàn)自主決策和學(xué)習(xí)。

圖2:具身智能:從整個過程中所需能力的視角
如圖2所示,人類從各種資源(如書籍、教材和在線內(nèi)容)中學(xué)習(xí)技能。當(dāng)遇到不熟悉的場景時,他們會評估環(huán)境,規(guī)劃必要的行動,在心理上模擬策略,并根據(jù)結(jié)果和外部反饋進(jìn)行調(diào)整。具身智能體模仿這種人類式的學(xué)習(xí)和問題解決范式,通過模仿學(xué)習(xí)從人類演示或視頻數(shù)據(jù)中獲取技能,通過強化學(xué)習(xí)在任務(wù)執(zhí)行過程中優(yōu)化策略和行動。
大模型的發(fā)展歷程
大模型包括大型語言模型(LLM)、大型視覺模型(LVM)、大型視覺語言模型(LVLM)、多模態(tài)大型模型(MLM)和視覺語言動作模型(VLA),它們在架構(gòu)、數(shù)據(jù)規(guī)模和任務(wù)復(fù)雜性方面取得了顯著突破,展示了強大的感知、推理和交互能力。

圖3:主要大模型的時間線
大型語言模型(LLM)
2018年,谷歌發(fā)布了BERT,這是一個基于自監(jiān)督任務(wù)預(yù)訓(xùn)練的雙向Transformer模型,顯著提高了自然語言任務(wù)的性能。隨后,OpenAI發(fā)布了GPT,這是一個基于Transformer架構(gòu)的生成模型,使用大規(guī)模無監(jiān)督語料庫進(jìn)行自回歸訓(xùn)練以生成連貫文本,標(biāo)志著生成模型的突破。GPT-2進(jìn)一步擴大了模型規(guī)模和訓(xùn)練數(shù)據(jù),增強了文本的連貫性和自然性。2020年,GPT-3以其龐大的模型容量和多樣化的訓(xùn)練數(shù)據(jù)樹立了里程碑,在文本生成、問答和翻譯方面表現(xiàn)出色,首次展示了零樣本和少樣本學(xué)習(xí)能力。
大型視覺模型(LVM)
大型視覺模型(LVM)用于處理視覺信息。Vision Transformer(ViT)將Transformer架構(gòu)適配用于計算機視覺,將圖像分割成固定大小的塊,并使用自注意力機制捕獲全局依賴關(guān)系?;诖耍現(xiàn)acebook AI發(fā)布了DINO和DINOv2,利用ViT進(jìn)行自監(jiān)督學(xué)習(xí)。DINO采用學(xué)生-教師網(wǎng)絡(luò)的自蒸餾方法生成高質(zhì)量的圖像表示,通過自注意力和對比學(xué)習(xí)在沒有標(biāo)記數(shù)據(jù)的情況下捕獲語義結(jié)構(gòu)。DINOv2通過改進(jìn)的對比學(xué)習(xí)和更大的訓(xùn)練集增強了DINO,提高了表示質(zhì)量。
大型視覺語言模型(LVLM)
大型視覺語言模型(LVLM)將預(yù)訓(xùn)練的視覺編碼器與視覺語言融合模塊集成,允許處理視覺輸入并通過語言提示響應(yīng)視覺相關(guān)查詢。OpenAI開發(fā)的CLIP通過大規(guī)模圖像文本對上的對比學(xué)習(xí)訓(xùn)練圖像和文本編碼器,對齊配對樣本特征同時最小化未配對樣本,創(chuàng)建與文本語義匹配的視覺表示。BLIP采用雙向自監(jiān)督學(xué)習(xí)融合視覺和語言數(shù)據(jù),使用"引導(dǎo)"策略提高預(yù)訓(xùn)練效率,改善視覺問答和圖像描述性能。BLIP-2進(jìn)一步引入QFormer結(jié)構(gòu),從凍結(jié)的圖像編碼器中提取視覺特征,并通過多模態(tài)預(yù)訓(xùn)練與語言指令對齊,實現(xiàn)高效的跨模態(tài)融合。
多模態(tài)大型模型(MLM)
多模態(tài)大型模型可以處理多種模態(tài),包括文本、視覺、音頻等。根據(jù)輸入輸出范式,MLM可以分為多模態(tài)輸入文本輸出模型和多模態(tài)輸入多模態(tài)輸出模型。
多模態(tài)輸入文本輸出模型集成多種數(shù)據(jù)模態(tài)進(jìn)行全面內(nèi)容理解。例如,Video-Chat通過對話建模增強視頻分析,擅長動態(tài)視覺內(nèi)容理解。基于Llama架構(gòu),VideoLLaMA整合視覺和音頻輸入,實現(xiàn)強大的視頻內(nèi)容分析。谷歌的Gemini專為多模態(tài)設(shè)計,高效處理文本、圖像和音頻,用于圖像描述和多模態(tài)問答。
多模態(tài)輸入多模態(tài)輸出模型通過學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布生成多種數(shù)據(jù)模態(tài),如文本、圖像和視頻。例如,DALL·E通過向量量化變分自編碼器(VQ-VAE)和12億參數(shù)的Transformer擴展GPT-3,生成創(chuàng)意、與提示對齊的圖像,支持零樣本任務(wù)。DALL·E 2通過將CLIP集成到DALL·E中進(jìn)一步增強了它,采用兩階段過程:先生成低分辨率圖像,然后進(jìn)行超分辨率增強,大大提高了圖像質(zhì)量和多樣性。DALL·E 3通過增強文本編碼器和訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)一步改進(jìn)了圖像提示對齊。2024年,OpenAI發(fā)布了Sora,這是一個視頻生成模型,可以從文本提示創(chuàng)建長達(dá)60秒的高質(zhì)量連貫視頻。Sora利用編碼網(wǎng)絡(luò)將輸入轉(zhuǎn)換為離散標(biāo)記,利用大規(guī)模擴散模型優(yōu)化序列,并將去噪標(biāo)記投影回視頻空間。
視覺語言動作模型(VLA)
視覺語言動作模型(VLA)最近獲得了極大關(guān)注。其核心目標(biāo)是直接將多模態(tài)輸入映射到動作輸出,而不是通過分層決策制定的中間步驟,從而提高機器人的感知動作集成能力。VLA的概念最早由RT-2提出,它利用預(yù)訓(xùn)練的視覺語言模型將動作空間離散化為動作標(biāo)記,并通過互聯(lián)網(wǎng)數(shù)據(jù)和機器人數(shù)據(jù)的聯(lián)合微調(diào)實現(xiàn)泛化。然而,其離散動作設(shè)計和閉源性質(zhì)限制了其靈活性和進(jìn)一步研究。為了克服這些限制,出現(xiàn)了基于連續(xù)動作生成的VLA模型和開源VLA模型。最近的VLA模型研究進(jìn)一步解決了這些挑戰(zhàn)。BYO-VLA、3D-VLA、PointVLA處理視覺輸入處理。Octo和Diffusion-VLA解決了動作生成準(zhǔn)確性。TinyVLA和π0提高了計算效率。
大模型通用能力增強技術(shù)
大模型在推理能力、幻覺、計算成本和任務(wù)特異性方面仍然存在局限性。研究人員提出了一系列技術(shù)來增強其通用能力。

圖4:大模型的通用能力增強
上下文學(xué)習(xí)(ICL)
上下文學(xué)習(xí)使大模型能夠通過精心設(shè)計的提示實現(xiàn)零樣本泛化,使它們能夠在無需額外訓(xùn)練和調(diào)整的情況下解決新任務(wù)。利用輸入提示中的上下文,大模型可以理解任務(wù)要求并生成相關(guān)輸出,使其成為從自然語言處理到特定問題解決等應(yīng)用的通用工具。最近的進(jìn)展集中在優(yōu)化提示技術(shù)上,如自動提示生成和動態(tài)示例選擇,以增強ICL在不同領(lǐng)域的魯棒性。
思維鏈(XoT)
思維鏈?zhǔn)且幌盗型评砜蚣?,用于提高大模型解決數(shù)學(xué)、邏輯和開放性問題的能力。思維鏈(CoT)將中間推理步驟納入提示,引導(dǎo)大模型將復(fù)雜問題分解為可管理的部分。思維樹(ToT)通過探索樹狀結(jié)構(gòu)中的多個推理路徑擴展了CoT,允許大模型評估替代解決方案并在必要時回溯。思維圖(GoT)通過采用圖結(jié)構(gòu)進(jìn)一步推進(jìn)了ToT,其中節(jié)點表示中間狀態(tài),邊捕獲關(guān)系和依賴性,實現(xiàn)靈活的非線性推理。
檢索增強生成(RAG)
檢索增強生成從外部知識庫(如數(shù)據(jù)庫和網(wǎng)絡(luò)源)檢索相關(guān)信息,并將其提供給大模型以生成準(zhǔn)確響應(yīng)。RAG緩解了大模型知識過時或不完整的問題,確保訪問最新和特定領(lǐng)域的信息。最近的進(jìn)展包括結(jié)合密集和稀疏檢索方法的混合檢索機制,以平衡精度和效率,以及將檢索內(nèi)容與生成輸出有效對齊的微調(diào)策略。
推理與行動(ReAct)
推理與行動將推理與行動執(zhí)行集成,使模型在執(zhí)行任務(wù)時能夠產(chǎn)生明確的推理軌跡。通過要求大模型在行動之前闡述其思維過程,ReAct提高了決策透明度,并改善了動態(tài)交互環(huán)境中的性能。
人類反饋強化學(xué)習(xí)(RLHF)
人類反饋強化學(xué)習(xí)將人類偏好整合到大模型的訓(xùn)練中,使大模型與人類價值觀和意圖保持一致。利用人類反饋作為獎勵信號,RLHF提高了模型在動態(tài)交互環(huán)境中生成有幫助、無害和誠實輸出的能力。通過提示模型生成多個響應(yīng),RLHF允許人類根據(jù)質(zhì)量和安全性對其進(jìn)行排名或評分,并使用此反饋來優(yōu)化模型的未來生成,確保一致性和倫理考慮。
模型上下文協(xié)議(MCP)
模型上下文協(xié)議(MCP)是由Anthropic引入的開源標(biāo)準(zhǔn),為大模型與外部數(shù)據(jù)源、工具和服務(wù)交互提供了標(biāo)準(zhǔn)化接口。MCP增強了大模型的互操作性和適應(yīng)性,使其能夠與各種外部系統(tǒng)無縫集成。MCP的最新發(fā)展集中在擴展其與多模態(tài)輸入的兼容性以及優(yōu)化其在實時應(yīng)用中的性能。
大模型賦能具身智能的方法與技術(shù)
分層自主決策制定
智能體的自主決策制定旨在將環(huán)境感知和任務(wù)理解轉(zhuǎn)化為可執(zhí)行的決策和物理行動。傳統(tǒng)的決策制定采用分層范式,包括感知和交互、高層規(guī)劃、低層執(zhí)行以及反饋和增強。感知和交互層依賴于視覺模型,高層規(guī)劃層依賴于預(yù)定義的邏輯規(guī)則,低層執(zhí)行層依賴于經(jīng)典控制算法。這些方法在結(jié)構(gòu)化環(huán)境中表現(xiàn)出色,但由于缺乏整體優(yōu)化和高層決策能力,在非結(jié)構(gòu)化或動態(tài)環(huán)境中表現(xiàn)不佳。
大模型的進(jìn)步,憑借其強大的學(xué)習(xí)、推理和泛化能力,在復(fù)雜任務(wù)處理方面顯示出前景。通過將大模型的推理能力與物理實體的執(zhí)行能力相結(jié)合,為自主決策制定提供了新的范式。

圖5:分層決策制定范式,包括感知和交互、高層規(guī)劃、低層執(zhí)行、反饋和增強
高層規(guī)劃
高層規(guī)劃根據(jù)任務(wù)指令和感知信息產(chǎn)生合理的計劃。傳統(tǒng)的高層規(guī)劃依賴于基于規(guī)則的方法。給定在規(guī)劃領(lǐng)域定義語言(PDDL)中指定的初始狀態(tài)和目標(biāo),啟發(fā)式搜索規(guī)劃器驗證行動前提的可行性,并使用搜索樹選擇最優(yōu)行動序列,從而生成高效且經(jīng)濟的計劃。雖然在結(jié)構(gòu)化環(huán)境中有效,但基于規(guī)則的方法在非結(jié)構(gòu)化或動態(tài)場景中的適應(yīng)性較差。大模型利用其零樣本和少樣本泛化能力,在應(yīng)對這些挑戰(zhàn)方面推動了突破。根據(jù)規(guī)劃形式,大模型賦能的高層規(guī)劃可以分為結(jié)構(gòu)化語言規(guī)劃、自然語言規(guī)劃和編程語言規(guī)劃。

圖6:大模型賦能的高層規(guī)劃
結(jié)構(gòu)化語言規(guī)劃
大模型可以通過兩種關(guān)鍵策略增強結(jié)構(gòu)化語言規(guī)劃,如圖6(a)所示。(1) 第一種策略將大模型用作規(guī)劃器,利用其零/少樣本泛化能力生成計劃。然而,Valmeekam等人證明,由于嚴(yán)格的PDDL語法和語義,大模型經(jīng)常生成不可行的計劃,導(dǎo)致邏輯錯誤。為了緩解這個問題,LLV引入了一個外部驗證器,即PDDL解析器或環(huán)境模擬器,通過錯誤反饋檢查并迭代改進(jìn)大模型生成的計劃。FSP-LLM優(yōu)化了提示工程,使計劃與邏輯約束保持一致,確保任務(wù)的可行性。(2) 第二種策略利用大模型自動化PDDL生成,減少領(lǐng)域建模中的人工工作。在LLM+P中,大模型創(chuàng)建PDDL領(lǐng)域文件和問題描述,然后由傳統(tǒng)規(guī)劃器解決,結(jié)合了語言理解和符號推理。PDDL-WM使用大模型迭代構(gòu)建和完善PDDL領(lǐng)域模型,通過解析器和用戶反饋驗證,確保正確性和可執(zhí)行性。通過利用大模型作為直接規(guī)劃器或PDDL生成器,這些策略增強了自動化,減少了用戶參與,從而顯著提高了規(guī)劃效率、適應(yīng)性和可擴展性。
自然語言規(guī)劃
自然語言比結(jié)構(gòu)化語言提供了更大的表達(dá)靈活性,能夠充分利用大模型將復(fù)雜計劃分解為子計劃,如圖6(b)所示。然而,自然語言規(guī)劃通常產(chǎn)生不可行的計劃,因為其輸出通?;诮?jīng)驗而非實際環(huán)境。例如,當(dāng)指示"清理房間"時,大模型可能提出"取吸塵器",而沒有驗證其可用性。Zero-shot探索了使用大模型將高級任務(wù)分解為一系列可執(zhí)行語言規(guī)劃步驟的可行性。他們的實驗表明,大模型可以基于常識推理生成初步計劃,但缺乏對物理環(huán)境和行動可行性的約束。
為了解決這個問題,SayCAN將大模型與強化學(xué)習(xí)相結(jié)合,結(jié)合大模型生成的計劃與預(yù)定義的技能庫和價值函數(shù)來評估行動可行性。通過用預(yù)期累積獎勵對行動進(jìn)行評分,SayCAN過濾掉不切實際的步驟(如"跳到桌子上抓杯子"),而選擇更安全的高價值行動(如"移動到桌子并伸出手")。Text2Motion通過結(jié)合幾何可行性進(jìn)一步增強了涉及空間交互的任務(wù)規(guī)劃。它使用大模型提出候選行動序列,然后通過檢查器評估其物理可行性,以避免"將大盒子堆在小球上"等行動。然而,這兩種方法都依賴于固定的技能集,缺乏對開放任務(wù)的適應(yīng)性。Grounded Decoding通過引入靈活的解碼策略解決了這一限制。它動態(tài)地將大模型輸出與實時基礎(chǔ)模型集成,該模型根據(jù)當(dāng)前環(huán)境狀態(tài)和智能體能力評估行動可行性,引導(dǎo)大模型生成上下文可行的計劃。
編程語言規(guī)劃
編程語言規(guī)劃將自然語言指令轉(zhuǎn)換為可執(zhí)行程序,利用代碼的精確性定義空間關(guān)系、函數(shù)調(diào)用和控制API,以實現(xiàn)具身任務(wù)中的動態(tài)高層規(guī)劃,如圖6(c)所示。CaP將任務(wù)規(guī)劃轉(zhuǎn)換為代碼生成,生成具有遞歸定義函數(shù)的Python風(fēng)格程序,創(chuàng)建動態(tài)函數(shù)庫。例如,在機器人導(dǎo)航中,CaP首先定義"移動"函數(shù),然后根據(jù)任務(wù)要求將其擴展為"避障移動"或"接近目標(biāo)"。這種自擴展庫增強了對新任務(wù)的適應(yīng)性,無需預(yù)定義模板。然而,CaP對感知API的依賴和無約束的代碼生成限制了其處理復(fù)雜指令的能力。為了克服這些限制,Instruct2Act通過利用多模態(tài)基礎(chǔ)模型統(tǒng)一感知、規(guī)劃和控制,提供了更集成的解決方案。它使用視覺語言模型進(jìn)行準(zhǔn)確的對象識別和空間關(guān)系理解,提供精確的環(huán)境感知。然后將感知數(shù)據(jù)輸入大模型,該模型從預(yù)定義的機器人技能庫生成基于代碼的行動序列。這種方法顯著提高了規(guī)劃準(zhǔn)確性,使智能體能夠有效適應(yīng)新環(huán)境,特別是在具有顯著視覺組件的任務(wù)中。ProgPrompt采用結(jié)構(gòu)化提示,包括環(huán)境操作、對象描述和示例程序,指導(dǎo)大模型生成定制的基于代碼的計劃。通過結(jié)合預(yù)定義約束,ProgPrompt最小化了無效代碼生成,并增強了跨環(huán)境適應(yīng)性。
低層執(zhí)行
在高層任務(wù)規(guī)劃之后,使用預(yù)定義的技能列表執(zhí)行低層行動。技能列表表示具身智能體執(zhí)行特定任務(wù)所需的一系列基本能力或行動模塊。它們充當(dāng)任務(wù)規(guī)劃和物理執(zhí)行之間的橋梁。例如,感知相關(guān)技能包括對象識別和障礙物檢測,而運動相關(guān)技能包括對象抓取和移動。低層技能的實現(xiàn)涉及控制理論、機器學(xué)習(xí)和機器人工程。方法從傳統(tǒng)控制算法發(fā)展到學(xué)習(xí)驅(qū)動控制,再到模塊化控制。

傳統(tǒng)控制算法
基礎(chǔ)技能通常使用傳統(tǒng)控制算法設(shè)計,主要利用具有明確數(shù)學(xué)推導(dǎo)和物理原理的經(jīng)典基于模型的技術(shù)。比例積分微分(PID)控制調(diào)整參數(shù)以最小化機器人臂關(guān)節(jié)控制中的誤差。狀態(tài)反饋控制通常與線性二次調(diào)節(jié)器(LQR)配對,利用系統(tǒng)狀態(tài)數(shù)據(jù)優(yōu)化性能。模型預(yù)測控制(MPC)通過滾動優(yōu)化預(yù)測狀態(tài)并生成控制序列,非常適合無人機路徑跟蹤等任務(wù)。傳統(tǒng)控制算法提供數(shù)學(xué)可解釋性、低計算復(fù)雜性和實時性能,實現(xiàn)可靠的任務(wù)執(zhí)行。然而,面對動態(tài)環(huán)境時,傳統(tǒng)控制算法缺乏適應(yīng)性,難以處理高維不確定的系統(tǒng)動力學(xué)。它們需要與數(shù)據(jù)驅(qū)動技術(shù)(如深度學(xué)習(xí)和強化學(xué)習(xí))集成,以增強泛化能力。例如,當(dāng)四足機器人在不平地形上導(dǎo)航時,傳統(tǒng)PID控制與學(xué)習(xí)算法協(xié)作,動態(tài)調(diào)整其步態(tài)。
大模型賦能的學(xué)習(xí)驅(qū)動控制
機器人學(xué)習(xí)位于機器學(xué)習(xí)和機器人的交叉點。它使智能體能夠從大量數(shù)據(jù)(包括人類演示、模擬和環(huán)境交互)中開發(fā)控制策略和低層技能。模仿學(xué)習(xí)和強化學(xué)習(xí)代表兩種重要的學(xué)習(xí)方法。模仿學(xué)習(xí)從專家演示中訓(xùn)練策略,實現(xiàn)快速策略開發(fā),減少探索時間。Embodied-GPT利用70億參數(shù)的語言模型進(jìn)行高層規(guī)劃,并通過模仿學(xué)習(xí)將計劃轉(zhuǎn)換為低層策略。強化學(xué)習(xí)通過迭代試驗和環(huán)境獎勵優(yōu)化策略,適用于高維動態(tài)環(huán)境。Hi-Core采用雙層框架,其中大模型設(shè)置高層策略和子目標(biāo),而強化學(xué)習(xí)在低層生成具體行動。這些大模型賦能的學(xué)習(xí)驅(qū)動控制方法提供了強大的適應(yīng)性和泛化能力。然而,它們的訓(xùn)練通常需要大量數(shù)據(jù)和計算資源,策略的收斂性和穩(wěn)定性難以保證。
大模型與預(yù)訓(xùn)練模型的模塊化控制
模塊化控制將大模型與預(yù)訓(xùn)練策略模型(如用于視覺識別的CLIP和用于分割的SAM)集成。通過為大模型提供這些工具的描述,可以在任務(wù)執(zhí)行期間動態(tài)調(diào)用它們。DEPS結(jié)合多個不同模塊,基于任務(wù)要求和預(yù)訓(xùn)練模型的自然語言描述完成檢測和行動。PaLM-E將大模型與用于分割和識別的視覺模塊合并。CLIPort利用CLIP進(jìn)行開放詞匯表檢測。一些研究利用大模型生成代碼來創(chuàng)建用于導(dǎo)航和操作的可調(diào)用函數(shù)庫。這種模塊化方法通過利用共享的預(yù)訓(xùn)練模型,確保了在不同任務(wù)中的可擴展性和可重用性。
然而,挑戰(zhàn)依然存在。首先,調(diào)用外部策略模型可能會引入額外的計算和通信延遲,特別是在實時任務(wù)(如自動駕駛)中,這種延遲可能顯著影響響應(yīng)效率。其次,智能體的整體性能高度依賴于預(yù)訓(xùn)練策略模型的質(zhì)量。如果策略模型存在缺陷(如泛化能力不足或訓(xùn)練數(shù)據(jù)偏差),即使大模型具有強大的規(guī)劃能力,執(zhí)行結(jié)果可能仍然不令人滿意。因此,優(yōu)化模塊之間的通信效率,提高策略模型的魯棒性,以及設(shè)計更智能的調(diào)用決策機制非常重要。
反饋與增強
分層決策制定架構(gòu)通過任務(wù)描述和示例提示指導(dǎo)任務(wù)規(guī)劃。為確保任務(wù)規(guī)劃質(zhì)量,應(yīng)引入閉環(huán)反饋機制。反饋可能來自大模型本身、人類和外部環(huán)境。

圖8:反饋與增強
大模型的自反思
大模型可以充當(dāng)任務(wù)規(guī)劃器、評估器和優(yōu)化器,從而在沒有外部干預(yù)的情況下迭代改進(jìn)決策過程。智能體獲得行動反饋,自主檢測和分析失敗的執(zhí)行,并從先前的任務(wù)中持續(xù)學(xué)習(xí)。通過這種自反思和優(yōu)化機制,大模型可以生成魯棒的策略,在長序列規(guī)劃、多模態(tài)任務(wù)和實時場景中具有優(yōu)勢。自反思可以通過兩種方式實現(xiàn),如圖8(a)所示。
(1) 第一種方法通過基于檢測到的執(zhí)行失敗或前提錯誤的重新提示觸發(fā)計劃重新生成。重新提示將錯誤上下文(如未能先開門就試圖打開門)作為反饋集成,動態(tài)調(diào)整提示從而糾正大模型生成的計劃。DEPS采用"描述、解釋、規(guī)劃、選擇"框架,其中大模型描述執(zhí)行過程,解釋失敗原因,并重新提示以糾正計劃缺陷,增強交互式規(guī)劃。
(2) 第二種方法采用內(nèi)省機制,使大模型能夠獨立評估和完善其輸出。Self-Refine使用單個大模型進(jìn)行規(guī)劃和優(yōu)化,通過多次自反饋循環(huán)迭代提高計劃合理性。Reflexion通過結(jié)合長期記憶來存儲評估結(jié)果,擴展了它,結(jié)合多種反饋機制增強計劃可行性。ISR-LLM在基于PDDL的規(guī)劃中應(yīng)用迭代自優(yōu)化,生成初始計劃,執(zhí)行合理性檢查,并通過自反饋完善結(jié)果。Voyager專為編程語言規(guī)劃量身定制,通過從執(zhí)行失敗中提取反饋構(gòu)建動態(tài)代碼技能庫,使智能體能夠適應(yīng)復(fù)雜任務(wù)。
人類反饋
人類反饋通過建立與人類的交互閉環(huán)機制來提高規(guī)劃準(zhǔn)確性和效率,如圖8(b)所示。這種方法使智能體能夠基于人類反饋動態(tài)調(diào)整行為。KNOWNO引入了一個不確定性測量框架,允許大模型識別知識缺口,并在高風(fēng)險或不確定情況下尋求人類幫助。EmbodiedGPT采用規(guī)劃-執(zhí)行-反饋循環(huán),當(dāng)?shù)蛯涌刂剖r,智能體請求人類輸入。這種人類反饋與強化學(xué)習(xí)和自監(jiān)督優(yōu)化相結(jié)合,使智能體能夠迭代改進(jìn)其規(guī)劃策略,確保更好地與動態(tài)環(huán)境條件保持一致。YAY Robot允許用戶用命令暫停機器人并提供指導(dǎo),促進(jìn)基于語言的實時糾正。反饋被記錄用于策略微調(diào)和定期查詢,實現(xiàn)實時和長期改進(jìn)。IRAP允許與人類進(jìn)行交互式問答,獲取任務(wù)特定知識,實現(xiàn)精確的機器人指令。
環(huán)境反饋
環(huán)境反饋通過與環(huán)境的動態(tài)交互增強基于大模型的規(guī)劃,如圖8(c)所示。InnerMonologue將多模態(tài)輸入轉(zhuǎn)換為語言描述,用于"內(nèi)心獨白"推理,允許大模型根據(jù)環(huán)境反饋調(diào)整計劃。TaPA集成開放詞匯表對象檢測,并為導(dǎo)航和操作定制計劃。DoReMi檢測計劃與實際結(jié)果之間的差異,并采取多模態(tài)反饋動態(tài)調(diào)整任務(wù)。在多智能體設(shè)置中,RoCo利用環(huán)境反饋和智能體間通信實時糾正機械臂路徑規(guī)劃。
基于大模型的規(guī)劃通常需要將反饋轉(zhuǎn)換為自然語言。VLM通過整合視覺輸入和語言推理簡化了這一過程,避免了反饋轉(zhuǎn)換。ViLaIn將大模型與VLM集成,從語言指令和場景觀察生成機器可讀的PDDL,以高精度驅(qū)動符號規(guī)劃器。ViLa和Octopus通過利用GPT4-V MLM生成計劃,實現(xiàn)機器人視覺語言規(guī)劃,整合感知數(shù)據(jù)以實現(xiàn)強大的零樣本推理。Voxposer進(jìn)一步利用MLM提取空間幾何信息,從機器人觀察生成3D坐標(biāo)和約束圖,以填充代碼參數(shù),從而提高規(guī)劃中的空間準(zhǔn)確性。
端到端自主決策制定
分層范式依賴于單獨的任務(wù)規(guī)劃、行動執(zhí)行和反饋模塊,因此存在錯誤累積問題,難以在不同任務(wù)間泛化。此外,從大模型中衍生的高級語義知識難以直接應(yīng)用于機器人動作執(zhí)行,導(dǎo)致集成差距。為了緩解這些挑戰(zhàn),端到端自主決策制定最近受到廣泛關(guān)注,它直接將多模態(tài)輸入(即視覺觀察和語言指令)映射到動作。它通常由VLA實現(xiàn)。

圖9:VLA的端到端決策制定
視覺語言動作模型(VLA)
VLA模型通過將感知、語言理解、規(guī)劃、動作執(zhí)行和反饋優(yōu)化集成到一個統(tǒng)一框架中,代表了具身智能的突破。通過利用大模型的豐富先驗知識,VLA模型能夠在動態(tài)開放環(huán)境中實現(xiàn)精確和適應(yīng)性的任務(wù)執(zhí)行。典型的VLA模型包含三個關(guān)鍵組件:標(biāo)記化和表示、多模態(tài)信息融合和動作去標(biāo)記化。

圖10:視覺語言動作模型
標(biāo)記化和表示
VLA模型使用四種標(biāo)記類型:視覺、語言、狀態(tài)和動作,對多模態(tài)輸入進(jìn)行編碼,以實現(xiàn)上下文感知的動作生成。視覺標(biāo)記和語言標(biāo)記將環(huán)境場景和指令編碼為嵌入,形成任務(wù)和上下文的基礎(chǔ)。狀態(tài)標(biāo)記捕獲智能體的物理配置,包括關(guān)節(jié)位置、力矩、夾爪狀態(tài)、末端執(zhí)行器姿態(tài)和對象位置。動作標(biāo)記基于先前的標(biāo)記自回歸生成,表示低層控制信號(如關(guān)節(jié)角度、扭矩、輪速)或高層運動原語(如"移動到抓取姿態(tài)","旋轉(zhuǎn)手腕"),使VLA模型能夠充當(dāng)語言驅(qū)動的策略生成器。
多模態(tài)信息融合
視覺標(biāo)記、語言標(biāo)記和狀態(tài)標(biāo)記通過跨模態(tài)注意力機制融合到統(tǒng)一的嵌入中進(jìn)行決策,通常在transformer架構(gòu)內(nèi)實現(xiàn)。這種機制動態(tài)權(quán)衡每個模態(tài)的貢獻(xiàn),使VLA模型能夠基于任務(wù)上下文對對象語義、空間布局和物理約束進(jìn)行聯(lián)合推理。
動作去標(biāo)記化
融合的嵌入然后被傳遞到自回歸解碼器,通常在transformer架構(gòu)內(nèi)實現(xiàn),以生成一系列對應(yīng)于低層控制信號或高層運動原語的動作標(biāo)記。動作生成可以是離散的或連續(xù)的。在離散動作生成中,模型從預(yù)定義的動作集中選擇,如特定的運動原語或離散化的控制信號,這些信號被映射到可執(zhí)行命令。在連續(xù)動作生成中,模型輸出細(xì)粒度的控制信號,通常使用最終的MLP層從連續(xù)分布中采樣,實現(xiàn)精確的操作或?qū)Ш?。這些動作標(biāo)記通過將它們映射到可執(zhí)行控制命令來進(jìn)行去標(biāo)記化,這些命令被傳遞到執(zhí)行循環(huán)。循環(huán)反饋更新的狀態(tài)信息,使VLA模型能夠?qū)崟r適應(yīng)擾動、對象移動或遮擋。
機器人Transformer 2(RT-2)是一個著名的VLA模型。它利用Vision Transformer(ViT)進(jìn)行視覺處理,并利用PaLM整合視覺、語言和機器人狀態(tài)信息。特別地,RT-2將動作空間離散化為八個維度(包括6自由度末端執(zhí)行器位移、夾爪狀態(tài)和終止命令)。除了終止命令外,每個維度被劃分為256個離散間隔,從而將連續(xù)動作空間轉(zhuǎn)換為離散標(biāo)記序列。這種離散化使RT-2能夠利用大模型的文本生成能力進(jìn)行機器人控制,實現(xiàn)了前所未有的泛化能力。
具身學(xué)習(xí)方法
具身學(xué)習(xí)使智能體能夠通過長期環(huán)境交互自主完善其行為策略和認(rèn)知模型,實現(xiàn)持續(xù)改進(jìn)。它可以通過模仿學(xué)習(xí)從演示中獲取技能,通過強化學(xué)習(xí)在任務(wù)執(zhí)行過程中優(yōu)化技能。此外,世界模型也在提供智能體進(jìn)行試驗和積累經(jīng)驗的機會方面發(fā)揮著關(guān)鍵作用,通過模擬真實世界的推理空間。這些組件協(xié)同工作,增強具身智能體的能力,向AGI邁進(jìn)。
大模型賦能的模仿學(xué)習(xí)
模仿學(xué)習(xí)使智能體能夠從專家演示中獲取技能,實現(xiàn)快速策略開發(fā),減少探索時間。大模型通過以下方式增強模仿學(xué)習(xí):
- 策略網(wǎng)絡(luò)構(gòu)建:大模型可以構(gòu)建更強大的策略網(wǎng)絡(luò),從演示中學(xué)習(xí)復(fù)雜的技能。例如,Embodied-GPT利用70億參數(shù)的語言模型進(jìn)行高層規(guī)劃,并通過模仿學(xué)習(xí)將計劃轉(zhuǎn)換為低層策略。
- 演示數(shù)據(jù)增強:大模型可以生成或增強演示數(shù)據(jù),提供更多樣化和豐富的學(xué)習(xí)資源。例如,通過生成合成演示或擴展現(xiàn)有演示,大模型可以幫助智能體學(xué)習(xí)更廣泛的技能。
- 技能分解與組合:大模型可以將復(fù)雜任務(wù)分解為更簡單的子任務(wù),并學(xué)習(xí)如何組合這些子任務(wù)以解決復(fù)雜問題。這種分解和組合能力使智能體能夠更有效地學(xué)習(xí)復(fù)雜技能。
大模型賦能的強化學(xué)習(xí)
強化學(xué)習(xí)通過迭代試驗和環(huán)境獎勵優(yōu)化策略,適用于高維動態(tài)環(huán)境。大模型通過以下方式增強強化學(xué)習(xí):
- 獎勵函數(shù)設(shè)計:大模型可以幫助設(shè)計更復(fù)雜和語義豐富的獎勵函數(shù),指導(dǎo)智能體學(xué)習(xí)期望的行為。例如,大模型可以基于自然語言描述生成獎勵函數(shù),使獎勵信號更符合人類意圖。
- 策略網(wǎng)絡(luò)構(gòu)建:大模型可以構(gòu)建更強大的策略網(wǎng)絡(luò),實現(xiàn)更復(fù)雜的控制策略。例如,Hi-Core采用雙層框架,其中大模型設(shè)置高層策略和子目標(biāo),而強化學(xué)習(xí)在低層生成具體行動。
- 探索策略優(yōu)化:大模型可以指導(dǎo)智能體的探索過程,使其更有效地探索環(huán)境并發(fā)現(xiàn)最優(yōu)策略。例如,大模型可以基于當(dāng)前狀態(tài)和任務(wù)目標(biāo)生成探索建議,幫助智能體避免無效探索。
世界模型
世界模型在具身智能中扮演著關(guān)鍵角色,為智能體提供模擬真實世界推理空間的機會,使其能夠進(jìn)行試驗和積累經(jīng)驗。世界模型通過學(xué)習(xí)環(huán)境的動態(tài)和因果關(guān)系,使智能體能夠預(yù)測行動的結(jié)果,從而更有效地規(guī)劃和學(xué)習(xí)。
世界模型可以通過以下方式增強決策制定和學(xué)習(xí):
- 規(guī)劃增強:世界模型可以用于模擬不同行動的結(jié)果,幫助智能體選擇最佳行動序列。例如,智能體可以在世界模型中"預(yù)演"不同的計劃,評估其可能的結(jié)果,然后選擇最佳計劃在真實環(huán)境中執(zhí)行。
- 學(xué)習(xí)加速:世界模型可以提供額外的訓(xùn)練數(shù)據(jù),加速學(xué)習(xí)過程。例如,智能體可以在世界模型中進(jìn)行大量試驗,收集經(jīng)驗數(shù)據(jù),然后在真實環(huán)境中應(yīng)用學(xué)到的知識。
- 安全探索:世界模型可以用于評估潛在行動的風(fēng)險,避免在真實環(huán)境中執(zhí)行危險行動。例如,智能體可以在世界模型中測試可能危險的行動,評估其安全性,然后決定是否在真實環(huán)境中執(zhí)行。
方法比較與分析
分層決策制定與端到端決策制定的比較
分層決策制定和端到端決策制定各有優(yōu)勢和局限性,適用于不同的應(yīng)用場景。

分層決策制定的優(yōu)勢在于:
- 模塊化設(shè)計:將感知、規(guī)劃和執(zhí)行分離為不同模塊,使系統(tǒng)更易于理解和維護(hù)。
- 可解釋性:每個模塊的功能明確,便于理解和調(diào)試。
- 靈活性:可以單獨改進(jìn)或替換各個模塊,而不影響整個系統(tǒng)。
分層決策制定的局限性在于:
- 錯誤累積:各模塊之間的接口可能導(dǎo)致錯誤累積,影響整體性能。
- 集成挑戰(zhàn):高級語義知識與低層控制之間的集成可能存在困難。
- 泛化能力有限:在不同任務(wù)和環(huán)境之間的泛化能力可能有限。
端到端決策制定的優(yōu)勢在于:
- 無縫集成:將感知、規(guī)劃和執(zhí)行集成到一個統(tǒng)一框架中,避免了模塊間的接口問題。
- 端到端優(yōu)化:可以直接優(yōu)化從感知到行動的整個流程,實現(xiàn)更好的整體性能。
- 強泛化能力:通過聯(lián)合訓(xùn)練多模態(tài)數(shù)據(jù),可以實現(xiàn)更強的泛化能力。
端到端決策制定的局限性在于:
- 可解釋性差:內(nèi)部決策過程難以理解和解釋。
- 數(shù)據(jù)需求大:需要大量多樣化的訓(xùn)練數(shù)據(jù),可能難以獲取。
- 計算資源需求高:訓(xùn)練和推理可能需要大量計算資源。
不同學(xué)習(xí)方法的比較
模仿學(xué)習(xí)和強化學(xué)習(xí)是具身智能中兩種主要的學(xué)習(xí)方法,各有優(yōu)勢和適用場景。
模仿學(xué)習(xí)的優(yōu)勢在于:
- 學(xué)習(xí)效率高:從專家演示中直接學(xué)習(xí),避免了隨機探索的過程。
- 安全性高:學(xué)習(xí)過程不涉及與環(huán)境的大量交互,減少了安全風(fēng)險。
- 適用于復(fù)雜任務(wù):可以從人類專家那里學(xué)習(xí)復(fù)雜技能,無需顯式定義獎勵函數(shù)。
模仿學(xué)習(xí)的局限性在于:
- 演示數(shù)據(jù)依賴:需要高質(zhì)量的專家演示數(shù)據(jù),可能難以獲取。
- 泛化能力有限:可能難以泛化到與演示數(shù)據(jù)不同的場景。
- 缺乏探索:可能無法發(fā)現(xiàn)比演示更好的策略。
強化學(xué)習(xí)的優(yōu)勢在于:
- 自適應(yīng)性:通過與環(huán)境交互不斷改進(jìn)策略,適應(yīng)環(huán)境變化。
- 探索能力:可以發(fā)現(xiàn)比現(xiàn)有方法更好的策略。
- 無需演示數(shù)據(jù):不需要專家演示數(shù)據(jù),只需定義獎勵函數(shù)。
強化學(xué)習(xí)的局限性在于:
- 樣本效率低:通常需要大量與環(huán)境交互的數(shù)據(jù),學(xué)習(xí)過程可能很慢。
- 獎勵函數(shù)設(shè)計困難:設(shè)計合適的獎勵函數(shù)可能很困難,尤其是對于復(fù)雜任務(wù)。
- 安全風(fēng)險:在探索過程中可能執(zhí)行危險動作,存在安全風(fēng)險。
挑戰(zhàn)與未來方向
盡管大模型賦能的具身智能取得了顯著進(jìn)展,但仍面臨諸多挑戰(zhàn),這些挑戰(zhàn)也為未來的研究提供了方向。
當(dāng)前挑戰(zhàn)
- 泛化能力:雖然大模型展示了強大的泛化能力,但在具身智能中,智能體仍需要適應(yīng)各種新的環(huán)境和任務(wù),這對泛化能力提出了更高要求。
- 實時性:具身智能需要在實時環(huán)境中做出決策和行動,但大模型的計算復(fù)雜度高,可能難以滿足實時性要求。
- 安全性與可靠性:在物理世界中行動的智能體需要確保其行為的安全性和可靠性,避免造成傷害或損失。
- 多模態(tài)融合:有效融合視覺、語言、聽覺、觸覺等多種模態(tài)的信息,實現(xiàn)全面的環(huán)境理解,仍是一個挑戰(zhàn)。
- 長期學(xué)習(xí):實現(xiàn)智能體的持續(xù)學(xué)習(xí)和適應(yīng),使其能夠在長期運行中不斷改進(jìn),是一個重要挑戰(zhàn)。
- 能源效率:大模型和具身智能系統(tǒng)通常需要大量能源,提高能源效率對于實際應(yīng)用至關(guān)重要。
未來方向
- 更高效的模型架構(gòu):開發(fā)更高效的大模型架構(gòu),降低計算復(fù)雜度,提高實時性能,同時保持強大的能力。
- 更好的多模態(tài)融合:研究更有效的多模態(tài)融合方法,實現(xiàn)全面的環(huán)境理解和靈活的交互。
- 更強的安全保證:開發(fā)確保智能體行為安全可靠的方法,包括形式化驗證、安全監(jiān)控和應(yīng)急機制。
- 更智能的學(xué)習(xí)方法:研究更智能的學(xué)習(xí)方法,提高學(xué)習(xí)效率,減少對大量數(shù)據(jù)的依賴,實現(xiàn)更快速的知識獲取和技能掌握。
- 更真實的模擬環(huán)境:開發(fā)更真實的模擬環(huán)境,為智能體提供更好的訓(xùn)練和測試平臺,縮小模擬與真實世界之間的差距。
- 更緊密的人機協(xié)作:研究更緊密的人機協(xié)作方法,使人類和智能體能夠優(yōu)勢互補,共同解決復(fù)雜問題。
結(jié)論
大模型賦能的具身智能代表了人工智能領(lǐng)域的一個重要發(fā)展方向,通過將大模型的強大能力與物理實體相結(jié)合,實現(xiàn)更智能、更自主的系統(tǒng)。本文全面分析了大模型賦能的具身智能在決策制定和具身學(xué)習(xí)方面的最新進(jìn)展,包括分層決策制定、端到端決策制定、模仿學(xué)習(xí)、強化學(xué)習(xí)和世界模型等關(guān)鍵技術(shù)。
盡管取得了顯著進(jìn)展,但大模型賦能的具身智能仍面臨諸多挑戰(zhàn),包括泛化能力、實時性、安全性、多模態(tài)融合、長期學(xué)習(xí)和能源效率等方面。未來的研究將致力于解決這些挑戰(zhàn),推動具身智能向更高水平發(fā)展,最終實現(xiàn)通用人工智能的目標(biāo)。
隨著技術(shù)的不斷進(jìn)步,大模型賦能的具身智能將在機器人技術(shù)、自動駕駛、智能家居、醫(yī)療護(hù)理等領(lǐng)域發(fā)揮越來越重要的作用,為人類社會帶來深遠(yuǎn)的影響。我們期待看到更多創(chuàng)新的研究和應(yīng)用,推動這一領(lǐng)域向前發(fā)展。
??https://arxiv.org/pdf/2508.10399??
Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning
本文轉(zhuǎn)載自??AIGC深一度??,作者:一度

















