模仿學(xué)習(xí):無(wú)需編程,機(jī)器人也能聽(tīng)懂自然語(yǔ)言了!
?用人類(lèi)日常交流所說(shuō)的自然語(yǔ)言指令去命令機(jī)械臂執(zhí)行任務(wù)是一個(gè)很大的挑戰(zhàn)。一個(gè)來(lái)自亞利桑那州立大學(xué)、英特爾人工智能實(shí)驗(yàn)室和俄勒岡州立大學(xué)的研究團(tuán)隊(duì)在操縱任務(wù)中將語(yǔ)言作為模仿學(xué)習(xí)(Imitation Learning)的靈活目標(biāo),為人類(lèi)專(zhuān)家和機(jī)器人提供了溝通的橋梁。在訓(xùn)練過(guò)程中,模型學(xué)會(huì)了相互聯(lián)系和捕捉語(yǔ)言、視覺(jué)和運(yùn)動(dòng)控制之間的相關(guān)性,從而產(chǎn)生以語(yǔ)言為條件的控制策略。然后這些策略為人類(lèi)用戶提供了一個(gè)簡(jiǎn)單直觀的,可以發(fā)出非結(jié)構(gòu)化命令的界面。
在未來(lái),將非結(jié)構(gòu)化的自然語(yǔ)言融入到模仿學(xué)習(xí)中可以減少自主機(jī)器人對(duì)編程的需求,實(shí)現(xiàn)人與機(jī)器人之間的自然交互。這項(xiàng)創(chuàng)新可能會(huì)讓自動(dòng)化機(jī)器人在醫(yī)療保健、零售、制造和食品等行業(yè)的使用更上一層樓。消除機(jī)器人對(duì)特定句子結(jié)構(gòu)、完美的語(yǔ)法或特定領(lǐng)域語(yǔ)言的需要后,人類(lèi)就可以更容易地指導(dǎo)機(jī)器人執(zhí)行任務(wù),如從零售倉(cāng)庫(kù)挑選和包裝貨物,或命令機(jī)器人手臂在餐館準(zhǔn)備飯菜。在醫(yī)療保健領(lǐng)域,人類(lèi)還可以使用語(yǔ)音指令來(lái)驅(qū)動(dòng)自動(dòng)輪椅,藥店也可以使用機(jī)器人手臂來(lái)包裝藥物。
1 模仿學(xué)習(xí)與溝通渠道
該研究團(tuán)隊(duì)與亞利桑那州立大學(xué)的研究人員Simon Stepputtis、Joseph Campbell、Chitta Baral和Heni Ben Amor以及俄勒岡州立大學(xué)的研究人員Stefan Lee合作,在2020年NeurIPS大會(huì)的重點(diǎn)展示會(huì)上發(fā)表了論文《機(jī)器人操作任務(wù)中以語(yǔ)言為條件的模仿學(xué)習(xí)(Language-Conditioned Imitation Learning for Robot Manipulation Tasks)》。

圖注:論文《機(jī)器人操作任務(wù)中以語(yǔ)言為條件的模仿學(xué)習(xí)》
論文鏈接:https://arxiv.org/abs/2010.12083
模仿學(xué)習(xí)用一種簡(jiǎn)單的方式向機(jī)器人傳授新技能。在不需要編程的情況下,人們只需要提供一組可以轉(zhuǎn)換為函數(shù)式或概率表示的演示就好。然而,這種方法的局限性在于必須仔細(xì)設(shè)計(jì)狀態(tài)表示來(lái)確保所有必要信息是可用的。神經(jīng)方法通過(guò)讓機(jī)器人學(xué)習(xí)特定于任務(wù)的特征表示,從而將模仿學(xué)習(xí)擴(kuò)展到高維空間。然而,這些方法缺乏一個(gè)通信通道,這種通信通道可以讓用戶在幾乎沒(méi)有額外成本的情況下提供有關(guān)預(yù)期任務(wù)的進(jìn)一步信息。因此,程序員和用戶都必須求助于數(shù)字方法來(lái)定義目標(biāo)。
為了克服這些挑戰(zhàn),該研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)端到端的、受語(yǔ)言限制的控制策略用來(lái)處理由高級(jí)語(yǔ)義模塊和低級(jí)控制器組成的操作任務(wù),將語(yǔ)言、視覺(jué)和控制集成在一個(gè)框架中。
策略的生成可以看作是一個(gè)從語(yǔ)言到視覺(jué)的翻譯過(guò)程。當(dāng)使用端到端方法時(shí),這種方法在概念上被分為了兩部分:語(yǔ)義模型和控制模型。語(yǔ)義模型從語(yǔ)言和視覺(jué)角度創(chuàng)建了獨(dú)特的任務(wù)表示。控制模型在考慮機(jī)器人當(dāng)前狀態(tài)的同時(shí),將任務(wù)表示轉(zhuǎn)換為特定于任務(wù)的控制策略。
2 評(píng)價(jià):采摘和傾倒任務(wù)
該團(tuán)隊(duì)在一個(gè)桌面設(shè)置的模擬機(jī)器人任務(wù)中評(píng)估了這種新方法。在這項(xiàng)任務(wù)中,一名專(zhuān)家教一個(gè)七自由度機(jī)器人操作手如何執(zhí)行一系列采摘和傾倒的動(dòng)作。在訓(xùn)練時(shí),專(zhuān)家負(fù)責(zé)提供任務(wù)的動(dòng)覺(jué)演示,以及語(yǔ)言描述如“倒一點(diǎn)到紅碗里”。桌上可能有幾個(gè)不同形狀、大小和顏色的對(duì)象,這常常導(dǎo)致自然語(yǔ)言描述產(chǎn)生歧義。機(jī)器人必須學(xué)會(huì)如何有效地從可用的原始數(shù)據(jù)源中提取關(guān)鍵信息,從而決定去做什么、如何做以及移動(dòng)到哪里。
1
圖注:執(zhí)行傾倒任務(wù)的機(jī)械臂
為了生成訓(xùn)練和測(cè)試數(shù)據(jù),五位專(zhuān)家利用同義詞替換方法提供了200個(gè)口頭任務(wù)描述模板。模仿學(xué)習(xí)需要大量的演示,因此團(tuán)隊(duì)使用這種自動(dòng)方法,通過(guò)為任務(wù)創(chuàng)建相同句子的各種變體來(lái)生成演示。該模型在40,000個(gè)綜合生成的場(chǎng)景上進(jìn)行訓(xùn)練。
3 語(yǔ)言限制操作任務(wù)的結(jié)果
這個(gè)模型的整體任務(wù)描述了杯子第一次被舉起,然后成功地倒入正確碗中的百分比。這一系列步驟在在84%的新環(huán)境中成功得到執(zhí)行。僅做采摘?jiǎng)幼鞯某晒β蔬_(dá)98%,傾倒成功率達(dá)85%。這些結(jié)果表明,該模型成功地將訓(xùn)練的行為概括為物體位置、語(yǔ)言命令或知覺(jué)輸入的變化。該團(tuán)隊(duì)的成果為成功集成語(yǔ)言、視覺(jué)和控制設(shè)置了基準(zhǔn)。
該團(tuán)隊(duì)利用輔助損耗來(lái)補(bǔ)充產(chǎn)生的機(jī)器人控制信號(hào)。引導(dǎo)對(duì)象檢測(cè)注意和策略生成都提高了傾倒任務(wù)的性能。團(tuán)隊(duì)還讓5個(gè)新的參與人發(fā)出命令以此評(píng)估這個(gè)模型,并將其與合成語(yǔ)言進(jìn)行比較。總的來(lái)說(shuō),這個(gè)模型對(duì)來(lái)自新參與者的新自然語(yǔ)言命令反應(yīng)良好。
由此看來(lái),自然語(yǔ)言指令可以在未來(lái)為機(jī)器學(xué)習(xí)和機(jī)器人開(kāi)辟新的應(yīng)用。?




























