精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理

發(fā)布于 2025-1-21 14:11
瀏覽
0收藏

具身人工智能的目標(biāo)是使機(jī)器人或虛擬代理能夠像人類(lèi)一樣理解和操作其所在的物理環(huán)境,而空間推理被視為實(shí)現(xiàn)具身任務(wù)規(guī)劃的關(guān)鍵能力。導(dǎo)航和操作任務(wù)是具身AI中常見(jiàn)的挑戰(zhàn),依賴(lài)于模型對(duì)空間關(guān)系的理解和高效執(zhí)行復(fù)雜任務(wù)的能力,但現(xiàn)有方法在處理復(fù)雜空間推理任務(wù)時(shí)仍面臨諸多局限,難以滿足實(shí)際應(yīng)用的需求。

現(xiàn)有方法大多通過(guò)補(bǔ)充空間數(shù)據(jù)和模型微調(diào)來(lái)提升空間推理能力,可是這些方法主要依賴(lài)于語(yǔ)言生成的粗粒度結(jié)果,難以在復(fù)雜環(huán)境中管理更精細(xì)的任務(wù)。一些方法引入了基于點(diǎn)的動(dòng)作空間來(lái)緩解這一問(wèn)題,但在處理復(fù)雜任務(wù)時(shí)仍存在明顯不足,原因在于未充分利用視覺(jué)語(yǔ)言模型固有的思維和推理能力。另外,現(xiàn)有模型主要在配有文本的2D圖像數(shù)據(jù)上訓(xùn)練,缺乏理解空間關(guān)系所需的信息。

為了解決上述問(wèn)題,華為諾亞方舟實(shí)驗(yàn)室提出了一種新方法SpatialCoT,目標(biāo)是增強(qiáng)視覺(jué)語(yǔ)言模型(VLMs)的空間推理能力。SpatialCoT由兩個(gè)主要階段組成:空間坐標(biāo)雙向?qū)R和鏈?zhǔn)剿季S空間定位。通過(guò)這些階段,模型能夠更好地理解和生成坐標(biāo)基于的響應(yīng),并利用語(yǔ)言模型的推理能力進(jìn)行高級(jí)空間推理。實(shí)驗(yàn)結(jié)果表明,SpatialCoT在導(dǎo)航和操作任務(wù)中顯著優(yōu)于之前的最先進(jìn)方法。研究團(tuán)隊(duì)的相關(guān)論文《SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning》近日發(fā)表于 arXiv,引起業(yè)內(nèi)廣泛關(guān)注。

研究團(tuán)隊(duì)是由來(lái)自華為諾亞方舟實(shí)驗(yàn)室的一組杰出研究人員組成,包括Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yaochen Hu, Lingfeng Zhang, Yingxue Zhang, Shuang Wu, Tongtong Cao, Guowei Huang, Guangjian Tian, Xingyue Quan, Jianye Hao和 Yuzheng Zhuang。華為諾亞方舟實(shí)驗(yàn)室是華為旗下專(zhuān)注于人工智能和機(jī)器學(xué)習(xí)研究的機(jī)構(gòu),致力于推動(dòng)前沿技術(shù)的發(fā)展,特別是在視覺(jué)語(yǔ)言模型和具身人工智能等領(lǐng)域的創(chuàng)新與應(yīng)用。團(tuán)隊(duì)成員在各自領(lǐng)域擁有豐富的研究經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí),共同推動(dòng)了SpatialCoT的開(kāi)發(fā)和應(yīng)用。

這些研究人員在視覺(jué)語(yǔ)言模型、具身AI和空間推理領(lǐng)域積累了豐富的經(jīng)驗(yàn)和深厚的知識(shí)基礎(chǔ)。他們的合作與研究不僅推動(dòng)了理論的發(fā)展,也對(duì)實(shí)際應(yīng)用產(chǎn)生了重要影響。通過(guò)他們的不懈努力,SpatialCoT為具身任務(wù)規(guī)劃提供了一個(gè)創(chuàng)新的解決方案,展示了其在復(fù)雜環(huán)境中處理導(dǎo)航和操作任務(wù)的巨大潛力。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖1:SpatialoT與以前方法的比較。a) 以前的方法通常直接根據(jù)語(yǔ)言指令輸出動(dòng)作。b) SpatialoT通過(guò)有效利用VLM的推理能力來(lái)提高動(dòng)作生成質(zhì)量。這是通過(guò)兩個(gè)階段的微調(diào)過(guò)程實(shí)現(xiàn)的,涉及空間坐標(biāo)對(duì)齊和思維鏈空間基礎(chǔ)。

這篇論文的貢獻(xiàn)不僅在于提出了一種新的空間推理方法,更在于其對(duì)未來(lái)研究方向的引領(lǐng)和啟發(fā)。隨著技術(shù)的不斷進(jìn)步,SpatialCoT方法有望在更多實(shí)際應(yīng)用中發(fā)揮重要作用,為機(jī)器人和智能代理的自主性和智能化提供堅(jiān)實(shí)的技術(shù)支持。

方法介紹

空間坐標(biāo)雙向?qū)R

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖2:SpatialIoT概述,包括兩個(gè)核心階段。a) 空間坐標(biāo)雙向?qū)R,包括將坐標(biāo)轉(zhuǎn)換為語(yǔ)言(由左側(cè)的藍(lán)色到黃色箭頭表示)和語(yǔ)言轉(zhuǎn)換為坐標(biāo)(由右側(cè)的黃色到藍(lán)色箭頭表示)。b) 思維鏈空間接地:該模型首先通過(guò)生成基于語(yǔ)言的基本原理進(jìn)行綜合思維,然后將其接地為基于坐標(biāo)的動(dòng)作(黃色到藍(lán)色虛線),顯著提高了模型在復(fù)雜空間推理任務(wù)中的性能。

空間坐標(biāo)雙向?qū)R是SpatialCoT方法的第一個(gè)核心階段。其主要目的是通過(guò)明確對(duì)齊視覺(jué)-語(yǔ)言輸入與空間坐標(biāo),從而增強(qiáng)模型的空間理解和響應(yīng)生成能力。具體而言,這一階段涉及將圖像和文本描述與具體坐標(biāo)進(jìn)行雙向映射,使模型能夠更精準(zhǔn)地理解和生成基于坐標(biāo)的反饋。

空間坐標(biāo)雙向?qū)R通過(guò)兩種形式的數(shù)據(jù)對(duì)齊實(shí)現(xiàn)。第一種形式是將圖像與包含坐標(biāo)的文本指令進(jìn)行配對(duì),模型需輸出指令中描述坐標(biāo)的相關(guān)信息。第二種形式是將圖像與不含坐標(biāo)的語(yǔ)言指令進(jìn)行配對(duì),模型需生成一個(gè)或多個(gè)坐標(biāo)來(lái)指示指令中描述的位置或區(qū)域。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖3:思維鏈空間接地的數(shù)據(jù)采集管道。

在圖像與坐標(biāo)的雙向?qū)R機(jī)制中,首先將視覺(jué)-語(yǔ)言數(shù)據(jù)與坐標(biāo)進(jìn)行顯式對(duì)齊,這一過(guò)程通過(guò)設(shè)計(jì)不同類(lèi)型的數(shù)據(jù)(如對(duì)象理解、可用性預(yù)測(cè)、空間關(guān)系和空間兼容性)來(lái)實(shí)現(xiàn)。通過(guò)雙向?qū)R,使得模型不僅能根據(jù)坐標(biāo)理解文本描述,還能根據(jù)文本描述生成準(zhǔn)確的坐標(biāo)。

在具體數(shù)據(jù)處理過(guò)程中,模型需要處理兩種主要的數(shù)據(jù)形式。一種是圖像與包含具體坐標(biāo)的文本描述配對(duì),另一種是圖像與不包含坐標(biāo)的文本描述配對(duì)。具體示例如“圖像中物體位于(0.81, 0.90)的位置”以及“請(qǐng)指出圖像中所有椅子的位置”,前者要求模型理解并生成關(guān)于坐標(biāo)的反饋,而后者則要求模型生成對(duì)應(yīng)的坐標(biāo)。

鏈?zhǔn)剿季S空間定位

鏈?zhǔn)剿季S空間定位是SpatialCoT的第二個(gè)核心階段,旨在通過(guò)語(yǔ)言模型的推理能力進(jìn)行高級(jí)空間推理。不同于直接生成基于坐標(biāo)的動(dòng)作,這一階段通過(guò)語(yǔ)言推理過(guò)程將復(fù)雜的空間推理問(wèn)題逐步分解,生成細(xì)粒度的動(dòng)作計(jì)劃。

鏈?zhǔn)剿季S空間定位通過(guò)生成包含推理過(guò)程和具體動(dòng)作的數(shù)據(jù)來(lái)實(shí)現(xiàn)。首先,模型需生成基于任務(wù)的推理過(guò)程,利用語(yǔ)言空間中的推理能力進(jìn)行任務(wù)指導(dǎo)。然后,模型基于推理過(guò)程生成對(duì)應(yīng)的基于坐標(biāo)的動(dòng)作。這一過(guò)程通過(guò)在前一階段對(duì)齊的語(yǔ)言和坐標(biāo)數(shù)據(jù)中實(shí)現(xiàn),無(wú)需大量的微調(diào)數(shù)據(jù)。

在這一階段,模型通過(guò)內(nèi)在推理能力進(jìn)行復(fù)雜的空間定位。模型首先生成任務(wù)的推理過(guò)程,利用語(yǔ)言模型中的空間和常識(shí)推理能力,指導(dǎo)任務(wù)的完成。然后,基于推理過(guò)程生成相應(yīng)的坐標(biāo)動(dòng)作,實(shí)現(xiàn)高級(jí)空間推理任務(wù)的解決。

為了高效地生成高質(zhì)量的推理-動(dòng)作數(shù)據(jù)對(duì),我們?cè)O(shè)計(jì)了一條自動(dòng)化數(shù)據(jù)生成流水線。初始階段,基于圖像和任務(wù)指令從模擬器中獲取真實(shí)動(dòng)作,并在圖像上進(jìn)行標(biāo)注。接著,利用強(qiáng)大的視覺(jué)語(yǔ)言模型生成基于動(dòng)作標(biāo)注圖像和任務(wù)指令的推理過(guò)程,并通過(guò)加入額外的約束來(lái)確保推理過(guò)程的有效性。最終,通過(guò)微調(diào)模型,使其能夠高效處理復(fù)雜的空間推理任務(wù)。

實(shí)驗(yàn)設(shè)計(jì)

SpatialCoT的方法通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn)驗(yàn)證了其在具身任務(wù)中的有效性。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖4:現(xiàn)實(shí)世界的重排實(shí)驗(yàn),SpatialoT將各種對(duì)象組合排列成合理的布局,遵守物理約束并避免碰撞。

研究團(tuán)隊(duì)采用閉環(huán)具身任務(wù)規(guī)劃的方法,通過(guò)在模擬器中進(jìn)行任務(wù)設(shè)置和評(píng)估,全面考察SpatialCoT在導(dǎo)航和操作任務(wù)中的表現(xiàn)。任務(wù)設(shè)置包括狀態(tài)、目標(biāo)、動(dòng)作和轉(zhuǎn)換的具體設(shè)置,以確保任務(wù)的復(fù)雜性和真實(shí)性。

狀態(tài)、目標(biāo)、動(dòng)作、轉(zhuǎn)換的具體設(shè)置

在狀態(tài)方面,研究團(tuán)隊(duì)主要考慮了視覺(jué)遮擋、物體堆疊和封裝遮擋等因素。此外,還涉及物體屬性如幾何形狀和可移動(dòng)性。目標(biāo)設(shè)置包括物體數(shù)量、空間約束和目標(biāo)描述的抽象程度。動(dòng)作設(shè)置則考慮了動(dòng)作空間的格式和所需技能的數(shù)量。轉(zhuǎn)換方面,研究團(tuán)隊(duì)處理了環(huán)境的動(dòng)態(tài)不確定性,通過(guò)不同復(fù)雜度的層次進(jìn)行任務(wù)分解。

導(dǎo)航任務(wù)和操作任務(wù)的詳細(xì)描述

導(dǎo)航任務(wù)采用了更具挑戰(zhàn)性的目標(biāo)物體導(dǎo)航評(píng)估任務(wù)。與傳統(tǒng)的區(qū)域定位任務(wù)不同,目標(biāo)物體導(dǎo)航要求模型生成最佳的次目標(biāo)點(diǎn),以盡快找到不在視野內(nèi)的目標(biāo)物體。例如,模型需要根據(jù)圖像生成最佳路徑點(diǎn),以找到目標(biāo)物體的位置。

操作任務(wù)采用了餐桌功能重排評(píng)估任務(wù),這是對(duì)RoboPoint任務(wù)的進(jìn)一步擴(kuò)展。給定一個(gè)目標(biāo)布局描述,模型需要逐步生成每個(gè)物體的起始和結(jié)束位置,直到達(dá)到期望的布局。例如,模型需要根據(jù)語(yǔ)言指令逐步將餐桌上的物品擺放到指定位置。

基本能力評(píng)估

除了具身任務(wù)規(guī)劃,研究團(tuán)隊(duì)還評(píng)估了視覺(jué)語(yǔ)言模型的基本能力,以理解這些能力與任務(wù)規(guī)劃性能之間的關(guān)系。這些基本能力包括對(duì)象理解、可用性預(yù)測(cè)、空間關(guān)系和空間兼容性。

  • 對(duì)象理解:匹配自然語(yǔ)言描述與圖像中的具體視覺(jué)內(nèi)容。
  • 可用性預(yù)測(cè):識(shí)別和預(yù)測(cè)環(huán)境中可執(zhí)行的動(dòng)作,如確定可導(dǎo)航區(qū)域或如何操作物體。
  • 空間關(guān)系:理解物體之間的空間關(guān)系。
  • 空間兼容性:預(yù)測(cè)和理解物體之間的兼容性。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)收集方面,研究團(tuán)隊(duì)使用了兩個(gè)主要場(chǎng)景數(shù)據(jù)集。導(dǎo)航任務(wù)的數(shù)據(jù)收集依賴(lài)于Habitat合成場(chǎng)景數(shù)據(jù)集(HSSD),并使用Habitat作為模擬器進(jìn)行閉環(huán)模型評(píng)估。操作任務(wù)的數(shù)據(jù)收集則使用Sapien作為模擬器,生成多樣的桌面重排任務(wù)和數(shù)據(jù)。為了提高視覺(jué)真實(shí)度并減少模擬與現(xiàn)實(shí)的差距,研究團(tuán)隊(duì)使用Blender渲染器獲取高質(zhì)量圖像進(jìn)行數(shù)據(jù)收集。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖5:導(dǎo)航和操縱任務(wù)中空間推理結(jié)果的可視化

數(shù)據(jù)生成和處理

數(shù)據(jù)生成過(guò)程中,研究團(tuán)隊(duì)通過(guò)大語(yǔ)言模型的強(qiáng)大生成能力,半自動(dòng)化地構(gòu)建桌面功能重排任務(wù)的數(shù)據(jù)。此外,通過(guò)引入高質(zhì)量數(shù)據(jù)進(jìn)行模型微調(diào),使得SpatialCoT在復(fù)雜環(huán)境中的表現(xiàn)更加穩(wěn)定和出色。

模型訓(xùn)練

在模型訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)選擇了Llama3.2-Vision 11B作為視覺(jué)語(yǔ)言模型的骨干。訓(xùn)練方法包括使用LoRA進(jìn)行微調(diào),整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段,每個(gè)階段進(jìn)行了2個(gè)epoch的訓(xùn)練。所有實(shí)驗(yàn)在配備8塊NVIDIA L40 GPU的單臺(tái)機(jī)器上進(jìn)行,確保了訓(xùn)練的高效和穩(wěn)定。

對(duì)比基線

為了驗(yàn)證SpatialCoT的有效性,研究團(tuán)隊(duì)將其與多個(gè)基線模型進(jìn)行對(duì)比。這些基線模型包括專(zhuān)門(mén)的空間推理模型RoboPoint、開(kāi)源視覺(jué)語(yǔ)言模型LLaMA3.2V以及閉源模型GPT-4o。通過(guò)對(duì)比這些基線模型,研究團(tuán)隊(duì)全面評(píng)估了SpatialCoT在不同任務(wù)和環(huán)境中的性能表現(xiàn)。

實(shí)驗(yàn)結(jié)果

通過(guò)一系列實(shí)驗(yàn),SpatialCoT展示了其在導(dǎo)航和操作任務(wù)中的顯著優(yōu)勢(shì)。

導(dǎo)航任務(wù)結(jié)果

在導(dǎo)航任務(wù)中,研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵指標(biāo):距離增益(DG)和成功率(SR)。距離增益衡量生成動(dòng)作的質(zhì)量,成功率則評(píng)估模型在模擬器內(nèi)的整體表現(xiàn)。

在比較不同基線模型時(shí),GPT-4o ICL和Llama3.2V 11B零樣本的距離增益分別為-0.27和-2.47,表明這些模型生成的動(dòng)作質(zhì)量低于平均水平。而RoboPoint模型的距離增益為0.21,盡管有所提升,但仍不足以應(yīng)對(duì)需要高推理能力的復(fù)雜任務(wù)。采用直接在動(dòng)作生成數(shù)據(jù)上微調(diào)模型的方法,距離增益達(dá)到了2.28。通過(guò)加入空間坐標(biāo)雙向?qū)R,這一數(shù)值進(jìn)一步提高到3.23,而鏈?zhǔn)剿季S空間定位則將其提升至2.83。當(dāng)結(jié)合這兩個(gè)階段時(shí),距離增益達(dá)到了3.33,相比直接動(dòng)作微調(diào)提升了46%。

在成功率方面,SpatialCoT達(dá)到了61.83%,相比直接動(dòng)作微調(diào)提高了4.43%,并且在所有評(píng)估的開(kāi)源和閉源模型中表現(xiàn)最佳。

操作任務(wù)結(jié)果

在操作任務(wù)中,研究團(tuán)隊(duì)引入了碰撞率(CR)和成功率(SR)作為評(píng)估指標(biāo)。碰撞率衡量生成動(dòng)作的有效性,成功率則評(píng)估任務(wù)在指令描述和無(wú)碰撞條件下的完成情況。

零樣本評(píng)估中,先前模型的成功率為零,主要由于碰撞率較高。而直接動(dòng)作微調(diào)將碰撞率降至21.3%,成功率提高至75.8%。SpatialCoT進(jìn)一步改進(jìn)了這些指標(biāo),碰撞率降至15.6%,成功率提高到82.6%,表明在端到端任務(wù)成功率上有顯著提升。

問(wèn)題分析

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖6:分析VLM的基本能力和具體任務(wù)規(guī)劃之間的相關(guān)性,DAT表示直接動(dòng)作調(diào)整。

通過(guò)對(duì)具體任務(wù)規(guī)劃的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)SpatialCoT在高復(fù)雜度任務(wù)中表現(xiàn)尤為出色。操作任務(wù)中,主要的失敗來(lái)源于非獨(dú)特物體和大量物體的處理,這些場(chǎng)景容易導(dǎo)致碰撞。而在導(dǎo)航任務(wù)中,SpatialCoT在需要稀疏獎(jiǎng)勵(lì)信號(hào)的任務(wù)中表現(xiàn)尤為突出,特別是在目標(biāo)較少且距離較大的復(fù)雜任務(wù)中表現(xiàn)顯著提高。

對(duì)基本能力與下游任務(wù)性能的相關(guān)性分析顯示,SpatialCoT在所有評(píng)估類(lèi)別中均優(yōu)于其他模型。特別是對(duì)象理解和空間關(guān)系這兩個(gè)類(lèi)別顯示出明顯的正相關(guān)關(guān)系,表明這些基本能力對(duì)模型在具體任務(wù)中的表現(xiàn)具有重要影響。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖7:思維鏈空間基礎(chǔ)案例研究。

鏈?zhǔn)剿季S對(duì)空間推理能力的貢獻(xiàn)也在實(shí)驗(yàn)中得到驗(yàn)證。通過(guò)鏈?zhǔn)剿季S過(guò)程,模型能夠更好地利用空間和上下文信息,如房間布局和常識(shí)知識(shí),以得出正確答案。例如,在尋找鬧鐘的任務(wù)中,SpatialCoT首先考慮鬧鐘的典型位置,然后根據(jù)布局推斷臥室位置,最終生成準(zhǔn)確結(jié)果。而基線模型在沒(méi)有鏈?zhǔn)剿季S的情況下,生成的結(jié)果則較為無(wú)序。

方法的局限性

雖然SpatialCoT在許多方面展示了其強(qiáng)大的空間推理能力,但仍有一些局限性需要注意。

處理復(fù)雜動(dòng)作(如旋轉(zhuǎn))的局限

首先,SpatialCoT的方法主要基于坐標(biāo)的動(dòng)作生成,這使得其在處理某些復(fù)雜動(dòng)作時(shí)顯得力不從心,特別是涉及物體旋轉(zhuǎn)的任務(wù)。具體來(lái)說(shuō),當(dāng)前的方法未能有效處理需要精確控制物體旋轉(zhuǎn)角度的任務(wù),這在實(shí)際應(yīng)用中可能導(dǎo)致一些局限。例如,在需要機(jī)器人旋轉(zhuǎn)物體以便更好地定位或操作時(shí),SpatialCoT的模型可能無(wú)法生成足夠精確的動(dòng)作指令。這一局限性限制了模型在某些復(fù)雜場(chǎng)景中的應(yīng)用,因此未來(lái)的研究需要進(jìn)一步探索和解決這一問(wèn)題。

對(duì)3D輸入的依賴(lài)和未來(lái)研究方向

另一個(gè)需要注意的局限性是SpatialCoT目前依賴(lài)于2D圖像作為視覺(jué)輸入。雖然2D圖像在許多場(chǎng)景中已經(jīng)能夠提供足夠的信息,但在更大、更復(fù)雜的空間中,3D輸入的需求變得尤為重要。3D輸入可以提供更豐富的空間信息,使模型能夠更準(zhǔn)確地理解和導(dǎo)航復(fù)雜環(huán)境。然而,引入3D輸入也帶來(lái)了新的挑戰(zhàn),包括更高的數(shù)據(jù)處理復(fù)雜度和計(jì)算資源需求。因此,未來(lái)的研究應(yīng)當(dāng)探索如何有效地利用3D輸入來(lái)提升模型的空間推理能力。

結(jié)論

SpatialCoT方法的創(chuàng)新點(diǎn)在于它結(jié)合了空間坐標(biāo)雙向?qū)R和鏈?zhǔn)剿季S空間定位兩大核心技術(shù),以增強(qiáng)視覺(jué)語(yǔ)言模型的空間推理能力。這種方法通過(guò)明確對(duì)齊視覺(jué)-語(yǔ)言輸入與空間坐標(biāo),使模型能夠更精準(zhǔn)地理解和生成基于坐標(biāo)的響應(yīng)。同時(shí),通過(guò)引入鏈?zhǔn)剿季S,使模型能夠利用語(yǔ)言推理能力進(jìn)行高級(jí)空間推理,從而更好地解決復(fù)雜的具身任務(wù)。

研究結(jié)果表明,SpatialCoT在導(dǎo)航和操作等復(fù)雜具身任務(wù)中的表現(xiàn)顯著優(yōu)于現(xiàn)有的最先進(jìn)方法。在導(dǎo)航任務(wù)中,SpatialCoT在距離增益和成功率兩個(gè)關(guān)鍵指標(biāo)上均取得了優(yōu)異的成績(jī),展示了其在生成高質(zhì)量動(dòng)作方面的能力。在操作任務(wù)中,SpatialCoT在碰撞率和成功率上均表現(xiàn)出色,進(jìn)一步證明了其在復(fù)雜場(chǎng)景中執(zhí)行精細(xì)操作的能力。

盡管SpatialCoT已經(jīng)展示了其強(qiáng)大的空間推理能力,但仍存在一些需要進(jìn)一步研究的領(lǐng)域。未來(lái)的研究可以探索如何更好地處理復(fù)雜動(dòng)作(如物體旋轉(zhuǎn)),以增強(qiáng)模型在實(shí)際應(yīng)用中的適用性。此外,雖然當(dāng)前的方法主要依賴(lài)于2D圖像作為視覺(jué)輸入,但隨著技術(shù)的發(fā)展,探索3D輸入的潛力也將成為未來(lái)研究的一個(gè)重要方向。3D輸入可以提供更豐富的空間信息,使模型能夠更準(zhǔn)確地理解和操作復(fù)雜環(huán)境,但同時(shí)也帶來(lái)了更高的數(shù)據(jù)處理復(fù)雜度和計(jì)算資源需求。(END)

參考資料:https://arxiv.org/abs/2501.10074

本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
97碰碰视频| 色偷偷88888欧美精品久久久 | 欧美另类极品| 国产成人免费网站| 欧洲s码亚洲m码精品一区| 亚洲黄色网址大全| 福利片在线一区二区| 色综合色综合色综合| 亚洲成人动漫在线| 欧美成熟毛茸茸| 国产一区二区美女| 日产精品久久久一区二区福利 | 天天综合天天综合色| 日韩中文字幕av在线| 国产日韩免费视频| 三级影片在线观看欧美日韩一区二区| 久久五月天综合| 六月婷婷七月丁香| 亚洲国产91视频| 日韩欧美a级成人黄色| 一本色道久久88亚洲精品综合 | 国产欧美精品一区二区三区四区 | 国产黑丝在线观看| 国产一区二区三区国产精品| 欧美日韩中文字幕综合视频| 免费看日b视频| 1769视频在线播放免费观看| 91影院在线免费观看| 亚洲字幕在线观看| 亚洲综合视频在线播放| 久久久久久网| 91av在线免费观看| 国产一级二级三级| 一级毛片免费高清中文字幕久久网| 国产亚洲一级高清| 日本少妇色视频| 红杏视频成人| 精品国产一区二区精华| 亚洲黄色片免费看| 国产精品成人**免费视频| 欧美日韩一区小说| 色婷婷综合久久久久中文字幕 | 亚洲中国最大av网站| 日本道在线视频| 毛片网站在线免费观看| 日本一区二区高清| 亚欧洲精品在线视频免费观看| 少妇高潮一区二区三区69| 国产成人午夜99999| 91久久爱成人| 国产高清第一页| 国产精品伊人色| 91在线高清免费观看| 国产浮力第一页| 丁香婷婷综合激情五月色| 成人羞羞视频免费| 欧美 日韩 国产 成人 在线| 丰满少妇久久久久久久| 福利视频久久| 欧美熟女一区二区| 91亚洲永久精品| 欧美极品一区二区| 国产大学生校花援交在线播放| 国产亚洲成av人在线观看导航| 日韩免费一区二区三区| 91在线视频| 亚洲美女免费视频| 男人天堂手机在线视频| 一区二区乱码| 欧美视频一区二区| 在线观看中文av| 噜噜噜狠狠夜夜躁精品仙踪林| 日韩福利视频在线观看| 91激情视频在线观看| 93在线视频精品免费观看| 久久久国产91| 日本视频免费在线| 日韩专区在线视频| 91黄色精品| 奇米影视888狠狠狠777不卡| 欧美国产精品一区二区| 9l视频自拍9l视频自拍| 久草在线新免费首页资源站| 色综合网站在线| 天天视频天天爽| 97一区二区国产好的精华液| 亚洲另类xxxx| 日韩成人短视频| 亚洲欧美不卡| 91久久精品一区| 清纯唯美亚洲色图| 亚洲欧美日韩国产成人精品影院| 日本xxxxxxxxxx75| 亚洲成人一区在线观看| 日韩免费一区二区| 一级片久久久久| 亚洲激情欧美| 成人黄色在线观看| 嫩草在线播放| 亚洲永久精品大片| 中文久久久久久| 国产精品视屏| www日韩欧美| 精品人妻一区二区三区免费看| 九九在线精品视频| 乱色588欧美| 国产福利在线免费观看| 欧美日韩在线精品一区二区三区激情| 美女黄色一级视频| 88国产精品视频一区二区三区| 秋霞成人午夜鲁丝一区二区三区| www.国产三级| 国产精品久久福利| 亚洲成熟丰满熟妇高潮xxxxx| 亚洲国产视频二区| 日韩亚洲欧美中文高清在线| 亚洲第一在线播放| 成人性生交大片免费看中文| 亚洲午夜精品久久久中文影院av| 成人黄色动漫| 欧美成人a∨高清免费观看| 2017亚洲天堂| 久久电影一区| 精品国产一区二区三区久久久久久| 男人影院在线观看| 在线精品视频免费观看| av直播在线观看| 99日韩精品| 国产精品免费看一区二区三区| 快射av在线播放一区| 欧美四级电影网| 一区二区三区伦理片| 亚洲一区二区三区高清| 国产精品久久九九| 成人影音在线| 亚洲变态欧美另类捆绑| 欧美日韩大片在线观看| 精品制服美女久久| 中文字幕久久一区| 日韩电影免费观看高清完整版在线观看| 亚洲欧美日韩久久久久久| 国产69精品久久久久久久久久| av午夜一区麻豆| 国产九九九九九| 免费福利视频一区| 欧美诱惑福利视频| 嫩草研究院在线观看| 色综合久久久久久久久久久| 中文字幕一区二区久久人妻网站| 99在线精品视频在线观看| 国产欧美韩日| 性欧美freesex顶级少妇| 日韩激情视频在线播放| 天干夜夜爽爽日日日日| 久久综合色综合88| 青青在线视频免费| 色喇叭免费久久综合网| 国产主播精品在线| av毛片在线看| 精品福利av导航| 黄色片免费观看视频| 91片黄在线观看| 一本久道中文无码字幕av| 欧洲三级视频| 成人中文字幕在线观看| 精精国产xxxx视频在线中文版| 精品国产免费一区二区三区四区| 日韩欧美三级在线观看| 久久久不卡网国产精品一区| 亚洲色图 在线视频| 图片区亚洲欧美小说区| 岛国一区二区三区高清视频| 一区二区乱码| 俺也去精品视频在线观看| 亚洲av少妇一区二区在线观看| 一卡二卡在线视频| 老司机成人在线| 日本中文字幕不卡免费| 成a人v在线播放| 欧美一区二区在线视频| 久久久精品人妻一区二区三区四| 成人黄色在线网站| 亚洲一二三区av| 欧美午夜在线视频| 免费日韩电影在线观看| 国产不卡精品| 日本精品视频网站| av香蕉成人| 亚洲免费一级电影| 国产人妻精品一区二区三| 午夜激情一区二区三区| 免费91在线观看| www.成人在线| 中文字幕在线观看日| 中文一区二区| 咪咪色在线视频| 妖精视频一区二区三区免费观看 | 宅男av一区二区三区| 一区二区三区四区高清视频| 日本精品免费一区二区三区| av片哪里在线观看| 亚洲天堂网站在线观看视频| 亚洲成人黄色片| 欧美三级中文字幕| 欧美bbbbbbbbbbbb精品| 国产精品成人免费| 熟女少妇一区二区三区| 国产精品亚洲人在线观看| 国产xxxxx视频| 亚洲日本视频| 狠狠精品干练久久久无码中文字幕| 精品国产精品国产偷麻豆| 国产一区福利视频| 精品麻豆剧传媒av国产九九九| 国产成人精品亚洲精品| 第一福利在线视频| 欧美日韩xxxxx| 国产美女福利在线| 色婷婷综合成人| 成年人视频免费在线观看| 国产视频精品xxxx| 人妻无码中文字幕免费视频蜜桃| 51精品国自产在线| 在线观看亚洲国产| 欧美无乱码久久久免费午夜一区| 97人人澡人人爽人人模亚洲| 一区二区三区成人在线视频| 二区三区四区视频| 中文字幕乱码日本亚洲一区二区| 瑟瑟视频在线观看| 99精品视频在线播放观看| 四虎永久免费观看| 国产成人精品亚洲777人妖 | 久久久久久久久97黄色工厂| 无码国产精品一区二区免费式直播 | 青青国产在线| 日韩国产在线看| 午夜av免费观看| 日韩电影中文 亚洲精品乱码| 亚洲精品第五页| 欧美成va人片在线观看| www.热久久| 欧美xingq一区二区| 成人av免费播放| 精品黑人一区二区三区久久| www.精品视频| 精品99一区二区| 婷婷伊人综合中文字幕| 亚洲黄色片网站| 日韩资源在线| 亚洲人成亚洲人成在线观看| 欧美另类自拍| 伊人久久久久久久久久久| av大全在线免费看| 日韩视频免费在线观看| 综合久久2019| 97视频网站入口| 三级成人黄色影院| 国产精品永久免费在线| 亚洲欧洲二区| 国产成人女人毛片视频在线| 欧美aaaaa级| 日韩欧美一区二区三区四区五区| 日韩三级在线| 草草草视频在线观看| 亚洲国产精品一区制服丝袜| 日韩激情免费视频| 男人的天堂亚洲一区| 九九久久久久久| av网站一区二区三区| 精品无码国产污污污免费网站| 国产精品免费久久久久| 欧美成人综合色| 精品露脸国产偷人在视频| 黄色一级视频免费看| 欧美精品久久久久久久多人混战 | 成人福利免费在线观看| 免费看成人片| 偷偷www综合久久久久久久| 欧美精品卡一卡二| 日本不卡视频在线| 国产69视频在线观看| 久久久亚洲欧洲日产国码αv| 任你操精品视频| 精品国产电影一区| 伊人精品一区二区三区| 精品国产一区二区三区久久久蜜月| 爽爽视频在线观看| 久久不射热爱视频精品| 欧美男男激情videos| 国产色视频一区| 首页亚洲中字| 精品人妻大屁股白浆无码| 久久高清国产| 丰满人妻一区二区三区大胸| 久久久一区二区| 精品无码人妻一区二区三| 欧美无砖砖区免费| 青青草av免费在线观看| 欧美噜噜久久久xxx| 成人网ww555视频免费看| 国产区日韩欧美| 欧美一区综合| 亚洲国产高清av| 久久网这里都是精品| 久久艹精品视频| 91麻豆精品国产自产在线观看一区| 日韩欧美电影在线观看| 久热精品在线视频| 欧美日一区二区三区| 久久一区二区精品| 亚洲视频综合| 精品国产午夜福利在线观看| 欧美激情在线免费观看| 久久久久久久久久影院| 欧美成人精精品一区二区频| 伊人在线视频| 国产精品视频资源| 久久99精品久久久久久园产越南| 精品一区二区三区无码视频| 国产在线一区二区| 日本黄区免费视频观看| 日本高清不卡视频| 撸视在线观看免费视频| 2021久久精品国产99国产精品| 综合中文字幕| 国产欧美久久久久| 国产精品69毛片高清亚洲| 神马久久精品综合| 欧美福利一区二区| 黄色动漫在线| 91免费的视频在线播放| 国产精品不卡| 伊人网在线综合| 亚洲欧美影音先锋| 国产喷水吹潮视频www| 日韩中文字幕在线播放| 四虎影视国产精品| 国产又爽又黄ai换脸| 狠狠色2019综合网| 国产真实乱在线更新| 这里只有精品免费| 日韩av官网| 国产一区免费视频| 一区二区精品| 久久精品成人av| 在线看国产一区| 国产高清免费av在线| 国产精品久久久久77777| 狠狠色狠狠色综合婷婷tag| 男人女人黄一级| 国产精品三级av在线播放| 国产又粗又猛视频免费| 久久久999国产| 1769国产精品视频| 黄色av网址在线播放| 久久久久国产精品免费免费搜索| 一级黄色在线视频| www日韩欧美| 伊色综合久久之综合久久| 免费人成自慰网站| 久久亚洲欧美国产精品乐播| 中文字幕69页| 色偷偷88888欧美精品久久久| 日韩在线成人| 国产原创中文在线观看| 国产丝袜美腿一区二区三区| 一区二区三区精彩视频| 欧美乱妇高清无乱码| 日韩精品丝袜美腿| 国产91色在线观看| 亚洲自拍偷拍av| 国产一级片在线播放| 成人在线一区二区| 国产精品亚洲欧美| 亚洲欧美综合7777色婷婷| 日韩欧美在线123| 性欧美xxx69hd高清| 中文字幕一区二区三区乱码| 高清不卡一二三区| 中文字幕免费高清网站| 欧美成人精品三级在线观看 | 亚洲精品一二区| 亚洲午夜剧场| 日本一道本久久| 亚洲欧美日韩一区二区 | 日日鲁鲁鲁夜夜爽爽狠狠视频97| 中文字幕免费不卡| 欧美 日韩 国产 成人 在线| 国产精品女主播| 在线成人欧美| 日本免费网站视频| 日韩大陆欧美高清视频区| 亚洲精品aa| 人妻丰满熟妇av无码区app| 国产精品久久精品日日| 欧美日韩伦理片| 91在线精品观看| 免费高清视频精品| 啦啦啦免费高清视频在线观看|