大模型在具身推理上「翻車」了?4496 道題全面揭示短板
祁煜,2023年本科畢業于北京大學信息科學技術學院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學習, 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發表過論文。
具身智能是近年來非常火概念。一個智能體(比如人)能夠在環境中完成感知、理解與決策的閉環,并通過環境反饋不斷進入新一輪循環,直至任務完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。
已經有很多優秀的工作把多模態大語言模型(MLLMs)部署在具身智能的不同應用上。盡管已經有不少相關工作評估過他們具身智能的潛力,但主要集中在子領域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導致一個任務的失敗。
BEAR基準
為了系統評估MLLM在具身智能的各個子能力,美國東北大學聯合香港中文大學,哈佛大學,提出了BEAR基準,并且提供了詳細的錯因分析和算法提升。

Arxiv鏈接:
https://arxiv.org/abs/2510.08759
Huggingface鏈接:
https://huggingface.co/papers/2510.08759
項目主頁:
https://bear-official66.github.io/

BEAR涵蓋了4,469個圖片-視頻-文字的VQA。BEAR涵蓋6個大類,其中包括5個基礎類別,包括給點(Pointing), 給檢測框(Bounding Box), 空間推理(Spatial Reasoning),任務規劃(Task Planning),并且在每個類別下面還有不同子技能,如給點分為普通物體給點,空間關系給點和局部給點,共分為14個技能,見下圖。除此之外,我們引入第六個長程推理類別,首次將具身智能的任務切分為以14個不同技能劃分的步驟,涵蓋了智能體在完成一個任務中所需要具備的技能。

測評實驗
實驗部分,作者全面測量了20個不同的MLLM,并且測量了Direct和CoT不同的prompt, 而且將常見的test-time-scaling methods都進行了實驗,得出以下有趣的結論:
多模態大模型并不具備具身智能,目前在BEAR基準上表現最好的模型,GPT-5,也僅僅有52%的成功率。
通常情況,閉源模型比開源模型表現好。但是部分開源模型擁有很強的潛力,如InternVL系列模型,在BEAR基準上超過了GPT-4o, Claude等模型。

Chain-of-thought在很多子能力在閉源模型上起到一致的負面作用,比如給點和空間推理能力。作者分析給點是一個直接的表達方法,模型只需要輸出一個正則之后的x和y,過度的推理給模型引入不必要的干擾。同時,人們在進行空間推理的時候常常使用“直覺”,引入推理鏈有時會使模型引入一些錯誤的空間表達和位置關系,在推理最終答案的時候起到了負面作用。
細粒度錯因統計
更進一步地,作者對GPT-4o的每一個子能力都進行了錯因統計,分析顯示了如下幾個有趣的發現:
模型視覺全能能力不足是多個類別的主要瓶頸。具體表現為模型無法細致進行language grounding, 無法判斷軌跡走向,無法理解圖片中發生的動作。
模型3D能力不足主要體現在無法判斷第一人稱下的方向(左右關系),并且常常搞混相機在連續幀之間的移動走向。
對于長程推理,與高層規劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯誤占比高達88%。

BEAR智能體設計全面提升大模型的具身能力
基于上面的發現,作者團隊意識到,增強模型的視覺能力,可以全面提高模型的具身推理能力。在多模態領域,已經有一些工作通過畫輔助線和教會模型使用工具用來求解數學問題。受這樣工作的啟發,作者開發了BEAR-Agent,這是一個可對話的多模態智能體,主要通過提供工具和做輔助線的方式增強模型的視覺推理能力,進而提升模型的具身推理能力。作者選取了表現最好的開源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們在BEAR上的performance。


仿真測試
進一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環境,并且測試了3類任務,共12個語言指令。我們的實驗結果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環境上的表現,這表示著BEAR-Agent對Embodied Agent的潛力。

本篇文章重點對多模態大模型在具身推理的多個任務上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設計Agent算法進行改進。作者希望分析結果有利于多模態大模型和具身智能在未來的迭代。


































