精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型在具身推理上「翻車」了?4496 道題全面揭示短板

人工智能 新聞
本篇文章重點對多模態大模型在具身推理的多個任務上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設計Agent算法進行改進。作者希望分析結果有利于多模態大模型和具身智能在未來的迭代。

祁煜,2023年本科畢業于北京大學信息科學技術學院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學習, 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發表過論文。

具身智能是近年來非常火概念。一個智能體(比如人)能夠在環境中完成感知、理解與決策的閉環,并通過環境反饋不斷進入新一輪循環,直至任務完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。

已經有很多優秀的工作把多模態大語言模型(MLLMs)部署在具身智能的不同應用上。盡管已經有不少相關工作評估過他們具身智能的潛力,但主要集中在子領域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導致一個任務的失敗。

BEAR基準

為了系統評估MLLM在具身智能的各個子能力,美國東北大學聯合香港中文大學,哈佛大學,提出了BEAR基準,并且提供了詳細的錯因分析和算法提升。

Arxiv鏈接:
https://arxiv.org/abs/2510.08759

Huggingface鏈接:
https://huggingface.co/papers/2510.08759

項目主頁:
https://bear-official66.github.io/

BEAR涵蓋了4,469個圖片-視頻-文字的VQA。BEAR涵蓋6個大類,其中包括5個基礎類別,包括給點(Pointing), 給檢測框(Bounding Box), 空間推理(Spatial Reasoning),任務規劃(Task Planning),并且在每個類別下面還有不同子技能,如給點分為普通物體給點,空間關系給點和局部給點,共分為14個技能,見下圖。除此之外,我們引入第六個長程推理類別,首次將具身智能的任務切分為以14個不同技能劃分的步驟,涵蓋了智能體在完成一個任務中所需要具備的技能。

測評實驗

實驗部分,作者全面測量了20個不同的MLLM,并且測量了Direct和CoT不同的prompt, 而且將常見的test-time-scaling methods都進行了實驗,得出以下有趣的結論:

多模態大模型并不具備具身智能,目前在BEAR基準上表現最好的模型,GPT-5,也僅僅有52%的成功率。

通常情況,閉源模型比開源模型表現好。但是部分開源模型擁有很強的潛力,如InternVL系列模型,在BEAR基準上超過了GPT-4o, Claude等模型。

Chain-of-thought在很多子能力在閉源模型上起到一致的負面作用,比如給點和空間推理能力。作者分析給點是一個直接的表達方法,模型只需要輸出一個正則之后的x和y,過度的推理給模型引入不必要的干擾。同時,人們在進行空間推理的時候常常使用“直覺”,引入推理鏈有時會使模型引入一些錯誤的空間表達和位置關系,在推理最終答案的時候起到了負面作用。

細粒度錯因統計

更進一步地,作者對GPT-4o的每一個子能力都進行了錯因統計,分析顯示了如下幾個有趣的發現:

模型視覺全能能力不足是多個類別的主要瓶頸。具體表現為模型無法細致進行language grounding, 無法判斷軌跡走向,無法理解圖片中發生的動作。

模型3D能力不足主要體現在無法判斷第一人稱下的方向(左右關系),并且常常搞混相機在連續幀之間的移動走向。

對于長程推理,與高層規劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯誤占比高達88%。

BEAR智能體設計全面提升大模型的具身能力

基于上面的發現,作者團隊意識到,增強模型的視覺能力,可以全面提高模型的具身推理能力。在多模態領域,已經有一些工作通過畫輔助線和教會模型使用工具用來求解數學問題。受這樣工作的啟發,作者開發了BEAR-Agent,這是一個可對話的多模態智能體,主要通過提供工具和做輔助線的方式增強模型的視覺推理能力,進而提升模型的具身推理能力。作者選取了表現最好的開源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們在BEAR上的performance。

仿真測試

進一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環境,并且測試了3類任務,共12個語言指令。我們的實驗結果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環境上的表現,這表示著BEAR-Agent對Embodied Agent的潛力。

本篇文章重點對多模態大模型在具身推理的多個任務上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設計Agent算法進行改進。作者希望分析結果有利于多模態大模型和具身智能在未來的迭代。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-11-20 08:47:53

2025-06-10 09:10:00

2022-09-23 09:53:41

機器人機器學習

2024-06-04 09:25:51

2025-10-14 09:04:00

2025-04-25 02:30:00

機械臂大模型多模態

2024-09-05 13:11:49

2025-07-10 14:55:12

機器人AI模型

2024-09-27 09:48:28

2025-02-21 09:37:00

2024-06-11 08:55:00

2024-12-19 14:44:22

2024-03-04 07:50:00

模型成果

2025-10-20 09:12:00

2023-12-23 23:16:36

機器人模型

2025-01-10 09:30:00

2025-05-21 08:47:00

點贊
收藏

51CTO技術棧公眾號

久久久www免费人成精品| 欧美日韩视频| 欧美欧美欧美欧美首页| 亚洲综合av一区| 国产黄色av片| 亚洲欧美高清| 久久精品人人爽| 亚洲天堂2024| 色诱色偷偷久久综合| 亚洲国产精品久久不卡毛片 | av在线不卡免费看| 国产精品第10页| 青娱乐在线视频免费观看| 日韩深夜福利| 91精品国产福利在线观看| 成人毛片一区二区| 麻豆网站在线免费观看| www.99精品| 国产精品丝袜白浆摸在线| 久久久无码精品亚洲国产| 精品在线观看入口| 精品日韩欧美一区二区| 中文字幕第80页| 91www在线| 国产精品久久久一本精品| 国产在线精品一区二区三区》| 成人免费一级片| 国产日韩欧美三级| 久热在线中文字幕色999舞| 人妻精品久久久久中文字幕| ccyy激情综合| 欧美一区二区人人喊爽| 国产精品人人爽人人爽| 国产一二在线播放| 夜夜亚洲天天久久| 一级全黄肉体裸体全过程| 好男人免费精品视频| 成人午夜视频网站| 亚洲a在线观看| 亚洲视频久久久| 久久综合九色综合欧美狠狠| 97在线看福利| 男人的天堂一区| 狠狠久久婷婷| 欧美日韩国产成人| 久久国产波多野结衣| 欧美一区二区三| 亚洲欧美日韩国产中文| 欧美深性狂猛ⅹxxx深喉| 婷婷视频一区二区三区| 91麻豆精品国产91久久久资源速度 | 99久久.com| 影音先锋欧美精品| 美女100%露胸无遮挡| 欧美日韩123| 亚洲人成电影网站色…| 国产特黄级aaaaa片免| 亚洲+变态+欧美+另类+精品| 亚洲电影免费观看| 黄色av网址在线观看| 欧美男男freegayvideosroom| 精品国产一区二区三区久久久蜜月| 女人扒开双腿让男人捅| 亚洲精品aⅴ| 精品欧美久久久| 亚洲av无码一区东京热久久| 欧美人与动xxxxz0oz| 精品亚洲一区二区三区在线播放| av鲁丝一区鲁丝二区鲁丝三区| 色婷婷综合久久久久久| 亚洲男人的天堂网站| 偷拍夫妻性生活| 日韩在线观看电影完整版高清免费悬疑悬疑 | 嫩草影视亚洲| 亚洲人成免费电影| 精品熟妇无码av免费久久| 日韩伦理视频| 久久综合九色九九| 国产一级特黄毛片| 亚洲免费一区二区| 国产精品高清在线观看| 一级黄色短视频| 国产乱子伦视频一区二区三区 | 欧美国产欧美亚洲国产日韩mv天天看完整| 日本黄色片免费观看| 欧美深夜福利| 日韩av成人在线| 中文字幕制服诱惑| 国产福利一区二区三区视频在线| 国产精品一区视频网站| 九色在线播放| 亚洲欧美另类图片小说| 九色自拍视频在线观看| 国产 日韩 欧美一区| 91麻豆精品国产91久久久久久久久| 挪威xxxx性hd极品| 欧美日韩有码| 欧美精品九九久久| 亚洲 日本 欧美 中文幕| 九九视频精品免费| 久久九九视频| 中文字幕资源网在线观看| 亚洲成人av免费| 在线免费av播放| 91成人噜噜噜在线播放| 国产一区二区久久精品| 久久久.www| 日本不卡在线视频| 风间由美一区二区三区| 成人午夜电影在线观看| 亚洲国产精品自拍| 午夜久久福利视频| 女人丝袜激情亚洲| 欧美黄色性视频| 中文字幕欧美在线观看| 99久久er热在这里只有精品66| 亚洲成人第一| 无遮挡爽大片在线观看视频 | 女人18毛片一区二区三区| 国产午夜亚洲精品不卡| 成年女人18级毛片毛片免费| 欧美高清你懂的| 精品成a人在线观看| 男女男精品视频网站| 国产精品毛片在线| 亚洲字幕在线观看| 日本三级在线视频| 色狠狠综合天天综合综合| 69亚洲乱人伦| 日本不卡免费高清视频| 国产特黄级aaaaa片免| 黄色日韩在线| 91亚洲精品在线观看| h视频在线免费| 色综合久久中文字幕| 亚洲美女精品视频| 香港欧美日韩三级黄色一级电影网站| 国产成人亚洲综合91精品| 午夜性色福利视频| 亚洲国产精品久久一线不卡| 天堂va欧美va亚洲va老司机| 中文字幕乱码亚洲无线精品一区 | 久久久久久蜜桃| 国产在线一区观看| 一区二区成人国产精品 | 欧美性极品少妇精品网站| 亚洲美女精品视频| 黑人一区二区| 国产精品播放| 1区2区3区在线| 欧美精品一区二区三区视频| 久久精品99久久久久久| 成人精品亚洲人成在线| 97中文字幕在线| av成人综合| 97欧美精品一区二区三区| 欧美一级性视频| 午夜视频在线观看一区二区三区| 91人人澡人人爽| 国内精品久久久久久久97牛牛 | 无码日韩人妻精品久久蜜桃| 一本色道久久综合亚洲精品酒店| 51色欧美片视频在线观看| 亚洲色图狠狠干| 欧美日韩亚洲国产一区| 丰满少妇一区二区| 视频一区视频二区在线观看| 日本免费一区二区三区| 91大神在线观看线路一区| 一个色综合导航| 中文字幕一区二区久久人妻| 一区在线播放视频| 亚洲精品一区二区18漫画| 亚洲欧洲综合| 欧美第一黄网| 欧美风情在线视频| 欧美激情网友自拍| 日韩在线免费看| 日本韩国欧美一区| 欧美肥妇bbwbbw| 成人黄色在线网站| avav在线看| 久久中文视频| 岛国一区二区三区高清视频| 正在播放日韩精品| 最近的2019中文字幕免费一页| 国产精品一级二级| 亚洲第一成年网| 我想看黄色大片| 国产福利91精品一区二区三区| 欧美午夜小视频| 精品美女在线视频| 97久久天天综合色天天综合色hd | 国产精品色悠悠| 在线观看a级片| 亚洲美女黄色片| 国产欧美日韩成人| 欧美午夜激情在线| 黄色一级大片在线免费观看| 26uuu久久综合| 久久精品一卡二卡| 久久久久久色| 免费的一级黄色片| 国产精品亚洲人成在99www| 亚洲最大的免费| 国产成人精品亚洲日本在线观看| 成年无码av片在线| 青春有你2免费观看完整版在线播放高清| 欧美日韩精品欧美日韩精品| 国产香蕉在线视频| 日韩一区在线免费观看| 极品人妻一区二区三区| 国产在线视频一区二区三区| 熟妇人妻va精品中文字幕| 欧美黄免费看| 亚洲一卡二卡区| 亚洲精品亚洲人成在线| 99理论电影网| 免费视频观看成人| 青青草原成人在线视频| 女子免费在线观看视频www| 中文字幕日韩精品在线观看| 五月婷婷深深爱| 欧美成人性战久久| 亚洲最新av网站| 日本高清无吗v一区| 91精品国产乱码久久久张津瑜| 中文字幕亚洲成人| 日本一级免费视频| 91在线云播放| 精品国产av色一区二区深夜久久| 国产一区在线观看麻豆| a在线观看免费视频| 可以看av的网站久久看| 国产美女主播在线播放| 很黄很黄激情成人| 91大学生片黄在线观看| 久久美女视频| 亚洲综合视频一区| 欧洲乱码伦视频免费| 欧美亚洲精品日韩| 神马香蕉久久| 久久99久久99精品蜜柚传媒| 加勒比色老久久爱综合网| 高清视频在线观看一区| 91亚洲无吗| 99porn视频在线| 1204国产成人精品视频| 国产成人精品免费视频大全最热 | 六月婷婷久久| 先锋影音国产精品| 欧美一区二区在线| 九一国产精品| 日本成人黄色| 欧美日韩第一| 一区不卡字幕| 国产精品99一区二区三| mm131午夜| 欧美精品啪啪| 久操网在线观看| 日韩视频中文| 亚洲熟女乱色一区二区三区| 日日摸夜夜添夜夜添国产精品| 国产精品免费观看久久| 日韩电影在线观看一区| 91pony九色| 国产98色在线|日韩| 在线看黄色的网站| 久久综合网色—综合色88| 亚洲自拍偷拍图| 国产精品福利一区| 强乱中文字幕av一区乱码| 亚洲图片欧美色图| 天天干天天干天天操| 欧美在线|欧美| 99精品久久久久久中文字幕| 精品国产乱码久久久久久1区2区 | 黄色日韩网站| 亚洲最大激情中文字幕| 高潮久久久久久久久久久久久久| 欧美高清性xxxxhd| 久久五月天小说| 欧美中日韩在线| 葵司免费一区二区三区四区五区| 亚洲另类第一页| 成人精品视频一区| 中文字幕国产专区| 亚洲另类在线制服丝袜| 精品在线播放视频| 欧美日韩国产片| 深夜福利视频网站| 在线日韩第一页| 丰满诱人av在线播放| 国产精品扒开腿做| 66精品视频在线观看| 日本一区二区三区www| 综合一区二区三区| 欧美视频免费播放| 韩国精品在线观看| 自拍偷拍视频亚洲| 一区二区三区在线看| 好吊色在线视频| 欧美第一区第二区| av播放在线| 欧美亚洲免费电影| 欧美在线在线| 视频一区亚洲| 日韩视频三区| 不卡的一区二区| 国产女人水真多18毛片18精品视频| 免费在线视频一区二区| 欧美色偷偷大香| 午夜小视频在线播放| 欧美精品免费在线| 亚洲精品555| 精品一区二区不卡| 一区二区三区网站 | 日本天堂在线视频| 欧美精品色一区二区三区| 亚洲欧洲精品视频| 欧美成人精品h版在线观看| 欧美日韩不卡| 欧美精品一区在线发布| 亚洲精品免费观看| 黄色片免费网址| 国产精品丝袜一区| 免费观看日批视频| 日韩成人中文电影| 国产精品186在线观看在线播放| 成人在线中文字幕| 成人影院在线| 美女黄色片视频| 久久先锋影音av鲁色资源| 国产亚洲第一页| 日韩三级高清在线| 四虎影院观看视频在线观看| 91精品视频在线免费观看| 色135综合网| 国产视频1区2区3区| 欧美国产精品一区二区三区| 无码任你躁久久久久久久| 亚洲美女又黄又爽在线观看| 美女的胸无遮挡在线观看 | 亚洲成人福利在线观看| 91网址在线看| 美女又爽又黄免费视频| 精品小视频在线| 超级碰碰久久| 免费毛片一区二区三区久久久| 国产视频一区欧美| 欧美性xxxx图片| 一本大道久久a久久综合婷婷 | 久久深夜福利免费观看| 欧美激情不卡| 国产精品88久久久久久妇女 | 色94色欧美sute亚洲13| 激情福利在线| 国产精品激情自拍| 欧美一区2区| 欧美性受xxxxxx黑人xyx性爽| 综合久久一区二区三区| 国产日韩欧美一区二区东京热 | 国产精品一区二区三区四区| 色欲人妻综合网| 欧美大肚乱孕交hd孕妇| 极品美鲍一区| 欧美精品二区三区四区免费看视频| 三级亚洲高清视频| jizz日本在线播放| 欧美一区二区免费观在线| 美女精品导航| 蜜桃狠狠色伊人亚洲综合网站| 久久三级视频| 国内毛片毛片毛片毛片毛片| 日韩一区二区三免费高清| av电影免费在线看| 日产中文字幕在线精品一区| 久久99热狠狠色一区二区| 欧美人与禽zozzo禽性配| 亚洲娇小xxxx欧美娇小| 亚洲承认视频| 久久精品在线免费视频| 成人av在线网| 婷婷激情五月综合| 欧美成人免费小视频| 任我爽精品视频在线播放| 91精品无人成人www| 一区二区三区在线视频观看| 性感美女一级片| 国产免费一区二区三区在线能观看| 欧美1区3d| 欧美狂猛xxxxx乱大交3| 69久久99精品久久久久婷婷| 悠悠资源网亚洲青| 伊人久久av导航| av网站免费线看精品| 一级片aaaa| 欧美一级黄色网| 综合在线一区| 国产123在线|