精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)大模型理解物理工具嗎?PhysToolBench提出了衡量多模態(tài)大模型對物理工具理解的基準

人工智能 新聞
論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。

人類之所以能與復(fù)雜的物理世界高效互動,很大程度上源于對「工具」的使用、理解與創(chuàng)造能力。對任何通用型智能體而言,這同樣是不可或缺的基本技能,對物理工具的使用會大大影響任務(wù)的成功率與效率。

盡管當下的多模態(tài)大模型在具身智能的高層任務(wù)規(guī)劃以及低層動作執(zhí)行方面都展現(xiàn)出很大的潛力,但它們是否真正「懂」物理工具、理解其運作原理,仍缺乏統(tǒng)一的量化評估。

為此,來自香港科技大學(xué)(廣州)、香港科技大學(xué)等研究機構(gòu)的團隊提出了 PhysToolBench,一個衡量多模態(tài)大模型對物理工具的理解的基準。PhysToolBench 把對物理工具的理解分為了三個等級,分別為「認識」工具、「理解」工具、「創(chuàng)造」工具。

  • GitHub 鏈接:https://github.com/EnVision-Research/PhysToolBench
  • 論文鏈接:https://arxiv.org/abs/2510.09507
  • Hugging Face 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系統(tǒng)性地測試了 32 個最新的多模態(tài)大模型,包含閉源商用模型、開源模型、具身智能專用模型以及 VLA 模型的 VLM 主干四大類,測試出了他們對于物理工具的理解的不足。

PhysToolBench 介紹

機器人執(zhí)行任務(wù)的一般邏輯是,機器人會收到任務(wù)指令,并進行環(huán)境觀察,隨后再做出任務(wù)規(guī)劃或者一級動作執(zhí)行。因此,PhysToolBench 以視覺問答 (VQA) 的形式,設(shè)計了包含 1000+ 圖文配對的數(shù)據(jù)集,其中文字部分是任務(wù)描述,圖片是一個包含了各種工具的圖片,代表了機器人觀察到的環(huán)境,模型被要求觀察圖片,回答應(yīng)該使用的工具 (當判斷沒有工具可用時可以回答 None)。

三層能力評估:

  • Easy-工具識別 (Tool Recognition): 判斷模型是否認識工具以及知道它的主要功能;給定一個任務(wù),圖片中會包含一個最常用的能完成這個任務(wù)的工具。例如任務(wù)是切菜,圖片中會包含一把菜刀。
  • Medium-工具理解 (Tool Understanding): 判斷模型是否理解工具運作的基本原理;為了更細致地考驗多模態(tài)大模型的真實理解,這一難度又分為了三個子類別:
  • M1-工具屬性理解: 不僅僅需要知道物理工具的用途,還得知道它的物理、化學(xué)等屬性,從而選擇合適的工具。例如任務(wù)是高溫煎牛排,圖片中包含不粘鍋和鐵鍋,模型需要選擇鐵鍋因為其高溫耐受性。
  • M2-組合工具理解: 需要組合多種工具實現(xiàn)目標,以此來判斷模型是否明白組合不同工具解鎖新的 affordance。例如,需要組合遙控器和電池才能完成開電視機的任務(wù)。
  • M3-工具可用性理解: 給出的工具有損壞,模型需要識別出它不可用,以此來判斷模型是否真正理解物理工具「為什么可用」。例如,有一把沒有刀片的美工刀,模型需要理解它沒法完成切割的任務(wù)。
  • Hard-工具創(chuàng)造 (Tool Creation): 判斷模型是否能根據(jù)任務(wù)需求反推所需要的工具的能力。給定一個任務(wù),圖片中將不包含常規(guī)工具,模型需要利用環(huán)境物體「造工具」來完成任務(wù)。例如,當沒有螺絲刀可用時,可以用一元硬幣來擰一字螺絲。

評測范圍: 覆蓋 32 個最新的多模態(tài)大模型 (專有、開源、具身智能專用與 VLA 主干)。

實驗結(jié)果:

大模型在 PhysToolBench 上的答卷

各個多模態(tài)大模型在PhysToolBench上的總準確率(%)

頂級大模型表現(xiàn)仍然不理想

整體來看,閉源商用模型領(lǐng)跑,開源模型緊隨其后。且模型越「大」,模型越「強」。然而,即使是當前的頂級的大模型,在 PhysToolBench 上表現(xiàn)欠佳,總得分最高的模型為閉源商用模型 GPT-5,得分為 62.15%,在 M3 難度和 Hard 難度下,得分普遍低于 50%,和人類表現(xiàn)相去甚遠。

專用于 Embodied 場景的 MLLM 表現(xiàn)如何?

Robobrain2、Embodied-R1 等模型以 MLLM 為基模,并在 Embodied 相關(guān)數(shù)據(jù)集上進行了 finetune。然而,對比 Robobrain2、Embodied-R1 以及他們的基模 Qwen-2.5-VL,在同等參數(shù)量的情況下他們并沒有展現(xiàn)出領(lǐng)先優(yōu)勢,說明當今的 Embodied Reasoning 的數(shù)據(jù)集中關(guān)于工具使用的內(nèi)容仍然比較欠缺。

被用在 VLA 當中的 backbone 模型是否具備了足夠的物理工具理解能力?

研究團隊還測試了幾個用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,結(jié)果顯示,他們的表現(xiàn)比較糟糕,總得分普遍低于 20%。這說明它們盡管具備了一定的知識,但要完成更高階更復(fù)雜的任務(wù)或許還不夠。

深入分析

對工具的識別與理解存在長尾效應(yīng)。 即使是頂級的模型,在對一些工具的識別和理解上仍然存在長尾效應(yīng)。例如,模型對一些電子設(shè)備的識別與理解欠佳。

模型對工具「是否可用」理解很差。 在 M3 難度,PhysToolBench 特意設(shè)置了「陷阱」,但絕大多數(shù)模型都沒有識別出這個陷阱,仍然選擇了損壞的工具。在 M3 難度的總得分甚至比 Hard 難度還低,說明大模型對工具的理解較為膚淺,僅僅是淺層的死記硬背工具與其功能的對應(yīng)關(guān)系,而并沒有對其為什么可用的深刻理解。這不僅僅會導(dǎo)致任務(wù)失敗,還會帶來一些安全隱患。

推理能力非常重要,但還遠遠不夠。 研究團隊對比了一些模型在使用/不使用思維鏈下的性能,發(fā)現(xiàn)使用思維鏈會帶來性能的提升,但對于一些難度較大的 case,例如 M3 難度和 Hard 難度,純文本層面的推理仍然會有瓶頸,模型無法抓取到存在于視覺模態(tài)當中的關(guān)鍵信息,導(dǎo)致推理仍然帶來不了正確的結(jié)果。研究團隊認為,以視覺為中心的推理 (Vision Centric Reasoning) 對于正確使用物理工具非常關(guān)鍵,并提出了一個初步的以視覺為中心的推理的 Agent 框架,鼓勵推理過程中利用目標識別等工具放大觀察一些關(guān)鍵的工具,并進行額外推理。在 M3 難度上的實驗表明,這種推理方式能顯著提升模型的準確率,但仍然達不到令人滿意的水平。

不同模型使用不同推理方式的表現(xiàn)

對比:(a)文本層面推理 與 (b)視覺為中心的推理

總結(jié)

論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。通過系統(tǒng)性地設(shè)置不同層級以及廣泛的測試,PhysToolBench 揭示了當今多模態(tài)大模型對物理工具的理解的短板,也為未來的發(fā)展指明了方向:理解、運用和創(chuàng)造復(fù)雜的物理工具的能力,是邁向通用智能體不可或缺的一步,也是下一代多模態(tài)大模型需要提升的一步。

相關(guān)論文、代碼、數(shù)據(jù)集等均已公開公布。 感興趣的小伙伴可以進一步體驗和探索。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2025-05-07 01:00:00

多模態(tài)大模型AI

2025-05-21 08:47:00

2025-09-16 09:35:52

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-25 14:53:00

2023-08-30 13:23:00

模型訓(xùn)練

2024-05-17 16:02:00

2023-06-28 13:55:30

模型AI

2023-07-17 11:02:36

模型開源

2024-11-11 15:11:23

2024-11-12 10:20:00

模型數(shù)據(jù)

2024-05-10 06:59:06

2025-10-15 14:02:29

AI模型自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號

一本色道久久88精品综合| 亚洲福利视频导航| 91久久精品一区| 久久免费播放视频| 久久av综合| 这里只有精品99re| 看av免费毛片手机播放| 午夜在线视频播放| 成人精品小蝌蚪| 国产精品成人观看视频国产奇米| av激情在线观看| 精品国内亚洲2022精品成人| 欧美中文字幕一二三区视频| 波多野结衣与黑人| 欧美成熟毛茸茸| 狠狠色综合色综合网络| 91地址最新发布| 久久国产高清视频| 亚洲乱熟女一区二区| 亚洲精品一级| 久久久精品一区二区| 精品久久久久久中文字幕人妻最新| 欧美黄页免费| 欧美小视频在线| 激情视频小说图片| av在线日韩国产精品| 99国产精品久久久| 91免费综合在线| 精品一区二区无码| 黄色成人91| 久久综合伊人77777尤物| 精品人妻互换一区二区三区| 天堂av一区| 欧美日韩一二三区| 成人精品小视频| 国产传媒在线观看| 亚洲一区二区三区免费视频| 在线观看成人一级片| 韩日视频在线| 91农村精品一区二区在线| 成人在线视频电影| 精品国产av一区二区三区| 麻豆精品视频在线观看视频| 日韩免费不卡av| 免费观看成人毛片| 日韩视频中文| 欧美激情精品久久久久| 欧美被狂躁喷白浆精品| 自产国语精品视频| 久久亚洲欧美日韩精品专区| 很污很黄的网站| 色小子综合网| 最好看的2019的中文字幕视频| 91精品国产自产| 欧美激情极品| 日韩精品免费在线视频观看| 成人性生活免费看| 极品国产人妖chinesets亚洲人妖| 欧美一区二区视频观看视频| 深爱五月综合网| 国产日韩在线观看视频| 欧美精品久久99| 伊人免费视频二| 久久精品九色| 日韩精品中文字幕在线一区| 伊人久久久久久久久| www.亚洲一二| 日韩激情第一页| 国产成人福利在线| 国产精品三级| 色偷偷偷综合中文字幕;dd| 日韩不卡av在线| 久久视频在线| 欧美激情精品久久久久久| 日本熟妇一区二区| 午夜综合激情| 国产精品羞羞答答| 国产日产亚洲系列最新| 成人a免费在线看| 女同一区二区| 一广人看www在线观看免费视频| 中文字幕亚洲在| av日韩在线看| 小h片在线观看| 欧美日韩国产综合视频在线观看 | 亚洲在线一区| 国产精品高潮呻吟久久av野狼| 伊人免费在线观看高清版| 国产在线精品一区二区不卡了| 97人人模人人爽人人少妇| 天天干天天摸天天操| 国产欧美综合色| 黄色网址在线免费看| xxx.xxx欧美| 在线日韩国产精品| 三上悠亚 电影| 国产91精品对白在线播放| 久久精品视频va| 青青操免费在线视频| 蜜臀va亚洲va欧美va天堂| 亚洲xxxx在线| 高清在线观看av| 一区二区三区中文字幕在线观看| 欧美亚洲另类色图| www.成人| 国产一区二区三区四区福利| 久草视频免费播放| 男女男精品网站| 国产视频在线观看一区| 视频一区二区三区不卡 | 久久久蜜桃一区二区| 国内精品久久久久影院色| 久久久久久国产精品免费免费| 欧美a免费在线| 亚洲国产成人av网| 91精品999| 久久最新网址| 韩国福利视频一区| 国产乱淫片视频| 国产精品人人爽人人做我的可爱| 国产欧美韩国高清| 丝袜视频国产在线播放| 亚洲最新视频在线播放| 手机版av在线| 青草国产精品| 日韩av观看网址| 人人妻人人澡人人爽久久av| 综合欧美亚洲日本| 午夜视频你懂的| 亚州综合一区| 性欧美在线看片a免费观看| av中文字幕第一页| 国产精品久久久久三级| 欧美性猛交久久久乱大交小说 | 日韩成人免费看| 免费亚洲精品视频| 毛片在线网站| 亚洲成色www8888| 免费在线视频观看| 国产精品影视网| youjizz.com亚洲| 成人免费视频观看| 伊人久久综合97精品| 日批视频免费在线观看| 久久综合色婷婷| 欧美一级在线看| 欧美电影在线观看免费| 欧美性受xxxx黑人猛交| 天天操天天射天天| 天天影视涩香欲综合网 | 久久九九全国免费| 俄罗斯av网站| 久久99性xxx老妇胖精品| 欧美综合第一页| 免费在线一级视频| 一本久道久久综合中文字幕| 美女爆乳18禁www久久久久久| 午夜在线一区| 午夜精品亚洲一区二区三区嫩草 | 亚洲成人福利视频| 欧美三级视频| 国产另类自拍| 精品视频二区| 91黄视频在线观看| 国精产品一区一区| 国产麻豆成人精品| 被灌满精子的波多野结衣| 免费成人三级| 国产精品久久久久久五月尺| 日本在线天堂| 日韩一级视频免费观看在线| 久久久久久国产精品视频| kk眼镜猥琐国模调教系列一区二区| 北条麻妃在线视频观看| 精品成av人一区二区三区| 国产在线播放不卡| 丝袜国产在线| 日本高清视频一区二区| 纪美影视在线观看电视版使用方法| 麻豆一区二区三| 国产精品国三级国产av| 色婷婷狠狠五月综合天色拍| 国产精品日韩一区| 日本小视频在线免费观看| 精品视频久久久久久久| 中文字幕+乱码+中文乱码www| 亚洲欧洲综合另类在线| 国产精品伦子伦| 午夜日韩电影| 久久久久久久久一区| 成人看片毛片免费播放器| 九九热这里只有在线精品视| 色天堂在线视频| 欧美日韩精品一区二区三区蜜桃 | 国产精品扒开腿做爽爽爽男男| 日本电影在线观看网站| 精品国产一二三| 免费av中文字幕| 一区二区三区精品视频在线| 中文字幕国产专区| 国产精品99久久久久久宅男| 97成人在线观看视频| 影音先锋成人在线电影| 日本不卡一区二区三区在线观看| 白嫩亚洲一区二区三区| 51精品在线观看| av网站免费在线观看| 亚洲美女性生活视频| 国产99久一区二区三区a片 | 久久影视电视剧免费网站| 污视频在线免费观看| 91精品国产日韩91久久久久久| 一本一道无码中文字幕精品热| 亚洲啪啪综合av一区二区三区| 美女100%无挡| 成人网男人的天堂| 国产美女视频免费看| 美女久久一区| 男人的天堂狠狠干| 午夜精品影院| 亚洲欧洲久久| 精品国产中文字幕第一页| 国产伦精品一区二区三区四区免费 | 久久久欧美精品sm网站| 久久久久亚洲AV成人网人人小说| 久久精品99国产精品日本| 国产成人久久婷婷精品流白浆| 国内在线观看一区二区三区| 欧美另类videos| 国产精品国内免费一区二区三区| 欧美视频观看一区| 亚洲精品一级二级三级| 国偷自产av一区二区三区小尤奈| 日韩影片在线观看| 91老司机精品视频| 亚洲免费看片| 国产精品一区电影| 91tv亚洲精品香蕉国产一区| 日本国产精品视频| 成人av观看| 亲子乱一区二区三区电影| www.超碰在线| 88xx成人精品| 日韩欧美精品一区二区三区| 97视频在线观看免费| free性欧美| 97在线免费视频| 国产精品蜜芽在线观看| 97av在线视频免费播放| 欧美日韩在线观看首页| 1769国产精品| 超碰aⅴ人人做人人爽欧美| 日韩av第一页| 成人在线黄色| 国产欧美精品在线| av在线国产精品| 999热视频| www.成人网| 精品视频一区二区| 国产成人一区| 亚洲欧洲精品一区| 欧美成人嫩草网站| 人人妻人人做人人爽| 99精品国产99久久久久久福利| 日本www在线视频| 美女尤物久久精品| 久久久精品高清| 国产精一品亚洲二区在线视频| 超碰在线免费av| 不卡av电影在线播放| 色无极影院亚洲| 欧美国产禁国产网站cc| av激情在线观看| 婷婷综合另类小说色区| 中文字幕在线播| 欧美卡1卡2卡| 亚洲精品无码久久久| 国产偷国产偷亚洲清高网站| 春暖花开成人亚洲区| 美女国内精品自产拍在线播放| 美洲精品一卡2卡三卡4卡四卡| 欧美一区二区三区图| 精品福利在线| 国产麻豆一区二区三区在线观看| 久久91精品| 最新av网址在线观看| 美女精品在线观看| 日本人dh亚洲人ⅹxx| 26uuu久久天堂性欧美| a一级免费视频| 午夜精品久久久久久久久| 日韩不卡高清视频| 欧美videos中文字幕| 国产系列在线观看| 欧美日韩国产成人| 成人开心激情| 国产精品乱码| 日韩精品欧美| 777777av| 国产一区二区免费在线| 成年人网站免费看| 亚洲黄网站在线观看| 色老头一区二区| 亚洲的天堂在线中文字幕| 免费看a在线观看| 欧美在线视频免费播放| 欧美激情三级| 婷婷久久伊人| 亚洲欧洲日本一区二区三区| 伊人色在线观看| 久久午夜羞羞影院免费观看| 欧美日韩偷拍视频| 欧美日韩国产天堂| 欧美日韩伦理片| 久久久久久久爱| 福利一区三区| 亚洲欧洲精品一区| 久久在线精品| 波多野结衣先锋影音| 一区二区三区精品在线观看| 中文字幕一区二区免费| 亚洲精品丝袜日韩| 蜜臀久久精品| 国产精品视频免费观看| 欧美jjzz| 三级黄色片播放| 国产精品久久久久久久久免费樱桃| yjizz国产| 亚洲激情中文字幕| 电影k8一区二区三区久久| 91影院在线免费观看视频| 欧美成人激情| 小泽玛利亚视频在线观看| 久久久久久9999| 天天做天天爱夜夜爽| 日韩激情视频在线| 欧美aa在线观看| 好吊色欧美一区二区三区视频| 欧美黄免费看| 波多野结衣办公室双飞| 一区二区三区在线视频观看58| 精品二区在线观看| 欧美人在线观看| 亚洲一级大片| 欧美中文字幕在线观看视频| 国产成人亚洲精品青草天美 | 亚洲第一主播视频| 亚洲成人久久精品| 久久久久久一区二区三区| 成人台湾亚洲精品一区二区| 91免费国产精品| 成人精品电影在线观看| 日韩av在线电影| 日韩国产高清视频在线| 天堂√中文最新版在线| 欧美区高清在线| 琪琪一区二区三区| 国产麻豆a毛片| 欧美一级欧美三级在线观看| 深夜国产在线播放| 国产免费一区二区三区| 国产精品一区亚洲| 久久亚洲AV无码专区成人国产| 在线精品国精品国产尤物884a| av男人的天堂在线| 91系列在线播放| 国内精品美女在线观看| 漂亮人妻被黑人久久精品| 色婷婷综合久久| 欧美猛烈性xbxbxbxb| 97碰碰视频| 免费在线播放第一区高清av| 快灬快灬一下爽蜜桃在线观看| 欧美精品日韩综合在线| 2021天堂中文幕一二区在线观| 久久久久资源| 美腿丝袜亚洲综合| 欧美国产日韩综合| 日韩高清中文字幕| 亚洲爽爆av| 9久久9毛片又大又硬又粗| 欧美国产欧美综合| 国产夫妻自拍av| 欧美一级淫片播放口| 欧美激情偷拍自拍| 青青草视频网站| 精品视频资源站| 黄色影院在线看| 欧美一区二区综合| 国产一区二区三区精品视频| yjizz国产| 欧美第一黄色网| 精品国产乱码久久久久久蜜坠欲下| 男人午夜视频在线观看| 黑人极品videos精品欧美裸| 欧美成人三区| 欧美性大战久久久久| 国产精品18久久久久久久网站| 亚洲 欧美 日韩 综合| 超碰精品一区二区三区乱码|