精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

人工智能 新聞
近日,北京大學(xué)物理學(xué)院聯(lián)合人工智能研究院等多個(gè)院系,推出了全新評測基準(zhǔn) PHYBench。

本項(xiàng)目由北京大學(xué)物理學(xué)院朱華星老師、曹慶宏副院長統(tǒng)籌指導(dǎo)。基準(zhǔn)設(shè)計(jì)、項(xiàng)目管理以及數(shù)據(jù)整合的主要工作由學(xué)生核心團(tuán)隊(duì)完成,核心成員包括仇是、郭紹陽、宋卓洋、孫韞博、蔡則宇、衛(wèi)家燊、羅天宇等。項(xiàng)目還得到了北京計(jì)算科學(xué)研究中心羅民興院士和人工智能研究院張牧涵老師的鼎力支持。

PHYBench 項(xiàng)目匯聚了來自物理學(xué)院及兄弟院系的 200 余名學(xué)生,共同承擔(dān)題目編寫、審核及人類基準(zhǔn)測試等工作。這支高水平的參與者團(tuán)隊(duì)中,包含至少 50 位全國中學(xué)生物理競賽金牌得主,更有亞洲物理奧賽和國際物理奧賽的金牌獲得者。這場大規(guī)模、高質(zhì)量的協(xié)作,不僅充分展現(xiàn)了北大學(xué)子深厚的學(xué)術(shù)功底和卓越的組織協(xié)調(diào)能力,也為 PHYBench 產(chǎn)出高質(zhì)量成果提供了堅(jiān)實(shí)保障。

在大語言模型(LLMs)飛速發(fā)展的當(dāng)下,模型的推理能力儼然成為模型能力的代名詞。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相繼發(fā)布,這些大模型憑借強(qiáng)化學(xué)習(xí)技術(shù)的助力,在許多科學(xué)評測基準(zhǔn)上頻頻刷新紀(jì)錄,甚至聲稱 “超越人類專家”。

但是,隨著模型能力和評測基準(zhǔn)的軍備競賽白熱化,越來越多的基準(zhǔn)不得不轉(zhuǎn)向生僻的知識點(diǎn)、或者抽象的數(shù)學(xué)競賽題。這些題目雖然能 “區(qū)分” 模型,但是逐漸脫離實(shí)際場景,可能難以真正反映模型的實(shí)際表現(xiàn)。

近日,北京大學(xué)物理學(xué)院聯(lián)合人工智能研究院等多個(gè)院系,推出了全新評測基準(zhǔn) PHYBench。PHYBench 包含 500 道經(jīng)過精心設(shè)計(jì)的高質(zhì)量物理題(如圖 1),難度橫跨高中物理、大學(xué)物理以及物理奧林匹克競賽。這些題目以真實(shí)的物理場景為基礎(chǔ),對人類來說并不抽象,卻把一眾大模型考得七零八落。大模型在解決物理題時(shí)的思維鏈也暴露了它們在感知(Perception)和推理(Reasoning)能力上的缺陷。

圖片

  • 論文鏈接:https://arxiv.org/abs/2504.16074
  • 項(xiàng)目網(wǎng)址:https://phybench-official.github.io/phybench-demo/
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Eureka-Lab/PHYBench

也許,物理才是最適合考察 AI 推理能力的學(xué)科?PHYBench 的嘗試為評估大模型真正有效的推理能力提供了全新的工具和視角。

圖片

圖 1:題目樣例與兩種評估方法:表達(dá)式樹編輯距離、正確率。

圖片

表 1:與現(xiàn)有 benchmark 對比,PHYBench 在高難度數(shù)據(jù)集中,有著相對大的規(guī)模,同時(shí)引入了創(chuàng)新的分?jǐn)?shù)度量:表達(dá)式樹編輯距離。

評測方法創(chuàng)新

表達(dá)式樹編輯距離(EED Score) 

傳統(tǒng)基準(zhǔn)通常依賴 Accuracy 這一單一指標(biāo):設(shè)置唯一正確答案,模型只有在完全匹配時(shí)才能得分。為了方便評分,問答題通常被改寫成選擇題或要求代入數(shù)值。這樣會(huì)導(dǎo)致答案的信息量被嚴(yán)重壓縮,而且給出過多條件可能導(dǎo)致模型 “根據(jù)選項(xiàng)猜過程”,或者缺乏使用解析表達(dá)式表達(dá)普適關(guān)系的能力。同時(shí)在高難度的樣本上,0/1 打分會(huì)使得所有模型在分?jǐn)?shù)層面都被歸零,強(qiáng)弱差異無從體現(xiàn)。

EED Score(Expression?tree Edit Distance)帶來了更貼近人類閱卷的方案。它將數(shù)學(xué)表達(dá)式解析成表達(dá)式樹,再計(jì)算模型答案與參考答案之間的編輯距離:樹的結(jié)構(gòu)越接近,得分越高。這一機(jī)制輸出的是連續(xù)、細(xì)粒度的分?jǐn)?shù),能在更多題目上顯示區(qū)分度,顯著提高了統(tǒng)計(jì)效力。

實(shí)驗(yàn)表明,采用 EED Score 的 500 題,其區(qū)分能力相當(dāng)于 1500 道使用 0/1 Accuracy 的題目。上圖(圖 1)展示了同一道題三種不同答案在 Accuracy 與 EED Score 下的對比:前者只能給出 “全錯(cuò) / 全對” 的粗糙評價(jià),而后者則定量刻畫了模型解答與正確答案之間的 “距離”。

實(shí)驗(yàn)結(jié)果

前沿模型與人類專家的差距

PHYBench 團(tuán)隊(duì)招募了 81 名北大學(xué)子,在 3 小時(shí)時(shí)限內(nèi)做 8 道題目,與最先進(jìn)的 AI 模型展開了一場 "人機(jī)大戰(zhàn)"。

結(jié)果顯示,即使是最強(qiáng)的 Gemini 2.5 pro,也只能答對 36.9% 的題目,EED 評分 49.5%。而 “人類專家” 們則輕松碾壓,平均正確率高達(dá) 61.9%,EED 評分高達(dá) 70.5%。 排名前 25% 的受試者更是達(dá)到了 71.4% 的正確率 —— 幾乎是最強(qiáng) AI 的兩倍。其他模型與人類的差距則更為顯著。這一顯著差距揭示了現(xiàn)階段 LLM 在在物理推理場景中的瓶頸。

圖片

PHYBench 對模型的能力也進(jìn)行了細(xì)粒度的對比。可以看到,Gemini 2.5 pro、o3 等強(qiáng)推理模型雖然和人類還有較大差距,但是相比前代推理模型已經(jīng)有了明顯的進(jìn)步。DeepSeek-V3 等基座模型雖未能超越主流推理模型,但也展現(xiàn)出了亮眼的成績。QwQ-32B 和 DeepSeek32B 蒸餾模型等小型推理模型在 PHYBench 上的表現(xiàn)很令人失望,這可能歸因于其物理感知能力的不足。

基于思維鏈的錯(cuò)因分析:PP × RR

PHYBench 團(tuán)隊(duì)對模型的錯(cuò)誤進(jìn)行了系統(tǒng)性總結(jié)分析,將模型的推理過程和推理能力劃分為了兩個(gè)關(guān)鍵模塊:物理感知(Physical Perception,PP)和魯棒推理(Robust Reasoning,RR):

圖片

  • 物理感知(PP):在此階段,模型進(jìn)行密集的文字推理,模型需要識別問題相關(guān)的物理對象、變量和動(dòng)力學(xué)關(guān)系,定性判斷哪些物理效應(yīng)是重要的,哪些可以忽略不計(jì)。若 PP 出錯(cuò),后續(xù)整個(gè)推理都會(huì)偏離軌道。(示例 1 展示典型 PP 失誤)
  • 魯棒推理(RR):在此階段,模型寫下大量的 “草稿”,一步步化簡表達(dá)式,解方程。現(xiàn)階段的推理模型在此階段的推理效率尚不高,“草稿” 長度遠(yuǎn)長于人類,而且經(jīng)常犯 “低級錯(cuò)誤”。(示例 2 展示典型 RR 失誤)

PP 和 RR 交替進(jìn)行,組成了典型的物理解題思維鏈。

圖片

未來展望

推動(dòng) AI 的物理理解與推理能力發(fā)展

PHYBench 的愿景遠(yuǎn)不止于 “評測”,更在于 “引領(lǐng)” AI 探索物理世界的無限可能。

PHYBench 的發(fā)布,不僅為評估大語言模型在物理感知與推理方面的能力提供了一個(gè)全新且權(quán)威的基準(zhǔn),更為未來 AI 系統(tǒng)的發(fā)展指明了攻堅(jiān)方向。我們精心設(shè)計(jì)的真實(shí)、復(fù)雜的物理場景,旨在深度激發(fā)并驗(yàn)證 AI 理解世界并進(jìn)行可靠推理的能力,推動(dòng) AI 系統(tǒng)真正實(shí)現(xiàn)對世界的認(rèn)知、融入與變革。

面向未來,PHYBench 團(tuán)隊(duì)將持續(xù)致力于數(shù)據(jù)集的拓展與創(chuàng)新,計(jì)劃納入更多前沿物理課題、跨學(xué)科交叉內(nèi)容,甚至挑戰(zhàn)人類尚未解開的科學(xué)謎題。我們相信,通過提供更具深度和廣度的物理挑戰(zhàn),PHYBench 將有力催化 AI 向著突破認(rèn)知邊界、探索未知領(lǐng)域的 “智能伙伴” 或 “超級助手” 發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-11 12:30:40

2019-07-30 12:40:02

QQ賬號互了umqq

2025-02-10 09:10:00

2023-05-05 18:53:23

數(shù)據(jù)湖數(shù)據(jù)倉庫

2025-09-17 18:03:37

2025-09-17 11:07:59

AI醫(yī)護(hù)機(jī)器人AI護(hù)士醫(yī)護(hù)機(jī)器人

2009-03-13 10:14:47

中移動(dòng)人才標(biāo)準(zhǔn)招聘

2024-04-12 14:34:59

2024-05-16 13:43:36

北大微型機(jī)器人

2019-11-21 09:25:23

AI 數(shù)據(jù)人工智能

2016-05-19 17:10:27

銀行

2023-11-06 10:07:22

模型人工智能數(shù)字

2025-04-22 08:00:00

2013-04-19 10:42:02

打車軟件大數(shù)據(jù)

2021-02-26 21:25:08

比特幣投資貨幣

2022-10-20 08:00:37

機(jī)器人ZadigChatOps

2020-10-16 18:33:18

Rust語言前端開發(fā)

2019-07-22 10:13:54

2025-09-08 03:00:00

MetaAI模型

2019-10-18 09:50:47

網(wǎng)絡(luò)分層模型網(wǎng)絡(luò)協(xié)議
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

久久精品国产一区| 欧美日韩亚洲综合一区二区三区| 成人av男人的天堂| 影音先锋亚洲天堂| 成人影院天天5g天天爽无毒影院| 欧美日韩一级视频| 欧洲精品在线播放| a天堂中文在线| 国产成人午夜视频| 国产精品扒开腿做爽爽爽视频| 日韩精品123区| 亚洲欧美成人vr| 欧美一区二区日韩| 国产成人久久777777| h视频在线免费观看| 99精品一区二区| 成人免费福利在线| 亚洲熟女综合色一区二区三区| 国产国产精品| 亚洲男人av在线| 中国特级黄色片| 免费成人毛片| 欧美性xxxx极品高清hd直播| a级片一区二区| 春暖花开成人亚洲区| 成人av一区二区三区| 国产乱人伦真实精品视频| 国产精品theporn动漫| 五月天综合网站| 亚洲性av网站| 日本一区二区在线免费观看| 免费看一区二区三区| 日本福利一区二区| 国产3p露脸普通话对白| 搞黄网站在线观看| 中文字幕av一区二区三区高| 就去色蜜桃综合| 日韩中文字幕观看| 国产成人午夜片在线观看高清观看| 国产精品成人播放| 免费视频久久久| 999在线观看精品免费不卡网站| 两个人的视频www国产精品| 乐播av一区二区三区| 久久久久久一区二区三区四区别墅 | 91免费精品视频| 蜜臀99久久精品久久久久小说| 夜夜精品视频| 久久免费精品视频| 国产成人精品av久久| 欧美日韩三级| 久久99久久99精品中文字幕| 男人操女人的视频网站| 999久久久精品国产| 搡老女人一区二区三区视频tv| 91精品人妻一区二区三区| 亚洲视频分类| 亚洲色图50p| 中文字幕黄色网址| 久久中文字幕二区| 另类专区欧美制服同性| 9999热视频| 欧美三区视频| 久久免费视频这里只有精品| 亚洲一区欧美在线| 久久国产精品久久久久久电车| 日本精品性网站在线观看| 亚洲精品中文字幕乱码三区91| 久久三级视频| 91精品国产综合久久男男| 国产绿帽刺激高潮对白| 国产传媒欧美日韩成人| 好吊妞www.84com只有这里才有精品| 国产91久久久| 91亚洲精品一区二区乱码| 欧美日韩一区在线播放| 视频免费一区| 亚洲线精品一区二区三区八戒| 日韩伦理在线免费观看| 黄色综合网址| 制服丝袜成人动漫| 久久久久亚洲无码| 欧美色网址大全| 麻豆一区二区在线观看| 日韩免费观看一区二区| 日本成人在线视频网站| 91精品在线播放| 天天操天天操天天操| 国产清纯白嫩初高生在线观看91| 亚洲精品影院| 免费污视频在线| 色综合久久久久综合体桃花网| 手机视频在线观看| 2023国产精华国产精品| 亚洲欧美制服综合另类| 青花影视在线观看免费高清| 一区二区久久| 成人精品在线观看| 日本天堂影院在线视频| 亚洲日穴在线视频| 国产精品沙发午睡系列| 欧美成人免费全部网站| 亚洲精品国产美女| 欧美激情精品久久久久久免费| 亚洲理伦在线| 91中文精品字幕在线视频| 天堂在线中文字幕| 一区二区欧美在线观看| 日本888xxxx| 超碰精品在线观看| 色系列之999| 探花视频在线观看| 国产成人精品亚洲午夜麻豆| 日本免费一区二区三区| 国产桃色电影在线播放| 欧美日韩国产精品自在自线| 日韩精品视频一区二区| 亚洲一本二本| 国产精品一区二区三区久久| 日韩av资源站| 亚洲一区二区成人在线观看| 日本在线播放一区二区| 美女毛片一区二区三区四区| 欧美寡妇偷汉性猛交| 在线免费av片| 久久久久久免费毛片精品| 男人添女人荫蒂免费视频| 亚洲网站免费| 中文字幕亚洲一区| 天天爱天天做天天爽| 99久久精品一区| youjizz.com在线观看| 91精品麻豆| 色偷偷av一区二区三区乱| 乱子伦一区二区三区| 972aa.com艺术欧美| 无码av天堂一区二区三区| 精品一区91| 久久久国产精品免费| 一区二区三区精彩视频| 国产三级精品视频| 大肉大捧一进一出好爽动态图| 欧美亚洲大陆| 性色av一区二区三区在线观看| 99国产精品99| 亚洲激情在线激情| 精品人妻一区二区三区免费| 久久久久久久久99精品大| 国产日本欧美一区二区三区在线| av在线免费一区| 欧美中文一区二区三区| 美国黑人一级大黄| 麻豆精品视频在线观看视频| 一本一本a久久| 四虎视频在线精品免费网址| 日韩视频免费观看| 国产视频在线观看视频| 樱花草国产18久久久久| 伊人av在线播放| 激情综合亚洲| 久久久久久久有限公司| 92国产精品| 丝袜美腿精品国产二区| 国产乱码久久久| 一区二区三区.www| 国产精品300页| 蜜臀av一级做a爰片久久| 亚洲欧洲在线一区| 电影一区中文字幕| 欧美激情亚洲国产| 青青草视频在线观看| 欧美性猛交xxxx乱大交退制版 | 国产v片在线观看| 亚洲一区视频在线| 精品少妇人妻一区二区黑料社区 | 日韩精品――色哟哟| 伊人成人在线| 日本一区二区三区视频在线观看 | 日韩欧美在线视频播放| 精品亚洲aⅴ乱码一区二区三区| 最近免费观看高清韩国日本大全| 18国产精品| 日韩美女av在线免费观看| 97在线观看免费观看高清| 日韩一区和二区| 欧美激情黑白配| 国产精品久久久久毛片软件| 性活交片大全免费看| 肉色丝袜一区二区| 亚洲精品国产suv一区88| 亚洲国产合集| 97久久人人超碰caoprom欧美| 春色校园综合激情亚洲| 最新亚洲国产精品| 无码国精品一区二区免费蜜桃| 欧美视频完全免费看| 国产在线综合网| 中文一区在线播放| 欧美一级片黄色| 久久激五月天综合精品| 鲁一鲁一鲁一鲁一澡| 国产精品精品国产一区二区| 国产视频一区二区不卡| 日本午夜免费一区二区| 97在线观看免费高清| 高清免费电影在线观看| 国产一区二区三区中文| 亚洲精品国产一区二| 欧美性色黄大片手机版| 日韩精品1区2区| 伊人开心综合网| 特级西西人体高清大胆| 91麻豆.com| 91精品人妻一区二区三区蜜桃2| 三级一区在线视频先锋 | 欧美在线综合| 国产精品视频一二三四区| 国产成人短视频在线观看| 成人av男人的天堂| 中文字幕综合| 国产欧美精品va在线观看| 三妻四妾完整版在线观看电视剧| 九九精品在线播放| 香蕉视频免费在线播放| 亚洲一区二区国产| 亚洲av成人无码网天堂| 日韩精品专区在线影院重磅| 国产精品久久777777换脸| 色诱视频网站一区| 日日噜噜噜噜人人爽亚洲精品| 一区二区在线观看视频在线观看| 国产中文av在线| 国产精品久久久久影院色老大| 最新中文字幕av| www日韩大片| 韩国无码一区二区三区精品| 成人18视频日本| 奇米777第四色| 丁香婷婷综合激情五月色| 国产精品一级无码| 国产福利视频一区二区三区| 亚洲高清在线不卡| 极品少妇xxxx精品少妇偷拍| 香蕉视频999| 精品一区二区三区在线观看国产| 五月婷婷激情久久| 蜜桃av噜噜一区二区三区小说| 无需播放器的av| 免费国产亚洲视频| 成人黄色一级大片| 国产一区二区三区四| 一级片免费在线观看视频| 国产精品996| 69xxx免费视频| 波多野结衣在线一区| 国产精品探花一区二区在线观看| 91影院在线免费观看| 亚洲女优在线观看| 国产精品视频第一区| 色老板免费视频| 一区二区三区在线视频免费观看| 免费中文字幕在线观看| 五月天欧美精品| 中文字幕黄色片| 欧美日韩中文字幕精品| 国产白浆在线观看| 亚洲成人网av| 国产高清视频在线播放| 久久精品国产精品| 国产色婷婷在线| 日本精品视频在线播放| 少妇高潮一区二区三区99| 99电影在线观看| 一个色免费成人影院| 伊人天天久久大香线蕉av色| 女生裸体视频一区二区三区| 国产欧美日韩网站| 手机精品视频在线观看| 国产成人强伦免费视频网站| 99re6这里只有精品视频在线观看| 99久久久无码国产精品性 | 制服诱惑一区| 精品1区2区3区4区| 天天影视综合色| 国产成人免费视频网站高清观看视频| 最近日本中文字幕| 国产精品福利影院| 精品在线视频观看| 欧美羞羞免费网站| 亚洲精品成人电影| 亚洲午夜av电影| 欧美xxxx性xxxxx高清| 国产精品mp4| av自拍一区| 一本色道婷婷久久欧美 | 亚欧美在线观看| 成人爱爱电影网址| 91ts人妖另类精品系列| 午夜精品福利一区二区三区av | 日韩精品一区二区三区蜜臀| 可以直接在线观看的av| 欧美大片网站在线观看| 欧美××××黑人××性爽 | 国产+人+亚洲| 色综合视频一区二区三区日韩| 好吊色欧美一区二区三区视频| 99热在线成人| 女人另类性混交zo| k8久久久一区二区三区| 久久久久亚洲av无码专区体验| 91精品福利视频| 日本精品一区二区在线观看| 日韩视频在线观看免费| 欧美日韩美女| 国产一区再线| 欧美视频不卡| 亚洲高清视频免费| 国产日韩综合av| 免费看日批视频| 亚洲精品在线观看网站| 国产美女av在线| 国产精品视频1区| 精品日韩在线| 久久无码高潮喷水| www.日韩大片| 国产无套内射又大又猛又粗又爽| 欧美精品日韩综合在线| 999在线视频| 国产精品久久久久久久久久免费| 日日狠狠久久偷偷综合色| 日韩 欧美 视频| 国产成人免费视频网站高清观看视频| 最新av电影网站| 欧美另类久久久品| 2019中文字幕在线视频| 国产精品99导航| 欧美日韩国产一区二区三区不卡| 男人操女人免费软件| 91美女蜜桃在线| 九一国产在线观看| 亚洲老头老太hd| 午夜日韩成人影院| 日本欧美精品久久久| 可以免费看不卡的av网站| 在线观看日本中文字幕| 欧美性受极品xxxx喷水| 成人性爱视频在线观看| 日韩av色在线| 欧美色女视频| 人人爽人人爽av| 亚洲精品视频在线观看网站| 国产绿帽刺激高潮对白| 欧美精品日韩三级| 澳门久久精品| 欧美日韩精品在线一区二区| 99国产精品国产精品毛片| 日本特级黄色片| 亚洲人成电影在线观看天堂色| 欧美va在线观看| 亚洲一区三区电影在线观看| 国精产品一区一区三区mba视频| 国产一区二区播放| 精品精品欲导航| 天堂中文在线播放| 日韩资源av在线| 精品一区二区三区在线播放| 国产性xxxx| 亚洲国产精品中文| 另类专区亚洲| 一区二区视频在线播放| 国产99久久久精品| 在线精品免费视| 色噜噜国产精品视频一区二区| 欧美精品三级在线| 国产极品尤物在线| 亚洲国产成人午夜在线一区| 99在线小视频| 欧美一级片久久久久久久| 色777狠狠狠综合伊人| 国产精品久久久久野外| 欧美日韩美女在线观看| 日韩黄色影院| 国产主播一区二区三区四区| 日韩综合一区二区| 欧美丰满熟妇bbbbbb| 日韩av在线资源| 亚洲伦理网站| 国产精品va无码一区二区| 国产欧美va欧美不卡在线| 精品人妻av一区二区三区| 国产suv精品一区二区| 午夜精彩国产免费不卡不顿大片| 玖玖爱在线观看| 欧美大胆一级视频| 成人啊v在线| 欧美乱大交xxxxx潮喷l头像| 国产欧美视频一区二区三区| 亚洲成人一级片| 国产日韩欧美影视| 香蕉国产精品偷在线观看不卡|