精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

形式化證明邁向多模態,MLLM正確率僅4%!港科大等推出全新基準

人工智能 新聞
MATP-BENCH是一個新推出的多模態自動定理證明基準,旨在評估多模態大模型(MLLMs)在處理包含圖像和文本的幾何定理證明中的能力。

近年來,自動定理證明(ATP)取得了顯著進展,但大部分工作都集中在處理純文本形式的定理。

然而,在現實世界中,尤其是在幾何學領域,許多定理的呈現和理解都離不開圖像、圖表等視覺元素。

人類數學家善于從這些圖表中獲取直覺,并將其作為引導嚴謹證明過程的關鍵。

那么,當下的多模態大模型(MLLMs)能否模仿人類的這一能力,從圖文中汲取信息,完成可被機器嚴格驗證的形式化證明 (Formal Proof) 呢?

這一重要潛能,在很大程度上仍未被探索。

為了系統性地回答這一問題,香港科技大學的研究團隊推出了 MATP-BENCH,一個全新的多模態、多層次、多形式化語言的自動定理證明基準,旨在全面評估MLLMs作為自動定理證明者 (Automated Theorem Prover) 的真實能力。

圖片

論文地址:https://arxiv.org/pdf/2506.06034

項目主頁:https://matpbench.github.io/

圖片

MATP-BENCH任務與傳統ATP任務的對比。傳統ATP僅依賴文本化的定理陳述,而MATP-BENCH要求模型必須結合圖像和自然語言,并從中提取文本中未明確說明的關鍵前提(如圖中「From diagram」部分所示),才能構建完整的形式化定理 。

MATP-BENCH的設計

MATP-BENCH是首個專為多模態定理證明設計的基準,涵蓋了三種主流的形式化證明語言:Lean 4、Coq和Isabelle。

圖片

MATP-BENCH 的統計數據。左表展示了不同難度級別和幾何類型的題目分布,右表展示了更細分的數學主題分布 。

核心特點包括:

  • 多模態上下文:每個問題都由一張圖像和一個自然語言陳述組成,二者互為補充,共同構成完整的定理信息。
  • 多層次與多樣性:基準共包含 1056個多模態定理 ,題目難度橫跨高中、大學和競賽三個級別 。內容上則覆蓋了平面幾何、3D幾何、解析幾何等多個領域 。
  • 多語言形式化:所有定理都提供了在 Lean 4、Coq 和 Isabelle 三種證明輔助工具中的形式化版本,確保了廣泛的兼容性 。

圖片

MATP-BENCH與相關可驗證基準的詳細對比。MATP-BENCH在多模態、多層次和多形式化語言支持上具有綜合優勢。

多數現有基準如 miniF2F 和 ProofNet 僅包含純文本定理 。雖然 LeanEuclid 等基準包含多模態幾何問題,但其主要任務是「自動形式化」(將人類語言證明轉為代碼),而非從零開始生成證明 。

為了精準評估模型在不同階段的能力,MATP-BENCH 設置了兩個關聯的核心任務

(1)多模態自動定理證明 (Multimodal Automated Theorem Proving):模擬人類專家的端到端形式化定理及證明過程;

(2)多模態定理形式化 (Multimodal Theorem Formalization):單獨評估模型理解和翻譯多模態信息為形式化定理的能力。

實驗結果

通過在MATP-BENCH上進行的大量實驗,研究團隊不僅定位了當前多模態大模型(MLLM)在形式化定理證明上的核心瓶頸,更從多個維度揭示了其能力的邊界和挑戰。

圖片

圖片

實驗揭示了模型在不同形式化語言上的性能差異,最強大的模型在Lean 4語言上pass@10成功率僅為4.26%,而在生成Coq語言上表現出人意料地好,任務一的成功率達到了12.15%,顯著高于Lean 4和Isabelle。

研究者推測,這可能得益于Coq更成熟的策略庫、豐富的數學資源以及更適合大模型學習的命令式策略風格。

模型的性能隨著題目難度的增加而顯著下降。

在Lean 4的任務一中,模型在高中、大學和競賽級別問題上的平均成功率分別為6.39%2.85%和1.29%

不同模型「犯錯」方式不同

圖片

圖中展示了三類模型在 Lean 4 任務上的錯誤分布。可以清晰地看到,Qwen2.5-VL(右)的基礎性錯誤(如變量定義和庫導入)比例顯著高于 Claude-3.7(左)和 GPT-4.1(中)

對于表現較好的閉源模型(如Claude-3.7和GPT-4.1),其錯誤主要集中在「無效或未完成的證明步驟」「缺失前提/隱藏假設」 。而對于一些開源模型(如Qwen2.5-VL),錯誤模式則有所不同。

雖然它們同樣存在邏輯推理問題,但取它們出現了更多基礎性的生成錯誤,例如「不正確或未聲明的變量/定義」以及「缺失/錯誤的庫導入」。這說明,這類模型不僅在高級邏輯上面臨挑戰,在掌握形式化語言的基本語法和規范上就已困難重重 。

核心瓶頸——「證明」而非「看懂」

圖片

實驗另外揭示了一個普遍現象:模型在任務一(端到端形式化證明)上的表現普遍不佳,但在任務二(僅形式化定理)上表現要好得多。

以Lean 4語言為例,模型在任務二上的平均pass@10成功率(即10次嘗試內成功一次的概率)可達45.16%,這說明它們具備了相當不錯的圖文理解和形式化轉譯能力。

然而,在需要完整證明的任務一上,該數值驟降至僅4.26%,這一差距清晰地表明:當前MLLM的主要瓶頸并非「看懂題目」,而是后續「構建證明」的復雜邏輯推理過程 。

輔助線難題——「畫不好也用不好」

圖片

圖中灰色曲線顯示需要輔助線的問題比例隨難度上升。模型的嘗試率(虛線)也隨之上升,但成功率(實線)卻始終處于極低水平

在人類的幾何解題中,添加輔助線是一種常見且強大的策略。

實驗發現,隨著題目難度的增加,需要輔助線的問題比例也顯著上升。

模型在一定程度上能夠模仿人類,嘗試在證明中引入輔助線等構造性步驟 。

然而,它們幾乎無法有效構造和利用輔助線來推進證明,導致包含輔助線構造的證明成功率極低 。

總結與展望

MATP-BENCH的研究結果清晰地表明要讓MLLM成為合格的多模態定理證明者,研究需要重點關注:

  • 提升符號推理能力:開發新的模型架構或訓練方法,專門增強模型在嚴謹的形式化邏輯系統中的推理和證明構建能力。
  • 增強視覺-符號聯合推理:讓模型不僅能「看見」圖中的幾何關系,更能將其無縫轉化為可用于證明的形式化符號語言。
  • 探索交互式證明生成:讓其利用外部工具進行輔助思考,可能是一個充滿希望的研究方向 。
責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-07 18:08:03

GPT-4模型

2024-01-29 07:15:00

模型數據

2025-05-30 03:10:00

AISeePhys多模態短板

2022-07-18 10:05:16

AI挑戰方案

2025-02-13 09:40:00

2025-05-08 09:05:37

2025-02-06 09:11:54

2024-07-23 12:32:11

2023-10-30 15:06:00

模型數據

2024-11-04 13:30:00

模型AI

2024-09-27 14:00:00

大語言模型AI

2025-05-12 09:05:00

AI大模型開源

2025-05-15 09:10:00

2025-10-15 14:02:29

AI模型自動駕駛

2025-06-23 15:22:21

斯坦福不等式AI

2024-12-20 09:30:00

模型訓練數據

2024-06-12 11:50:23

2024-02-02 21:53:58

AI訓練

2024-08-08 13:04:28

2025-06-03 08:22:00

模型評估視頻
點贊
收藏

51CTO技術棧公眾號

一本色道婷婷久久欧美| 国产精品久久一区主播| 特级西西人体wwwww| 偷拍视频一区二区三区| 综合欧美一区二区三区| 国产日韩久久| 亚洲自拍偷拍另类| 亚洲一区区二区| 久久高清视频免费| 91成人破解版| 国产一区丝袜| 9191成人精品久久| 999精品网站| 麻豆av在线播放| 国产精品丝袜91| 精品1区2区| 午夜精品久久久久久久96蜜桃| 性一交一乱一区二区洋洋av| 欧美国产日韩一区二区| 中日韩一级黄色片| 欧美禁忌电影| 亚洲国产精品va在线看黑人 | 国产综合色区在线观看| 亚洲一二三四区不卡| 一区二区三区不卡在线| 久久精品国产亚洲a∨麻豆| 盗摄精品av一区二区三区| 国产欧美日韩视频| 波多野结衣电车痴汉| 日韩视频久久| 欧美激情网站在线观看| 日韩a级片在线观看 | 中文字幕日韩精品在线| 特级西西人体4444xxxx| 中文字幕av一区二区三区四区| 欧美视频一区在线观看| 男人天堂网视频| 高清毛片在线观看| 亚洲国产精品影院| 日韩极品视频在线观看| 最新av在线播放| 亚洲精品第一国产综合野| 裸体大乳女做爰69| 黄色在线播放网站| 中文乱码免费一区二区| 午夜精品一区二区在线观看的 | 国产主播在线看| 激情黄产视频在线免费观看| 亚洲超碰97人人做人人爱| 大陆av在线播放| 欧洲一区二区三区| 午夜精品福利在线| 欧美日韩在线一| 亚洲欧美韩国| 欧美性大战久久久久久久| 国产高清视频网站| 9999在线精品视频| 日韩欧美成人一区二区| 插我舔内射18免费视频| 外国成人在线视频| 亚洲色图50p| 超碰人人人人人人人| 天天色天天射综合网| 久久综合久久美利坚合众国| www欧美com| 亚洲视频高清| 欧美性受xxxx白人性爽| 免费av中文字幕| 久88久久88久久久| 成人羞羞视频免费| 欧美男男同志| 国产精品白丝在线| 日韩精品在线观看av| 精品国产第一福利网站| 欧美性受xxxx黑人xyx性爽| 免费成年人高清视频| 欧洲一区在线| 日韩精品在线免费播放| 少妇视频一区二区| 伊人久久成人| 国产精品久久久久久亚洲调教 | 亚洲欧美中文字幕| 欧美另类69xxxx| 欧美日本不卡| 欧洲亚洲妇女av| 亚洲手机在线观看| 成人精品鲁一区一区二区| 欧美日韩喷水| 国产精品一区二区三区视频网站| 五月婷婷另类国产| 男人午夜视频在线观看| 日韩极品在线| 久久夜色撩人精品| 国产女主播喷水视频在线观看| 久99久精品视频免费观看| 国产欧美日韩亚洲| 黄av在线播放| 欧美午夜精品久久久久久人妖 | 亚洲一区二区三区中文字幕在线观看| 亚洲精品视频免费在线观看| 99成人在线观看| 性欧美暴力猛交另类hd| 9a蜜桃久久久久久免费| 91精彩视频在线观看| 精品国产91久久久久久| www.色欧美| 精品中文一区| 国内精品400部情侣激情| 一级片视频播放| 26uuu欧美| www.好吊操| 成人亚洲精品| 一道本无吗dⅴd在线播放一区| 亚洲一区二区91| 狠狠色丁香婷婷综合| 欧美最大成人综合网| 国产美女高潮在线| 欧美va天堂va视频va在线| 国产黄色小视频网站| 日本不卡一区二区三区高清视频| 国产在线资源一区| 女子免费在线观看视频www| 欧美日韩精品二区第二页| 亚洲蜜桃精久久久久久久久久久久| 欧美激情aⅴ一区二区三区| 国产精品毛片a∨一区二区三区|国| 午夜视频免费看| 婷婷综合久久一区二区三区| 久久人妻少妇嫩草av蜜桃| 欧美精品18| 亚洲自拍高清视频网站| 黄视频网站在线看| 69精品人人人人| 日韩激情小视频| 韩国成人在线视频| 在线免费观看成人| 老司机精品视频网| 日韩少妇与小伙激情| 怡红院男人的天堂| 中文字幕不卡一区| 97超碰人人爽| 欧美一区二区三区另类| 99re在线视频上| 蜜臀av在线播放| 精品久久久久久久久久久久包黑料| 深夜福利影院在线观看| 国产成人在线电影| 久久成人福利视频| 日韩最新在线| 日韩av片永久免费网站| 国产中文在线视频| 精品视频1区2区| 精品自拍偷拍视频| 国产成人av福利| 免费一级特黄特色毛片久久看| 国产精品香蕉| 日韩av男人的天堂| 在线国产91| 91精品久久久久久久99蜜桃| 欧美人妻精品一区二区三区| 99精品在线免费| 国产情侣av自拍| 99久久影视| 国产传媒欧美日韩| 久久夜夜操妹子| 日韩天堂在线视频| 亚洲精品国产精品国| 狠狠躁夜夜躁人人爽超碰91| 国产第一页精品| 国产精品18久久久久| 国产女大学生av| 精品国产91| 亚洲v日韩v综合v精品v| av中文资源在线资源免费观看| 亚洲三级黄色在线观看| 国产又粗又猛又爽| 欧美日韩国产综合新一区| 亚洲ⅴ国产v天堂a无码二区| 韩国精品久久久| 日韩av一二三四区| 久久激情电影| 国产精品乱码视频| 秋霞国产精品| 欧美—级高清免费播放| 国产在线观看免费网站| 在线播放91灌醉迷j高跟美女 | 水蜜桃久久夜色精品一区的特点| 一区二区av| 欧美成人专区| 成人免费淫片视频软件| 在线xxxx| 国产亚洲一区精品| 亚洲风情第一页| 欧洲av在线精品| 日本熟妇一区二区| 亚洲欧洲99久久| 少妇真人直播免费视频| 国产成人免费在线观看不卡| 亚洲五月天综合| 激情综合亚洲| 资源网第一页久久久| 亚洲裸色大胆大尺寸艺术写真| 91天堂在线观看| 欧洲一区二区三区精品| 久久久亚洲天堂| 国产一二三区在线观看| 亚洲天堂av在线免费观看| 亚洲精品成av人片天堂无码 | 欧美wwwwwww| 午夜一级久久| 国产精品一色哟哟| 这里只有精品在线| 一区二区精品国产| 波多野结衣在线观看一区二区| 国内精品视频免费| 51亚洲精品| 99在线首页视频| 国产精品xnxxcom| 国产精品视频男人的天堂| 亚洲永久av| 97视频在线观看免费| 性网站在线观看| 久久精品国产亚洲一区二区| jizzjizz在线观看| 亚洲午夜激情免费视频| 欧美黄色小说| 国产网站欧美日韩免费精品在线观看 | 白浆在线视频| 久久久久久久一| 欧美videosex性欧美黑吊| 欧美另类在线播放| 18视频在线观看网站| 久久99精品视频一区97| 国产一区久久精品| 蜜臀久久99精品久久久无需会员 | 日韩av视屏| 亚洲精品720p| 亚洲欧美自偷自拍| 日韩久久精品成人| 欧美一区二区三区少妇| 日韩电影第一页| 无码国产精品96久久久久| 亚洲国产天堂久久综合| 午夜福利一区二区三区| 精品视频—区二区三区免费| 日本福利在线观看| 亚洲欧美精品suv| 黄色片在线播放| 中文字幕在线国产精品| 在线免费观看的av网站| 久久精品视频导航| av片在线观看| 隔壁老王国产在线精品| 1区2区3区在线| 欧美一级淫片videoshd| 免费看av不卡| 国产精品亚洲精品| 精品国产一区二区三区性色av| 成人av中文| 老牛影视av一区二区在线观看| 久久av二区| 日韩中文在线电影| 91传媒免费视频| 在线亚洲成人| 成人免费视频久久| 国产乱子伦视频一区二区三区| 最新版天堂资源在线| 2020国产精品自拍| www.日本高清视频| 一区二区激情视频| 狠狠人妻久久久久久| 欧美日韩激情一区二区三区| 性生活黄色大片| 亚洲天堂色网站| a视频在线观看| 日本高清不卡的在线| 婷婷精品久久久久久久久久不卡| av一区二区三区在线观看| 久久综合亚洲| 日韩在线视频在线| 久久亚洲图片| 色诱av手机版| 国产欧美日韩视频在线观看| 唐朝av高清盛宴| 日韩欧美亚洲综合| 精品国产亚洲AV| 亚洲欧美日韩一区二区在线 | 无码av免费一区二区三区试看| 国产黄色免费视频| 日韩一级欧美一级| 久蕉依人在线视频| 欧美激情一区二区三级高清视频| 国模视频一区| 国产一区视频观看| 偷偷www综合久久久久久久| 国产无套内射久久久国产| 国产老女人精品毛片久久| 亚洲国产欧美视频| 一个色综合av| 一级黄色免费看| 精品偷拍各种wc美女嘘嘘| 中文字幕中文字幕在线十八区| 国产97在线播放| 激情av综合| 国产 国语对白 露脸| 久久精品国产成人一区二区三区| 精品无码人妻一区| 亚洲一区二区在线视频| 在线观看色网站| 亚洲天堂男人天堂| 天堂资源在线| 国产精品久久久久久久久久久久午夜片 | 国产一区二区三区在线观看免费视频 | 538任你躁在线精品免费| 99久久99久久精品国产片果冻 | 亚洲三级观看| 中文字幕在线视频一区二区| 国产精品久久久久影视| 国产一级一级国产| 日韩精品一区二区三区第95| 福利小视频在线| 亚洲影院色在线观看免费| 97人人精品| 日本人视频jizz页码69| 国产女主播一区| 免费看污视频的网站| 亚洲精品一区二三区不卡| 草草视频在线| 国产欧美一区二区三区另类精品| 欧美激情综合色综合啪啪| 久久黄色一级视频| 亚洲精品一二三| 99热精品在线播放| 欧美理论片在线观看| 日韩精品久久久久久久软件91| 黄色网络在线观看| 国产精品影视在线观看| 免费麻豆国产一区二区三区四区| 欧美一区二区日韩一区二区| 18视频在线观看| 国产精品播放| 9国产精品视频| 亚洲一区二区三区无码久久| 欧美视频二区36p| 蜜桃视频在线观看网站| 国产成人精品综合| 日本在线电影一区二区三区| 天天干天天草天天| 日韩一区欧美小说| 精品人妻午夜一区二区三区四区| 欧美伦理91i| 超碰97成人| 99999精品视频| 国产精品网站一区| 国产99视频在线| 国模极品一区二区三区| 亚洲人和日本人hd| 亚洲精品视频导航| 综合色天天鬼久久鬼色| 肥臀熟女一区二区三区| 国产69久久精品成人看| 欧美日韩在线网站| 在线播放av中文字幕| 亚洲制服丝袜在线| 天堂v视频永久在线播放| 一区二区三区av电影| 国产精品视频无码| 久久久久女教师免费一区| 女人抽搐喷水高潮国产精品| 免费在线观看的毛片| 国产精品国产三级国产三级人妇| 国产成人精品白浆久久69| 久久全国免费视频| 欧美精品一区二区三区精品| 午夜福利123| 黄色一区二区三区| 91se在线| 国产精品99久久久久久久| 丝袜国产日韩另类美女| 欧美成人免费看| 日韩精品丝袜在线| 国产不卡精品| 久久久999视频| 亚洲欧洲一区二区三区| 天天摸天天干天天操| 国产精品最新在线观看| 悠悠资源网久久精品| 中文字幕第24页| 精品久久久久香蕉网| 免费视频观看成人| 成年人视频观看| 日韩理论片网站| 噜噜噜在线观看播放视频| 亚洲xxxx18| 蜜乳av一区二区| 欧美另类一区二区| 久久国产精品视频| 波多野结衣在线观看一区二区| 国产高潮视频在线观看| 91精品国产入口|