精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

挑戰(zhàn)AI數(shù)學推理極限!大規(guī)模形式化數(shù)學基準FormalMATH發(fā)布,最強模型成功率僅16%

人工智能 新聞
盡管大語言模型(LLM)在自然語言處理和代碼生成等領域取得顯著進展,但面對需要嚴格邏輯推導的數(shù)學定理證明任務時,其能力仍面臨嚴峻挑戰(zhàn)。

最強AI模型面對5560道數(shù)學難題,成功率僅16.46%?背后真相大揭秘。

香港中文大學、西湖大學、MAP、浙江大學、馬克斯·普朗克智能系統(tǒng)研究所等機構聯(lián)合推出FormalMATH形式化數(shù)學推理基準測試,含5560道經過嚴格驗證的數(shù)學題,覆蓋從奧數(shù)到大學水平的代數(shù)、微積分、數(shù)論等領域。

圖片

形式化數(shù)學推理是人工智能領域公認的核心難題之一。

盡管大語言模型(LLM)在自然語言處理和代碼生成等領域取得顯著進展,但面對需要嚴格邏輯推導的數(shù)學定理證明任務時,其能力仍面臨嚴峻挑戰(zhàn)。

FormalMATH基準測試首次系統(tǒng)性評估了當前LLM驅動的定理證明器的真實水平。

結果顯示:即便是表現(xiàn)最佳的模型Kimina-Prover ,在實際計算資源限制下(Pass@32采樣量),成功率也僅為16.46% ;而多數(shù)模型在微積分等領域的表現(xiàn)接近「隨機猜測」

FormalMATH:「超大規(guī)模」的形式化數(shù)學推理基準

規(guī)模突破:22.8倍于現(xiàn)有基準

FormalMATH包含5560個經過Lean4編譯器驗證的數(shù)學命題,涵蓋代數(shù)、數(shù)論、微積分、離散數(shù)學等12個子領域,問題難度從國際數(shù)學奧林匹克(IMO)競賽級延伸至本科課程,規(guī)模是經典基準MiniF2F的22.8倍。

構建創(chuàng)新:人類在循環(huán)中的自動化流程用于自動形式化和語義一致性檢測

為解決傳統(tǒng)形式化數(shù)據(jù)依賴專家手動標注的瓶頸,研究團隊提出了一套「三階段過濾」框架:

  1. 多LLM協(xié)同翻譯 :通過微調后的Qwen2.5-7B-Coder、Deepseek-Prover-V1.5-Base等模型將自然語言問題轉為多個候選的形式化命題;
  2. 自動化驗證 :利用Lean4編譯器篩選語法正確命題,并通過多LLM語義一致性校驗(如o1-mini、Claude-3.5)過濾錯誤;
  3. 否定反證過濾 :調用LLM證明器嘗試「證偽」命題,排除無法成立的陳述。該流程在人工審核前保留了72.09%的高質量命題,大幅降低專家工作量。

最后,團隊召集了12名人類奧賽金牌級別的專家花了22天檢測自然語言數(shù)學命題與Lean4形式化命題之間的語義一致性。

圖片

現(xiàn)有LLM證明器表現(xiàn):代數(shù)尚可,微積分「翻車」

整體低迷:16%成功率暴露能力斷層

在FormalMATH全量數(shù)據(jù)集上,主流LLM證明器的表現(xiàn)遠低于預期:

  • 最佳模型Kimina-Prover(Pass@32):16.46%;
  • 次優(yōu)模型STP(Pass@32):13.87%

圖片

領域偏見:代數(shù)強,微積分弱

現(xiàn)有模型在代數(shù)等領域表現(xiàn)較好,但在微積分等其他領域表現(xiàn)較差,顯示出明顯的領域偏差。

圖片

錯誤模式:濫用「捷徑戰(zhàn)術」

分析顯示,LLM證明器頻繁濫用自動化策略(如aesop、linarith),試圖用單一步驟替代多步推理,導致以下典型錯誤(以DeepSeek-RL為例):

  1. 冗余假設(34%): 引入無關前提條件
  2. 不完整證明(62%): 缺失關鍵推導步驟, 無法形成完整構造證明
  3. 自動化策略誤用 (65.0%):錯誤調用自動化工具(如用integral_mono_on跳過控制收斂定理驗證)
  4. 無法正確應對不等式 (13.0%):錯誤地(例如在指數(shù)爆炸的情況)過度依賴linarith或者nlinarith等自動化不等式計算策略

突破方向:讓LLM學會「嚴謹思考」

技術瓶頸:自然語言引導反拖后腿

研究團隊發(fā)現(xiàn)一個反直覺現(xiàn)象:在鏈式思維(CoT)場景中,提供自然語言解題思路反而會降低證明成功率。

例如,DeepSeek-V1.5-RL模型在普通的CoT提示時表現(xiàn)優(yōu)于引入人為自然語言引導的情況。

圖片

未來路徑:從「戰(zhàn)術依賴」到「戰(zhàn)略規(guī)劃」

未來,提升LLM形式化推理能力需從三方面突破:

  1. 強化多步規(guī)劃 :減少對aesop等單步戰(zhàn)術的依賴,設計分層推理架構;
  2. 跨領域泛化 :通過課程學習(Curriculum Learning)平衡代數(shù)/微積分等領域的訓練數(shù)據(jù);
  3. 人機協(xié)同驗證 :開發(fā)交互式證明輔助工具,讓LLM與人類專家協(xié)同完成復雜定理證明。

開源開放:數(shù)據(jù)、代碼與模型已全面公開

研究團隊呼吁學術界與工業(yè)界共同推進形式化數(shù)學推理技術的發(fā)展,助力AI在數(shù)學發(fā)現(xiàn)、形式化驗證等領域實現(xiàn)更可靠的應用。

FormalMATH基準測試的代碼、訓練數(shù)據(jù)及評估模型已向公眾開放:

論文鏈接 :https://arxiv.org/pdf/2505.02735

項目倉庫 :https://github.com/Sphere-AI-Lab/FormalMATH-Bench

基準數(shù)據(jù)集 :https://huggingface.co/SphereLab

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-04 09:00:00

2023-12-06 13:44:00

模型訓練

2025-07-29 00:15:00

2025-02-25 14:46:59

2024-12-24 14:10:00

數(shù)據(jù)模型訓練

2022-07-18 10:05:16

AI挑戰(zhàn)方案

2022-11-21 10:18:24

AI谷歌

2025-02-13 12:23:28

2024-11-11 13:12:03

2025-06-18 08:49:00

模型系統(tǒng)AI

2025-06-04 13:53:22

代碼模型AI

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-05-12 09:05:00

AI大模型開源

2025-04-14 00:10:00

人工智能AIAI 模型

2025-01-23 16:25:23

2023-11-13 18:19:35

AI訓練

2023-11-10 15:36:10

2025-07-30 09:06:02

2025-09-02 04:22:00

KubernetesvLLM語言模型

2023-06-30 17:59:27

Ray離線推理
點贊
收藏

51CTO技術棧公眾號

日韩视频三区| 电影一区中文字幕| 久久精品亚洲精品国产欧美| 国产精品91在线观看| 97在线观看免费视频| 亚洲精品777| 午夜欧美在线一二页| 视频一区视频二区视频| 99热这里只有精品9| 国产视频一区在线观看一区免费| 夜夜躁日日躁狠狠久久88av| 中文字幕一二三区| 亚洲最大网站| 亚洲精品视频在线观看网站| 欧美日韩一区二 | 亚洲黄色网址大全| 91麻豆精品激情在线观看最新 | 国产婷婷精品av在线| 91久久久久久久| 国产成人在线免费视频| 999精品视频| 亚洲精品视频播放| 老女人性生活视频| 97成人超碰| 婷婷综合久久一区二区三区| 中文字幕一区二区三区四区五区 | 凹凸精品一区二区三区| 国产一区二区三区四区三区四| 亚洲人成网站777色婷婷| 成人一区二区三区仙踪林| 欧美影视资讯| 粉嫩老牛aⅴ一区二区三区| 影音先锋成人资源网站| 在线观看a视频| 99久久久精品免费观看国产蜜| 亚洲一区中文字幕在线观看| 国产精品欧美综合| 亚洲自啪免费| 久久久噜噜噜久久久| 三级黄色免费观看| 欧美日韩一区二区三区视频播放| 日韩电视剧免费观看网站| 久久久久亚洲av无码网站| 免费日韩成人| 欧美日韩激情一区二区| 丝袜制服一区二区三区| 欧美电影网站| 色综合色综合色综合| www黄色日本| 九九精品调教| 亚洲国产成人tv| 伊人网在线免费| av毛片在线播放| 亚洲精品免费在线播放| 日韩亚洲欧美一区二区| 青青草原国产在线| 一区二区欧美视频| 天堂а√在线中文在线| √天堂8在线网| 亚洲精品你懂的| 裸体裸乳免费看| 国产乱色在线观看| 日韩毛片精品高清免费| 制服国产精品| 18加网站在线| 亚洲国产一区视频| 久久国产精品视频在线观看| 免费看男女www网站入口在线 | 88久久精品| 精品粉嫩超白一线天av| 国产毛片毛片毛片毛片毛片毛片| 牛牛影视一区二区三区免费看| 日韩av一区在线观看| 五月开心播播网| 国产一区毛片| www.亚洲天堂| 久久久无码一区二区三区| 在线看片日韩| 日韩免费在线播放| 亚洲自拍第二页| 国产精品亚洲人在线观看| 国产精品久久7| 日韩a级作爱片一二三区免费观看| 久久久久久久国产精品影院| 亚洲国产精品一区在线观看不卡 | 国产高清第一页| a级精品国产片在线观看| 欧美福利精品| 免费av网站在线看| 亚洲国产成人高清精品| 激情五月亚洲色图| 国产精品毛片无码| 亚洲成年人在线播放| 国产精品揄拍100视频| 清纯唯美亚洲综合一区| 久久精品国产清自在天天线| 久久网免费视频| 视频一区二区中文字幕| 国产精品久久久久久亚洲调教| 国产乱叫456在线| 成人av一区二区三区| 日本高清久久一区二区三区| 黄色av电影在线播放| 无吗不卡中文字幕| www午夜视频| 精品久久对白| 久久中文字幕一区| 久久久精品视频网站| 国产剧情一区在线| 日产国产精品精品a∨| 在线免费观看污| 在线看日本不卡| 中文字幕99页| 91蜜臀精品国产自偷在线| 97久久精品人人澡人人爽缅北| 亚洲视频在线免费播放| 99久久国产综合精品麻豆| 在线免费一区| 黄色综合网址| 亚洲激情在线观看视频免费| 一区二区三区影视| 日本aⅴ免费视频一区二区三区 | 大色综合视频网站在线播放| 久久久久久尹人网香蕉| 91福利免费视频| 国产亚洲婷婷免费| 日本在线xxx| 伊人久久噜噜噜躁狠狠躁| 一级做a爰片久久毛片美女图片| 国产主播在线播放| 国产呦萝稀缺另类资源| 亚洲精品第一区二区三区| 国产社区精品视频| 亚洲国产成人精品久久久国产成人一区| 亚洲熟女少妇一区二区| 丝袜a∨在线一区二区三区不卡| 国产精品一区在线观看| h片在线播放| 欧美另类高清zo欧美| 中文字幕第20页| 亚洲欧美日韩国产一区二区| 国产精品美女黄网| 欧美24videosex性欧美| 欧美一卡二卡在线| 91 在线视频| 国内成人自拍视频| 中文字幕人成一区| 高清精品久久| 欧美成人精品激情在线观看| 国产精品无码AV| 一区精品在线播放| 亚洲涩涩在线观看| 婷婷精品进入| 亚洲一区二区日本| 中文国产字幕在线观看| 日韩欧美一二三| 免费人成年激情视频在线观看| 国产精品99精品久久免费| av影院在线播放| jazzjazz国产精品久久| 高清欧美性猛交| 天天射天天色天天干| 欧美日韩色婷婷| 精品久久久久久中文字幕人妻最新| 久久国产精品久久w女人spa| 免费久久一级欧美特大黄| 欧美无毛视频| 日韩中文字幕在线| av加勒比在线| 亚洲高清免费在线| 老司机福利av| 久久99久久久久久久久久久| 日韩精品一区二区三区电影| japanese色系久久精品| 欧美壮男野外gaytube| 国产福利在线观看| 欧美精品日韩精品| 激情五月婷婷在线| 91亚洲午夜精品久久久久久| 成人免费观看视频在线观看| 成人vr资源| 91精品国产综合久久久久久丝袜| free性m.freesex欧美| 亚洲欧美色图片| 国产男男gay网站| 午夜在线成人av| 毛片aaaaaa| 国产激情视频一区二区三区欧美| 日韩国产一级片| 成人av资源电影网站| 999精品在线观看| 亚洲欧美一区二区三区| xxav国产精品美女主播| 日韩一级片免费在线观看| 日本精品视频一区二区| 校园春色 亚洲| 久久午夜羞羞影院免费观看| 亚洲免费黄色录像| 99热精品在线| 中文字幕剧情在线观看一区| 欧美久久精品| 91久久久久久久久久久久久| 91精品论坛| 久久99久久亚洲国产| 国产三级在线观看| 精品精品国产高清一毛片一天堂| 一级黄色在线观看| 亚洲午夜久久久| 战狼4完整免费观看在线播放版| 高清在线不卡av| 国产福利在线免费| 国产免费成人| 99久久久精品视频| 曰本一区二区三区视频| 99久久伊人精品影院| 草民电影神马电影一区二区| 亚州成人av在线| 成人video亚洲精品| 一区二区欧美亚洲| 亚洲av成人无码久久精品老人 | 亚洲产国偷v产偷v自拍涩爱| 欧美性感一类影片在线播放| 天天操天天爽天天干| 亚洲黄色小视频| 五月天婷婷丁香网| 国产亚洲精久久久久久| 一本加勒比波多野结衣| 国产福利视频一区二区三区| 色免费在线视频| 久久综合影视| 国产在线青青草| 亚洲精品社区| www.成年人视频| 中国成人一区| 正在播放亚洲| 天天色综合色| 午夜精品一区二区在线观看 | 亚洲人成网站色ww在线| 人人妻人人澡人人爽精品日本| 日韩网站在线看片你懂的| 91麻豆视频在线观看| 欧美写真视频网站| 自拍偷拍18p| 欧洲日韩一区二区三区| 黄色免费av网站| 在线观看欧美黄色| 波多野结衣在线电影| 一本久久精品一区二区| 亚洲GV成人无码久久精品| 富二代精品短视频| 天天爽夜夜爽夜夜爽精品| 婷婷丁香久久五月婷婷| 好吊操这里只有精品| 狠狠色狠狠色综合日日五| 国产专区第一页| 欧美性猛交视频| www.com亚洲| 欧美又粗又大又爽| 在线观看日韩一区二区| 欧美高清激情brazzers| 国产日韩欧美一区二区东京热 | 亚洲色欧美另类| 亚洲精品一区二区三区婷婷月 | 国产suv精品一区| 韩国一区二区三区美女美女秀 | 亚洲美女视频网| 国产一级网站视频在线| 视频在线观看99| 国产二区三区在线| 欧美激情在线狂野欧美精品| 操人在线观看| 国产精品久久久久77777| 日日夜夜一区| 成人在线观看网址| 四虎5151久久欧美毛片| 三级三级久久三级久久18| 色一区二区三区四区| 男人添女荫道口喷水视频| 国产视频一区欧美| 99视频在线视频| 国产成人小视频| 一区二区不卡免费视频| 国产精品乱码一区二三区小蝌蚪| 天天操天天操天天操天天操天天操| 艳妇臀荡乳欲伦亚洲一区| 欧美特黄aaaaaa| 欧美精品久久一区| 人人妻人人澡人人爽久久av | 日韩亚洲电影在线| 亚洲av成人精品毛片| www日韩欧美| 国产va在线视频| 成人在线中文字幕| 欧美尿孔扩张虐视频| 亚洲一区bb| 亚洲精品乱码久久久久久蜜桃麻豆| wwwxxx黄色片| 国产一区二区日韩精品| 亚洲天堂2024| 中文字幕一区二区日韩精品绯色| 日韩精品一卡二卡| 欧美日韩欧美一区二区| 人妻妺妺窝人体色www聚色窝| 一区二区三区精品99久久| 任你弄在线视频免费观看| 国产精品1234| 国内精品偷拍| 伊人婷婷久久| 免费视频一区二区三区在线观看| 香蕉视频xxxx| 国产偷国产偷亚洲高清人白洁| 久久久全国免费视频| 欧美日本韩国一区二区三区视频| 天天干视频在线| 欧美成aaa人片免费看| 欧美日韩在线精品一区二区三区激情综合 | 激情五月色婷婷| 91精品国产综合久久婷婷香蕉| 久久精品色图| 韩国三级日本三级少妇99| 外国成人毛片| 日本在线播放一区| 99视频精品| 丰满少妇中文字幕| 日韩一区中文字幕| 中文字幕乱码一区二区 | 91亚洲精品丁香在线观看| 欧美色图一区| 国产视频一区二区视频| av中文一区二区三区| 久久久精品91| 欧美一区二区在线免费播放| 性开放的欧美大片| 国产精品吹潮在线观看| 九九精品久久| 虎白女粉嫩尤物福利视频| 99精品久久只有精品| 福利一区二区三区四区| 日韩欧美在线一区二区三区| 女女色综合影院| 国产欧美久久久久久| 欧美在线观看视频一区| 欧美日韩在线免费播放| 久久久噜噜噜久噜久久综合| 国产高潮久久久| 日韩大片免费观看视频播放| 午夜伦理福利在线| 久久精品日产第一区二区三区精品版| 亚洲国产影院| 800av在线播放| 婷婷综合五月天| 日本天堂在线| 国产成人精品在线播放| 国产99久久精品一区二区300| 久久久久久久久久久久久国产精品 | 精品久久香蕉国产线看观看gif| 亚洲精品久久久久久久久久久久久久| 久99久在线视频| 超碰cao国产精品一区二区| 欧美日韩不卡在线视频| 不卡区在线中文字幕| 国产成人无码一区二区三区在线 | 爱久久·www| 国产精品亚洲第一区| 亚洲第一偷拍| 涩视频在线观看| 精品久久久久久久久久久久久| 午夜在线观看视频18| 日本高清不卡的在线| 欧美久久综合网| √天堂资源在线| 亚洲国产视频a| 免费在线看v| 国产伦精品免费视频| 综合激情视频| 国产福利在线观看视频| 欧美在线你懂得| 亚洲国产精品精华素| 精品国产日本| 蜜桃视频第一区免费观看| 中文字幕亚洲欧美日韩| 亚洲成人a级网| 成人做爰视频www网站小优视频| 亚洲一区二区三区加勒比 | 亚洲欧美日韩精品一区二区| b站大片免费直播| 8v天堂国产在线一区二区| 日本片在线看| 日韩国产欧美一区| 国产一区二区不卡老阿姨| 国产小视频在线看| 亚洲色图美腿丝袜| 国产一区二区三区黄网站| 国产视频一视频二| 国产精品国产精品国产专区不蜜| 亚洲美女福利视频| 国产精品国模在线| 亚洲婷婷免费| 992在线观看| 亚洲激情视频在线播放|