精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越DeepSeek-R1,數(shù)學(xué)形式化準(zhǔn)確率飆升至84% | 字節(jié)&南大開源

人工智能 新聞
字節(jié)跳動Seed團(tuán)隊(duì)與南京大學(xué)聯(lián)合發(fā)布CriticLean框架,一舉將數(shù)學(xué)自然語言到Lean 4代碼的形式化準(zhǔn)確率從38%提升至84%。

當(dāng)人工智能已經(jīng)能下圍棋、寫代碼,如何讓機(jī)器理解并證明數(shù)學(xué)定理,仍是橫亙在科研界的重大難題。

字節(jié)跳動Seed團(tuán)隊(duì)與南京大學(xué)聯(lián)合發(fā)布CriticLean框架,一舉將數(shù)學(xué)自然語言到Lean 4代碼的形式化準(zhǔn)確率從38%提升至84%。

該框架創(chuàng)新性地將評估模型置于核心位置。通過強(qiáng)化學(xué)習(xí)訓(xùn)練的CriticLeanGPT模型,能像數(shù)學(xué)專家一樣精準(zhǔn)判斷形式化代碼是否貼合原始語義,配合迭代優(yōu)化機(jī)制,讓生成的定理證明既符合語法規(guī)范,又忠實(shí)于數(shù)學(xué)邏輯。

?前論?和數(shù)據(jù)代碼倉庫均已對外公開,歡迎開源使用。

圖片

數(shù)學(xué)形式化領(lǐng)域的核心挑戰(zhàn)

將自然語言描述的數(shù)學(xué)命題轉(zhuǎn)化為機(jī)器可驗(yàn)證的形式化代碼(如Lean 4定理),是自動化定理證明領(lǐng)域的基礎(chǔ)性難題,其核心挑戰(zhàn)不僅在于語法層面的準(zhǔn)確轉(zhuǎn)換,更在于對數(shù)學(xué)語義的深度理解與忠實(shí)還原。

盡管現(xiàn)有研究在生成模型與編譯有效性上取得一定進(jìn)展,但在復(fù)雜問題的語義對齊上仍存在顯著瓶頸,具體體現(xiàn)在以下三方面:

  • 語義鴻溝:自然語言數(shù)學(xué)命題的隱含條件等難精準(zhǔn)映射為形式邏輯,易出現(xiàn)前提翻譯偏差等問題,過往方法因缺語義一致性校驗(yàn),導(dǎo)致大量邏輯錯誤的形式化結(jié)果。
  • 評價(jià)缺位:對形式化結(jié)果的評價(jià)依賴編譯檢查或 LLM 簡單判斷,存在錯誤類型覆蓋不全、評價(jià)可靠性不足的問題,難以識別邏輯矛盾等。
  • 數(shù)據(jù)瓶頸:現(xiàn)有數(shù)學(xué)形式化數(shù)據(jù)集規(guī)模和多樣性不足、難度分布單一、語義校驗(yàn)缺失,制約了模型應(yīng)對復(fù)雜數(shù)學(xué)命題的能力。

引入Critic角色以實(shí)現(xiàn)可靠形式化

上述挑戰(zhàn)的核心在于:形式化流程中“評價(jià)”與“生成”的割裂。

CriticLean框架將引入強(qiáng)化學(xué)習(xí)的 Critic 模型,通過訓(xùn)練專門的語義評價(jià)模型(CriticLeanGPT)、結(jié)合 Lean 4 編譯器反饋進(jìn)行迭代生成。系統(tǒng)性解決語義對齊、評價(jià)可靠性與數(shù)據(jù)質(zhì)量問題,為數(shù)學(xué)自動化形式化提供了全新范式。

圖片圖1:CriticLean框架通過編譯器與評估器的雙重反饋,實(shí)現(xiàn)數(shù)學(xué)形式化的迭代優(yōu)化

CriticLeanGPT:會“挑錯”的數(shù)學(xué)評估專家

團(tuán)隊(duì)基于Qwen2.5和Qwen3系列模型,通過兩步訓(xùn)練打造專業(yè)評估器:

  • 有監(jiān)督微調(diào)(SFT):在4.8萬條包含:數(shù)學(xué)、代碼以及數(shù)學(xué)語句-形式化代碼對一致性相關(guān)的Critic數(shù)據(jù)CriticLeanInstruct數(shù)據(jù)集上訓(xùn)練,增強(qiáng)其針對語義判斷的評估能力。
  • 強(qiáng)化學(xué)習(xí)優(yōu)化(RL):采用GRPO算法,以“判斷是否準(zhǔn)確”和“輸出格式是否規(guī)范”作為獎勵信號,讓模型學(xué)會在評估中迭代提升。

該模型能識別12類常見錯誤,包括類型錯誤(占比24.9%)、數(shù)學(xué)表示錯誤(23.8%)等,能夠發(fā)現(xiàn)“代碼編譯通過但邏輯偏離原題”的隱性問題。

圖片

△圖2:不同類型錯誤的分布

CriticLeanBench:首個聚焦形式化任務(wù)語義評估的基準(zhǔn)測試

CriticLeanBench是用于評估模型在數(shù)學(xué)形式化任務(wù)中關(guān)鍵推理能力的基準(zhǔn)測試,旨在全面衡量模型將自然語言數(shù)學(xué)陳述轉(zhuǎn)化為經(jīng)形式驗(yàn)證的定理聲明等方面的表現(xiàn).

其構(gòu)建和實(shí)現(xiàn)過程如下:

CriticLeanBench 在數(shù)據(jù)收集階段,從多個數(shù)據(jù)來源選取數(shù)學(xué)陳述及對應(yīng)的Lean 4 陳述,提交Lean 4陳述到編譯器。1)對于編譯失敗的語句,隨機(jī)采樣保留編譯器反饋信息。2)對于編譯成功的部分,通過使用 DeepSeek R1 結(jié)合專家校驗(yàn)的方式保留正確和錯誤的樣本(錯誤的樣本保留錯誤信息)。

  • 數(shù)據(jù)來源多樣:數(shù)學(xué)陳述選取了Omni-MATH、AIME、U-MATH等多個數(shù)據(jù)源,這些數(shù)據(jù)源涵蓋了不同難度層次和數(shù)學(xué)領(lǐng)域的問題。有助于更全面準(zhǔn)確地評估模型在不同數(shù)學(xué)內(nèi)容上的表現(xiàn)。
  • 覆蓋多種錯誤類型:CriticLeanBench 覆蓋語法錯誤、語義錯誤、邏輯錯誤等多種問題,全面考察模型能力。
  • 確保評估可靠有效:通過專家審查和大模型驗(yàn)證相結(jié)合的方式來保證評估基準(zhǔn)的可靠性和有效性。在不同類別中選取具有代表性的樣本,確保涵蓋各種錯誤類型,從而使評估結(jié)果更可靠。

圖片

△圖3: CriticLeanBench 構(gòu)建的概覽

圖片

△表1:CriticLeanBench 數(shù)據(jù)集統(tǒng)計(jì)信息與各類代碼基準(zhǔn)數(shù)據(jù)集的對比

在包含500組測試樣本的CriticLeanBench基準(zhǔn)中,CriticLeanGPT的準(zhǔn)確率達(dá)到87%,遠(yuǎn)超GPT-4o(67.8%)和Claude 3.5(74.2%),甚至超過DeepSeek-R1(84%)的表現(xiàn)。

  • 核心指標(biāo):Qwen3-32B-RL版本準(zhǔn)確率達(dá)87%,true negative rate(正確識別錯誤樣本)達(dá)85.6%,遠(yuǎn)超GPT-4o的40.0%。
  • 對比優(yōu)勢:在相同模型規(guī)模下,經(jīng)CriticLean訓(xùn)練的Qwen2.5-32B模型準(zhǔn)確率(78.6%)較基礎(chǔ)版(73.0%)提升5.6%,且對錯誤樣本的識別能力提升明顯。

圖片

△表2:在 CriticLeanBench 上的性能表現(xiàn)

模型大小的Scaling分析表明,模型性能隨規(guī)模提升穩(wěn)步增強(qiáng)。

圖片

△圖4: 大語言模型在 CriticLeanBench 上的擴(kuò)展性分析(? 表示閉源的大語言模型)

FineLeanCorpus:28.5萬條高質(zhì)量形式化數(shù)據(jù)

依托CriticLean框架,團(tuán)隊(duì)構(gòu)建了目前規(guī)模最大、質(zhì)量最高的數(shù)學(xué)形式化數(shù)據(jù)集之一:

  • 規(guī)模與多樣性:包含285,957條樣本,覆蓋從高中奧數(shù)到大學(xué)數(shù)學(xué)的16個領(lǐng)域,其中高難度子集(Diamond)含36,033條問題。
  • 質(zhì)量保障:每條樣本均通過編譯器語法檢查與CriticLeanGPT語義驗(yàn)證,人工抽檢準(zhǔn)確率達(dá)84%以上。
  • 結(jié)構(gòu)優(yōu)勢:相比LeanWorkbook,其難度分布更均衡(多峰分布),領(lǐng)域覆蓋更全面(如解析幾何樣本量提升300%)。

圖片

△表3:FineLeanCorpus 的不同來源及數(shù)據(jù)集統(tǒng)計(jì)信息

與高度偏斜的 Lean-Workbook 相比,F(xiàn)ineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布

圖片

△表4:數(shù)據(jù)集統(tǒng)計(jì)信息的對比

與高度偏斜的 Lean-Workbook 相比,F(xiàn)ineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布

圖片

△圖5:數(shù)據(jù)集統(tǒng)計(jì)信息的對比()

實(shí)驗(yàn)結(jié)果:大幅提高數(shù)學(xué)形式化準(zhǔn)確率

將該框架應(yīng)用于自動形式化流程,配合Kimina-Autoformalizer-7B生成器,準(zhǔn)確率從38%(單輪生成)提升至84%(多輪迭代優(yōu)化),其中語義評估環(huán)節(jié)貢獻(xiàn)了30個百分點(diǎn)的提升。

圖片

△表5:自動化形式化性能的人類評估準(zhǔn)確率結(jié)果

論文鏈接:https://arxiv.org/pdf/2507.06181
項(xiàng)目鏈接:https://github.com/multimodal-art-projection/CriticLean

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-10 08:30:00

AI模型訓(xùn)練

2025-02-25 14:46:59

2025-02-03 14:17:27

2025-02-19 08:00:00

2025-09-08 09:06:16

2025-03-04 09:00:00

2019-01-10 14:49:14

開源技術(shù) 工具包

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2025-03-13 11:07:30

2025-06-17 17:14:01

DeepSeekSOTA開源

2023-09-19 14:56:00

模型訓(xùn)練

2025-03-06 10:00:00

2025-02-19 08:33:18

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開源

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2025-03-13 08:13:47

DeepSeekMLLMVision-R1
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

日本黄色www| 狠狠色噜噜狠狠狠狠色吗综合| 一道本在线观看| 久久不卡日韩美女| 亚洲精品高清在线| 免费观看成人高| 国产又粗又猛又黄| 伊人久久成人| 中文字幕无线精品亚洲乱码一区| 手机av在线网站| 亚洲精品mv| 亚洲欧美一区二区久久| 国精产品一区二区| 亚洲综合视频在线播放| 欧美精品成人| 在线视频欧美性高潮| 免费观看一区二区三区| 日日夜夜天天综合| 亚洲国产精品一区二区www| 视频一区二区在线| 神马午夜电影一区二区三区在线观看| 男人的j进女人的j一区| 久久久久国产精品免费| 欧美另类69xxxx| 精品精品国产毛片在线看| 欧美日韩一级黄| 国产日韩一区二区在线观看| 黄色网址在线免费| 久久女同精品一区二区| 成人欧美一区二区| 国产模特av私拍大尺度| 狂野欧美性猛交xxxx巴西| 久久乐国产精品| 欧美日韩午夜视频| 欧美熟乱15p| 日韩精品中文字幕在线播放| 最好看的中文字幕| 亚洲国产精选| 色哟哟一区二区| 草草久久久无码国产专区| 青青在线视频| 一区二区三区精品在线| 樱空桃在线播放| 日韩伦理在线电影| 国产欧美一区二区精品性色超碰| 久久国产精品免费一区| 黄色成人一级片| 国产99一区视频免费| 91在线免费看网站| 国产乱码精品一区二区三区精东| 日本怡春院一区二区| 日本精品在线视频| 亚洲大片免费观看| 天堂va蜜桃一区二区三区| 日韩av免费看| 亚洲精品国产无码| 日本伊人色综合网| 国产精品无码专区在线观看 | 精品久久久久久久久久久久久久| 99国产精品白浆在线观看免费| av香蕉成人| 亚洲精品高清在线| 日本福利视频一区| 末成年女av片一区二区下载| 亚洲制服丝袜在线| 自拍另类欧美| 青春草在线视频| 精品国产91乱高清在线观看 | 日本不卡中文字幕| 国产精品视频公开费视频| 中文字幕一区二区人妻| 久久99国产精品久久99| 91日本视频在线| 国产成人精品无码高潮| 成人美女视频在线看| 精品毛片久久久久久| 蝌蚪视频在线播放| 国产精品久久午夜| 日本a级片在线播放| av影视在线| 色一情一乱一乱一91av| av污在线观看| 盗摄牛牛av影视一区二区| 日韩av在线网站| 天天舔天天操天天干| 亚洲区综合中文字幕日日| 午夜精品美女自拍福到在线| 中文字幕日韩免费| 国产中文字幕一区| 精品一区二区国产| 色综合久久影院| 亚洲午夜免费电影| 婷婷激情四射五月天| 日韩一二三区| 亚洲欧洲xxxx| 美国黄色小视频| 新67194成人永久网站| 国产精品视频资源| 国内爆初菊对白视频| 久久久综合精品| 久久免费看毛片| 在线最新版中文在线| 欧美日本一区二区在线观看| 精品人妻一区二区三| 欧美有码在线| 超碰97人人做人人爱少妇| 亚洲不卡视频在线观看| 麻豆精品视频在线观看免费| 蜜桃av噜噜一区二区三| 日av在线播放| 亚洲亚洲精品在线观看| www.久久91| 美日韩中文字幕| 欧美日本啪啪无遮挡网站| 亚洲精品国产精品国自产网站按摩| 国产成人午夜精品影院观看视频| 日韩av不卡在线播放| 国产一线二线在线观看| 欧美一区三区二区| 亚洲人成人无码网www国产| 在线精品亚洲| 亚洲最大福利视频网| 福利视频在线看| 狠狠躁夜夜躁久久躁别揉| 无人码人妻一区二区三区免费| 欧美裸体在线版观看完整版| 国产91成人在在线播放| 亚洲AV无码国产精品午夜字幕| 国产精品国产三级国产aⅴ无密码| 青娱乐自拍偷拍| 一区二区三区视频播放| 久久国产加勒比精品无码| 中文字幕日本人妻久久久免费| 97超碰欧美中文字幕| 欧美高清中文字幕| 国产区一区二| 久久精品国产亚洲精品| 中文字幕乱码在线观看| 国产亚洲美州欧州综合国| 国产亚洲综合视频| 日韩精品福利一区二区三区| 欧美华人在线视频| 亚洲精品喷潮一区二区三区| 亚洲精品免费在线播放| 手机在线观看日韩av| 亚洲v在线看| 亚洲一区二区三区视频| av毛片在线播放| 日韩欧美国产麻豆| 欧美黄色一区二区三区| 国产成人aaa| 国产精品日韩三级| 精品网站999| 久久久av网站| www.亚洲天堂.com| 亚洲电影在线播放| 日本一区二区在线观看视频| 亚洲二区精品| 欧美精品免费观看二区| 97成人资源| 伊人久久精品视频| 亚洲自拍第二页| 中文字幕日本不卡| ass极品水嫩小美女ass| 精品96久久久久久中文字幕无| 国产综合色一区二区三区| 成年人精品视频| 男人添女荫道口图片| 国产精品久久久久77777丨| 在线观看日韩专区| 91好色先生tv| 亚洲综合区在线| 日韩Av无码精品| 爽爽淫人综合网网站| 一本一本a久久| 亚洲电影一区| 日韩av色在线| 久久99精品久久久久久野外| 日韩精品一区二区在线| 欧美一区二区三区四| 国产日韩av一区二区| 日韩精品aaa| 99精品视频免费观看| 日韩精品欧美专区| 日本免费精品| 日韩美女在线播放| av香蕉成人| 精品在线欧美视频| 国产精品无码专区av免费播放| 一级中文字幕一区二区| 91成人破解版| 国产精品白丝jk黑袜喷水| www.爱色av.com| 日韩精品诱惑一区?区三区| 国产精品v欧美精品v日韩精品| 中文日产幕无线码一区二区| 久久亚洲影音av资源网| 天天影院图片亚洲| 3d动漫精品啪啪1区2区免费| 成年免费在线观看| 亚洲特黄一级片| 中文字幕在线看高清电影| 国产乱码精品一区二区三区av | 摸摸摸bbb毛毛毛片| 国产麻豆精品久久一二三| 无码人妻h动漫| 欧美视频官网| 永久久久久久| 免费av一区二区三区四区| 97超碰人人模人人爽人人看| 欧美xxxx做受欧美护士| 久久人人爽人人爽人人片av高请 | 欧美变态挠脚心| 91日本视频在线| 中韩乱幕日产无线码一区| 97免费视频在线| 成人无遮挡免费网站视频在线观看| 国产婷婷97碰碰久久人人蜜臀 | 亚洲欧美日韩图片| 午夜精品在线播放| 欧美日韩国产经典色站一区二区三区| www.日本精品| 亚洲国产视频一区| 黄色a级片在线观看| 国产日产精品一区| 在线免费播放av| 高清国产一区二区三区| 日本精品一区在线| 九九国产精品视频| 五月天婷婷激情视频| 国产亚洲福利| 熟女少妇在线视频播放| 影音先锋日韩资源| 精品一区二区三区无码视频| 综合天天久久| 黄瓜视频免费观看在线观看www| heyzo久久| 日本午夜精品一区二区| 九九视频免费观看视频精品| 精品久久久久久亚洲| 秋霞蜜臀av久久电影网免费| 久久99精品久久久久久秒播放器 | 亚欧洲精品在线视频| 一区二区在线免费观看| 国产真实乱在线更新| 亚洲日本在线视频观看| 人妻人人澡人人添人人爽| 亚洲欧美二区三区| 午夜免费激情视频| 樱桃视频在线观看一区| 国产精品久久久久久久精| 一区二区三区免费在线观看| 玖玖爱免费视频| 亚洲va国产天堂va久久en| 国产系列精品av| 疯狂欧美牲乱大交777| 老熟妇一区二区三区| 欧美亚洲国产一区在线观看网站| 自拍偷拍精品视频| 在线成人高清不卡| 精品人妻一区二区三区日产乱码 | xxxxx在线观看| 国产欧美精品国产国产专区| 三区四区在线观看| 亚洲欧洲另类国产综合| 欧美三级在线免费观看| 亚洲一区精品在线| 日韩精品一区二区不卡| 一本久久a久久精品亚洲| 这里只有精品国产| 欧美一区二区不卡视频| 人人妻人人玩人人澡人人爽| 亚洲精品永久免费| www.av在线| 欧美精品日韩www.p站| 天堂资源在线| 国产精品亚洲一区二区三区| 日本高清久久| 久久精品第九区免费观看| 日本不卡电影| 草草草视频在线观看| 免费视频久久| 国产精品久久久久久久av福利| 成人妖精视频yjsp地址| brazzers精品成人一区| 亚洲人吸女人奶水| 国产情侣在线视频| 欧美日韩夫妻久久| 色呦呦免费观看| 色噜噜亚洲精品中文字幕| 黄色大片在线| 国产日韩精品综合网站| 久久综合社区| 熟妇熟女乱妇乱女网站| 中文精品视频| 亚洲色图欧美自拍| 久久久久久久久久久99999| 欧美做爰爽爽爽爽爽爽| 91黄色激情网站| 亚洲精品国产手机| 最近2019年好看中文字幕视频| 91精品国产黑色瑜伽裤| 国产欧美精品日韩| 日韩三区视频| 波多野结衣 作品| 日韩av一区二| 右手影院亚洲欧美| 一区二区三区四区不卡在线| 国产精品午夜一区二区| 亚洲精品按摩视频| 最新国产露脸在线观看| 国产精品久久久久久久久| 欧美变态挠脚心| 97中文字幕在线| 国产综合色产在线精品| 日本性高潮视频| 欧美日韩国产专区| 成人av无码一区二区三区| 在线性视频日韩欧美| 一二三四视频在线中文| 国产精品久久国产精品| 亚洲一本二本| 色啦啦av综合| 国产片一区二区| 欧美精品韩国精品| 亚洲国产中文字幕久久网| 污污视频在线看| 亚洲一区二区在线| 国产精品成人av| 污色网站在线观看| 国产人伦精品一区二区| 亚洲大尺度在线观看| 亚洲欧美一区二区激情| 2021中文字幕在线| 国产精品视频在线免费观看 | 青青在线视频观看| 99视频精品免费视频| 国产在线欧美在线| 欧美成人国产一区二区| 亚洲制服国产| 97人人干人人| 亚洲私拍自拍| 97香蕉碰碰人妻国产欧美| 亚洲一二三四区不卡| 欧美熟妇乱码在线一区| 欧美激情视频网址| 国产精品极品在线观看| 久久99久久99精品| 成+人+亚洲+综合天堂| 国产成人精品a视频一区| 日韩www在线| 2022成人影院| 亚洲图片在线观看| 寂寞少妇一区二区三区| 日本黄色片免费观看| 日韩精品一区二区三区在线| 男插女视频久久久| 精品国产乱码久久久久久108| 亚洲免费观看| 国产在线观看h| 欧美日韩激情一区二区三区| 成人在线免费看黄| 国产乱码精品一区二区三区不卡| 国产欧美日韩一区二区三区在线| 久久久精品人妻无码专区| 日本国产一区二区| 国内外激情在线| 国产高清精品一区二区| 国产精品一卡| 激情五月激情综合| 日韩欧美一二三四区| 偷拍自拍在线看| 天堂va久久久噜噜噜久久va| 国产在线视频一区二区| 国产无遮挡免费视频| 一区二区三区动漫| 国产成年精品| 乱妇乱女熟妇熟女网站| 国产蜜臀av在线一区二区三区| 国产三级自拍视频| 97视频人免费观看| 久久一区二区中文字幕| 伊人久久久久久久久| 日本乱人伦aⅴ精品| 91精选在线| 欧美日韩精品免费观看| 国产又黄又大久久| 欧美 日韩 精品| 久久久成人精品| 日韩手机在线| 九九久久久久久| 欧美网站在线观看| 国产不卡在线| 日本不卡一区二区三区在线观看| 国产在线精品国自产拍免费| 天堂中文字幕在线观看| 久久久成人精品| 欧美日韩国产高清电影| 精品一区二区视频在线观看| 欧美男人的天堂一二区|