精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

形式化定理證明新突破:SubgoalXL框架讓大模型在Isabelle中性能暴漲

人工智能 新聞
SubgoalXL 的成功展示了大語言模型在形式化定理證明任務(wù)中的巨大潛力,并為未來研究指明了方向。

本文第一作者為香港大學(xué)博士研究生趙學(xué)亮,主要研究方向?yàn)樾问交瘮?shù)學(xué)定理證明,檢索增強(qiáng)生成以及多模態(tài)推理。該工作由香港大學(xué)與 AI 芯片公司 SambaNova Systems 共同完成。

背景介紹:形式化定理證明的新挑戰(zhàn)

大語言模型(LLMs)在形式化定理證明中正面臨兩個(gè)核心挑戰(zhàn):

1. 形式化證明數(shù)據(jù)的稀缺性:當(dāng)前數(shù)據(jù)集有限,難以支持模型在專門的數(shù)學(xué)和定理證明任務(wù)中的高效學(xué)習(xí)。

2. 多步驟推理的復(fù)雜性:形式化定理證明要求模型在多個(gè)步驟中保持邏輯嚴(yán)謹(jǐn)性,以生成正確的數(shù)學(xué)證明。

在這種背景下,研究團(tuán)隊(duì)提出了一個(gè)全新的框架:SubgoalXL,結(jié)合了子目標(biāo)(subgoal)證明策略與專家學(xué)習(xí)(expert learning)方法,在 Isabelle 中實(shí)現(xiàn)了形式化定理證明的性能突破。

  • 論文鏈接:https://www.arxiv.org/abs/2408.11172
  • 項(xiàng)目地址:https://github.com/zhaoxlpku/SubgoalXL

SubgoalXL 如何應(yīng)對(duì)挑戰(zhàn)?

SubgoalXL 通過以下兩種關(guān)鍵策略來應(yīng)對(duì)形式化定理證明中的挑戰(zhàn):

1. 子目標(biāo)證明策略:將證明過程分解為多個(gè)子目標(biāo),這些子目標(biāo)構(gòu)成了解決復(fù)雜推理任務(wù)的關(guān)鍵步驟。通過這種分解,SubgoalXL 在更接近形式化證明的邏輯框架下進(jìn)行推理,使得生成的證明過程更加清晰有序。子目標(biāo)證明策略有效地緩解了因非形式化與形式化證明之間的不一致性導(dǎo)致的學(xué)習(xí)瓶頸,增強(qiáng)了模型在形式化環(huán)境中的表現(xiàn)。

2. 專家學(xué)習(xí)框架:通過一個(gè)由形式化陳述生成器、子目標(biāo)生成器和形式化證明生成器組成的迭代優(yōu)化框架,SubgoalXL 能夠在每個(gè)迭代過程中從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí),調(diào)整各個(gè)組件的參數(shù),使得模型在多步驟推理中的準(zhǔn)確性和有效性不斷提升。該框架利用概率建模和梯度估計(jì)技術(shù),確保在每個(gè)迭代中從最優(yōu)分布中采樣數(shù)據(jù),最大化模型的學(xué)習(xí)效率和推理能力。

方法概述

SubgoalXL 的方法核心在于子目標(biāo)證明策略和專家學(xué)習(xí)框架的結(jié)合。

子目標(biāo)證明策略 (圖一左):我們首先手動(dòng)創(chuàng)建了一組用于上下文學(xué)習(xí)的演示示例,然后使用這些示例指導(dǎo)模型生成子目標(biāo)證明訓(xùn)練數(shù)據(jù)。具體來說,我們從 miniF2F-valid 中選擇了部分問題,并手動(dòng)構(gòu)建了每個(gè)問題的已驗(yàn)證形式化證明,作為初始輸入。通過 GPT-4o 生成子目標(biāo)證明,該過程確保了:1) 子目標(biāo)證明由自回歸模型生成;2) 生成的證明風(fēng)格一致,降低了模型的學(xué)習(xí)負(fù)擔(dān);3) 每個(gè)子目標(biāo)與 Isabelle 中的形式化中間目標(biāo)相對(duì)應(yīng)。這種方法保證了非形式化證明與形式化證明之間的更高一致性,有效提升了形式化定理證明的質(zhì)量。

專家學(xué)習(xí)框架 (圖一右):該框架由三個(gè)核心模塊組成: 

  • 形式化陳述生成器(Formal Statement Generator):生成與非形式化陳述相對(duì)應(yīng)的形式化陳述。
  • 子目標(biāo)生成器(Subgoal Generator):根據(jù)非形式化和形式化陳述,生成與形式化證明結(jié)構(gòu)相匹配的子目標(biāo)序列。
  • 形式化證明生成器(Formal Proof Generator):在給定的子目標(biāo)序列下,生成完整的形式化證明。

在每個(gè)迭代過程中,SubgoalXL 根據(jù)先前生成的陳述和證明樣本進(jìn)行參數(shù)優(yōu)化。專家學(xué)習(xí)框架使用概率建模和梯度估計(jì)技術(shù),對(duì)各模塊進(jìn)行迭代優(yōu)化,以從最佳分布中采樣數(shù)據(jù)。這種方法確保了模型在處理新的證明任務(wù)時(shí)能夠保持高精度和穩(wěn)健性。

圖片

圖 1:左:非形式化陳述、非形式化證明、形式化陳述、形式化證明和子目標(biāo)證明的示例。右:基于子目標(biāo)的專家學(xué)習(xí)框架概覽??s寫:“Stat.” 表示 “陳述”,“F.” 表示 “形式化”,“P.” 表示 “后驗(yàn)”。每次迭代從最優(yōu)分布中采樣子目標(biāo)證明、形式化陳述和形式化證明。

實(shí)驗(yàn)結(jié)果

我們?cè)跇?biāo)準(zhǔn) miniF2F 數(shù)據(jù)集上對(duì) SubgoalXL 進(jìn)行了全面的評(píng)估,結(jié)果表明其在 Isabelle 環(huán)境下達(dá)到了新的最優(yōu)性能:

主實(shí)驗(yàn)結(jié)果:SubgoalXL 在 miniF2F-valid 數(shù)據(jù)集上的通過率達(dá)到了 61.9%,在 miniF2F-test 數(shù)據(jù)集上達(dá)到了 56.1%。這一表現(xiàn)超過了多種現(xiàn)有的基線方法,包括 Thor、DSP、Subgoal-Prover、LEGO-Prover 以及 Lyra 等,展示了顯著的性能提升(見表 1)。

圖片

表 1:miniF2F 數(shù)據(jù)集上的性能。標(biāo)記為?的方法在證明搜索過程中部分或全部使用了人工編寫的非形式化證明。加粗?jǐn)?shù)字表示獲得的最高性能。

迭代提升分析:在逐步迭代的過程中,SubgoalXL 表現(xiàn)出明顯的性能增長(zhǎng)。模型在 miniF2F-valid 數(shù)據(jù)集上的通過率從初始的 58.2% 逐步提升至 61.9%,在 miniF2F-test 數(shù)據(jù)集上從 51.2% 提升至 56.1%。這些結(jié)果表明,通過逐步優(yōu)化和專家學(xué)習(xí)框架的迭代,模型在每次迭代中都能實(shí)現(xiàn)穩(wěn)定的性能提升。

圖片

圖 2:miniF2F 數(shù)據(jù)集中不同迭代次數(shù)下的通過率比較。

子目標(biāo)證明對(duì)比分析:實(shí)驗(yàn)顯示,SubgoalXL 使用的子目標(biāo)證明方法在處理復(fù)雜證明任務(wù)時(shí)表現(xiàn)優(yōu)于人類編寫的非形式化證明。尤其在復(fù)雜問題上,子目標(biāo)證明策略顯著提高了證明的精確性和可靠性(見圖 3)。

圖片

圖 3:子目標(biāo)證明與非形式化證明的案例對(duì)比。左側(cè)示例為子目標(biāo)證明的成功嘗試,右側(cè)兩個(gè)示例為非形式化證明的失敗嘗試。

結(jié)論與未來展望

SubgoalXL 的成功展示了大語言模型在形式化定理證明任務(wù)中的巨大潛力,并為未來研究指明了方向。我們相信,通過進(jìn)一步優(yōu)化框架、拓展數(shù)據(jù)集和應(yīng)用場(chǎng)景,大語言模型將在數(shù)學(xué)和科學(xué)領(lǐng)域帶來更深遠(yuǎn)的影響。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-19 08:45:00

開源模型

2025-03-04 09:00:00

2025-02-13 12:23:28

2025-02-28 09:52:00

2018-08-15 08:48:18

2024-09-23 08:30:00

AI模型

2025-02-25 14:46:59

2025-07-18 10:12:00

2022-07-18 10:05:16

AI挑戰(zhàn)方案

2023-07-09 14:50:48

模型調(diào)優(yōu)

2025-06-18 08:49:00

模型系統(tǒng)AI

2025-06-09 09:32:35

2023-06-30 13:42:44

2024-10-12 12:30:04

2025-05-16 08:58:09

2025-10-29 12:00:00

RAGLGMGC 框架

2025-08-14 09:00:00

模型訓(xùn)練數(shù)據(jù)

2025-05-26 09:00:00

2009-06-18 14:26:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

鲁一鲁一鲁一鲁一av| 国产乱码精品一区二区三区日韩精品 | 怡红院一区二区| 麻豆视频在线观看免费网站黄| 成人丝袜18视频在线观看| 91精品国产沙发| 在线观看亚洲大片短视频| 亚洲人体在线| 欧美视频国产精品| 欧美日韩亚洲在线| 国产又黄又粗又猛又爽| 91久久久久| 中文字幕综合在线| 成人区人妻精品一区二| 日韩国产网站| 亚洲国产日韩a在线播放性色| 欧美精品免费观看二区| 国产又黄又大又粗的视频| 亚洲国产婷婷| 日韩少妇与小伙激情| 亚洲男女在线观看| 九色精品蝌蚪| 色哟哟国产精品| 国产91在线亚洲| 国产精品免费观看| 东方aⅴ免费观看久久av| 国产精品99久久久久久久久久久久| 97成人资源站| 久久99视频| 亚洲第一中文字幕| 超碰91在线播放| 51一区二区三区| 精品国产91久久久久久老师| 三年中国中文在线观看免费播放| 免费人成黄页在线观看忧物| 国产福利电影一区二区三区| 国产精品久久激情| 国语对白永久免费| 亚洲激情网站| 欧美尺度大的性做爰视频| 国产第一页精品| 国产精品免费大片| 日韩精品高清在线| 天堂www中文在线资源| 亚洲精品高潮| 日韩无一区二区| 五月天丁香花婷婷| 成人国产激情| 在线视频一区二区免费| 国模无码视频一区二区三区| 91高清视频在线观看| 亚洲欧美另类图片小说| 亚洲美女自拍偷拍| 黄网站在线播放| 国产日韩精品一区| 欧洲亚洲一区二区三区四区五区| 日韩中文字幕免费观看| 成人av综合一区| 国产高清不卡av| 免费看黄色一级视频| 国产大片一区二区| 成人av男人的天堂| 黑人乱码一区二区三区av| 国产99一区视频免费| 91在线短视频| 亚洲卡一卡二卡三| 成人av在线资源网站| 极品日韩久久| 日本韩国一区| 国产欧美精品一区二区三区四区| 日本视频一区二区在线观看| 成人免费一区二区三区视频网站| 中文字幕国产一区| 成年人免费观看的视频| 动漫一区在线| 亚洲一区二区在线视频| 波多野结衣之无限发射| 特黄毛片在线观看| 欧美熟乱第一页| 日本高清一区二区视频| 一区二区三区视频播放| 日韩电视剧免费观看网站| 日本免费福利视频| 精品国产中文字幕第一页| 色视频www在线播放国产成人| 亚洲最大的黄色网址| 欧美日韩第一区| 77777少妇光屁股久久一区| 天堂网免费视频| 麻豆91精品91久久久的内涵| 91视频最新| 美女欧美视频在线观看免费 | 亚洲精品自拍视频| 欧洲美熟女乱又伦| 欧美/亚洲一区| 国产91精品黑色丝袜高跟鞋| 99re热视频| 国产成人精品一区二| 久久久久久久久久久久久久一区 | 欧美极品美女电影一区| www成人在线| 蜜桃视频一区二区三区| 懂色av一区二区三区在线播放| 日本韩国一区| 亚洲综合色成人| 亚洲精品中文字幕无码蜜桃| 精品一区二区三区亚洲| 亚洲人成五月天| 免费在线观看av网址| 日韩av中文在线观看| 99久久99久久精品国产片| 国内av一区二区三区| 一区二区国产视频| 香蕉视频禁止18| 精品按摩偷拍| 久久在线免费视频| 无码免费一区二区三区| 成人的网站免费观看| 亚洲国产精品视频一区| 91黄页在线观看| 欧美一级二级在线观看| 国产伦精品一区二区三区视频女| 欧美日韩国产探花| 国产欧美中文字幕| 黄色国产在线| 欧美日韩一区免费| 在线免费黄色小视频| 成人影院在线| 秋霞午夜一区二区| 日本xxxxwww| 亚洲欧美激情视频在线观看一区二区三区 | 在线观看日韩毛片| 国产精品久久不卡| 黑丝一区二区| 成人免费网站在线看| jizzjizz在线观看| 欧美日韩亚洲一区二| 538国产视频| 激情国产一区| 91精品国产一区二区三区动漫 | 丁香一区二区| 欧美乱人伦中文字幕在线| 国产精品高潮呻吟av| 中文字幕精品—区二区四季| 999精品网站| 蜜臀av免费一区二区三区| 欧美激情综合色| 国产综合视频在线| 亚洲一区二区三区精品在线| 欧美69精品久久久久久不卡| 91精品成人| 91在线视频九色| 国产在线激情| 91精品国产综合久久久久久漫画 | 国产精品嫩草影院一区二区| 全部免费毛片在线播放网站| 好吊成人免视频| 欧美黑人欧美精品刺激| 亚洲欧美视频一区二区三区| 加勒比在线一区二区三区观看| 欧美xxxx免费虐| 亚洲激情小视频| 国产欧美一区二区三区在线看蜜臂| 9l国产精品久久久久麻豆| 成人在线免费在线观看| 国产探花一区在线观看| 国产精品毛片a∨一区二区三区|国 | 久久精品女人毛片国产| 成人aa视频在线观看| 国产a级一级片| 国产精品欧美在线观看| 国产欧美一区二区| 免费毛片在线看片免费丝瓜视频| 亚洲第一在线视频| 亚洲婷婷久久综合| 中文字幕一区二区日韩精品绯色| 超碰91在线播放| aa国产精品| 日本中文不卡| 精品一区二区三区在线观看视频 | 成人在线视频播放| 久久久999精品免费| 亚洲第一页综合| 精品久久久国产| 天天干天天操天天拍| 国产黄色精品网站| 中国丰满人妻videoshd| 久久一区二区三区电影| 成人3d动漫一区二区三区91| 极品在线视频| 精品不卡在线视频| 黄色污污网站在线观看| 亚洲美女免费在线| 中文人妻一区二区三区| 日韩精品电影在线观看| 国产91av视频在线观看| 精品美女一区| 久久久亚洲影院| 男男电影完整版在线观看| 欧美影院一区二区| 久久久国产一级片| 成人h动漫精品一区二区| 国内外免费激情视频| 99精品在线免费在线观看| 91精品在线影院| 亚洲国产欧美日本视频| 日韩在线观看免费高清| 色一情一乱一乱一区91av| 亚洲电影激情视频网站| 国产三级黄色片| 成人精品视频一区| 不卡av免费在线| 91久久国产| 欧美日韩中文国产一区发布| 国产精品国产三级在线观看| 欧美性视频在线| 欧美激情午夜| 亚洲丝袜在线视频| 亚洲精品字幕在线观看| 欧美日韩一级黄| 九九九国产视频| 国产精品视频你懂的| 国产伦精品一区三区精东| 秋霞午夜鲁丝一区二区老狼| 欧美日本视频在线观看| 午夜激情久久| 人偷久久久久久久偷女厕| 91精品久久久久久综合五月天| 国产精品视频一| 精品众筹模特私拍视频| 在线观看日韩欧美| 香蕉久久国产av一区二区| 欧美一级夜夜爽| 波多野结衣视频网址| 亚洲午夜电影在线| 老熟妻内射精品一区| 亚洲欧洲精品一区二区三区| 国产美女精品久久| 成人国产精品免费| 日本中文字幕精品—区二区| 日韩综合小视频| 欧美国产亚洲一区| 欧美欧美全黄| 97中文字幕在线| 希岛爱理一区二区三区| 一本色道久久综合亚洲精品婷婷| 国产成人调教视频在线观看| 日本视频精品一区| 美日韩中文字幕| 久久久久久久久久久久久久久久av | 日韩免费高清在线| 亚洲一区二区网站| a级黄色小视频| 欧美日韩日本国产亚洲在线| 日本a级片在线播放| 91精品啪在线观看国产18| 亚洲一区三区| 久久一本综合| 一区二区三区|亚洲午夜| 宅男在线一区| 亚洲春色在线| 郴州新闻综合频道在线直播| 日本公妇乱淫免费视频一区三区| 一呦二呦三呦国产精品| 欧美三级网色| 精品国产不卡| 久久国产精品 国产精品| 国产精品一区二区av交换| 欧美日韩成人一区二区三区| 久久av资源| 中国成人在线视频| 中文字幕日韩欧美精品高清在线| 黑人巨大国产9丨视频| 欧美88av| 国产91xxx| 性欧美长视频| 欧美午夜性生活| 日韩av电影一区| 亚洲 自拍 另类 欧美 丝袜| 成人亚洲精品久久久久软件| 青青草视频网站| 中文字幕不卡的av| 久久高清内射无套| 亚洲一级二级三级| 成人午夜精品视频| 欧美精品一级二级| 国内老熟妇对白hdxxxx| 欧美白人最猛性xxxxx69交| 日韩av免费观影| 尤物tv国产一区| 91最新在线视频| 热99在线视频| 曰本一区二区| 国内精品二区| 欧美一二区在线观看| 欧美性视频在线播放| 黄页网站一区| 日本三级免费观看| 国产精品综合一区二区| 日本xxx在线播放| 国产精品麻豆欧美日韩ww| 日本少妇在线观看| 日本精品视频一区二区| 一区二区三区精| 精品伊人久久97| 国产一区久久精品| 78m国产成人精品视频| 999精品视频在线观看| 极品日韩久久| 婷婷综合亚洲| 久久国产亚洲精品无码| 久久电影网电视剧免费观看| 亚洲精品乱码久久久久久蜜桃欧美| 成年人国产精品| 裸体武打性艳史| 色婷婷久久久久swag精品| 99精品视频免费看| 日韩av最新在线观看| 色呦呦在线观看视频| 国产精品久久久久av免费| 中文久久电影小说| 亚洲伊人婷婷| 国产精品久久777777毛茸茸| www.cao超碰| 国产精品午夜在线观看| 97超碰人人干| 精品精品欲导航| 性xxxfreexxxx性欧美| 国产噜噜噜噜噜久久久久久久久| 激情av综合| 日韩av在线播放不卡| 久久成人久久爱| 人妻少妇无码精品视频区| 岛国精品视频在线播放| 超碰在线观看av| www.日韩视频| 亚洲伦理一区二区| 亚洲高清123| 久久精品国语| 中文字幕网站在线观看| 天天色图综合网| 亚洲av无码乱码国产麻豆| 欧美wwwxxxx| 最新亚洲国产| 手机在线观看国产精品| 日韩精品高清不卡| 公侵犯人妻一区二区三区| 亚洲福利视频导航| 午夜国产在线观看| 久久久久久中文| 亚洲精品一区二区三区在线| 青青草视频国产| 国产制服丝袜一区| 国产激情无码一区二区三区| 8v天堂国产在线一区二区| aaa在线观看| 成人av.网址在线网站| 香蕉视频官网在线观看日本一区二区| 性刺激的欧美三级视频| 久久精子c满五个校花| 亚洲午夜在线播放| 亚洲视频一区二区| 欧美三级精品| 亚洲人成网站在线播放2019| 日韩vs国产vs欧美| 亚洲久久久久久久| 欧美日韩一区二区三区免费看| 日本免费在线观看| 亚洲一区久久久| 欧美精品三区| 午夜福利三级理论电影| 天天色天天爱天天射综合| 婷婷久久久久久| 97成人精品区在线播放| av中文字幕一区二区| 黄色永久免费网站| 综合亚洲深深色噜噜狠狠网站| 国产成人精品免费看视频| 欧美激情亚洲一区| 欧美sss在线视频| 国产精品亚洲二区在线观看| 国产欧美一区二区在线| 国产女无套免费视频| 久久久久国产精品www| 老司机成人在线| 午夜久久久精品| 亚洲欧美另类久久久精品2019 | 日韩精品在线免费| 台湾佬中文娱乐久久久| 亚洲乱码国产乱码精品天美传媒| 国产精品一区在线观看你懂的| 久久久一二三区| 亚洲欧美国产制服动漫| 五月天色综合| 日本中文字幕在线视频观看| 久久久久国产精品麻豆ai换脸 | 制服丝袜中文字幕一区| h片在线观看网站| 日本在线观看一区二区| 狠狠久久亚洲欧美|