精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

像搭樂高一樣做數學定理證明題,GPT-3.5證明成功率達新SOTA

人工智能 新聞
中山大學和華為等機構的研究者提出了 LEGO-Prover,實現了數學定理的生成、整理、儲存、檢索和復用的全流程閉環。

背景

作為長鏈條嚴格推理的典范,數學推理被認為是衡量語言模型推理能力的重要基準,GSM8K 和 MATH 等數學文字問題(math word problem)數據集被廣泛應用于語言模型的測評和比較中。事實上,數學作為一項科學研究并不僅僅包括計算具體實例,還包括推演一般性的定理。不同于簡單的計算問題僅僅需要驗證最終的結果與答案是否匹配,定理的證明要求對數學概念擁有更嚴格的理解,而這種定理證明的正確性是難以通過直接的自然語言生成和判別或是簡單的程序調用就能夠完成的。

正如自然語言處理希望能夠使用計算機直接對人類語言進行數字化計算一樣,對于數學對象的數字化也有著數十年的探索,甚至現代形式邏輯的誕生在很大程度上也正是源于對數學命題進行演算的想法。從事形式化驗證的計算機科學家致力于為數學論述構造表達自然且計算高效的形式語言和證明驗證器,人工編寫的形式化數學代碼在通過計算機的形式化驗證后被認為具有高度的嚴格性。然而,這一過程需要大量的人工成本,著名的 Flyspeck project 甚至花費了二十年的時間才完成開普勒猜想的證明,而自動化的證明搜索算法則面臨著搜索空間的組合爆炸問題,導致非平凡的定理證明往往超出了當前的計算能力限制。

深度學習的發展為形式化數學和自動定理證明提供了新的機遇。近年來,一種名為神經定理證明(neural theorem proving)的新范式以兩種方式嘗試將神經網絡與形式定理證明相結合:使用神經網絡對數學庫中的定理和當前的證明目標分別進行向量表征并進行匹配,篩選出最可能被使用的定理,幫助純符號計算的自動定理證明器縮小證明搜索空間;或者將證明目標作為提示輸入語言模型,使其直接生成相應的形式化數學證明代碼,再使用相應的形式化驗證器來判斷該證明的正確性,這種直接代替人類編碼者完成主要證明內容書寫的直接模式在大語言模型取得突破后備受關注。

然而,與數學文字問題一樣,當前進行定理證明的方法通常是 “一次性的”,也即推理過程和中間結論僅僅作為通向最終證明的臨時性路徑,在完成證明的驗證后即被丟棄、并不對后續的定理證明產生貢獻。這種方式更像是對大語言模型進行靜態測試,而沒有對其能力的持續提升做出貢獻。

事實上,數學的發展并不僅僅是簡單的重復嘗試解題,還包括從實例中「抽象」出普遍的數學結構和定理、從特殊的定理推廣到一般的定理和根據已有的定理演繹地「推出」新的結論。

隨著這一過程的演進,數學家對更復雜的問題擁有更強大的工具和更深刻的理解,最終才能解決先前無法解決的困難問題。

為了解決這一問題,模擬人類數學家在進行定理證明時通常進行的分解復雜問題、引用已有知識,并積累成功證明的新定理的迭代過程,中山大學和華為等機構的研究者提出了 LEGO-Prover,實現了數學定理的生成、整理、儲存、檢索和復用的全流程閉環。

LEGO-Prover 使 GPT-3.5 在形式化定理證明數據集 miniF2F-valid(證明成功率從 48.0% 提高到 57.0%)和 miniF2F-test(證明成功率從 45.5% 提高到 50.0%)上都達到了新的 SOTA。在證明過程中,LEGO-Prover 還成功地生成了超過 20,000 個引理并將它們添加到了不斷增長的定理庫中。

消融研究表明,這些新添加的技能確實對證明定理有幫助,在 miniF2F-valid 上的證明成功率從 47.1% 提高到 50.4%。

圖片

  • 論文地址:https://arxiv.org/abs/2310.00656
  • 代碼地址:https://github.com/wiio12/LEGO-Prover

方法

圖片


圖片

LEGO-Prover 采取了一系列的流程來實現對定理證明的規劃、實施和可復用定理庫的收集:

1. 給定一個以自然語言描述的數學定理及其人類編寫的形式化描述,使用 GPT-3.5(informal solver)直接生成的自然語言證明。

2. 使用分解器(decomposer)將這一自然語言證明分解為具體的證明步驟,并以引理的形式對這些證明步驟中的子目標進行對應的形式語言描述(作為檢索的 request)。

3. 利用這些以形式語言描述的子目標嘗試從定理庫(也即 skill library)中檢索相關的已證明定理,將其與上述內容一同輸入 GPT-3.5(formalizer),在這些提示的基礎上進行目標定理的形式化證明,并使用形式化驗證器檢驗證明的正確性。

4. 從通過驗證的形式化證明中,提取出除目標定理外的其他通過驗證的定理(或引理)和在分解過程后得到的子目標形式語言描述,對它們進行 embedding 后加入到維護的定理庫中。

此外,LEGO-Prover 還對定理庫進行了專門的整理和維護流程,對分解過程中收集到的子目標進行單獨的證明嘗試,通過多種類別的 prompt 引導 GPT-3.5 對證明過程中收集到的成功證明的定理進行演化,從具體的證明實例抽象出一般的數學命題,以增進定理庫中命題的多樣性、概括性和可復用性:

圖片

實驗

圖片

實驗表明,這些演化得到的新定理在后續的定理證明中起到了關鍵性的作用,miniF2F 數據集中的許多定理都是在利用這些從定理庫中抽取得到的結果才得以證明的。使用收集和演化得到的定理庫后,LEGO-Prover 的證明成功率從 47.1% 提高到 50.4%,而在使用定理庫的情形下,有 24% 的問題是在技能庫的幫助下完成的,這表明技能庫的使用對于大語言模型進行定理證明任務而言幫助很大。此外,使用定理庫技術的優勢在較小的嘗試次數下具有較高的比例,表明這一方法對于計算資源相當有限的情形下具有相當可觀的使用價值。

圖片

最后,實驗結果表明 LEGO-Prover 在 miniF2F 數據集上的證明成功率顯著優于基于先前的方法。使用人類編寫的證明,LEGO-Prover 在驗證集和測試集上的證明成功率分別比先前最好的方法高出 19% 和 3.5%。當使用模型生成的非正式證明替代人類編寫的非正式證明時,LEGO-Prover 在驗證集上的證明成功率仍然達到了 52.4%,接近于使用人類編寫的非正式證明的證明成功率 55.3%。

圖片

LEGO-Prover 探索了如何以塊狀的方式證明定理。然而數據稀缺問題在定理證明這個領域內依舊非常嚴重。因此,與此同時,中山大學聯合北京大學還推出了基于三角函數的定理證明基準數據集 TRIGO (https://arxiv.org/abs/2310.10180),發表于EMNLP 2023。

TRIGO 對自動引理生成以及如何從合成的引理數據的分布泛化到真實世界數據的分布進行了進一步的探索。當前的自動定理證明數據集主要側重于符號推理,很少涉及復雜數字組合推理的理解。TRIGO 不僅要求模型通過逐步證明來簡化三角函數表達式,還評估了生成式語言模型在公式和數字術語的操作、分組和因式分解方面的推理能力。研究團隊從網絡上收集了三角函數表達式及其簡化形式,人工標注了簡化過程,然后將其轉化為 LEAN 形式系統下的語言。在有一定的來自于真實世界的形式化定理數據后,研究團隊利用引理生成器,從已標注的樣本中初始化 Lean-gym 來自動生成新的引理以擴展數據集。

此外,TRIGO 還開發了基于 lean-gym 的自動生成器,用以創建不同難度和分布的數據集拆分,以全面分析模型的泛化能力。TRIGO 在定理證明領域提供了新的挑戰,同時也提供了一種研究生成式語言模型在形式和數學推理方面能力的新工具。

圖片

此外,為了探索定理證明模型的能力在更難的數據集上的表現,中山大學聯合北京大學還提出了 FIMO 基準數據集(https://arxiv.org/abs/2309.04295)。形式化數學數據稀缺,手工形式化成本非常高昂。當前主流的數據集主要聚焦于初高中水平的應用題,難度普遍偏低,對于 IMO 等需要高水平解題技巧的數學競賽題目關注較少,而且常常不包括自然語言題解。

針對現有數據集的問題,FIMO 探索了使用反饋信息的自動形式化方法,使用 GPT-4 和自動、手動兩種反饋信息,將數量較為豐富的 IMO Shortlisted 候選題轉換為了 Lean 語言描述的形式語言。

實驗結果表明,反饋機制的加入大大緩解了先前自動形式化的語法錯誤和語義錯誤,顯著提升了自動形式化的成功率(32.6%→60.8),成功形式化了 89 道代數和 60 道數論的高難度題目。進一步的實驗表明,雖然 GPT-4 無法直接生成 IMO 級別題目的形式化題解,但是它可以跟隨自然語言答案的解題思路,暗示了使用自然語言輔助機器定理證明的可能性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-19 08:45:00

開源模型

2022-11-21 10:18:24

AI谷歌

2025-05-08 16:44:54

AI應用LazyLLM

2022-01-13 13:57:05

滑板底盤悠跑

2019-07-12 07:26:26

神經網絡數學樂高

2025-09-04 01:45:00

2023-08-02 13:55:22

AI研究

2022-01-20 17:31:38

網絡安全網絡安全網格

2025-07-25 08:25:39

2023-05-30 13:29:25

2025-09-18 12:41:22

2023-01-10 08:30:05

2025-06-04 13:53:22

代碼模型AI

2015-02-05 13:27:02

移動開發模塊SDK

2025-05-01 08:33:20

miniF2FDeepSeekLLM

2025-06-17 08:21:16

Android區域UI模塊

2024-01-02 14:07:00

2025-07-22 08:45:00

AI機器人訓練

2023-10-10 13:51:46

GPT-4GitHubAI
點贊
收藏

51CTO技術棧公眾號

亚洲欧美激情国产综合久久久| 中国美女乱淫免费看视频| 爆操欧美美女| 不卡视频在线观看| 国产精品久久久久久av福利软件| 极品尤物一区二区| www国产精品| 日本韩国欧美一区| 中文字幕色呦呦| 青梅竹马是消防员在线| 狠狠色狠狠色综合| 91国语精品自产拍在线观看性色 | 国产精品网站在线看| 日本高清不卡在线观看| 免费在线看黄色片| 888av在线| 2021久久国产精品不只是精品| 成人信息集中地欧美| 女人十八岁毛片| 欧美黄色aaaa| 中文字幕精品—区二区| yjizz视频| 宅男噜噜噜66国产精品免费| 狠狠躁夜夜躁人人爽超碰91| 300部国产真实乱| 992tv免费直播在线观看| 99精品视频一区| 91在线视频九色| 中文字幕乱码视频| 久久福利影视| 欧美激情亚洲一区| www.97视频| 日韩欧美精品一区| 亚洲片av在线| 日韩中文字幕电影| 日韩精品亚洲aⅴ在线影院| 欧美一级高清大全免费观看| 亚洲77777| 日韩漫画puputoon| 欧美性猛交xxxx免费看漫画| 99在线免费视频观看| h片在线免费观看| 国产精品久久久久四虎| 日韩欧美在线电影| 国产日产精品久久久久久婷婷| 北条麻妃国产九九精品视频| 成人精品水蜜桃| 亚洲av色香蕉一区二区三区| 国精产品一区一区三区mba视频| 国产精品麻豆va在线播放| 久久久久久不卡| 久久久久在线| 国产精品第一视频| 最近中文字幕在线观看| 日韩中文字幕麻豆| 日韩av免费在线看| 欧美三级网站在线观看| 日韩精品乱码av一区二区| 国产成人福利网站| 亚洲av无码精品一区二区| 丝袜脚交一区二区| 国产美女久久精品| 国产又粗又猛又爽又黄的| 久久精品国产99国产| 国产欧美在线视频| 国产区精品在线| 国产精品一区免费视频| 99久久免费国| 日日夜夜精品免费| 久久亚洲一区二区三区明星换脸 | 日本一本不卡| 久久国产一区二区三区| 校园春色 亚洲| 最新日韩av| 日本不卡免费高清视频| 亚洲精品无码久久久久| 精品在线观看免费| 国产99在线免费| 深夜福利在线观看直播| 中文字幕免费一区| 热久久最新地址| 爱草tv视频在线观看992| 在线亚洲+欧美+日本专区| 最近中文字幕一区二区| 久久久国产精品入口麻豆| 精品久久一区二区三区| 免费看污黄网站在线观看| 久久视频国产| 久久久久国产视频| 夜夜爽妓女8888视频免费观看| 狠狠色狠狠色综合系列| 九色视频成人porny| 97电影在线看视频| 亚洲国产精品人人做人人爽| 国产视频一区二区三区在线播放 | 久久99精品国产麻豆婷婷| 国产超碰91| 超碰免费在线| 亚洲国产精品麻豆| 色一情一区二区三区| 果冻天美麻豆一区二区国产| 日韩中文字幕免费看| 亚洲国产综合久久| 久久69国产一区二区蜜臀| 精品国产乱码久久久久软件| 欧美激情二区| 色老头久久综合| jjzz黄色片| 天天天综合网| 国产成人avxxxxx在线看 | a级高清视频欧美日韩| 四虎永久国产精品| 国产美女精品写真福利视频| 欧美午夜影院一区| 国产一级二级在线观看| 影视一区二区| 国产精品pans私拍| 色呦呦中文字幕| 亚洲美女区一区| 国产91色在线观看| 欧美猛男同性videos| 国内精品久久久久影院 日本资源| 夜夜狠狠擅视频| 国产日韩欧美高清| 1024精品视频| 欧美成人基地| 欧美成人免费在线观看| 在线观看中文字幕2021| 国产欧美一区二区精品仙草咪 | 免费成人性网站| 欧美亚洲免费在线| 中文字幕一区二区精品区| 国产婷婷色综合av蜜臀av| 久久国产精品国语对白| 日本亚洲三级在线| 鲁丝一区鲁丝二区鲁丝三区| free性m.freesex欧美| 日韩视频一区二区| 日韩一区二区不卡视频| 免费在线观看一区二区三区| 欧美极品视频一区二区三区| 丝袜诱惑一区二区| 日韩电影中文字幕av| 欧美一二三区视频| av在线综合网| 免费看又黄又无码的网站| 国内精品国产成人国产三级粉色 | 成年人视频软件| 日韩avvvv在线播放| 日韩一区不卡| 成人黄色毛片| 日韩在线观看免费高清完整版| 亚洲一卡二卡在线观看| 国产精品久久久久久久岛一牛影视 | 99九九视频| 欧美人与牲禽动交com| 日韩免费视频一区二区| 精品一区二区三区人妻| a美女胸又www黄视频久久| 国产精品一区二区免费在线观看| 欧美日日夜夜| 国产精品国产福利国产秒拍| jizz在线免费观看| 91精品国产综合久久久久久| 免费在线观看一级片| 大陆成人av片| 久久久噜噜噜www成人网| 杨幂一区二区三区免费看视频| 国产精品99久久久久久久久| a天堂在线资源| 91精品综合久久久久久| 久久国产波多野结衣| 豆国产96在线|亚洲| 欧美牲交a欧美牲交| 国产精品美女久久久久久不卡| 国产精品黄页免费高清在线观看| 久久bbxx| 日韩精品免费在线视频| 中文字幕欧美色图| 亚洲综合一二区| 中文字幕人妻一区二区| 日本不卡一区二区| 波多野结衣与黑人| 伊人久久大香线蕉av不卡| 成人欧美一区二区三区黑人| 韩国成人二区| 北条麻妃一区二区三区中文字幕 | 亚洲网站三级| 国内自拍欧美激情| av在线播放网| 亚洲成人激情图| 最近中文字幕在线观看| 亚洲狠狠爱一区二区三区| 国产精品密蕾丝袜| 国产精品一级二级三级| www.亚洲天堂网| 综合激情在线| 日韩av一区二区三区在线| 免费精品一区| 国产精品国产三级国产专播精品人 | 91综合在线| 麻豆av一区二区三区久久| 精品999日本久久久影院| 国产成人亚洲综合| 韩国成人免费视频| 久久精品国产99国产精品澳门| 男人天堂一区二区| 7777精品久久久大香线蕉| 国产精品男女视频| 一区二区三区国产| 永久免费毛片在线观看| 99久久综合狠狠综合久久| 欧美性猛交xxxx乱大交91| 久久精品日韩欧美| 免费一级特黄毛片| 午夜日韩在线| 日本三级福利片| 日韩毛片视频| 日本免费一区二区三区| 国产毛片精品| 亚洲自拍高清视频网站| 欧美成人免费全部网站| 日本中文字幕不卡免费| av在线小说| 欧美理论电影在线播放| 免费av网站在线观看| 亚洲午夜av电影| 免费在线毛片| 精品亚洲一区二区| 天堂av在线7| 日韩av影片在线观看| 人成网站在线观看| 欧美成人video| 性色av蜜臀av| 欧美一区日韩一区| 国产免费不卡av| 欧美精品久久久久久久多人混战| 中文字幕+乱码+中文字幕明步 | 中文字幕在线观看一区| 日本一级免费视频| 国产蜜臀av在线一区二区三区| 魔女鞋交玉足榨精调教| 久久久青草青青国产亚洲免观| 香蕉网在线播放| 91视频一区二区| 野外性满足hd| 久久久久国产精品麻豆| 黄瓜视频污在线观看| 国产日韩欧美亚洲| 快灬快灬一下爽蜜桃在线观看| 国产精品视频免费| 无码黑人精品一区二区| 亚洲精品国产视频| 国产精品二区一区二区aⅴ| 性欧美大战久久久久久久久| 日韩黄色一级大片| 色婷婷精品久久二区二区蜜臂av | 麻豆精品一区二区三区视频| 一区二区免费在线| 激情五月色婷婷| 欧美性猛交xxxx富婆弯腰| 波多野结衣一二区| 欧美巨大另类极品videosbest | 一级黄色短视频| 欧美一卡在线观看| 日韩有码第一页| 亚洲欧美国产视频| 蜜桃视频网站在线| 欧美激情a∨在线视频播放| 擼擼色在线看观看免费| 国产成人久久久精品一区| 欧美激情不卡| 国产精品毛片va一区二区三区| 思热99re视热频这里只精品| 日产精品久久久一区二区| 91精品综合| 欧美视频在线观看视频| 日本中文一区二区三区| 亚洲欧美日韩网站| 久久无码av三级| 黄色香蕉视频在线观看| 欧美日韩国产一区二区三区| 最新在线中文字幕| 日韩精品一区二区三区在线播放| www.88av| 综合干狼人综合首页| 色综合久久av| 国内在线观看一区二区三区| 欧美日韩第二页| 国产尤物一区二区在线| 欧美深性狂猛ⅹxxx深喉| 中文字幕乱码一区二区免费| 一区二区三区免费高清视频| 日本韩国一区二区| 成人毛片在线精品国产| 中文国产亚洲喷潮| 91福利区在线观看| 国产在线a不卡| 香蕉视频一区| 日本福利视频网站| 日韩精品国产欧美| 偷偷色噜狠狠狠狠的777米奇| 中文字幕欧美日本乱码一线二线| 国产精品18p| 欧美精品一二三| 免费动漫网站在线观看| 欧美俄罗斯乱妇| 欧美黄页在线免费观看| 欧美亚洲另类在线一区二区三区| 狠狠色狠狠色综合日日tαg| 在线观看免费视频高清游戏推荐| 99久久国产综合精品麻豆| 内射一区二区三区| 欧美三级日本三级少妇99| 肉丝一区二区| 国内成人精品视频| 视频一区国产| 99热都是精品| 麻豆91精品91久久久的内涵| 永久免费成人代码| 天天射综合影视| 亚洲精选一区二区三区| 久久久成人精品视频| 日本在线中文字幕一区二区三区| 精品国产综合久久| 在线成人亚洲| 日本精品一二三| 一区二区三区精品视频| 国产三级伦理片| 精品国偷自产在线视频99| 日本成人福利| 日韩欧美精品在线不卡| 久久久噜噜噜久久狠狠50岁| 一区二区视频观看| 欧美视频不卡中文| 欧美性孕妇孕交| 日本精品视频在线| 你懂的一区二区三区| 国产亚洲综合视频| 91色乱码一区二区三区| 国产又爽又黄的视频| 亚洲精品国产精品久久清纯直播 | 亚洲观看高清完整版在线观看| 国产毛片毛片毛片毛片毛片| 日韩在线国产精品| 欧美日韩卡一| 男人天堂成人网| 成人午夜激情片| 日本中文字幕网| 亚洲精品一区中文| 中文字幕系列一区| 亚洲成人午夜在线| 激情欧美一区二区三区在线观看| 国语对白在线播放| 欧美第一区第二区| av日韩国产| 欧美高清视频一区| 美女视频黄a大片欧美| 亚洲AV成人无码精电影在线| 欧美一区二区三区四区五区| h网站久久久| 国产精品区一区二区三在线播放| 亚洲国产高清一区二区三区| 亚洲图片综合网| 欧洲一区二区三区在线| 麻豆传媒在线免费看| 99三级在线| 亚洲在线视频| 日韩欧美视频免费观看| 日韩一级欧美一级| 天堂中文在线播放| 一区二区三区不卡在线| 国产91精品露脸国语对白| 久久国产视频播放| 色噜噜狠狠狠综合曰曰曰88av | 蜜桃av一区二区三区电影| 国产suv精品一区二区68| 亚洲国产一区二区三区在线观看 | 91精品麻豆日日躁夜夜躁| 国产第一页在线| 亚洲春色综合另类校园电影| 国产精品99久久久久久宅男| 日韩特黄一级片| 中文字幕日韩电影| 4438全国亚洲精品观看视频| 日韩av一二三四| 一级精品视频在线观看宜春院| 青青操在线视频| 999热视频| 日韩和欧美一区二区| 九九热只有精品| 亚洲网站在线观看| 99香蕉久久| 一级片视频免费观看| 午夜精品aaa| 久久黄色美女电影| 日韩欧美精品一区二区| av午夜精品一区二区三区| 97精品人妻一区二区三区在线| 亚洲3p在线观看|