精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越DeepSeek推理,效率更高!斯坦福馬騰宇新作:有限數據,無限迭代

人工智能 新聞
STP(自博弈定理證明器)讓模型扮演「猜想者」和「證明者」,互相提供訓練信號,在有限的數據下實現了無限自我改進,在Lean和Isabelle驗證器上的表現顯著優于現有方法,證明成功率翻倍,并在多個基準測試中達到最先進的性能。

大型語言模型的「推理能力」現在成了NLP皇冠上的明珠,其核心難題在于「缺乏高質量訓練數據」,標注數據需要領域專家,成本非常高昂且難以擴展;現有高等數學論文和定理的數量也非常有限,遠少于其他任務的數據源。

DeepSeek-Prover和DeepSeek R1等模型的思路非常巧妙,在沒有逐步解決方案的數據集(如定理命題)上進行強化學習,可以極大提升其推理能力;和專家迭代(expert iteration)類似,交替進行「LLMs生成證明」和「正確生成的證明上進行微調」,部分緩解了數據稀缺(data scarcity)的問題。

不過,強化學習和專家迭代都存在一個嚴重問題:通過率(pass rate)過低,對「未證明的定理」生成「正確證明」所需的樣本量呈指數級增長,大量的計算資源被浪費在生成錯誤的證明上,無法為模型提供訓練信號。

比如在LeanWorkbook上的通過率為13.2%,其中98.5%的計算資源都浪費在生成錯誤證明上了,也就是說,在經過幾輪專家迭代后,由于缺乏新的成功證明,重新訓練模型的效果會大大降低。

此外,強化學習從原理上就受到訓練數據集中「定理難度水平」的限制,一個模型不可能從「解決高中水平的問題」中學習到「大學水平的證明技巧」,也無法解決「開放性」的數學問題,需要持續收集高水平的定理命題和數學問題。

斯坦福的研究人員提出了一個自博弈定理證明器(STP),模仿數學家學習和發展數學的方式,同時承擔兩個角色(猜想者和證明器),互相提供訓練信號,可以在「有限數據」的情況下「無限運行并自我改進」。

論文鏈接:https://arxiv.org/pdf/2502.00212

猜想者(conjecturer)在給定一個帶有證明的種子定理后,提出一個新的相關猜想(步驟1),而證明器(prover)則嘗試證明現有數據集中的猜想和命題(步驟2);然后,驗證器(verifier)選擇正確的證明(步驟3)來使用標準RL訓練證明器,并識別出正確、可行、優雅但具有挑戰性的猜想來指導猜想者的訓練(步驟4)。

在每次迭代中,猜想者會在之前生成的猜想上進行訓練,生成的猜想對于當前證明器來說只能「勉強證明」,即證明器相對于其隨機種子的成功概率為一個較小的正值;迭代過程會逐漸增加猜想和證明的難度,而無需額外數據,可以看作是猜想者和證明器之間的自我博弈算法,或是自動化的課程學習。

研究人員在Lean和Isabelle上對該方法進行了實證評估,使用DeepSeek-Prover-V1.5-SFT作為STP的基礎模型,在大約1.2億個生成的證明和200萬個生成的猜想的自我博弈訓練后,成功證明了訓練數據集LeanWorkbook中26.3%的命題,是之前專家迭代性能(13.2%)的兩倍!

在推理速度上,研究人員在公共基準測試miniF2F-test上對現有模型和使用STP訓練的最終模型進行多次獨立采樣,該模型在各種采樣預算下均顯著優于DeepSeek-Prover-V1.5模型,還在miniF2F-test(61.1%,pass@3200)、ProofNet-test(23.1%,pass@3200)和PutnamBench(8/644,pass@64)上實現了最先進的性能。

作者馬騰宇是斯坦福大學的助理教授,本科畢業于清華姚班,于普林斯頓大學獲得博士學位,研究興趣包括機器學習和深度學習,深度強化學習和高維統計。曾獲得NIPS'16最佳學生論文獎,COLT'18最佳論文獎、ACM博士論文獎榮譽獎和2021斯隆研究獎。

方法

通過有監督微調進行模型初始化

研究人員通過在現有的證明庫(例如Mathlib)上構建的監督微調(SFT)數據集,對一個通用的大型語言模型(如Llama)進行微調,初始化「猜想者」和「證明器」模型,其中證明庫包含人類編寫的已知數學定理的正式證明,每個文件都形式化了一個相對獨立的結果,比如教科書的一章。

自博弈(self-play)訓練

第1步和第2步:生成猜想和證明

研究人員使用驗證器從證明中提取一個種子引理,去重后隨機丟棄一些頻繁出現的引理,輸入到大模型中生成猜想;隨機選擇一組猜想,其數量不超過給定數據集中剩余未證明陳述的數量,以便證明器的計算資源在猜想和陳述之間平均分配;生成的猜想與現有數據集中未證明的陳述合并作為證明器的輸入。

在第2步證明過程,為每個陳述/猜想獨立采樣K個證明。

第3步:用Lean等驗證證明的正確性

第4步:獎勵分配

STP的主要技術難點是為猜想者設計獎勵函數,最終目標是激勵猜想者生成多樣化、相關、可行但又有一定挑戰性的猜想,以便為證明器提供足夠的訓練信號。

研究人員首先將所有生成的猜想和證明整理成一個示例列表,使用證明器通過K個獨立生成的證明估計的(經驗)通過率來判斷猜想的挑戰性。

然后設計一個啟發式的過濾器,防止模型生成具有復雜目標的、沒有實際價值的難題,即移除最小證明長度除以猜想長度處于最低20%的猜想。

最后對選定的猜想進行重新加權,以保持猜想者的多樣性,猜想者的獎勵不能僅依賴于單獨生成的猜想,否則猜想者的最優策略可能會退化為單一分布:將選定猜想的分布推向現有數據集中未證明的陳述,最小化與未證明定理的均勻分布的Wasserstein距離,以保持多個模式之間的平衡。

第5步:LLM訓練

對于證明數據集,根據對應陳述/猜想的驗證證明數量的倒數對樣本進行加權,在猜想或證明上計算加權交叉熵損失,引入長度懲罰以鼓勵生成更簡單的證明。

最終再訓練(re-training)

為了避免自博弈過程中數據分布變化導致的訓練不穩定,研究人員從基礎模型(SFT階段之前)開始,對最終模型進行再訓練,再訓練使用的數據集包括SFT數據集以及在自博弈訓練過程中生成的所有正確證明。

證明對應命題或猜想的經驗通過率不超過1/4;對于每一個陳述或猜想,隨機保留最多16個不同的證明,以加快訓練速度。

實驗結果

研究人員使用專家迭代后的DeepSeek-Prover-V1.5-SFT作為基礎模型,訓練數據包括公共數據集(例如LeanWorkbook、miniF2F-valid、ProofNet-valid)以及其他專有數據集中的證明。運行了24次STP迭代后,總共生成了200萬條猜想、1.2億個證明和198億個token,用累積通過率(即在整個訓練過程中證明的陳述的比例)作為衡量訓練進展的主要指標。

STP、專家迭代和平行采樣方法在LeanWorkbook訓練數據集上的累積通過率實驗可以看到,STP的擴展性能明顯優于專家迭代。

為了在常見基準測試中取得最佳性能,研究人員還使用LeanWorkbook、miniF2F-valid和ProofNet-valid中的陳述對模型進行了額外8次迭代的訓練,與以往工作在miniF2F-test和ProofNet-test測試集相比,STP顯著優于DeepSeek-Prover-V1.5-RL,在各種推理時間樣本預算下均實現了最先進的性能。

消融實驗

生成的猜想提供了更多訓練信號

在Isabelle實驗中,研究人員使用中間模型對LeanWorkbook中的未證明命題和生成猜想的經驗通過率進行了直方圖分析。在為79000條未證明陳述生成的250萬條證明中,只有131條是正確的,所以僅在正確證明上對模型進行微調幾乎沒有任何效果,專家迭代的效果停滯。

相比之下,STP生成的猜想具有更高的通過率,提供了更多的訓練信號,進而實現了更好的擴展性能。

使用生成的猜想再訓練仍然有助于下游性能

在最終的再訓練階段,除了LeanWorkbook中成功證明的陳述之外,使用生成的猜想進行重新訓練仍然有益,即使對于在miniF2F-test和ProofNet-test上的性能也是如此,pass@128指標上大約提高了1%的性能。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-26 10:23:46

2023-10-18 09:25:08

模型推理

2025-11-04 08:42:27

2021-04-02 15:02:42

開源技術 工具

2025-07-21 11:51:12

模型AI工具

2025-06-03 17:40:30

AIDeepSeekOpenAI

2025-04-09 04:22:00

2025-03-06 09:22:00

模型強化學習訓練

2025-04-08 13:16:34

2022-10-20 15:38:02

谷歌模型

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2023-12-14 12:57:00

模型數據

2025-01-20 13:08:25

2025-09-08 09:10:00

2025-01-17 10:26:19

模型開發ChatGPT

2025-09-19 09:06:00

2025-03-12 10:38:05

點贊
收藏

51CTO技術棧公眾號

天天影视色香欲综合网老头| 日本最新不卡在线| 精品美女被调教视频大全网站| 日韩欧美精品免费| 国产视频网址在线| 韩国理伦片一区二区三区在线播放| 欧美精品日韩www.p站| 99久久人妻精品免费二区| 亚洲成人av观看| 亚洲精品国产精华液| 久久亚洲高清| 国产免费福利视频| 久久国产精品99国产| 久热爱精品视频线路一| 美女100%无挡| a看欧美黄色女同性恋| 在线看日本不卡| 国产91沈先生在线播放| av在线免费一区| 99精品1区2区| av资源一区二区| 丰满人妻一区二区三区四区| 一本色道久久综合| 久久精品99久久久香蕉| 色无极影院亚洲| 国产成人在线中文字幕| 精品视频一区二区不卡| 5月婷婷6月丁香| 男女在线观看视频| 中文字幕一区二区三| 麻豆亚洲一区| 天堂av2024| 国产盗摄视频一区二区三区| 国产欧美最新羞羞视频在线观看| 天天干天天干天天| 亚洲精选久久| 久久人人爽人人爽人人片av高请 | 国产精品调教视频| 制服丝袜在线91| 日本激情视频在线| 伊人久久在线| 午夜久久久影院| 久久久国内精品| 国产黄a三级三级三级av在线看| 国产日韩欧美综合一区| 欧美久久在线| 日av在线播放| 91蜜桃在线观看| 蜜桃成人在线| 麻豆国产在线播放| 国产亚洲成aⅴ人片在线观看| 精品综合在线| 色哟哟在线观看| 91在线视频网址| 欧美日韩国产精品一卡| 色视频精品视频在线观看| 99久久综合国产精品| 国产日韩在线一区二区三区| 欧美综合视频在线| 波多野结衣在线aⅴ中文字幕不卡| 国产99视频精品免费视频36| 神马午夜精品95| av成人动漫在线观看| 国产一区喷水| 国产一二在线观看| 国产精品伦理在线| 免费成人进口网站| 成人毛片av在线| 亚洲一级二级三级| 91九色在线观看视频| 在线观看欧美日韩电影| 欧美亚洲综合一区| 亚洲妇熟xx妇色黄蜜桃| 亚洲伊人影院| 亚洲美女av在线播放| 国产传媒在线看| 欧美一区不卡| 91地址最新发布| 天天爱天天做天天爽| 久久精品国产在热久久| 1卡2卡3卡精品视频| 天天干免费视频| 中文字幕av不卡| 免费的一级黄色片| 日本韩国欧美| 欧美一区二区三区四区高清| 野战少妇38p| 蜜桃国内精品久久久久软件9| 色妞欧美日韩在线| 久久婷婷综合国产| 老司机午夜免费精品视频 | 日韩在线观看一区二区三区| 日韩av在线导航| 精品少妇一区二区三区密爱| 亚洲第一网站| 成人国产精品久久久久久亚洲| 亚洲精品国产av| 久久久99精品久久| 成人午夜视频免费观看| 免费观看一级欧美片| 欧美久久久久久久久久| 亚洲一区二区在线免费| 欧美好骚综合网| 97福利一区二区| 国产麻豆精品一区| 久久久久久久精| 国产夫妻自拍一区| 中文字幕成人| 亚洲人午夜精品免费| 国产一级免费观看| 韩国欧美国产1区| 欧美一区二区三区电影在线观看| 国产超级va在线视频| 色综合一区二区| 亚洲av无码专区在线播放中文| 日韩精品中文字幕第1页| 97香蕉久久超级碰碰高清版| 99国产精品久久久久99打野战| 久久免费视频一区| 2019日韩中文字幕mv| 外国成人毛片| 亚洲人成电影网站色| 日本亚洲欧美在线| 国产精品996| 亚洲视频在线二区| 亚洲精品国产嫩草在线观看| 精品国产自在久精品国产| 亚洲色图 激情小说| 久久久噜噜噜| 精品国产一区二区三区四区精华 | 色wwwwww| 一区av在线播放| 麻豆三级在线观看| 夜色77av精品影院| 91av视频在线| 欧美特级特黄aaaaaa在线看| 夜夜嗨av一区二区三区网页| 天天干天天色天天干| 日韩免费视频| 国产精品xxx视频| 极品白浆推特女神在线观看| 色综合久久久久网| 蜜桃av免费看| 日本麻豆一区二区三区视频| 日韩精彩视频| 国产成人亚洲一区二区三区| 伊人av综合网| 一本色道久久综合熟妇| 亚洲国产精品传媒在线观看| 啊啊啊国产视频| 精品国产视频| 国产在线精品播放| 免费观看成人高潮| 6080午夜不卡| 欧美成人免费观看视频| 激情五月激情综合网| 9999在线观看| 亚洲国产中文在线二区三区免| 久久国产色av| 男人的天堂a在线| 岛国av一区二区| 精品人妻无码一区二区三区| 日韩专区中文字幕一区二区| 亚洲精品一区二区三区av| 激情欧美一区二区三区黑长吊| 少妇高潮久久77777| 国产精品人妻一区二区三区| 亚洲精品视频在线观看网站| 亚洲欧美日韩色| 香蕉成人久久| 亚洲欧美一区二区原创| 麻豆国产一区二区三区四区| 欧美激情一二三| 偷拍25位美女撒尿视频在线观看| 在线免费观看不卡av| 国产喷水在线观看| 成人黄色一级视频| 青青视频在线播放| 色一区二区三区四区| 99久热re在线精品996热视频| av剧情在线观看| 亚洲欧美综合v| 国产三区在线播放| 欧美视频裸体精品| 色偷偷www8888| 成人av先锋影音| www.天天射.com| 欧美日韩一区二区三区四区在线观看| 久久艹中文字幕| 97色婷婷成人综合在线观看| 性色av一区二区三区免费| 国产精品一区二区婷婷| 日韩一区二区三区高清免费看看| 久久久久久国产精品视频| 久久夜色精品一区| www.午夜av| 玖玖精品视频| 嫩草影院中文字幕| 国产免费av一区二区三区| 亚洲一区二区免费| 国产精品扒开腿做爽爽爽视频软件| 久久精品视频中文字幕| 青青免费在线视频| 日韩一二三区不卡| 波多野结衣电车痴汉| 亚洲综合久久久久| 四虎地址8848| 久久久精品人体av艺术| 九色91porny| 免费在线观看不卡| 日韩免费视频播放| 午夜久久tv| 亚洲v国产v在线观看| 极品一区美女高清| 91综合免费在线| 亚洲爱爱视频| 清纯唯美亚洲综合| 91豆花视频在线播放| 欧美乱大交xxxxx另类电影| 国产免费视频在线| 日韩电影中文字幕在线| www.com欧美| 91麻豆精品国产91久久久久久久久 | 国产精品三级在线观看无码| 国产精品一区二区你懂的| 污视频免费在线观看网站| 一本色道久久综合亚洲精品不| 在线观看三级网站| 久久久久国产精品| 亚洲欧洲精品一区| 国产伦一区二区三区| 久久精品国产99精品国产亚洲性色| 日韩三级不卡| 亚洲自拍偷拍色片视频| 四虎精品永久免费| 国产精品视频久久久久| 欧美国产日韩电影| 国产精品69久久| 亚洲欧美电影| 国产成人福利视频| 97se综合| 日韩av免费看网站| 日韩欧美看国产| 国产99视频精品免视看7| 日韩脚交footjobhdboots| 98精品国产高清在线xxxx天堂| 免费在线中文字幕| 欧美高清在线观看| 国产美女一区视频| 97色在线视频| 伊人网在线播放| 国产99久久精品一区二区永久免费 | 欧美日韩国产页| 日韩精品一区二区av| 欧美日韩加勒比精品一区| 久久久成人免费视频| 色呦呦国产精品| 中国老头性行为xxxx| 欧美久久久影院| 精品黑人一区二区三区在线观看| 日韩欧美久久一区| 免费av一级片| 亚洲欧美国产va在线影院| 你懂得在线网址| 中文字幕日韩在线播放| 快射av在线播放一区| 久精品免费视频| 黄色aa久久| 国产精品99久久久久久久久久久久| 91亚洲精品| 成人情视频高清免费观看电影| 黄色欧美在线| 五月天亚洲综合小说网| 99久久婷婷国产综合精品电影√| xxxxxx在线观看| 夜夜嗨网站十八久久| 男人舔女人下面高潮视频| 免费在线观看精品| 欧美日韩一区二区区别是什么 | 日韩精品一区第一页| 不用播放器的免费av| 成人免费毛片a| 韩国三级hd中文字幕| 亚洲精选视频免费看| 午夜精品久久久久久久久久久久久蜜桃| 在线观看免费一区| 亚洲狼人综合网| 亚洲天堂久久av| 污视频在线看网站| 日本一区二区在线播放| 韩国一区二区三区视频| 久久日韩精品| 亚洲国产精品成人| 97超碰青青草| 国产一区二区精品在线观看| 9.1成人看片| 亚洲免费观看高清完整版在线| 亚洲影院在线播放| 日韩午夜av一区| 成年在线电影| 午夜精品在线视频| 图片一区二区| 日韩精品国内| 99精品免费| 日本黄色www| 中文字幕乱码久久午夜不卡| 日本熟女一区二区| 欧美一区二区三区播放老司机| 香蕉视频网站在线| 欧美国产日韩xxxxx| 最新日韩一区| 欧美一区二区三区四区在线观看地址| 欧美一区综合| 嫩草视频免费在线观看| 久久蜜桃一区二区| 亚洲精品视频在线观看免费视频| 在线不卡欧美精品一区二区三区| 欧美成人免费| 性欧美亚洲xxxx乳在线观看| 精品欧美视频| 在线国产伦理一区| 视频一区二区不卡| av无码一区二区三区| 亚洲h精品动漫在线观看| 国产精品爽爽久久久久久| 一区二区日韩精品| 丁香六月综合| 精品亚洲欧美日韩| 在线播放日韩| 在线观看一区二区三区四区| 亚洲日本欧美天堂| 91精品国产综合久| 中文字幕日韩在线观看| 国产精成人品2018| 五月天亚洲综合小说网| 久久成人精品| 国产精品815.cc红桃| 香蕉久久一区二区不卡无毒影院| www夜片内射视频日韩精品成人| 日韩视频免费在线| 国产原创一区| 亚洲一区三区| 麻豆精品久久久| 免费黄色激情视频| 欧美色窝79yyyycom| 亚洲xxxxxx| 91精品久久久久久久久久| 欧美国产小视频| 久久久精品高清| 亚洲男帅同性gay1069| 精品国产av一区二区| 欧美日韩高清区| 91综合精品国产丝袜长腿久久| 国产av熟女一区二区三区| 粉嫩av一区二区三区在线播放 | 亚洲精品乱码久久久久久不卡| 亚洲成av人片在www色猫咪| 欧美 日韩 国产 成人 在线 91 | 澳门av一区二区三区| 色就是色欧美| 国内精品国产成人| 九九视频在线免费观看| 亚洲高清色综合| 伊人久久国产| 亚洲三级一区| 国产91精品精华液一区二区三区| 日本少妇久久久| 亚洲欧美国产va在线影院| 91国内外精品自在线播放| 黄色网址在线免费看| 成人国产亚洲欧美成人综合网| 亚洲一区欧美在线| 亚洲网址你懂得| 久久国产精品美女| 少妇高潮毛片色欲ava片| 久久久久久久久久久久久女国产乱| 中文av免费观看| 精品综合久久久久久97| 久久99偷拍| 中国黄色片免费看| 亚洲一区二区在线免费看| 国产一二三区在线视频| 3d动漫啪啪精品一区二区免费 | 五月婷婷狠狠干| 国产精品久久久久福利| 欧美精选在线| 韩国女同性做爰三级| 日韩一区二区三区四区| 免费观看亚洲| 97在线免费视频观看| 国产午夜亚洲精品午夜鲁丝片| 国产又大又黄又爽| 欧美亚洲另类激情另类| 久久久久久影院| 国产艳俗歌舞表演hd| 欧美精品 国产精品| 樱桃视频成人在线观看| 黄色特一级视频| 中文字幕精品—区二区四季| www国产在线|