精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越DeepSeek-ProverV1.5!豆包首個形式化數學推理模型BFS-Prover來了,直接開源

人工智能 開源
隨著大語言模型能力的不斷提升,BFS-Prover 開創的簡潔高效路線有望進一步推動自動形式化定理證明領域發展,為數學研究提供更強大的自動化工具支持。

自動形式化數學定理證明,是人工智能在數學推理領域的重要應用方向。此類任務需要將數學命題和證明步驟轉化為計算機可驗證的代碼,這不僅能確保推理過程的絕對嚴謹性,還能構建可復用的數學知識庫,為科學研究提供堅實基礎。

早在上世紀中葉,戴維斯、明斯基等不少邏輯學家、數學家、人工智能先驅便已在探索相關問題,其中,也不乏王浩、吳文俊等華人身影。

近些年在 LLM 能力加持下,自動定理證明系統更多依賴于復雜的蒙特卡洛樹搜索 (MCTS) 或價值函數 (Value Function) 來指導搜索過程。

然而,這些方法引入了額外計算成本,并增加系統復雜度,使模型在大規模推理任務中的可擴展性受限。

字節跳動豆包大模型團隊推出的 BFS-Prover 挑戰了這一傳統范式。

作為一種更簡單、更輕量但極具競爭力的自動定理證明系統,它引入了三項關鍵技術:1)專家迭代 (Expert Iteration) 與自適應性數據過濾,2)直接偏好優化 (DPO) 結合 Lean4 編譯器反饋,3)BFS 中的長度歸一化。

從結果看,BFS-Prover 在形式化數學測試集 MiniF2F 上實現了 72.95% 的準確率,創造了新的領域記錄。

該結果也首次證明:在合理的優化策略下,簡單的 BFS 方法能夠超越蒙特卡洛樹搜索(MCTS)和價值函數(Value Function)等主流的復雜搜索算法。

目前,論文成果已對外公開,模型也最新開源,期待與相關研究者做更進一步交流。

  • BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving
  • https://arxiv.org/abs/2502.03438
  • HuggingFace:https://huggingface.co/bytedance-research/BFS-Prover

Part1:主流方法蒙特卡洛樹搜索和價值函數真的必要么?

在形式化數學證明領域,將抽象的數學概念轉化為能夠用計算機驗證的嚴格形式,是一項極具挑戰性的任務。

該過程要求每一步推理都符合嚴格的形式邏輯規則,且每個步驟都必須經過 Lean 證明助手驗證。

在自動形式化定理證明過程中,計算機面臨的核心挑戰是 —— 在龐大且高度結構化的證明空間中,找出有效路徑。這一難點與傳統搜索問題有本質區別,具體表現如下:

  • 搜索空間龐大:每一步推理可能有數十甚至上百種可能的策略選擇;
  • 動態變化的策略空間:不同于棋類游戲的固定規則,數學定理證明中,每個狀態下可應用的策略集合不斷變化,且規模龐大且無明確界限;
  • 反饋稀疏與延遲:直到完成證明前,系統很難獲得有效的中間反饋;
  • 開放式推理過程:缺乏明確的終止條件,證明嘗試可能無限延續;

現有自動定理證明系統如 DeepSeek-Prover-V1.5、InternLM2.5-StepProver 和 HunyuanProver,主要依賴復雜的蒙特卡洛樹搜索(MCTS)和價值函數(Value Function)解決上述問題。

這些類 AlphaZero 算法框架在游戲中表現出色,尤其在圍棋領域大放異彩,推動了強化學習概念破圈。但在自動定理證明領域,由于狀態空間極其復雜以及缺乏明確的過程獎勵信號,上述主流方法效果并不理想。此外,復雜的搜索算法還帶來了計算成本高、系統復雜度增加等問題。

Part2:化繁為簡,用機器證明數學定理可以更簡單

人類遇到問題,往往優先采用最可能解決的方法。最優先樹搜索(Best-First Tree Search,即 BFS)與之類似。

這是一種在 “樹” 或 “圖” 中搜索節點的算法。核心思想是根據某種啟發式函數,評估每個節點優先級,按優先級訪問節點,常用于解決約束滿足問題和組合優化問題,特別是在需要快速找到近似最優解的情況下。

此前不少研究者認為,簡單的 BFS 算法缺乏有效的探索機制,尤其是對深度路徑的探索,難以勝任大規模定理證明任務,但豆包大模型團隊的研究者發現了其中的突破口,并提出了 BFS-Prover 系統。

下圖展示了 BFS-Prover 系統的整體架構和工作流程。

右側展示了訓練數據生成過程,包括用于監督微調的 SFT 數據 (成功證明路徑上的狀態 - 策略對) 和用于直接偏好優化的 DPO 數據 (從同一狀態出發的正確策略與錯誤策略的對比)。

左側展示了 BFS 機制,通過 LeanDojo 環境與 Lean4 交互,從根節點開始,按照優先級順序 (1→2→3...) 探索證明路徑,直到找到證明完成節點 (綠色 A 點)。

整個系統形成閉環:LLM 生成策略 → LeanDojo 執行 → 獲取反饋 → 生成訓練數據→優化 LLM → 再次生成策略,實現了持續改進的專家迭代機制。

團隊認為,BFS-Prover 系統不僅證明了經過優化的 BFS 方法性能方面可以超越復雜的 MCTS 和價值函數,并且能保持架構的簡潔性和計算效率。其技術特征如下:

  • 讓模型既能深度思考策略,也能掌握最簡證明方式

BFS-Prover 采用專家迭代框架,通過多輪迭代不斷增強 LLM 能力。在每輪迭代中,系統會先使用確定性的束搜索 (Beam Search) 方法過濾掉容易解決的定理,將這些 “簡單問題” 從訓練數據中剔除,再著手解決 “復雜問題”。

這一數據過濾機制頗具創新性,確保了訓練數據逐漸向更具挑戰性的定理證明任務傾斜,使 LLM 能夠學習更多元化的證明策略。

如下圖實驗數據顯示,隨迭代進行,系統能夠發現證明的平均長度變長,覆蓋面變廣,證明了這一方法的有效性。

與此同時,LLM 生成的策略分布也發生進化。

如下圖所示,經過多輪迭代,模型生成的策略長度分布發生了顯著變化:非常短的策略(1-10 個 token)比例下降,而中等長度策略(11-50 個 token)比例則有所增加。

這種分布變化表明,LLM “深度思考能力” 在加強,避免了常見的強化學習導致的分布坍縮問題,并逐漸掌握了更復雜、更信息豐富的證明策略。

同時,模型生成簡潔策略的能力并未摒棄。這種多樣策略生成能力的保持對于有效定理證明至關重要,因為不同的證明狀態,需要不同復雜度的策略,涵蓋從簡單的項重寫到復雜的代數操作。

  • 從過程中總結 “錯誤證明步驟”,提升證明能力

在證明搜索過程中,當 LLM 生成的某些策略導致 Lean4 編譯器錯誤,系統將這些無效策略與成功策略配對,形成負反饋信號。

BFS-Prover 創新性地依靠這些數據,基于直接偏好優化 (DPO) 技術優化策略 LLM。此種方法顯著提高了模型識別有效策略的能力,優化了策略分布,提高 BFS 的采樣效率。

如下圖實驗結果,在各種計算量級下,經過 DPO 優化的模型均取得了性能提升,證明了負面信號在定理證明中的重要價值。

  • 避免對深度推理的打壓,實現對高難度定理證明的突破

為解決 BFS 對深度推理路徑的天然打壓問題,BFS-Prover 系統引入了可調節的長度歸一化評分函數: 

其中,L 表示路徑長度,α 是可調節的長度歸一化參數。通過適當調整 α 值,系統可以平衡對高概率路徑的利用與對深層路徑的探索,使 BFS 能夠更有效地探索長鏈證明。

Part3:BFS-Prover 取得 MiniF2F 新 SOTA

團隊在 MiniF2F 測試集上,對 BFS-Prover 進行了全面評估。該測試集是形式化數學領域公認的基準測試集,包含高難度的競賽級數學問題,被廣泛用于衡量自動定理證明系統的能力。

  • 超越現有最優系統

在與領先的定理證明系統的對比中,BFS-Prover 展現出顯著優勢。

在固定策略生成的計算量下 (2048×2×600 次推理調用),BFS-Prover 實現了 70.83% 的準確率,超過所有現有系統,包括使用價值函數的 InternLM2.5-StepProver (65.9%) 、HunyuanProver (68.4%),以及基于 MCTS 的 DeepSeek-Prover-V1.5 (63.5%)。

在累積評估中,BFS-Prover 進一步將準確率提升至 72.95%,成為了形式化定理證明領域的 SOTA。

這一結果不僅證明了 BFS 方法的潛力,更展示了通過精心設計可以使簡單算法超越復雜方法。

  • 成功證明多個 IMO 題目

值得一提的是,BFS-Prover 成功證明了 MiniF2F-test 中的多個 IMO 問題,包括 imo_1959_p1,imo_1960_p2, imo_1962_p2, imo_1964_p2 和 imo_1983_p6。

這些證明展示了系統在處理復雜數學推理方面的強大能力,涵蓋數論、不等式和幾何關系等。

比如,對于 imo_1983_p6 不等式問題,BFS-Prover 能夠生成簡潔而優雅的形式化證明:

寫在最后

團隊認為,BFS-Prover 的成功,暗含了自動定理證明領域的一項重要啟示:簡潔的算法結合精心設計的優化策略,同樣有助于 AI4Math 邊界拓展。

隨著大語言模型能力的不斷提升,BFS-Prover 開創的簡潔高效路線有望進一步推動自動形式化定理證明領域發展,為數學研究提供更強大的自動化工具支持。

展望未來,團隊計劃進一步提升 BFS 方法在處理更復雜數學問題上的能力,特別是針對本科和研究生級別的數學定理。同時,團隊也將基于推理模型和其他前沿路線,持續挖掘模型潛力。

團隊期望,通過持續優化數據和訓練策略,讓相關工具為數學研究提供強大輔助,加速數學發現過程,最終實現人機協作解決前沿數學挑戰的愿景。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-04 09:00:00

2025-02-13 12:23:28

2025-04-11 12:04:58

2025-07-30 09:06:02

2025-07-01 09:08:00

2025-06-11 14:39:50

AILLMMistral

2025-03-10 08:30:00

AI模型訓練

2024-12-31 12:32:11

2025-05-08 09:05:37

2025-04-11 14:54:44

2025-05-01 10:33:59

2025-09-16 09:12:00

2025-02-08 09:15:00

2024-12-26 07:10:00

2025-04-30 02:00:00

2025-02-25 09:13:16

2025-04-11 12:10:33

2025-03-19 09:20:00

2025-03-05 00:22:00

點贊
收藏

51CTO技術棧公眾號

亚洲一区二区三区视频在线播放| 国产麻豆欧美日韩一区| 亚洲天堂第一页| gai在线观看免费高清| 国产高清一区二区三区视频 | 国产一二三四在线视频| www在线免费观看视频| 99riav一区二区三区| 国产精品欧美风情| 久久久久久av无码免费网站| 综合干狼人综合首页| 欧美精品tushy高清| 国产av天堂无码一区二区三区| av免费在线一区二区三区| 盗摄精品av一区二区三区| 国产成人中文字幕| 日本少妇久久久| 欧美r级电影| 亚洲免费电影在线观看| 国产亚洲色婷婷久久| 欧美天堂视频| 午夜精品福利在线| 色中文字幕在线观看| 欧美色视频免费| 国产成人av在线影院| 国产精品久久久久久av福利软件| av资源吧首页| 亚洲破处大片| 深夜福利91大全| 欧美老熟妇乱大交xxxxx| 91成人福利| 欧美一区二区三区四区视频| 国产精品无码一本二本三本色| 三级网站视频在在线播放| 中文字幕欧美日本乱码一线二线| 久久久水蜜桃| 天堂av在线免费| 国产91精品免费| 成人国产精品色哟哟| 最近中文字幕在线观看| 午夜亚洲激情| 欧美亚洲另类激情另类| 久久午夜鲁丝片午夜精品| 欧美一区二区三区另类| 日韩一级裸体免费视频| 日本一区二区视频在线播放| 精品欧美激情在线观看| 亚洲色图五月天| 欧美做受xxxxxⅹ性视频| 国产一区二区三区精品在线观看| 欧美日韩一区二区三区视频| 99久久国产宗和精品1上映| 欧美电影免费观看高清完整| 欧美性jizz18性欧美| 免费在线观看亚洲视频| 忘忧草在线影院两性视频| 天天色综合成人网| 波多野结衣50连登视频| 色偷偷偷在线视频播放| 色偷偷久久一区二区三区| 亚洲精品中文字幕无码蜜桃| 亚洲国产尤物| 欧美日韩黄视频| 三级性生活视频| 国产精品成人3p一区二区三区| 7777精品伊人久久久大香线蕉的| 爱豆国产剧免费观看大全剧苏畅| 亚洲影视资源| 日韩美女天天操| 波多野结衣加勒比| 奇米狠狠一区二区三区| 色七七影院综合| 欧美爱爱免费视频| 影音先锋一区| 欧美自拍视频在线观看| 亚洲免费视频二区| 国产伦理精品不卡| 精品蜜桃一区二区三区| 国产午夜精品一区理论片| 国产精品污网站| 亚洲精品国产suv一区88| 成入视频在线观看| 欧美性大战xxxxx久久久| 国内av一区二区| 国产精品极品国产中出| 亚洲最新av在线网站| 欧美大片xxxx| 鲁大师成人一区二区三区| 国产精品欧美一区二区| 成人1区2区3区| 91年精品国产| 亚洲AV无码成人精品一区| av色在线观看| 欧洲国产伦久久久久久久| 中文国产在线观看| 亚洲人成网www| 精品国产拍在线观看| 国产无遮挡aaa片爽爽| 日韩精品欧美精品| http;//www.99re视频| 日韩在线无毛| 又紧又大又爽精品一区二区| 久久久久久久久久久免费视频| 2019中文亚洲字幕| 亚洲视频在线看| 日韩免费一二三区| 久久成人av少妇免费| 精品高清视频| 超碰在线观看免费| 91精品办公室少妇高潮对白| 国产无套精品一区二区三区| 欧美一区二区三| 国内精久久久久久久久久人| 在线免费观看视频网站| av电影天堂一区二区在线| 艳母动漫在线观看| 97久久网站| 日韩电视剧免费观看网站| 欧美日韩在线国产| 美日韩一区二区三区| 久久久久久国产精品mv| 污片视频在线免费观看| 欧美久久免费观看| 婷婷色一区二区三区| 在线一区免费观看| 国产精品国色综合久久| www视频在线看| 欧美日韩国产一区二区三区地区| 在哪里可以看毛片| 9久re热视频在线精品| 91精品久久久久久蜜桃| 老司机在线视频二区| 欧美色中文字幕| 欧美人妻一区二区三区 | 激情五月俺来也| 少妇精品久久久| 538国产精品一区二区在线| 乱精品一区字幕二区| 亚洲最大色网站| 9191在线视频| 欧美成人69| 亚洲一区二区少妇| 91蜜桃在线视频| 欧美一区二区三区在线观看| 午夜精品福利在线视频| 经典一区二区三区| 法国空姐在线观看免费| 国产精品一级在线观看| 久久精品视频中文字幕| 国产裸体永久免费无遮挡| 自拍偷自拍亚洲精品播放| 日本肉体xxxx裸体xxx免费| 菠萝蜜一区二区| 国产精品麻豆va在线播放| 深夜福利视频在线观看| 色久综合一二码| 蜜桃av乱码一区二区三区| 日本大胆欧美人术艺术动态| 日韩欧美视频一区二区| 看片一区二区| 久久久精品在线| 亚洲成人黄色片| 午夜久久久久久久久| www.超碰97| 日韩不卡在线观看日韩不卡视频| 亚洲精品中文字幕在线| 亚洲午夜剧场| 欧美激情精品久久久久久大尺度| 天堂在线观看免费视频| 欧美视频在线看| 色噜噜噜噜噜噜| 狠狠色丁香婷综合久久| 日韩一级性生活片| 蜜桃国内精品久久久久软件9| 国产精品久久精品| caopo在线| 日韩电影中文字幕在线| 中文字幕欧美人妻精品| 亚洲自拍欧美精品| 久操视频免费看| 极品少妇一区二区三区精品视频| 成人毛片100部免费看| 欧美日韩大片免费观看| 国产精品久久久久久久久免费看| 黄色网页在线免费观看| 亚洲高清在线观看| 在线观看免费观看在线| 亚洲专区一二三| 中国女人特级毛片| 豆国产96在线|亚洲| 9久久婷婷国产综合精品性色| 亚洲欧美一级二级三级| 欧美一区二区三区精美影视| 国产午夜精品一区在线观看| 欧美亚洲一级片| 毛片在线看网站| 亚洲美女av电影| 国产手机精品视频| 色一区在线观看| 久久国产露脸精品国产| 中文字幕高清不卡| 国产高清成人久久| 久久99这里只有精品| 免费看一级大黄情大片| 久久久久免费av| 欧美日本亚洲| 国产精品流白浆在线观看| 国产精品久久久久久久av电影| 日本在线视频中文有码| 中文字幕日韩在线播放| 污污网站在线免费观看| 欧美一区二区三区在线视频| 99re热视频| 狠狠躁夜夜躁久久躁别揉| 欧美成人手机视频| 国产精品美女久久久久久| 欧美精品黑人猛交高潮| 国产高清不卡一区二区| 污污的网站免费| 久久精品一区| 日韩久久一级片| 亚洲黄页一区| 日韩欧美一级在线| 婷婷久久综合| 亚洲国产午夜伦理片大全在线观看网站| 草草视频在线一区二区| 91久久精品国产91性色| 99re久久| 国产精品91视频| 自由日本语热亚洲人| 午夜精品久久久久久久99热| 午夜激情在线| 欧美日韩国产123| 99热国产在线中文| 久久久国产一区| 女女色综合影院| 搡老女人一区二区三区视频tv| 免费a在线观看| 亚洲女同精品视频| 精品欧美不卡一区二区在线观看| 亚洲精品美女在线观看| 日韩一区二区三区不卡| 精品卡一卡二卡三卡四在线| 亚洲成熟女性毛茸茸| 日韩一区二区电影在线| 精品人妻久久久久一区二区三区| 欧美喷潮久久久xxxxx| 亚洲中文字幕在线观看| 欧美日韩精品电影| 亚洲最大成人av| 91.com在线观看| a天堂在线视频| 精品国产乱码久久久久久免费| 亚洲国产成人在线观看| 精品日韩一区二区| 蜜桃视频污在线观看| 日韩av影视在线| 色鬼7777久久| 中文字幕国产亚洲2019| 欧美午夜电影一区二区三区| 欧美xxxx18国产| 精品一性一色一乱农村| 97在线观看视频| 国产精品迅雷| 国产精品视频一区国模私拍 | 日本免费www| 国产精品乱人伦| 国产精品丝袜一区二区| 亚洲一区二区不卡免费| 黄色大片网站在线观看| 欧美综合亚洲图片综合区| 亚洲特级黄色片| 欧美不卡在线视频| 视频二区在线| 日韩一区二区福利| 不卡av免费观看| 国产国语刺激对白av不卡| 日韩第二十一页| 91免费看网站| 九九久久精品| 一区二区三区日韩视频| 在线欧美一区| 在线观看免费成人av| 国产成人精品免费网站| 久久精品一区二区免费播放 | 日本学生初尝黑人巨免费视频| 欧美三级免费观看| 91在线你懂的| 亚洲国产成人久久综合一区| lutube成人福利在线观看| 欧美激情一区二区三区久久久| 亚洲精品成人图区| 91在线免费视频| 要久久爱电视剧全集完整观看 | 国产欧美激情| 色播五月综合网| 99久久精品久久久久久清纯| 日韩av毛片在线观看| 亚洲成av人片www| 亚洲熟女乱色一区二区三区久久久| 亚洲电影成人av99爱色| 在线观看免费网站黄| 久久久久亚洲精品国产| 日韩综合av| 欧美一二三四五区| 欧美婷婷在线| 亚洲精品综合在线观看| 99re视频精品| 欧美国产在线看| 在线观看国产一区二区| 五月婷婷免费视频| 久久91亚洲精品中文字幕奶水| 日本综合视频| 久久精品国产精品国产精品污| 伊人色**天天综合婷婷| 国产男女激情视频| 99热这里都是精品| 日本aⅴ在线观看| 欧美日韩在线播放一区| 桃花色综合影院| 欧美wwwxxxx| 欧美风情在线视频| 亚洲 日韩 国产第一区| 亚洲欧美高清| 中国xxxx性xxxx产国| 一区二区三区国产豹纹内裤在线| 中文字幕二区三区| 亚洲精品中文字幕有码专区| 91美女精品| 国产欧美日韩一区| 欧美日韩国产亚洲一区| 在线播放免费视频| 中文字幕中文在线不卡住| 中文字幕精品在线观看| 亚洲午夜av电影| 欧美gay囗交囗交| 欧美国产一二三区| 香蕉久久久久久久av网站| 视频免费在线观看| 午夜伦理一区二区| 日本人妻熟妇久久久久久| 欧美精品videosex极品1| 视频一区在线| 日韩精品一区二区三区四| 国产老肥熟一区二区三区| 91视频综合网| 欧美成人一区二区三区片免费| 国产成人高清精品| 亚洲自拍偷拍区| 黑人一区二区三区四区五区| 国产亚洲精品成人a| 亚洲一线二线三线视频| 三级网站在线看| 欧美壮男野外gaytube| 国产成人av| 在线黄色免费观看| 亚洲另类在线制服丝袜| 国产黄色片av| 午夜精品在线观看| 欧美亚洲大陆| 已婚少妇美妙人妻系列| 亚洲国产精品二十页| 国产精品视频a| 欧美第一页在线| 自拍欧美一区| 国产日韩欧美久久| 综合电影一区二区三区| 六月婷婷中文字幕| 国产成人免费av电影| 97久久夜色精品国产| 麻豆短视频在线观看| 欧美性猛交99久久久久99按摩| 国产系列在线观看| 成人做爽爽免费视频| 一区二区三区国产盗摄| 亚洲а∨天堂久久精品2021| 欧美一区欧美二区| 手机av在线| 亚洲欧美国产精品桃花| 国产麻豆9l精品三级站| 久久久久久少妇| 日韩一级黄色av| 欧美日韩一区二区三区四区不卡| 日韩欧美在线免费观看视频| 成人欧美一区二区三区在线播放| 成人毛片在线免费观看| 日韩av理论片| 亚洲一区二区三区| 日本aaa视频| 正在播放亚洲一区| 成人爱爱网址| mm131午夜| 国产亚洲欧美日韩在线一区| www.黄色av| 国产精品成人一区二区| 欧美精品二区| 夫妇交换中文字幕| 精品盗摄一区二区三区| 全球中文成人在线| 免费成人午夜视频|