挑戰(zhàn)AI數(shù)學推理極限！大規(guī)模形式化數(shù)學基準FormalMATH發(fā)布，最強模型成功率僅16%

2025-05-08 09:05:37

盡管大語言模型（LLM）在自然語言處理和代碼生成等領域取得顯著進展，但面對需要嚴格邏輯推導的數(shù)學定理證明任務時，其能力仍面臨嚴峻挑戰(zhàn)。

最強AI模型面對5560道數(shù)學難題，成功率僅16.46%？背后真相大揭秘。

香港中文大學、西湖大學、MAP、浙江大學、馬克斯·普朗克智能系統(tǒng)研究所等機構聯(lián)合推出FormalMATH形式化數(shù)學推理基準測試，含5560道經過嚴格驗證的數(shù)學題，覆蓋從奧數(shù)到大學水平的代數(shù)、微積分、數(shù)論等領域。

形式化數(shù)學推理是人工智能領域公認的核心難題之一。

FormalMATH基準測試首次系統(tǒng)性評估了當前LLM驅動的定理證明器的真實水平。

結果顯示：即便是表現(xiàn)最佳的模型Kimina-Prover ，在實際計算資源限制下（Pass@32采樣量），成功率也僅為16.46% ；而多數(shù)模型在微積分等領域的表現(xiàn)接近「隨機猜測」。

FormalMATH：「超大規(guī)模」的形式化數(shù)學推理基準

FormalMATH包含5560個經過Lean4編譯器驗證的數(shù)學命題，涵蓋代數(shù)、數(shù)論、微積分、離散數(shù)學等12個子領域，問題難度從國際數(shù)學奧林匹克（IMO）競賽級延伸至本科課程，規(guī)模是經典基準MiniF2F的22.8倍。

為解決傳統(tǒng)形式化數(shù)據(jù)依賴專家手動標注的瓶頸，研究團隊提出了一套「三階段過濾」框架：

多LLM協(xié)同翻譯：通過微調后的Qwen2.5-7B-Coder、Deepseek-Prover-V1.5-Base等模型將自然語言問題轉為多個候選的形式化命題；
自動化驗證：利用Lean4編譯器篩選語法正確命題，并通過多LLM語義一致性校驗（如o1-mini、Claude-3.5）過濾錯誤；
否定反證過濾：調用LLM證明器嘗試「證偽」命題，排除無法成立的陳述。該流程在人工審核前保留了72.09%的高質量命題，大幅降低專家工作量。

最后，團隊召集了12名人類奧賽金牌級別的專家花了22天檢測自然語言數(shù)學命題與Lean4形式化命題之間的語義一致性。