谷歌AlphaEvolve太香了,陶哲軒甚至發(fā)了篇論文,啟發(fā)數(shù)學(xué)新構(gòu)造
著名數(shù)學(xué)家陶哲軒發(fā)論文了,除了陶大神,論文作者還包括 Google DeepMind 高級研究工程師 BOGDAN GEORGIEV 等人。
論文展示了 AlphaEvolve 如何作為一種工具,自主發(fā)現(xiàn)新的數(shù)學(xué)構(gòu)造,并推動(dòng)人們對長期未解數(shù)學(xué)難題的理解。
AlphaEvolve 是谷歌在今年 5 月發(fā)布的一項(xiàng)研究,一個(gè)由 LLMs 驅(qū)動(dòng)的革命性進(jìn)化編碼智能體。它可以發(fā)現(xiàn)極其復(fù)雜的算法,甚至跨越數(shù)百行代碼,遠(yuǎn)超簡單函數(shù)的范疇。
此前,陶哲軒多次表示,他一直在和 Google DeepMind 合作,探索 AlphaEvolve 的潛在數(shù)學(xué)應(yīng)用。

如今,與此相關(guān)的論文也已經(jīng)發(fā)表。

論文地址:https://arxiv.org/pdf/2511.02864v1
接下來我們看論文內(nèi)容。
計(jì)算工具的出現(xiàn),正在從根本上重塑數(shù)學(xué)發(fā)現(xiàn)的格局,它們能夠自主地探索數(shù)學(xué)空間并生成新的結(jié)構(gòu)。
AlphaEvolve 是這一演化過程中的重要一步,該系統(tǒng)展示了當(dāng)大語言模型(LLM) 與進(jìn)化計(jì)算和嚴(yán)格的自動(dòng)化評估機(jī)制相結(jié)合時(shí),它們能夠在大規(guī)模上發(fā)現(xiàn)顯式構(gòu)造,其結(jié)果可以達(dá)到甚至超越許多長期數(shù)學(xué)問題中當(dāng)前已知的最佳界限。
為了展示 AlphaEvolve 廣度,研究團(tuán)隊(duì)選擇了覆蓋數(shù)學(xué)分析、組合數(shù)學(xué)、幾何學(xué)與數(shù)論的 67 個(gè)問題。
在多數(shù)任務(wù)中,AlphaEvolve 重新發(fā)現(xiàn)了已知最佳解,并在若干問題上取得了改進(jìn)結(jié)果。
在部分情況下,AlphaEvolve 甚至能夠?qū)⑨槍τ邢掭斎胫档玫降慕Y(jié)果泛化為適用于所有輸入值的通式。
此外,該研究還將這一方法與 Deep Think 和 AlphaProof 結(jié)合,構(gòu)建了一個(gè)更廣泛的框架,其中的證明助手與推理系統(tǒng)可以進(jìn)一步實(shí)現(xiàn)自動(dòng)化證明生成和更深入的數(shù)學(xué)洞察。
這些結(jié)果表明,由大語言模型引導(dǎo)的進(jìn)化搜索可以自主發(fā)現(xiàn)數(shù)學(xué)構(gòu)造,補(bǔ)充人類直覺,在某些情況下甚至能匹配或超越現(xiàn)有最佳成果,展示了 AI 系統(tǒng)與數(shù)學(xué)家之間全新互動(dòng)方式的潛力。
本文還發(fā)現(xiàn),在許多情況下,除了計(jì)算規(guī)模之外,為了讓 AlphaEvolve 輸出與已有文獻(xiàn)相當(dāng)?shù)慕Y(jié)果,與傳統(tǒng)的數(shù)學(xué)研究方式相比,它幾乎不需要額外開銷:平均而言,使用 AlphaEvolve 搭建并準(zhǔn)備一個(gè)問題的時(shí)間通常只需數(shù)小時(shí)。
本文預(yù)計(jì),在沒有任何先驗(yàn)知識、信息或代碼的情況下,采用傳統(tǒng)方法完成同等規(guī)模的研究通常會耗費(fèi)更長的時(shí)間。因此,他們將這一研究范式稱為大規(guī)模建構(gòu)性數(shù)學(xué)(constructive mathematics at scale)。
論文還提到,支撐 AlphaEvolve 高效性的一個(gè)關(guān)鍵數(shù)學(xué)洞見在于:它具備同時(shí)在多個(gè)抽象層面上運(yùn)行與優(yōu)化的能力。
該系統(tǒng)不僅能夠優(yōu)化某個(gè)數(shù)學(xué)構(gòu)造的具體參數(shù),還能進(jìn)一步優(yōu)化發(fā)現(xiàn)這些構(gòu)造的算法策略本身。 這種元層級進(jìn)化(meta-level evolution)代表了一種全新的遞歸形式:優(yōu)化過程本身,成為了被優(yōu)化的對象。
舉例來說,AlphaEvolve 可能會進(jìn)化出一個(gè)程序,這個(gè)程序會使用:
- 一組啟發(fā)式規(guī)則(heuristics),
- 一個(gè) SAT 求解器,
- 一個(gè)無收斂保證的二階優(yōu)化方法,
- 或者這些方法的任意組合。
這種分層式的優(yōu)化方法在 AlphaEvolve 處理復(fù)雜數(shù)學(xué)問題時(shí)尤為明顯(這些問題通常由用戶提出)。系統(tǒng)往往能夠?yàn)閮?yōu)化過程的不同階段,自動(dòng)發(fā)現(xiàn)專門化的搜索啟發(fā)式策略。這種自發(fā)形成的階段性分工與策略優(yōu)化,與人類數(shù)學(xué)家在研究與探索中的直覺性思維方式驚人地相似。
值得一提的是,由于篇幅限制,本文沒有對每個(gè)問題的研究歷史進(jìn)行全面回顧,而是為每個(gè)問題提供了相應(yīng)的參考文獻(xiàn),供讀者查閱已有的研究成果。
人工智能與數(shù)學(xué)發(fā)現(xiàn)
人工智能在數(shù)學(xué)發(fā)現(xiàn)領(lǐng)域的崛起,標(biāo)志著人類在應(yīng)對數(shù)學(xué)中最具挑戰(zhàn)性問題的方式上迎來了范式轉(zhuǎn)變。近年來的一系列突破性成果展示了 AI 在協(xié)助數(shù)學(xué)家方面的強(qiáng)大能力。例如:
- AlphaGeometry 在標(biāo)準(zhǔn)時(shí)間限制內(nèi)解出了 30 道奧賽幾何題中的 25 道;
- AlphaProof 與 AlphaGeometry 2 在 2024 年國際數(shù)學(xué)奧林匹克(IMO)中取得銀牌成績,而改進(jìn)版 Gemini Deep Think 框架在 2025 年 IMO 中更是獲得了金牌;
- OpenAI 的模型也在同年取得了金牌表現(xiàn)。
除了競賽表現(xiàn),AI 也開始在真正意義上實(shí)現(xiàn)數(shù)學(xué)發(fā)現(xiàn)。例如:
- FunSearch 在 cap set 問題中找到了新解,并提出了更高效的裝箱算法;
- PatternBoost 推翻了一項(xiàng)存在 30 年的數(shù)學(xué)猜想;
- 早期系統(tǒng)如 Graffiti 則以自動(dòng)生成猜想著稱。
此外,還有諸多工作聚焦于輔助數(shù)學(xué)家尋找數(shù)學(xué)命題的形式化或非形式化證明。
與這些系統(tǒng)不同,AlphaEvolve 更側(cè)重于探索與發(fā)現(xiàn),使其不僅能夠進(jìn)行數(shù)學(xué)空間的探索,還能將發(fā)現(xiàn)結(jié)果結(jié)合形式化證明與嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)驗(yàn)證,實(shí)現(xiàn)從直覺發(fā)現(xiàn)到可驗(yàn)證證明的完整閉環(huán)。
進(jìn)化算法尋找數(shù)學(xué)構(gòu)造
從本質(zhì)上講,AlphaEvolve 是一種高度復(fù)雜的搜索算法。為了理解它的設(shè)計(jì)理念,我們可以從一個(gè)熟悉的概念開始。舉個(gè)例子:假設(shè)我們要解決這樣一個(gè)問題:在 50 個(gè)頂點(diǎn)的圖中,找到一個(gè)既沒有三角形、又沒有長度為 4 的環(huán),并且邊數(shù)盡可能多的圖。
一種經(jīng)典做法是:從一個(gè)隨機(jī)生成的圖開始;然后反復(fù)進(jìn)行微小的調(diào)整(例如,添加或刪除一條邊),以提升其得分,在這個(gè)例子中,得分可以定義為邊的數(shù)量,但若圖中出現(xiàn)三角形或 4 環(huán)則會被懲罰;如此繼續(xù),直到無法再進(jìn)一步改進(jìn)為止。
這種不斷優(yōu)化、逐步逼近最優(yōu)解的思想,正是 AlphaEvolve 復(fù)雜進(jìn)化機(jī)制的基礎(chǔ)。

第一個(gè)關(guān)鍵思想來自 AlphaEvolve 的前身 FunSearch 及其重實(shí)現(xiàn)版本:該思想的核心在于 —— 不在圖的空間中進(jìn)行局部搜索,而是在生成這些圖的 Python 程序空間中進(jìn)行搜索。
具體來說,本文從一個(gè)簡單的程序出發(fā),然后使用 LLM 生成許多與之相似但略有差異的程序(即突變體)。
接著,運(yùn)行每個(gè)程序,并對其生成的圖進(jìn)行評估打分。
一個(gè)自然的問題是:這種做法為什么會有效?畢竟,一次 LLM 調(diào)用的計(jì)算代價(jià)通常要遠(yuǎn)高于簡單地添加一條邊或評估一個(gè)圖。這意味著,這種方法在探索候選解的數(shù)量上往往比傳統(tǒng)局部搜索少成千上萬倍。
然而,這種在程序空間中搜索恰恰能帶來強(qiáng)大的優(yōu)勢。許多優(yōu)美的數(shù)學(xué)對象,都可以用簡短而優(yōu)雅的程序來生成。即便某個(gè)問題只有一個(gè)唯一的最優(yōu)構(gòu)造,也可能存在多種自然的程序?qū)崿F(xiàn)方式來生成它。相反,那些數(shù)量龐大、形態(tài)雜亂的局部最優(yōu)圖,通常并不對應(yīng)任何簡單的程序描述。
因此,在程序空間中搜索相當(dāng)于引入了一種簡潔性與結(jié)構(gòu)性先驗(yàn),幫助算法避開復(fù)雜的局部最優(yōu)點(diǎn),朝著優(yōu)雅且往往是最優(yōu)的解前進(jìn)。
當(dāng)然,在某些情況下,如果一個(gè)問題的最優(yōu)解無法用簡單的程序描述,而必須依靠啟發(fā)式方法才能找到,AlphaEvolve 在這類任務(wù)中同樣表現(xiàn)出色。
盡管如此,對于那些評分函數(shù)計(jì)算代價(jià)極低的問題,傳統(tǒng)方法憑借其純粹的暴力計(jì)算優(yōu)勢依然難以被超越。為了解決這一問題,本文提出了一個(gè)新的思路:
與其讓 AlphaEvolve 直接進(jìn)化出生成構(gòu)造的程序,不如讓它進(jìn)化出搜索構(gòu)造的程序。
這就是本文所稱的 AlphaEvolve 的搜索模式。在所有以找到高質(zhì)量構(gòu)造為目標(biāo)、而不太關(guān)注其可解釋性和泛化性的任務(wù)中,本文都采用了這種模式。
在這種設(shè)定下,AlphaEvolve 種群中的每個(gè)程序都是一種搜索啟發(fā)式算法。每個(gè)程序都會被分配一個(gè)固定的時(shí)間預(yù)算(例如 100 秒),并被要求在這段時(shí)間內(nèi)找到盡可能好的構(gòu)造。該啟發(fā)式算法的得分,即為它在限定時(shí)間內(nèi)所找到的最佳對象的得分。
這種機(jī)制有效地解決了計(jì)算速度的不平衡問題:雖然生成一個(gè)新的搜索啟發(fā)式算法需要一次昂貴的 LLM 調(diào)用,但這次調(diào)用可以觸發(fā)一場極為廉價(jià)的大規(guī)模計(jì)算 —— 因?yàn)檫@個(gè)新生成的啟發(fā)式程序能夠在自身的運(yùn)行過程中,獨(dú)立地探索數(shù)百萬個(gè)候選構(gòu)造。
研究人員強(qiáng)調(diào),搜索過程不必每次都從零開始。相反,評估一種新啟發(fā)式算法的標(biāo)準(zhǔn),是看它能否改進(jìn)迄今為止找到的最佳構(gòu)造。因此,該方法實(shí)際上是在進(jìn)化一個(gè)由「改進(jìn)器」函數(shù)組成的群體,從而創(chuàng)造了一個(gè)動(dòng)態(tài)的、自適應(yīng)的搜索過程。
在初始階段,執(zhí)行廣泛探索性搜索的啟發(fā)式算法可能更受青睞;而當(dāng)接近一個(gè)好的解決方案時(shí),執(zhí)行巧妙的、針對特定問題進(jìn)行優(yōu)化的啟發(fā)式算法則可能占據(jù)主導(dǎo)。最終的結(jié)果通常是一個(gè)由專門的啟發(fā)式算法組成的序列,當(dāng)它們串聯(lián)起來時(shí),便能產(chǎn)生一個(gè)達(dá)到頂尖水平的構(gòu)造。
這種方法的缺點(diǎn)是搜索過程可能會損失可解釋性,但它所發(fā)現(xiàn)的最終對象仍然是一個(gè)定義明確的數(shù)學(xué)實(shí)體,可供后續(xù)研究。事實(shí)證明,這種新增機(jī)制似乎對更困難的問題特別有用,因?yàn)樵谶@些問題上,單一的搜索函數(shù)可能無法自行發(fā)現(xiàn)一個(gè)好的解決方案。
從實(shí)例到公式的泛化:泛化器模式
上述搜索模式擅長為固定規(guī)模的問題(例如,?? = 11 的堆疊問題)尋找構(gòu)造。除此之外,研究人員還試驗(yàn)了一種更具挑戰(zhàn)性的「泛化器模式」。
在這種模式下,系統(tǒng)被要求 AlphaEvolve 編寫一個(gè)能解決任意給定 ?? 值的程序。該程序的評估基于其在一系列 ?? 值上的表現(xiàn)。其目標(biāo)是讓 AlphaEvolve 能夠通過觀察其(通常是)為較小的 ?? 找到的最優(yōu)解,來發(fā)現(xiàn)一種模式,并將其泛化為適用于所有 ?? 的構(gòu)造。
這種模式更具挑戰(zhàn)性,但它也產(chǎn)生了一些最令人興奮的成果。在一個(gè)案例中,AlphaEvolve 為尼科迪姆問題(Nikodym problem)(見問題 6.1)提出的構(gòu)造啟發(fā)了第三作者撰寫一篇新論文。
另一方面,當(dāng)使用搜索模式時(shí),進(jìn)化出的程序不容易被解釋。盡管如此,最終的構(gòu)造本身是可以被分析的。在算術(shù)掛谷問題(arithmetic Kakeya problem)(問題 6.30)的案例中,這些構(gòu)造啟發(fā)了第三作者的另一篇論文。
構(gòu)建由多種 AI 工具組成的流水線
更引人注目的是,對于有限域掛谷問題(參見問題 6.1),AlphaEvolve 發(fā)現(xiàn)了一種有趣的通用構(gòu)造。當(dāng)這個(gè)程序化解決方案被輸入給名為 Deep Think 的智能體時(shí),該智能體成功推導(dǎo)出了其正確性證明及其規(guī)模的閉式公式。
隨后,這個(gè)證明在 Lean 證明助手中使用另一個(gè) AI 工具 AlphaProof 進(jìn)行了完全的形式化。
這個(gè)結(jié)合了模式發(fā)現(xiàn)(AlphaEvolve)、符號證明生成(Deep Think)和形式化驗(yàn)證(AlphaProof)的工作流,展示了專業(yè)化 AI 系統(tǒng)如何集成的具體范例。它揭示了一種未來潛在的方法論:通過結(jié)合使用多種 AI 工具(全自動(dòng)或半自動(dòng)),協(xié)助完成從模型建議的經(jīng)驗(yàn)觀察模式到經(jīng)過形式化驗(yàn)證的數(shù)學(xué)結(jié)果的整個(gè)過程。
局限性
研究人員還指出,盡管 AlphaEvolve 擅長解決那些可以清晰表述為優(yōu)化一個(gè)適合「爬山」的平滑評分函數(shù)的問題,但在其他情況下它有時(shí)會遇到困難。特別是,研究中遇到了幾個(gè) AlphaEvolve 未能達(dá)到最優(yōu)或接近最優(yōu)結(jié)果的實(shí)例,這些案例也會在下文報(bào)告。
總體而言,作者發(fā)現(xiàn) AlphaEvolve 在大規(guī)模應(yīng)用于一系列廣泛且松散相關(guān)的問題(例如,堆疊問題或森多夫猜想及其變體)時(shí)最為有效。
論文第 6 節(jié)詳細(xì)介紹了使用這種方法發(fā)現(xiàn)的新數(shù)學(xué)結(jié)果,以及研究中發(fā)現(xiàn)的 AlphaEvolve 未能找到先前已知最佳構(gòu)造的所有示例。作者希望這項(xiàng)工作不僅能為這些特定問題提供新的見解,還能激勵(lì)其他科學(xué)家探索如何將這些工具應(yīng)用于他們自己的研究領(lǐng)域。
關(guān)鍵見解
陶哲軒等人在探索 AlphaEvolve 的過程產(chǎn)出了幾項(xiàng)關(guān)鍵見解。
關(guān)鍵的系統(tǒng)設(shè)計(jì)與交互組件
驗(yàn)證器的設(shè)計(jì)至關(guān)重要:它顯著影響系統(tǒng)的性能和所發(fā)現(xiàn)結(jié)果的質(zhì)量。例如,優(yōu)化器有時(shí)會更傾向于那些希望避免的、更穩(wěn)定(平凡)的解。因此,設(shè)計(jì)一個(gè)巧妙的驗(yàn)證器來避免這種行為,是發(fā)現(xiàn)新結(jié)果的關(guān)鍵。
連續(xù)損失函數(shù)的優(yōu)勢: 在某些情況下,采用連續(xù)(而非離散)損失函數(shù)被證明是指導(dǎo)進(jìn)化搜索過程的更有效策略。以問題 6.54 為例,評分函數(shù)本可以被設(shè)計(jì)為計(jì)算配置中接觸圓柱體的數(shù)量(非法配置則為 -∞)。然而,通過觀察一個(gè)依賴于距離的連續(xù)評分函數(shù),研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)更成功、更快速的優(yōu)化過程。
提示與人類專家的決定性作用: 提示中給出的建議以及提示者的經(jīng)驗(yàn)是另一個(gè)重要組成部分。研究人員發(fā)現(xiàn),隨著嘗試次數(shù)的增多,他們越發(fā)懂得如何向 AlphaEvolve 提問。例如,與直接嘗試尋找構(gòu)造相比,在「搜索模式」下進(jìn)行提示,能產(chǎn)生更高效的程序和更好的結(jié)果。
此外,在作為特定問題領(lǐng)域?qū)<业挠脩羰种校珹lphaEvolve 的表現(xiàn)總是遠(yuǎn)勝于非領(lǐng)域?qū)<业挠脩簟L崾局薪o予 AlphaEvolve 的專家建議對最終構(gòu)造的質(zhì)量有著重大影響,因?yàn)?AlphaEvolve 總是會試圖充分利用這些建議,同時(shí)保留其要點(diǎn)。研究強(qiáng)調(diào),人類的專業(yè)知識與 AlphaEvolve 的計(jì)算能力相結(jié)合,才能共同帶來最佳的整體結(jié)果。
實(shí)驗(yàn)過程中的重要觀察
在實(shí)驗(yàn)過程中,研究團(tuán)隊(duì)還觀察到了一些值得注意的現(xiàn)象,這些現(xiàn)象揭示了系統(tǒng)的行為模式和潛力。
欺騙現(xiàn)象:系統(tǒng)有時(shí)會尋找問題設(shè)置中的漏洞或利用人為因素,而不是找到真正的解決方案。例如,當(dāng)用離散版本逼近全局約束(如正性)時(shí),會出現(xiàn)有漏洞的驗(yàn)證器 (leaky verifier),或者系統(tǒng)會利用對廉價(jià)模型的不可靠 LLM 查詢。這凸顯了設(shè)計(jì)精心且穩(wěn)健的評估環(huán)境的必要性。
少即是多的泛化模式:當(dāng)系統(tǒng)被提供一套約束更嚴(yán)格的輸入或特征時(shí),算法的泛化能力反而得到了提高,這有助于促進(jìn)發(fā)現(xiàn)廣泛適用的算法。擁有大量數(shù)據(jù)并不必然意味著更好的泛化性能。相反,當(dāng)尋找能夠在廣泛參數(shù)范圍內(nèi)泛化的可解釋程序時(shí)(如問題 6.29, 6.65, 6.1),研究人員通過僅向 AlphaEvolve 展示 n 值較小時(shí)的先前最佳解,限制了它能訪問的數(shù)據(jù)量。這種方法似乎更能鼓勵(lì)基本思想的涌現(xiàn)。
跨問題訓(xùn)練可顯著改善結(jié)果:當(dāng)系統(tǒng)在相關(guān)問題或一系列相關(guān)問題實(shí)例上進(jìn)行單次訓(xùn)練時(shí),效果會更好。例如,在探索幾何問題時(shí),同時(shí)處理具有不同點(diǎn)數(shù) n 和維度 d 的配置被證明是非常有效的。一個(gè)在特定 (n,d) 對上表現(xiàn)良好的搜索啟發(fā)式很可能成為其他配對的堅(jiān)實(shí)基礎(chǔ),引導(dǎo)系統(tǒng)走向更普適的原則。
系統(tǒng)能力邊界與未來展望
研究發(fā)現(xiàn),AlphaEvolve 擅長發(fā)現(xiàn)那些已在當(dāng)前數(shù)學(xué)能力范圍之內(nèi)、但尚未被發(fā)現(xiàn)的構(gòu)造。這些構(gòu)造之所以未被發(fā)現(xiàn),通常是因?yàn)樾枰罅繒r(shí)間和精力來尋找適用于特定問題的標(biāo)準(zhǔn)思想的正確組合。
另一方面,對于那些需要真正新穎、深刻見解才能取得進(jìn)展的問題,AlphaEvolve 可能不是合適的工具。
展望未來,實(shí)現(xiàn)系統(tǒng)更大自主性(例如使 AlphaEvolve 能夠選擇自己的超參數(shù) 以動(dòng)態(tài)調(diào)整其搜索策略)是重要的一步。
AlphaEvolve 這樣的工具未來可用于系統(tǒng)性地評估大類數(shù)學(xué)界限或猜想的難度。這可能會帶來一種新的分類法,允許研究人員半自動(dòng)地將某些不等式標(biāo)記為 「AlphaEvolve-hard」 (AlphaEvolve 難題),表明它們對基于 AlphaEvolve 的方法具有抵抗性。
反過來,其他問題則可能被標(biāo)記為適合通過理論和計(jì)算機(jī)輔助技術(shù)進(jìn)行進(jìn)一步攻堅(jiān),從而更有效地指導(dǎo)未來的研究工作。
更多細(xì)節(jié)請參看原論文。





































