谷歌AlphaEvolve太香了，陶哲軒甚至發(fā)了篇論文，啟發(fā)數(shù)學(xué)新構(gòu)造

2025-11-07 08:45:42

AlphaEvolve 是谷歌在今年 5 月發(fā)布的一項(xiàng)研究，一個(gè)由 LLMs 驅(qū)動(dòng)的革命性進(jìn)化編碼智能體。它可以發(fā)現(xiàn)極其復(fù)雜的算法，甚至跨越數(shù)百行代碼，遠(yuǎn)超簡單函數(shù)的范疇。

著名數(shù)學(xué)家陶哲軒發(fā)論文了，除了陶大神，論文作者還包括 Google DeepMind 高級研究工程師 BOGDAN GEORGIEV 等人。

論文展示了 AlphaEvolve 如何作為一種工具，自主發(fā)現(xiàn)新的數(shù)學(xué)構(gòu)造，并推動(dòng)人們對長期未解數(shù)學(xué)難題的理解。

此前，陶哲軒多次表示，他一直在和 Google DeepMind 合作，探索 AlphaEvolve 的潛在數(shù)學(xué)應(yīng)用。

如今，與此相關(guān)的論文也已經(jīng)發(fā)表。

論文地址：https://arxiv.org/pdf/2511.02864v1

接下來我們看論文內(nèi)容。

計(jì)算工具的出現(xiàn)，正在從根本上重塑數(shù)學(xué)發(fā)現(xiàn)的格局，它們能夠自主地探索數(shù)學(xué)空間并生成新的結(jié)構(gòu)。

AlphaEvolve 是這一演化過程中的重要一步，該系統(tǒng)展示了當(dāng)大語言模型（LLM）與進(jìn)化計(jì)算和嚴(yán)格的自動(dòng)化評估機(jī)制相結(jié)合時(shí)，它們能夠在大規(guī)模上發(fā)現(xiàn)顯式構(gòu)造，其結(jié)果可以達(dá)到甚至超越許多長期數(shù)學(xué)問題中當(dāng)前已知的最佳界限。

為了展示 AlphaEvolve 廣度，研究團(tuán)隊(duì)選擇了覆蓋數(shù)學(xué)分析、組合數(shù)學(xué)、幾何學(xué)與數(shù)論的 67 個(gè)問題。

在多數(shù)任務(wù)中，AlphaEvolve 重新發(fā)現(xiàn)了已知最佳解，并在若干問題上取得了改進(jìn)結(jié)果。

在部分情況下，AlphaEvolve 甚至能夠?qū)⑨槍τ邢掭斎胫档玫降慕Y(jié)果泛化為適用于所有輸入值的通式。

此外，該研究還將這一方法與 Deep Think 和 AlphaProof 結(jié)合，構(gòu)建了一個(gè)更廣泛的框架，其中的證明助手與推理系統(tǒng)可以進(jìn)一步實(shí)現(xiàn)自動(dòng)化證明生成和更深入的數(shù)學(xué)洞察。

這些結(jié)果表明，由大語言模型引導(dǎo)的進(jìn)化搜索可以自主發(fā)現(xiàn)數(shù)學(xué)構(gòu)造，補(bǔ)充人類直覺，在某些情況下甚至能匹配或超越現(xiàn)有最佳成果，展示了 AI 系統(tǒng)與數(shù)學(xué)家之間全新互動(dòng)方式的潛力。

本文還發(fā)現(xiàn)，在許多情況下，除了計(jì)算規(guī)模之外，為了讓 AlphaEvolve 輸出與已有文獻(xiàn)相當(dāng)?shù)慕Y(jié)果，與傳統(tǒng)的數(shù)學(xué)研究方式相比，它幾乎不需要額外開銷：平均而言，使用 AlphaEvolve 搭建并準(zhǔn)備一個(gè)問題的時(shí)間通常只需數(shù)小時(shí)。

本文預(yù)計(jì)，在沒有任何先驗(yàn)知識、信息或代碼的情況下，采用傳統(tǒng)方法完成同等規(guī)模的研究通常會耗費(fèi)更長的時(shí)間。因此，他們將這一研究范式稱為大規(guī)模建構(gòu)性數(shù)學(xué)（constructive mathematics at scale）。

論文還提到，支撐 AlphaEvolve 高效性的一個(gè)關(guān)鍵數(shù)學(xué)洞見在于：它具備同時(shí)在多個(gè)抽象層面上運(yùn)行與優(yōu)化的能力。

該系統(tǒng)不僅能夠優(yōu)化某個(gè)數(shù)學(xué)構(gòu)造的具體參數(shù)，還能進(jìn)一步優(yōu)化發(fā)現(xiàn)這些構(gòu)造的算法策略本身。這種元層級進(jìn)化（meta-level evolution）代表了一種全新的遞歸形式：優(yōu)化過程本身，成為了被優(yōu)化的對象。

舉例來說，AlphaEvolve 可能會進(jìn)化出一個(gè)程序，這個(gè)程序會使用：

一組啟發(fā)式規(guī)則（heuristics），
一個(gè) SAT 求解器，
一個(gè)無收斂保證的二階優(yōu)化方法，
或者這些方法的任意組合。

這種分層式的優(yōu)化方法在 AlphaEvolve 處理復(fù)雜數(shù)學(xué)問題時(shí)尤為明顯（這些問題通常由用戶提出）。系統(tǒng)往往能夠?yàn)閮?yōu)化過程的不同階段，自動(dòng)發(fā)現(xiàn)專門化的搜索啟發(fā)式策略。這種自發(fā)形成的階段性分工與策略優(yōu)化，與人類數(shù)學(xué)家在研究與探索中的直覺性思維方式驚人地相似。

值得一提的是，由于篇幅限制，本文沒有對每個(gè)問題的研究歷史進(jìn)行全面回顧，而是為每個(gè)問題提供了相應(yīng)的參考文獻(xiàn)，供讀者查閱已有的研究成果。

人工智能與數(shù)學(xué)發(fā)現(xiàn)

人工智能在數(shù)學(xué)發(fā)現(xiàn)領(lǐng)域的崛起，標(biāo)志著人類在應(yīng)對數(shù)學(xué)中最具挑戰(zhàn)性問題的方式上迎來了范式轉(zhuǎn)變。近年來的一系列突破性成果展示了 AI 在協(xié)助數(shù)學(xué)家方面的強(qiáng)大能力。例如：

AlphaGeometry 在標(biāo)準(zhǔn)時(shí)間限制內(nèi)解出了 30 道奧賽幾何題中的 25 道；
AlphaProof 與 AlphaGeometry 2 在 2024 年國際數(shù)學(xué)奧林匹克（IMO）中取得銀牌成績，而改進(jìn)版 Gemini Deep Think 框架在 2025 年 IMO 中更是獲得了金牌；
OpenAI 的模型也在同年取得了金牌表現(xiàn)。

除了競賽表現(xiàn)，AI 也開始在真正意義上實(shí)現(xiàn)數(shù)學(xué)發(fā)現(xiàn)。例如：

FunSearch 在 cap set 問題中找到了新解，并提出了更高效的裝箱算法；
PatternBoost 推翻了一項(xiàng)存在 30 年的數(shù)學(xué)猜想；
早期系統(tǒng)如 Graffiti 則以自動(dòng)生成猜想著稱。

此外，還有諸多工作聚焦于輔助數(shù)學(xué)家尋找數(shù)學(xué)命題的形式化或非形式化證明。

與這些系統(tǒng)不同，AlphaEvolve 更側(cè)重于探索與發(fā)現(xiàn)，使其不僅能夠進(jìn)行數(shù)學(xué)空間的探索，還能將發(fā)現(xiàn)結(jié)果結(jié)合形式化證明與嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)驗(yàn)證，實(shí)現(xiàn)從直覺發(fā)現(xiàn)到可驗(yàn)證證明的完整閉環(huán)。

進(jìn)化算法尋找數(shù)學(xué)構(gòu)造

從本質(zhì)上講，AlphaEvolve 是一種高度復(fù)雜的搜索算法。為了理解它的設(shè)計(jì)理念，我們可以從一個(gè)熟悉的概念開始。舉個(gè)例子：假設(shè)我們要解決這樣一個(gè)問題：在 50 個(gè)頂點(diǎn)的圖中，找到一個(gè)既沒有三角形、又沒有長度為 4 的環(huán)，并且邊數(shù)盡可能多的圖。

一種經(jīng)典做法是：從一個(gè)隨機(jī)生成的圖開始；然后反復(fù)進(jìn)行微小的調(diào)整（例如，添加或刪除一條邊），以提升其得分，在這個(gè)例子中，得分可以定義為邊的數(shù)量，但若圖中出現(xiàn)三角形或 4 環(huán)則會被懲罰；如此繼續(xù)，直到無法再進(jìn)一步改進(jìn)為止。

這種不斷優(yōu)化、逐步逼近最優(yōu)解的思想，正是 AlphaEvolve 復(fù)雜進(jìn)化機(jī)制的基礎(chǔ)。

第一個(gè)關(guān)鍵思想來自 AlphaEvolve 的前身 FunSearch 及其重實(shí)現(xiàn)版本：該思想的核心在于 —— 不在圖的空間中進(jìn)行局部搜索，而是在生成這些圖的 Python 程序空間中進(jìn)行搜索。

具體來說，本文從一個(gè)簡單的程序出發(fā)，然后使用 LLM 生成許多與之相似但略有差異的程序（即突變體）。

接著，運(yùn)行每個(gè)程序，并對其生成的圖進(jìn)行評估打分。

一個(gè)自然的問題是：這種做法為什么會有效？畢竟，一次 LLM 調(diào)用的計(jì)算代價(jià)通常要遠(yuǎn)高于簡單地添加一條邊或評估一個(gè)圖。這意味著，這種方法在探索候選解的數(shù)量上往往比傳統(tǒng)局部搜索少成千上萬倍。

然而，這種在程序空間中搜索恰恰能帶來強(qiáng)大的優(yōu)勢。許多優(yōu)美的數(shù)學(xué)對象，都可以用簡短而優(yōu)雅的程序來生成。即便某個(gè)問題只有一個(gè)唯一的最優(yōu)構(gòu)造，也可能存在多種自然的程序?qū)崿F(xiàn)方式來生成它。相反，那些數(shù)量龐大、形態(tài)雜亂的局部最優(yōu)圖，通常并不對應(yīng)任何簡單的程序描述。

因此，在程序空間中搜索相當(dāng)于引入了一種簡潔性與結(jié)構(gòu)性先驗(yàn)，幫助算法避開復(fù)雜的局部最優(yōu)點(diǎn)，朝著優(yōu)雅且往往是最優(yōu)的解前進(jìn)。

當(dāng)然，在某些情況下，如果一個(gè)問題的最優(yōu)解無法用簡單的程序描述，而必須依靠啟發(fā)式方法才能找到，AlphaEvolve 在這類任務(wù)中同樣表現(xiàn)出色。

盡管如此，對于那些評分函數(shù)計(jì)算代價(jià)極低的問題，傳統(tǒng)方法憑借其純粹的暴力計(jì)算優(yōu)勢依然難以被超越。為了解決這一問題，本文提出了一個(gè)新的思路：

與其讓 AlphaEvolve 直接進(jìn)化出生成構(gòu)造的程序，不如讓它進(jìn)化出搜索構(gòu)造的程序。

這就是本文所稱的 AlphaEvolve 的搜索模式。在所有以找到高質(zhì)量構(gòu)造為目標(biāo)、而不太關(guān)注其可解釋性和泛化性的任務(wù)中，本文都采用了這種模式。

在這種設(shè)定下，AlphaEvolve 種群中的每個(gè)程序都是一種搜索啟發(fā)式算法。每個(gè)程序都會被分配一個(gè)固定的時(shí)間預(yù)算（例如 100 秒），并被要求在這段時(shí)間內(nèi)找到盡可能好的構(gòu)造。該啟發(fā)式算法的得分，即為它在限定時(shí)間內(nèi)所找到的最佳對象的得分。

這種機(jī)制有效地解決了計(jì)算速度的不平衡問題：雖然生成一個(gè)新的搜索啟發(fā)式算法需要一次昂貴的 LLM 調(diào)用，但這次調(diào)用可以觸發(fā)一場極為廉價(jià)的大規(guī)模計(jì)算 —— 因?yàn)檫@個(gè)新生成的啟發(fā)式程序能夠在自身的運(yùn)行過程中，獨(dú)立地探索數(shù)百萬個(gè)候選構(gòu)造。

研究人員強(qiáng)調(diào)，搜索過程不必每次都從零開始。相反，評估一種新啟發(fā)式算法的標(biāo)準(zhǔn)，是看它能否改進(jìn)迄今為止找到的最佳構(gòu)造。因此，該方法實(shí)際上是在進(jìn)化一個(gè)由「改進(jìn)器」函數(shù)組成的群體，從而創(chuàng)造了一個(gè)動(dòng)態(tài)的、自適應(yīng)的搜索過程。

在初始階段，執(zhí)行廣泛探索性搜索的啟發(fā)式算法可能更受青睞；而當(dāng)接近一個(gè)好的解決方案時(shí)，執(zhí)行巧妙的、針對特定問題進(jìn)行優(yōu)化的啟發(fā)式算法則可能占據(jù)主導(dǎo)。最終的結(jié)果通常是一個(gè)由專門的啟發(fā)式算法組成的序列，當(dāng)它們串聯(lián)起來時(shí)，便能產(chǎn)生一個(gè)達(dá)到頂尖水平的構(gòu)造。

這種方法的缺點(diǎn)是搜索過程可能會損失可解釋性，但它所發(fā)現(xiàn)的最終對象仍然是一個(gè)定義明確的數(shù)學(xué)實(shí)體，可供后續(xù)研究。事實(shí)證明，這種新增機(jī)制似乎對更困難的問題特別有用，因?yàn)樵谶@些問題上，單一的搜索函數(shù)可能無法自行發(fā)現(xiàn)一個(gè)好的解決方案。

從實(shí)例到公式的泛化：泛化器模式

上述搜索模式擅長為固定規(guī)模的問題（例如，?? = 11 的堆疊問題）尋找構(gòu)造。除此之外，研究人員還試驗(yàn)了一種更具挑戰(zhàn)性的「泛化器模式」。

在這種模式下，系統(tǒng)被要求 AlphaEvolve 編寫一個(gè)能解決任意給定 ?? 值的程序。該程序的評估基于其在一系列 ?? 值上的表現(xiàn)。其目標(biāo)是讓 AlphaEvolve 能夠通過觀察其（通常是）為較小的 ?? 找到的最優(yōu)解，來發(fā)現(xiàn)一種模式，并將其泛化為適用于所有 ?? 的構(gòu)造。

這種模式更具挑戰(zhàn)性，但它也產(chǎn)生了一些最令人興奮的成果。在一個(gè)案例中，AlphaEvolve 為尼科迪姆問題（Nikodym problem）（見問題 6.1）提出的構(gòu)造啟發(fā)了第三作者撰寫一篇新論文。

另一方面，當(dāng)使用搜索模式時(shí)，進(jìn)化出的程序不容易被解釋。盡管如此，最終的構(gòu)造本身是可以被分析的。在算術(shù)掛谷問題（arithmetic Kakeya problem）（問題 6.30）的案例中，這些構(gòu)造啟發(fā)了第三作者的另一篇論文。

構(gòu)建由多種 AI 工具組成的流水線

更引人注目的是，對于有限域掛谷問題（參見問題 6.1），AlphaEvolve 發(fā)現(xiàn)了一種有趣的通用構(gòu)造。當(dāng)這個(gè)程序化解決方案被輸入給名為 Deep Think 的智能體時(shí)，該智能體成功推導(dǎo)出了其正確性證明及其規(guī)模的閉式公式。

隨后，這個(gè)證明在 Lean 證明助手中使用另一個(gè) AI 工具 AlphaProof 進(jìn)行了完全的形式化。

這個(gè)結(jié)合了模式發(fā)現(xiàn)（AlphaEvolve）、符號證明生成（Deep Think）和形式化驗(yàn)證（AlphaProof）的工作流，展示了專業(yè)化 AI 系統(tǒng)如何集成的具體范例。它揭示了一種未來潛在的方法論：通過結(jié)合使用多種 AI 工具（全自動(dòng)或半自動(dòng)），協(xié)助完成從模型建議的經(jīng)驗(yàn)觀察模式到經(jīng)過形式化驗(yàn)證的數(shù)學(xué)結(jié)果的整個(gè)過程。

局限性

研究人員還指出，盡管 AlphaEvolve 擅長解決那些可以清晰表述為優(yōu)化一個(gè)適合「爬山」的平滑評分函數(shù)的問題，但在其他情況下它有時(shí)會遇到困難。特別是，研究中遇到了幾個(gè) AlphaEvolve 未能達(dá)到最優(yōu)或接近最優(yōu)結(jié)果的實(shí)例，這些案例也會在下文報(bào)告。

總體而言，作者發(fā)現(xiàn) AlphaEvolve 在大規(guī)模應(yīng)用于一系列廣泛且松散相關(guān)的問題（例如，堆疊問題或森多夫猜想及其變體）時(shí)最為有效。

論文第 6 節(jié)詳細(xì)介紹了使用這種方法發(fā)現(xiàn)的新數(shù)學(xué)結(jié)果，以及研究中發(fā)現(xiàn)的 AlphaEvolve 未能找到先前已知最佳構(gòu)造的所有示例。作者希望這項(xiàng)工作不僅能為這些特定問題提供新的見解，還能激勵(lì)其他科學(xué)家探索如何將這些工具應(yīng)用于他們自己的研究領(lǐng)域。

關(guān)鍵見解

陶哲軒等人在探索 AlphaEvolve 的過程產(chǎn)出了幾項(xiàng)關(guān)鍵見解。

關(guān)鍵的系統(tǒng)設(shè)計(jì)與交互組件

驗(yàn)證器的設(shè)計(jì)至關(guān)重要：它顯著影響系統(tǒng)的性能和所發(fā)現(xiàn)結(jié)果的質(zhì)量。例如，優(yōu)化器有時(shí)會更傾向于那些希望避免的、更穩(wěn)定（平凡）的解。因此，設(shè)計(jì)一個(gè)巧妙的驗(yàn)證器來避免這種行為，是發(fā)現(xiàn)新結(jié)果的關(guān)鍵。

連續(xù)損失函數(shù)的優(yōu)勢：在某些情況下，采用連續(xù)（而非離散）損失函數(shù)被證明是指導(dǎo)進(jìn)化搜索過程的更有效策略。以問題 6.54 為例，評分函數(shù)本可以被設(shè)計(jì)為計(jì)算配置中接觸圓柱體的數(shù)量（非法配置則為 -∞）。然而，通過觀察一個(gè)依賴于距離的連續(xù)評分函數(shù)，研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)更成功、更快速的優(yōu)化過程。

提示與人類專家的決定性作用：提示中給出的建議以及提示者的經(jīng)驗(yàn)是另一個(gè)重要組成部分。研究人員發(fā)現(xiàn)，隨著嘗試次數(shù)的增多，他們越發(fā)懂得如何向 AlphaEvolve 提問。例如，與直接嘗試尋找構(gòu)造相比，在「搜索模式」下進(jìn)行提示，能產(chǎn)生更高效的程序和更好的結(jié)果。

此外，在作為特定問題領(lǐng)域?qū)＜业挠脩羰种校珹lphaEvolve 的表現(xiàn)總是遠(yuǎn)勝于非領(lǐng)域?qū)＜业挠脩簟Ｌ崾局薪o予 AlphaEvolve 的專家建議對最終構(gòu)造的質(zhì)量有著重大影響，因?yàn)?AlphaEvolve 總是會試圖充分利用這些建議，同時(shí)保留其要點(diǎn)。研究強(qiáng)調(diào)，人類的專業(yè)知識與 AlphaEvolve 的計(jì)算能力相結(jié)合，才能共同帶來最佳的整體結(jié)果。

實(shí)驗(yàn)過程中的重要觀察

在實(shí)驗(yàn)過程中，研究團(tuán)隊(duì)還觀察到了一些值得注意的現(xiàn)象，這些現(xiàn)象揭示了系統(tǒng)的行為模式和潛力。

欺騙現(xiàn)象：系統(tǒng)有時(shí)會尋找問題設(shè)置中的漏洞或利用人為因素，而不是找到真正的解決方案。例如，當(dāng)用離散版本逼近全局約束（如正性）時(shí)，會出現(xiàn)有漏洞的驗(yàn)證器 (leaky verifier)，或者系統(tǒng)會利用對廉價(jià)模型的不可靠 LLM 查詢。這凸顯了設(shè)計(jì)精心且穩(wěn)健的評估環(huán)境的必要性。

少即是多的泛化模式：當(dāng)系統(tǒng)被提供一套約束更嚴(yán)格的輸入或特征時(shí)，算法的泛化能力反而得到了提高，這有助于促進(jìn)發(fā)現(xiàn)廣泛適用的算法。擁有大量數(shù)據(jù)并不必然意味著更好的泛化性能。相反，當(dāng)尋找能夠在廣泛參數(shù)范圍內(nèi)泛化的可解釋程序時(shí)（如問題 6.29, 6.65, 6.1），研究人員通過僅向 AlphaEvolve 展示 n 值較小時(shí)的先前最佳解，限制了它能訪問的數(shù)據(jù)量。這種方法似乎更能鼓勵(lì)基本思想的涌現(xiàn)。

跨問題訓(xùn)練可顯著改善結(jié)果：當(dāng)系統(tǒng)在相關(guān)問題或一系列相關(guān)問題實(shí)例上進(jìn)行單次訓(xùn)練時(shí)，效果會更好。例如，在探索幾何問題時(shí)，同時(shí)處理具有不同點(diǎn)數(shù) n 和維度 d 的配置被證明是非常有效的。一個(gè)在特定 (n,d) 對上表現(xiàn)良好的搜索啟發(fā)式很可能成為其他配對的堅(jiān)實(shí)基礎(chǔ)，引導(dǎo)系統(tǒng)走向更普適的原則。

系統(tǒng)能力邊界與未來展望

研究發(fā)現(xiàn)，AlphaEvolve 擅長發(fā)現(xiàn)那些已在當(dāng)前數(shù)學(xué)能力范圍之內(nèi)、但尚未被發(fā)現(xiàn)的構(gòu)造。這些構(gòu)造之所以未被發(fā)現(xiàn)，通常是因?yàn)樾枰罅繒r(shí)間和精力來尋找適用于特定問題的標(biāo)準(zhǔn)思想的正確組合。

另一方面，對于那些需要真正新穎、深刻見解才能取得進(jìn)展的問題，AlphaEvolve 可能不是合適的工具。

展望未來，實(shí)現(xiàn)系統(tǒng)更大自主性（例如使 AlphaEvolve 能夠選擇自己的超參數(shù) 以動(dòng)態(tài)調(diào)整其搜索策略）是重要的一步。

AlphaEvolve 這樣的工具未來可用于系統(tǒng)性地評估大類數(shù)學(xué)界限或猜想的難度。這可能會帶來一種新的分類法，允許研究人員半自動(dòng)地將某些不等式標(biāo)記為「AlphaEvolve-hard」 (AlphaEvolve 難題)，表明它們對基于 AlphaEvolve 的方法具有抵抗性。

反過來，其他問題則可能被標(biāo)記為適合通過理論和計(jì)算機(jī)輔助技術(shù)進(jìn)行進(jìn)一步攻堅(jiān)，從而更有效地指導(dǎo)未來的研究工作。

更多細(xì)節(jié)請參看原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心