AI已經開始自己設計算法，并且超越頂尖人類專家，人類還能做什么？

2025-10-28 09:27:04

剛剛，谷歌DeepMind團體的一篇論文登上Nature。

AI已經開始為自己設計算法，而且發現了比頂尖人類專家更優的算法。

這不是科幻，而是正在發生的事實。

剛剛，谷歌DeepMind團體的一篇論文登上Nature。

團隊基于元學習（meta-learning）策略讓一群agents在多樣的環境中自由探索強化學習規則。然后在多樣的基準測試平臺中（比如Atari、ProcGen等）進行比較，結果AI發現的強化學習規則超越任何人工設計的規則，并且展示很強的通用性。

無獨有偶，我們今天重點介紹的是另一個開源項目的論文。

加州大學伯克利分校的研究員發布的一篇論文《門口的野蠻人：人工智能如何顛覆系統研究》，也同樣展現出AI正在通過自己加速實現自我進化。

在計算機系統研究領域，一種稱之為AI驅動的系統研究（AI-Driven Research for Systems, ADRS）的新范式，正在迭代地生成、評估并完善算法方案。

在多個真實場景的案例中，ADRS發現的算法，性能遠超世界一流研究者設計的方案，例如將運行效率提升了5倍，或將成本降低了26%。

這一切的核心，在于AI改變了研究的本質過程。

傳統的研究模式中，研究人員面對一個特定任務，需要提出假說、設計方案、驗證方案。其中，設計與驗證環節占據了大量時間。而AI驅動的方法，將這個過程自動化為兩個核心步驟：大規模生成多樣化的解決方案，然后驗證并篩選出真正能解決問題的方案。

這個模式成功的關鍵，在于一個絕對可靠的驗證器。它必須能準確判斷一個解決方案的好壞。

在很多領域，構建這樣的驗證器非常困難。比如，驗證AI生成的程序是否完全正確，或者驗證一個對復雜問題的文字回答是否無懈可擊，都極具挑戰。

計算機系統研究領域，尤其是專注于性能優化的方向，恰好是這種新范式的完美試驗場。

這里的驗證過程天然可靠。一個新算法好不好，比如一個新的調度算法、路由協議或資源管理器，可以直接在真實系統或高保真模擬器中實現出來。然后，研究人員只需在預設的負載下運行它，測量其性能指標，比如吞吐量、延遲、成本等。數據不會說謊，結果一目了然。

這種得天獨厚的優勢，讓系統研究成為了AI大展拳腳的舞臺。

AI正在重塑系統研究的流程

一個典型的系統性能研究，過程漫長，往往耗時數周甚至數月。

它通常分為五個階段：

問題表述：定義要解決的問題，比如提升系統吞吐量。
評估框架搭建：開發或使用一個能實現并評估解決方案的框架，可能是系統本身，也可能是一個模擬器。
解決方案設計：人工設計新的算法或策略。
評估與迭代：在框架中實現方案，對比基線，如果不理想，回到上一步重新設計。
論文撰寫：獲得理想結果后，記錄并發表。

根據對30多名系統研究生的調查，其中最耗時的迭代循環，也就是（3）解決方案設計和（4）評估，占據了整個研究過程約40%的時間。

ADRS方法，正是將這最核心、最耗時的40%進行了自動化。

它通過一個自動化的循環，來替代研究人員進行算法的探索和優化。這個循環由五個組件構成：

提示生成器：根據研究人員輸入的問題描述、上下文、甚至之前的失敗案例，創建用于生成新算法的提示。
解決方案生成器：將提示交給大語言模型（LLM），如GPT-4o或Gemini，生成新的算法代碼。
評估器：拿到新算法后，在模擬器或真實系統中運行，根據性能給出一個分數，甚至定性的反饋。
存儲：一個數據庫，存放所有被生成過的解決方案、它們的得分以及評估反饋。
解決方案選擇器：從數據庫中挑選出一批有潛力的、或具有多樣性的方案，反饋給提示生成器，用于啟發下一輪的算法生成。

這五個組件形成了一個閉環，AI在其中不斷自我進化。研究人員則從繁瑣的算法設計和調試中解放出來，成為一個更高層次的引導者。他們定義問題，提供初始方向，并從AI生成的眾多方案中提煉洞見，形成一個強大的人機協作研究模式。

目前，已經有多個開源或閉源的ADRS框架，如谷歌DeepMind的AlphaEvolve、開源的OpenEvolve以及LLM4AD等。

研究團隊的案例研究，主要基于OpenEvolve框架展開。

AI發現的算法比人類專家更強

為了驗證ADRS的實際能力，研究人員在網絡、數據庫、分布式系統等多個領域，開展了11項系統任務的案例研究。所有研究均由不同的學生在2025年夏季并行進行，他們使用了不同的參數配置，因此，這里展示的結果，應被視為ADRS能力的下限。

隨著研究人員對如何高效使用這些框架的理解加深，以及框架和模型自身的進化，未來的結果只會更令人震撼。

研究人員重點介紹四個最具代表性的案例。

案例一：在云上省錢，AI比頂會論文更懂行

公共云上有一種叫競價實例的服務器，比普通服務器便宜60%到90%，但它可能隨時被云廠商收回。這就帶來一個挑戰：對于一個有截止日期的計算任務，如何盡可能多地使用這種便宜但不穩定的服務器，來最大化省錢，同時又保證任務不會延期？

這個問題是頂級學術會議NSDI'24一篇杰出論文的研究核心，該論文提出了當時最先進的（SOTA）策略，名為Uniform Progress。

研究人員使用OpenEvolve，讓AI來挑戰這個人類SOTA方案。

AI的進化過程很有趣。它從一個簡單的貪心策略開始，在400次迭代中不斷學習。在早期，它學會了用一個滑動窗口來觀察近期的服務器穩定性。迭代到180次左右，它引入了基于穩定性的自適應安全邊界。到350次迭代，它學會了動態調整這個邊界。

最終，在第389次迭代時，AI發現了一個人類專家沒有明確提出的策略：選擇性等待。

人類設計的Uniform Progress策略有個弱點，當任務進度落后時，它會不顧一切地使用任何可用的競價實例，哪怕這個實例只能用幾秒鐘。這會導致頻繁切換，浪費大量時間在任務重啟上，研究人員稱之為轉換陷阱。

AI進化出的策略更聰明。它會判斷，當競價實例看起來不穩定，且任務離截止日期還有足夠緩沖時，它會選擇等待，跳過這些質量不高的機會，去抓更穩定的時機。

結果，AI設計的算法在滿足所有截止日期的前提下，平均比人類SOTA方案多節省了7%的成本，在某些場景下節省高達16.7%。

研究人員進一步將問題擴展到更復雜的多區域場景，這個場景之前沒有已知的解決方案。AI同樣不負眾望，設計出的策略比一個精心設計的人類基線方案，多節省了26%的成本。

整個過程耗時5小時，成本不到20美元。

案例二：給大模型推理排兵布陣，AI把效率提升5倍

專家混合（MoE）是當前非常流行的大模型架構。它的推理負載均衡是一個難題：如何將成千上萬個專家模塊，合理地分配到不同的GPU上，讓每個GPU的計算負載盡可能均衡。

研究人員讓OpenEvolve來解決這個問題。初始方案來自一個開源實現，它使用簡單的循環和貪心算法進行分配，重新平衡一次專家需要540毫秒。

研究人員還有一個未公開的、來自前沿實驗室的參考實現作為基線。它使用了一種巧妙的蛇形放置啟發式算法，通過高效的張量操作替代了緩慢的循環，將重新平衡時間縮短到了19.6毫秒，性能提升了27倍。

AI的進化過程再次展現了它的學習能力。它獨立發現了類似蛇形放置的交錯技術，學會了用張量重塑來替代Python循環。考慮到研究的基線方案并未公開，模型在訓練數據中接觸到它的可能性微乎其微。

更令人驚訝的是，AI在重新發現的基礎上，還進行了微創新，比如改進了排序邏輯和更具自適應性的重塑策略。

最終，AI生成的算法在負載均衡效果上與研究的高級基線持平，但將重新平衡的運行時間，從19.6毫秒進一步壓縮到了3.7毫秒。

這比研究人員實驗室精心設計的內部方案，還要快5倍。

整個進化過程耗時約5小時，成本不到10美元。

案例三：SQL查詢中LLM推理的優化，將運行時間減少3倍

該案例研究針對關系分析中的高成本問題。

SQL查詢對整個表調用大型語言模型，每行觸發單獨推理操作，導致大規模應用時成本過高。

研究目標是通過重新排序表的行和字段來最大化前綴緩存命中率(PHR)，從而降低推理時間和成本。

由于n行m列表表有n!×(m!n)種可能排序，窮舉搜索不可行，需要設計高效的重排序算法。

研究團隊使用OpenEvolve框架演化重排序策略，運行100次迭代。

演化過程始于貪婪遞歸分組算法(GGR)，該算法雖PHR表現良好但存在重復計數和深度遞歸問題。

AI經過多次迭代優化，最終演化出的策略實現了與GGR相似的PHR，同時將運行時間減少3倍。

主要優化包括：維護懶更新的全局頻率映射避免重復數據遍歷；用直接屬性映射替代慢速Pandas查找，將核心循環從高成本Pandas調用簡化為O(Nrows×Ncols)的Python操作；應用局部啟發式方法進行每行排序，通過最大化與前一行連續性并按值長度平方加權來重排字段。

這些優化顯著提高了算法效率，同時保持了較高的緩存命中率，為大規模SQL查詢中的LLM推理提供了實用解決方案。

案例四：優化事務調度，減少34%整體執行時間

該案例研究針對事務處理系統中的性能瓶頸：共享數據沖突導致的事務調度問題。

研究目標是尋找高效的事務調度順序，最小化整體執行時間(makespan)，提高系統吞吐量。

研究考慮了在線和離線兩種設置：在線設置中事務順序一旦確定不可更改，且調度算法需滿足O(n)時間復雜度；離線設置適用于確定性數據庫調度批量事務，無先前研究結果。

研究團隊使用OpenEvolve框架探索解決方案，運行100次迭代。

在線設置下，最佳策略是現有的最短完成時間優先(SMF)算法，OpenEvolve能夠從隨機調度基線重新發現該算法。

離線設置下，OpenEvolve發現了一種新算法，比SMF減少34%的makespan，表明框架可快速探索不同問題變體。

離線算法包含三部分：首先按寫入次數和長度對事務排序構建初始序列；然后運行完整貪心算法，嘗試將每個事務放在每個可能位置；最后執行配對交換爬山算法并嘗試幾個隨機調度作為安全網。該算法擴展了SMF的貪心直覺，時間復雜度為O(n2)。

這一結果不僅證明了基于沖突成本調度的有效性，也展示了OpenEvolve在輔助研究人員針對不同問題約束快速開發解決方案方面的潛力。

人類研究員的新角色：從造船者到領航員

ADRS的興起，預示著系統研究社區將迎來深刻的變革。當AI越來越多地承擔算法發現和優化的核心角色，人類研究員的角色也必須隨之進化。

研究人員不再需要是那個在細節中反復打磨算法的工匠。

研究的重點將轉向更高層次的智力活動：問題的定義、創意的構思，以及戰略方向的指引。

在這個新模式中，研究人員更像是一位擁有強大AI研究助手的導師。研究的工作是：

定義有意義、有價值的研究問題。
為AI的探索提供創造性的起點和邊界。
從AI生成的大量解決方案中，提煉出深刻的洞見和普適的規律。

這將創造一個強大的良性循環：研究人員利用AI改進計算機系統，而更高效的系統又可以反過來加速AI自身的發展，最終形成一個研究發現的復合加速引擎。

為了更好地迎接這一轉變，研究人員基于實踐，總結了一些利用ADRS框架的最佳實踐。

在提示設計上，問題表述必須清晰具體，提供足夠的上下文，用示例來引導AI，并通過迭代不斷優化提示。

在評估器構建上，評估指標必須與研究目標強相關，評估場景必須全面以防過擬合，反饋信息不僅要給分數，還要給出定性優劣，并且評估過程本身必須高效。

在進化策略上，需要平衡對新領域的探索和對已知優質解的利用，并根據搜索進展自適應地調整策略。

這一切都指向一個未來：研究人員將時間投入到工作中更具創造性和滿足感的部分。

AI正在接管算法設計，但這并非研究的終結，而是一個全新的開始。

責任編輯：張燕妮來源： AIGC開放社區

AI 算法模型