AI已經開始自己設計算法,并且超越頂尖人類專家,人類還能做什么?
AI已經開始為自己設計算法,而且發現了比頂尖人類專家更優的算法。
這不是科幻,而是正在發生的事實。
剛剛,谷歌DeepMind團體的一篇論文登上Nature。

團隊基于元學習(meta-learning)策略讓一群agents在多樣的環境中自由探索強化學習規則。然后在多樣的基準測試平臺中(比如Atari、ProcGen等)進行比較,結果AI發現的強化學習規則超越任何人工設計的規則,并且展示很強的通用性。
無獨有偶,我們今天重點介紹的是另一個開源項目的論文。

加州大學伯克利分校的研究員發布的一篇論文《門口的野蠻人:人工智能如何顛覆系統研究》,也同樣展現出AI正在通過自己加速實現自我進化。
在計算機系統研究領域,一種稱之為AI驅動的系統研究(AI-Driven Research for Systems, ADRS)的新范式,正在迭代地生成、評估并完善算法方案。
在多個真實場景的案例中,ADRS發現的算法,性能遠超世界一流研究者設計的方案,例如將運行效率提升了5倍,或將成本降低了26%。
這一切的核心,在于AI改變了研究的本質過程。
傳統的研究模式中,研究人員面對一個特定任務,需要提出假說、設計方案、驗證方案。其中,設計與驗證環節占據了大量時間。而AI驅動的方法,將這個過程自動化為兩個核心步驟:大規模生成多樣化的解決方案,然后驗證并篩選出真正能解決問題的方案。
這個模式成功的關鍵,在于一個絕對可靠的驗證器。它必須能準確判斷一個解決方案的好壞。
在很多領域,構建這樣的驗證器非常困難。比如,驗證AI生成的程序是否完全正確,或者驗證一個對復雜問題的文字回答是否無懈可擊,都極具挑戰。
計算機系統研究領域,尤其是專注于性能優化的方向,恰好是這種新范式的完美試驗場。
這里的驗證過程天然可靠。一個新算法好不好,比如一個新的調度算法、路由協議或資源管理器,可以直接在真實系統或高保真模擬器中實現出來。然后,研究人員只需在預設的負載下運行它,測量其性能指標,比如吞吐量、延遲、成本等。數據不會說謊,結果一目了然。
這種得天獨厚的優勢,讓系統研究成為了AI大展拳腳的舞臺。
AI正在重塑系統研究的流程
一個典型的系統性能研究,過程漫長,往往耗時數周甚至數月。
它通常分為五個階段:
- 問題表述:定義要解決的問題,比如提升系統吞吐量。
- 評估框架搭建:開發或使用一個能實現并評估解決方案的框架,可能是系統本身,也可能是一個模擬器。
- 解決方案設計:人工設計新的算法或策略。
- 評估與迭代:在框架中實現方案,對比基線,如果不理想,回到上一步重新設計。
- 論文撰寫:獲得理想結果后,記錄并發表。

根據對30多名系統研究生的調查,其中最耗時的迭代循環,也就是(3)解決方案設計和(4)評估,占據了整個研究過程約40%的時間。
ADRS方法,正是將這最核心、最耗時的40%進行了自動化。
它通過一個自動化的循環,來替代研究人員進行算法的探索和優化。這個循環由五個組件構成:
- 提示生成器:根據研究人員輸入的問題描述、上下文、甚至之前的失敗案例,創建用于生成新算法的提示。
- 解決方案生成器:將提示交給大語言模型(LLM),如GPT-4o或Gemini,生成新的算法代碼。
- 評估器:拿到新算法后,在模擬器或真實系統中運行,根據性能給出一個分數,甚至定性的反饋。
- 存儲:一個數據庫,存放所有被生成過的解決方案、它們的得分以及評估反饋。
- 解決方案選擇器:從數據庫中挑選出一批有潛力的、或具有多樣性的方案,反饋給提示生成器,用于啟發下一輪的算法生成。

這五個組件形成了一個閉環,AI在其中不斷自我進化。研究人員則從繁瑣的算法設計和調試中解放出來,成為一個更高層次的引導者。他們定義問題,提供初始方向,并從AI生成的眾多方案中提煉洞見,形成一個強大的人機協作研究模式。
目前,已經有多個開源或閉源的ADRS框架,如谷歌DeepMind的AlphaEvolve、開源的OpenEvolve以及LLM4AD等。
研究團隊的案例研究,主要基于OpenEvolve框架展開。
AI發現的算法比人類專家更強
為了驗證ADRS的實際能力,研究人員在網絡、數據庫、分布式系統等多個領域,開展了11項系統任務的案例研究。所有研究均由不同的學生在2025年夏季并行進行,他們使用了不同的參數配置,因此,這里展示的結果,應被視為ADRS能力的下限。
隨著研究人員對如何高效使用這些框架的理解加深,以及框架和模型自身的進化,未來的結果只會更令人震撼。
研究人員重點介紹四個最具代表性的案例。
案例一:在云上省錢,AI比頂會論文更懂行
公共云上有一種叫競價實例的服務器,比普通服務器便宜60%到90%,但它可能隨時被云廠商收回。這就帶來一個挑戰:對于一個有截止日期的計算任務,如何盡可能多地使用這種便宜但不穩定的服務器,來最大化省錢,同時又保證任務不會延期?
這個問題是頂級學術會議NSDI'24一篇杰出論文的研究核心,該論文提出了當時最先進的(SOTA)策略,名為Uniform Progress。
研究人員使用OpenEvolve,讓AI來挑戰這個人類SOTA方案。
AI的進化過程很有趣。它從一個簡單的貪心策略開始,在400次迭代中不斷學習。在早期,它學會了用一個滑動窗口來觀察近期的服務器穩定性。迭代到180次左右,它引入了基于穩定性的自適應安全邊界。到350次迭代,它學會了動態調整這個邊界。
最終,在第389次迭代時,AI發現了一個人類專家沒有明確提出的策略:選擇性等待。
人類設計的Uniform Progress策略有個弱點,當任務進度落后時,它會不顧一切地使用任何可用的競價實例,哪怕這個實例只能用幾秒鐘。這會導致頻繁切換,浪費大量時間在任務重啟上,研究人員稱之為轉換陷阱。
AI進化出的策略更聰明。它會判斷,當競價實例看起來不穩定,且任務離截止日期還有足夠緩沖時,它會選擇等待,跳過這些質量不高的機會,去抓更穩定的時機。

結果,AI設計的算法在滿足所有截止日期的前提下,平均比人類SOTA方案多節省了7%的成本,在某些場景下節省高達16.7%。
研究人員進一步將問題擴展到更復雜的多區域場景,這個場景之前沒有已知的解決方案。AI同樣不負眾望,設計出的策略比一個精心設計的人類基線方案,多節省了26%的成本。
整個過程耗時5小時,成本不到20美元。
案例二:給大模型推理排兵布陣,AI把效率提升5倍
專家混合(MoE)是當前非常流行的大模型架構。它的推理負載均衡是一個難題:如何將成千上萬個專家模塊,合理地分配到不同的GPU上,讓每個GPU的計算負載盡可能均衡。
研究人員讓OpenEvolve來解決這個問題。初始方案來自一個開源實現,它使用簡單的循環和貪心算法進行分配,重新平衡一次專家需要540毫秒。
研究人員還有一個未公開的、來自前沿實驗室的參考實現作為基線。它使用了一種巧妙的蛇形放置啟發式算法,通過高效的張量操作替代了緩慢的循環,將重新平衡時間縮短到了19.6毫秒,性能提升了27倍。
AI的進化過程再次展現了它的學習能力。它獨立發現了類似蛇形放置的交錯技術,學會了用張量重塑來替代Python循環。考慮到研究的基線方案并未公開,模型在訓練數據中接觸到它的可能性微乎其微。

更令人驚訝的是,AI在重新發現的基礎上,還進行了微創新,比如改進了排序邏輯和更具自適應性的重塑策略。
最終,AI生成的算法在負載均衡效果上與研究的高級基線持平,但將重新平衡的運行時間,從19.6毫秒進一步壓縮到了3.7毫秒。
這比研究人員實驗室精心設計的內部方案,還要快5倍。
整個進化過程耗時約5小時,成本不到10美元。
案例三:SQL查詢中LLM推理的優化,將運行時間減少3倍
該案例研究針對關系分析中的高成本問題。
SQL查詢對整個表調用大型語言模型,每行觸發單獨推理操作,導致大規模應用時成本過高。
研究目標是通過重新排序表的行和字段來最大化前綴緩存命中率(PHR),從而降低推理時間和成本。
由于n行m列表表有n!×(m!n)種可能排序,窮舉搜索不可行,需要設計高效的重排序算法。
研究團隊使用OpenEvolve框架演化重排序策略,運行100次迭代。
演化過程始于貪婪遞歸分組算法(GGR),該算法雖PHR表現良好但存在重復計數和深度遞歸問題。
AI經過多次迭代優化,最終演化出的策略實現了與GGR相似的PHR,同時將運行時間減少3倍。

主要優化包括:維護懶更新的全局頻率映射避免重復數據遍歷;用直接屬性映射替代慢速Pandas查找,將核心循環從高成本Pandas調用簡化為O(Nrows×Ncols)的Python操作;應用局部啟發式方法進行每行排序,通過最大化與前一行連續性并按值長度平方加權來重排字段。
這些優化顯著提高了算法效率,同時保持了較高的緩存命中率,為大規模SQL查詢中的LLM推理提供了實用解決方案。
案例四:優化事務調度,減少34%整體執行時間
該案例研究針對事務處理系統中的性能瓶頸:共享數據沖突導致的事務調度問題。
研究目標是尋找高效的事務調度順序,最小化整體執行時間(makespan),提高系統吞吐量。
研究考慮了在線和離線兩種設置:在線設置中事務順序一旦確定不可更改,且調度算法需滿足O(n)時間復雜度;離線設置適用于確定性數據庫調度批量事務,無先前研究結果。
研究團隊使用OpenEvolve框架探索解決方案,運行100次迭代。
在線設置下,最佳策略是現有的最短完成時間優先(SMF)算法,OpenEvolve能夠從隨機調度基線重新發現該算法。
離線設置下,OpenEvolve發現了一種新算法,比SMF減少34%的makespan,表明框架可快速探索不同問題變體。
離線算法包含三部分:首先按寫入次數和長度對事務排序構建初始序列;然后運行完整貪心算法,嘗試將每個事務放在每個可能位置;最后執行配對交換爬山算法并嘗試幾個隨機調度作為安全網。該算法擴展了SMF的貪心直覺,時間復雜度為O(n2)。
這一結果不僅證明了基于沖突成本調度的有效性,也展示了OpenEvolve在輔助研究人員針對不同問題約束快速開發解決方案方面的潛力。
人類研究員的新角色:從造船者到領航員
ADRS的興起,預示著系統研究社區將迎來深刻的變革。當AI越來越多地承擔算法發現和優化的核心角色,人類研究員的角色也必須隨之進化。
研究人員不再需要是那個在細節中反復打磨算法的工匠。
研究的重點將轉向更高層次的智力活動:問題的定義、創意的構思,以及戰略方向的指引。
在這個新模式中,研究人員更像是一位擁有強大AI研究助手的導師。研究的工作是:
- 定義有意義、有價值的研究問題。
- 為AI的探索提供創造性的起點和邊界。
- 從AI生成的大量解決方案中,提煉出深刻的洞見和普適的規律。
這將創造一個強大的良性循環:研究人員利用AI改進計算機系統,而更高效的系統又可以反過來加速AI自身的發展,最終形成一個研究發現的復合加速引擎。
為了更好地迎接這一轉變,研究人員基于實踐,總結了一些利用ADRS框架的最佳實踐。
在提示設計上,問題表述必須清晰具體,提供足夠的上下文,用示例來引導AI,并通過迭代不斷優化提示。
在評估器構建上,評估指標必須與研究目標強相關,評估場景必須全面以防過擬合,反饋信息不僅要給分數,還要給出定性優劣,并且評估過程本身必須高效。
在進化策略上,需要平衡對新領域的探索和對已知優質解的利用,并根據搜索進展自適應地調整策略。
這一切都指向一個未來:研究人員將時間投入到工作中更具創造性和滿足感的部分。
AI正在接管算法設計,但這并非研究的終結,而是一個全新的開始。

























