AI五小時發(fā)現(xiàn)MoE新算法,比人類算法快5倍,成本狂降26%
AI,不僅在使用算法,更在創(chuàng)造算法。
其創(chuàng)造的新算法甚至比人類的還要快5倍。
加州大學(xué)伯克利分校的研究團(tuán)隊提出了一種AI驅(qū)動的系統(tǒng)研究方法ADRS(AI-Driven Research for Systems),它可以通過“生成—評估—改進(jìn)”的迭代循環(huán),實現(xiàn)算法的持續(xù)優(yōu)化。

基于現(xiàn)有的開源ADRS框架OpenEvolve,團(tuán)隊在多個領(lǐng)域的案例研究表明,其發(fā)現(xiàn)的算法顯著優(yōu)于人類設(shè)計算法,實現(xiàn)了高達(dá)5倍的運(yùn)行效率提升或26%的成本降低。

下面具體來看。
使用OpenEvolve發(fā)現(xiàn)新算法
如今,大型語言模型的巨大規(guī)模能夠通過混合專家架構(gòu)等變得易于管理。
在該模型中,路由器將輸入文本的每個token動態(tài)分配給少量特定的“專家”網(wǎng)絡(luò)。這使得請求在推理時僅需使用模型總參數(shù)的一小部分,從而極大提升了推理效率。
然而,這種架構(gòu)也帶來了一個關(guān)鍵的性能挑戰(zhàn)——如何在各專家間實現(xiàn)負(fù)載均衡。
不可避免地,某些專家會變得更受歡迎或“熱點化”,從而產(chǎn)生計算瓶頸。承載這些熱點專家的GPU會過載,而其他GPU則處于空閑狀態(tài),浪費(fèi)了寶貴的資源。

解決方案是一種專家并行負(fù)載均衡器(Expert Parallelism Load Balancer,EPLB),該算法通過動態(tài)調(diào)整專家在GPU間的分布,以最小化負(fù)載不均、最大化系統(tǒng)吞吐量。
基礎(chǔ)版EPLB算法分三個階段運(yùn)行:
1、將專家組分布到各個節(jié)點以平衡負(fù)載;2、為熱點專家創(chuàng)建副本;3、將這些副本分配到GPU上,進(jìn)一步優(yōu)化負(fù)載均衡。
給定工作負(fù)載、MoE配置及GPU資源后,EPLB算法會確定各專家所需的副本數(shù)量,并將這些副本映射到具體GPU上。
可以說,EPLB算法追求兩個核心目標(biāo):
- 最小化負(fù)載不均衡:盡可能均勻地分配負(fù)載;
- 最小化運(yùn)行時間:重新分配過程本身必須快速,以避免成為新的性能瓶頸。
該算法可直接影響生產(chǎn)環(huán)境中LLM服務(wù)的成本與性能表現(xiàn)。

在尋找更優(yōu)的EPLB算法時,團(tuán)隊考慮了兩個基線方法。
首先,他們對DeepSeek開源的EPLB實現(xiàn)方案進(jìn)行了評估。該方案采用貪心的“箱子裝載”策略:先按負(fù)載從高到低對專家排序,然后將每個專家放置到具有容量且負(fù)載最輕的GPU上。
此方案雖然簡單,但由于其用Python編寫,并通過for循環(huán)進(jìn)行線性搜索以找到最適合的GPU,運(yùn)行速度較慢。
平均而言,重新平衡這些專家大約需要540毫秒,實現(xiàn)的負(fù)載平衡因子為0.66(計算公式為:每GPU生成token的平均數(shù)量與最大數(shù)量之比)。
之后,團(tuán)隊還將一個來自前沿實驗室的非公開實現(xiàn)納入考量。該實現(xiàn)方案避免了顯式迭代,在達(dá)到與開源算法相同負(fù)載系數(shù)的同時,將重新平衡算法的運(yùn)行時間縮短至19.6毫秒。

為進(jìn)一步優(yōu)化運(yùn)行時間,研究團(tuán)隊選擇用OpenEvolve來搜索EPLB算法。
實驗采用基于PyTorch實現(xiàn)的MoE模型分布式GPU推理引擎,工作負(fù)載為基于ShareGPT和GSM8K數(shù)據(jù)集的負(fù)載變化。
其優(yōu)化目標(biāo)包含雙重維度:既要最大化負(fù)載均衡因子(即每GPU生成token平均數(shù)與最大數(shù)之比),又要降低負(fù)載變化時專家重平衡算法的運(yùn)行時間。
因此,他們根據(jù)負(fù)載均衡因子與運(yùn)行時間倒數(shù)的加權(quán)平均值對算法進(jìn)行評分(評分越高代表算法越優(yōu))。
實驗使用80% Gemini 2.5 Flash與20% Gemini 2.5 Flash Lite混合配置運(yùn)行OpenEvolve。進(jìn)化過程以開源貪心算法作為初始程序,設(shè)置300次迭代上限。完整進(jìn)化流程耗時約五小時,成本低于10美元。
OpenEvolve生成的新算法發(fā)現(xiàn)了一種巧妙的啟發(fā)式方法,用以替代線性for循環(huán)。

它沒有采用傳統(tǒng)的箱子裝載方式,而是通過對表示專家索引的張量進(jìn)行重塑與轉(zhuǎn)置,利用PyTorch的高速張量操作,以“之字形”在高負(fù)載與低負(fù)載GPU之間交錯分配專家。
此外,OpenEvolve還引入了一些細(xì)微優(yōu)化,包括更完善的排序邏輯和更具適應(yīng)性的張量重塑策略。
最終,該算法在保持與其他基線相當(dāng)?shù)呢?fù)載平衡因子的同時,將運(yùn)行時間縮短至僅3.7毫秒,較內(nèi)部參考實現(xiàn)的性能提升達(dá)5倍。
三位一作皆為華人

Audrey Cheng,本科畢業(yè)于普林斯頓大學(xué)運(yùn)籌學(xué)和金融工程系,目前在加州大學(xué)伯克利分校計算機(jī)系攻讀博士,師從Ion Stoica和Natacha Crooks。
她的研究方向主要集中于數(shù)據(jù)庫系統(tǒng)的事務(wù)處理,尤其是利用調(diào)度算法提升系統(tǒng)性能。
此外,她還與Meta的Themis團(tuán)隊密切合作,研究大規(guī)模系統(tǒng)中的一致性與隔離性,獲得過Meta博士研究獎學(xué)金。

Shu Liu,加州大學(xué)伯克利分校博士生,本科畢業(yè)于美國威斯康星大學(xué)麥迪遜分校應(yīng)用數(shù)學(xué)專業(yè)。

Melissa Pan,加州大學(xué)伯克利分校計算機(jī)科學(xué)專業(yè)的博士二年級學(xué)生,師從Matei Zaharia教授,并隸屬于Sky Computing Lab。她的研究主要關(guān)注在大規(guī)模機(jī)器學(xué)習(xí)和數(shù)據(jù)中心系統(tǒng)中,將可持續(xù)性作為與效率同等重要的優(yōu)化目標(biāo)。
在去伯克利之前,她在多倫多大學(xué)獲本科學(xué)位,在卡內(nèi)基梅隆大學(xué)獲得了碩士學(xué)位。
學(xué)術(shù)之余,Melissa Pan曾在IBM 擔(dān)任約三年的軟件工程師,參與Db2數(shù)據(jù)庫核心引擎的開發(fā),主要負(fù)責(zé)高可用性功能,例如備份、恢復(fù)和數(shù)據(jù)恢復(fù)。
One More Thing
無獨(dú)有偶,Nature官網(wǎng)前幾天也報道了一篇關(guān)于AI創(chuàng)造新算法的新聞。

Oh及其同事開發(fā)了一種能發(fā)現(xiàn)新型強(qiáng)化學(xué)習(xí)算法的元學(xué)習(xí)算法。
該架構(gòu)的元學(xué)習(xí)層與基礎(chǔ)層均采用神經(jīng)網(wǎng)絡(luò)。在元學(xué)習(xí)層,研究人員設(shè)計了一個充當(dāng)強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò),并將其命名為元網(wǎng)絡(luò)。

通過元網(wǎng)絡(luò),該算法在多項陌生任務(wù)中的表現(xiàn)超越了人類設(shè)計的強(qiáng)化學(xué)習(xí)算法。
看來,AI不僅能幫我們工作、幫我們學(xué)習(xí),連創(chuàng)新也自己上手了。
下一個突破,可能還是它自己發(fā)明出來的。
論文鏈接:https://arxiv.org/abs/2510.06189
Github鏈接:https://github.com/UCB-ADRS/ADRS

































