AI五小時發(fā)現(xiàn)MoE新算法，比人類算法快5倍，成本狂降26%

2025-10-27 08:30:00

加州大學(xué)伯克利分校的研究團(tuán)隊提出了一種AI驅(qū)動的系統(tǒng)研究方法ADRS（AI-Driven Research for Systems），它可以通過“生成—評估—改進(jìn)”的迭代循環(huán)，實現(xiàn)算法的持續(xù)優(yōu)化。

AI，不僅在使用算法，更在創(chuàng)造算法。

其創(chuàng)造的新算法甚至比人類的還要快5倍。

加州大學(xué)伯克利分校的研究團(tuán)隊提出了一種AI驅(qū)動的系統(tǒng)研究方法ADRS（AI-Driven Research for Systems），它可以通過“生成—評估—改進(jìn)”的迭代循環(huán)，實現(xiàn)算法的持續(xù)優(yōu)化。

基于現(xiàn)有的開源ADRS框架OpenEvolve，團(tuán)隊在多個領(lǐng)域的案例研究表明，其發(fā)現(xiàn)的算法顯著優(yōu)于人類設(shè)計算法，實現(xiàn)了高達(dá)5倍的運(yùn)行效率提升或26%的成本降低。

下面具體來看。

使用OpenEvolve發(fā)現(xiàn)新算法

如今，大型語言模型的巨大規(guī)模能夠通過混合專家架構(gòu)等變得易于管理。

在該模型中，路由器將輸入文本的每個token動態(tài)分配給少量特定的“專家”網(wǎng)絡(luò)。這使得請求在推理時僅需使用模型總參數(shù)的一小部分，從而極大提升了推理效率。

然而，這種架構(gòu)也帶來了一個關(guān)鍵的性能挑戰(zhàn)——如何在各專家間實現(xiàn)負(fù)載均衡。

不可避免地，某些專家會變得更受歡迎或“熱點化”，從而產(chǎn)生計算瓶頸。承載這些熱點專家的GPU會過載，而其他GPU則處于空閑狀態(tài)，浪費(fèi)了寶貴的資源。

解決方案是一種專家并行負(fù)載均衡器（Expert Parallelism Load Balancer，EPLB），該算法通過動態(tài)調(diào)整專家在GPU間的分布，以最小化負(fù)載不均、最大化系統(tǒng)吞吐量。

基礎(chǔ)版EPLB算法分三個階段運(yùn)行：

1、將專家組分布到各個節(jié)點以平衡負(fù)載；2、為熱點專家創(chuàng)建副本；3、將這些副本分配到GPU上，進(jìn)一步優(yōu)化負(fù)載均衡。

給定工作負(fù)載、MoE配置及GPU資源后，EPLB算法會確定各專家所需的副本數(shù)量，并將這些副本映射到具體GPU上。

可以說，EPLB算法追求兩個核心目標(biāo)：

最小化負(fù)載不均衡：盡可能均勻地分配負(fù)載；
最小化運(yùn)行時間：重新分配過程本身必須快速，以避免成為新的性能瓶頸。

該算法可直接影響生產(chǎn)環(huán)境中LLM服務(wù)的成本與性能表現(xiàn)。

在尋找更優(yōu)的EPLB算法時，團(tuán)隊考慮了兩個基線方法。

首先，他們對DeepSeek開源的EPLB實現(xiàn)方案進(jìn)行了評估。該方案采用貪心的“箱子裝載”策略：先按負(fù)載從高到低對專家排序，然后將每個專家放置到具有容量且負(fù)載最輕的GPU上。

此方案雖然簡單，但由于其用Python編寫，并通過for循環(huán)進(jìn)行線性搜索以找到最適合的GPU，運(yùn)行速度較慢。

平均而言，重新平衡這些專家大約需要540毫秒，實現(xiàn)的負(fù)載平衡因子為0.66（計算公式為：每GPU生成token的平均數(shù)量與最大數(shù)量之比）。

之后，團(tuán)隊還將一個來自前沿實驗室的非公開實現(xiàn)納入考量。該實現(xiàn)方案避免了顯式迭代，在達(dá)到與開源算法相同負(fù)載系數(shù)的同時，將重新平衡算法的運(yùn)行時間縮短至19.6毫秒。

為進(jìn)一步優(yōu)化運(yùn)行時間，研究團(tuán)隊選擇用OpenEvolve來搜索EPLB算法。

實驗采用基于PyTorch實現(xiàn)的MoE模型分布式GPU推理引擎，工作負(fù)載為基于ShareGPT和GSM8K數(shù)據(jù)集的負(fù)載變化。

其優(yōu)化目標(biāo)包含雙重維度：既要最大化負(fù)載均衡因子（即每GPU生成token平均數(shù)與最大數(shù)之比），又要降低負(fù)載變化時專家重平衡算法的運(yùn)行時間。

因此，他們根據(jù)負(fù)載均衡因子與運(yùn)行時間倒數(shù)的加權(quán)平均值對算法進(jìn)行評分（評分越高代表算法越優(yōu)）。

實驗使用80% Gemini 2.5 Flash與20% Gemini 2.5 Flash Lite混合配置運(yùn)行OpenEvolve。進(jìn)化過程以開源貪心算法作為初始程序，設(shè)置300次迭代上限。完整進(jìn)化流程耗時約五小時，成本低于10美元。

OpenEvolve生成的新算法發(fā)現(xiàn)了一種巧妙的啟發(fā)式方法，用以替代線性for循環(huán)。

它沒有采用傳統(tǒng)的箱子裝載方式，而是通過對表示專家索引的張量進(jìn)行重塑與轉(zhuǎn)置，利用PyTorch的高速張量操作，以“之字形”在高負(fù)載與低負(fù)載GPU之間交錯分配專家。

此外，OpenEvolve還引入了一些細(xì)微優(yōu)化，包括更完善的排序邏輯和更具適應(yīng)性的張量重塑策略。

最終，該算法在保持與其他基線相當(dāng)?shù)呢?fù)載平衡因子的同時，將運(yùn)行時間縮短至僅3.7毫秒，較內(nèi)部參考實現(xiàn)的性能提升達(dá)5倍。

三位一作皆為華人

Audrey Cheng，本科畢業(yè)于普林斯頓大學(xué)運(yùn)籌學(xué)和金融工程系，目前在加州大學(xué)伯克利分校計算機(jī)系攻讀博士，師從Ion Stoica和Natacha Crooks。

她的研究方向主要集中于數(shù)據(jù)庫系統(tǒng)的事務(wù)處理，尤其是利用調(diào)度算法提升系統(tǒng)性能。

此外，她還與Meta的Themis團(tuán)隊密切合作，研究大規(guī)模系統(tǒng)中的一致性與隔離性，獲得過Meta博士研究獎學(xué)金。

Shu Liu，加州大學(xué)伯克利分校博士生，本科畢業(yè)于美國威斯康星大學(xué)麥迪遜分校應(yīng)用數(shù)學(xué)專業(yè)。

Melissa Pan，加州大學(xué)伯克利分校計算機(jī)科學(xué)專業(yè)的博士二年級學(xué)生，師從Matei Zaharia教授，并隸屬于Sky Computing Lab。她的研究主要關(guān)注在大規(guī)模機(jī)器學(xué)習(xí)和數(shù)據(jù)中心系統(tǒng)中，將可持續(xù)性作為與效率同等重要的優(yōu)化目標(biāo)。

在去伯克利之前，她在多倫多大學(xué)獲本科學(xué)位，在卡內(nèi)基梅隆大學(xué)獲得了碩士學(xué)位。

學(xué)術(shù)之余，Melissa Pan曾在IBM 擔(dān)任約三年的軟件工程師，參與Db2數(shù)據(jù)庫核心引擎的開發(fā)，主要負(fù)責(zé)高可用性功能，例如備份、恢復(fù)和數(shù)據(jù)恢復(fù)。

One More Thing

無獨(dú)有偶，Nature官網(wǎng)前幾天也報道了一篇關(guān)于AI創(chuàng)造新算法的新聞。

Oh及其同事開發(fā)了一種能發(fā)現(xiàn)新型強(qiáng)化學(xué)習(xí)算法的元學(xué)習(xí)算法。

該架構(gòu)的元學(xué)習(xí)層與基礎(chǔ)層均采用神經(jīng)網(wǎng)絡(luò)。在元學(xué)習(xí)層，研究人員設(shè)計了一個充當(dāng)強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)，并將其命名為元網(wǎng)絡(luò)。

通過元網(wǎng)絡(luò)，該算法在多項陌生任務(wù)中的表現(xiàn)超越了人類設(shè)計的強(qiáng)化學(xué)習(xí)算法。

看來，AI不僅能幫我們工作、幫我們學(xué)習(xí)，連創(chuàng)新也自己上手了。

下一個突破，可能還是它自己發(fā)明出來的。

論文鏈接：https://arxiv.org/abs/2510.06189

Github鏈接：https://github.com/UCB-ADRS/ADRS

責(zé)任編輯：張燕妮來源：量子位

AI 模型算法