Transformer作者初創公司最新成果:開源新框架突破進化計算瓶頸,樣本效率暴漲數十倍
開源框架實現樣本效率提升數十倍!
同樣的任務,以前要上千次的評估,現在150個樣本就能完成。

Transformer作者Llion Jones帶著自己的初創公司Sakana AI,又來搞事情了。(doge)
最新推出的開源框架——ShinkaEvolve,可以讓LLM在自己寫代碼優化自己的同時,還能同時兼顧效率,be like為進化計算裝上一個“加速引擎”。

主要通過三項架構創新,在數學優化、智能體設計、競爭性編程等多個任務上證明了其性能優勢。
可以說,性能比肩谷歌的AlphaEvolve,但樣本更高效,而且還開源!
下面是更多具體細節。
三大創新技術的引入
想象一下,如果要讓LLM通過進化計算找到問題的最優解,需要走多少步?
以AlphaEvolve為例,首先生成一個猜想,然后跑實驗驗證、吸取教訓,再提出更好的猜想……循環往復,不斷逼近真理。
這樣下來即使是最簡單的一個實驗也要花費巨大資源,計算成本昂貴且耗時嚴重。

而ShinkaEvolve框架則針對上述問題,實現了性能與效率的雙重程序進化,其核心在于三大關鍵技術:
- 平衡探索與利用的親本抽樣技術
該技術通過分層策略與多方法融合保障進化方向的有效性。

框架在已評估程序的基礎上,利用 “島群模型” 將種群分為獨立子群并行進化,子群之間也會定期遷移知識,并保留最優解以保障獨特性。
具體來說,就是在抽樣時先均勻抽取島群ID,再結合top-K優質解與隨機樣本選取親本及啟發程序,并通過冪律抽樣(按適應度分配概率)與加權抽樣(融合性能與新穎性)的多策略模式,平衡已知的良好解決方案和探索新想法。
- 代碼新穎性拒絕抽樣
為減少LLM生成重復或低新穎性變異體的無效計算,框架采用嵌入相似度篩選+LLM判優的二級過濾機制。

即首先通過嵌入模型對程序可變異部分進行編碼,計算與現有程序的余弦相似度,如果超過閾值(如0.95)則調用額外LLM評估其語義獨特性,最終僅保留真正具有新穎性的候選解,以確保探索效率。
- 基于多臂老虎機的LLM集成選擇策略
針對不同LLM在任務與進化階段的性能差異,框架基于UCB1算法動態調度模型。
也就是為每個LLM設置兩個評價指標:記錄使用次數的訪問計數器,和評價預期表現的得分估計。
然后當模型產生新的改進時,通過對比改進幅度,即時更新評分,再借助指數函數對顯著改變強化貢獻權重,并歸一化得分,實現動態選擇當下最合適的LLM。

最終整個框架的運行圍繞著抽樣、變異、反饋形成閉環,為LLM進化計算提供了全新的降本增效范式。
實現樣本效率的數量級提升
另外研究人員還在四個領域(數學優化、Agent設計、競賽編程、LLM訓練)中分別設置對比實驗,以驗證ShinkaEvolve框架的性能。
首先是在數學優化問題上,實驗要求將26個圓放置在一個單位正方形內,使得它們的半徑之和最大化,同時確保沒有圓重疊,并且所有圓都完全包含在正方形邊界內。

結果表明,ShinkaEvolve僅需要150次評估,而AlphaEvolve則需要數千次評估,顯著提升了樣本效率。
同時,整個進化過程呈現出三個不同的階段,包括快速發現基本的半徑優化策略的快速改進階段、持續獲得增量收益的探索階段,以及最終的收斂階段,最終突破了空間利用率與半徑總和的平衡瓶頸。

在Agent設計上,實驗針對2024年AIME競賽的30道數學推理問題,提出以gpt-4.1-nano為基礎模型,最多調用10次LLM查詢。

實驗發現ShinkaEvolve的框架設計顯著優于模型基線,包括簡單的單查詢代理和復雜的多數投票方法。
其中7次LLM查詢即產生最大性能,另外在低污染的2023年和未見過的2025年AIME競賽題上也同樣表現穩定,且適配gpt-4.1-mini、o4-mini等多種模型。

另外在ALE-Bench競爭性編程基準測試上評估ShinkaEvolve,觀察其在動態規劃、圖論和組合優化等問題上的解決能力。

結果顯示,10道AtCoder競賽題的平均得分提升2.3%,其中ahc039任務從第5名升至第2名,且具備競賽獲獎潛力。相關代碼的優化也多聚焦細節改進,未依賴大規模重構。
研究人員還在混合專家 (MoE) 負載均衡損失函數的任務上評估ShinkaEvolve,要求以556M參數MoE進化負載平衡損失(LBL),2.7B參數MoE驗證泛化性,最終平衡交叉熵損失與專家均衡性。

結果發現ShinkaEvolve產生的新LBL,在7個下游任務上均表現出更高的準確率、更低的困惑度,而且隨著正則化系數λ增大,優勢則更顯著。
最終實驗充分證明,該新框架可有效實現樣本效率的數量級提升,以及跨不同領域任務的廣泛適用性,其開源特性也將進一步降低技術使用門檻。
論文鏈接:https://arxiv.org/abs/2509.19349
代碼鏈接:https://github.com/SakanaAI/ShinkaEvolve
































