全球首個去中心化訓(xùn)練的32B參數(shù)大模型：INTELLECT-2如何重塑AI訓(xùn)練范式

發(fā)布于 2025-8-11 06:03

瀏覽

0收藏

在大型語言模型(LLM)不斷擴(kuò)展參數(shù)規(guī)模和推理復(fù)雜度的今天，傳統(tǒng)的集中式訓(xùn)練流程面臨著越來越多的限制。高性能模型訓(xùn)練通常依賴于緊密耦合且具有快速互連的計算集群，這些集群成本高昂、可用性有限，并且容易出現(xiàn)可擴(kuò)展性瓶頸。此外，集中式架構(gòu)限制了廣泛協(xié)作和實驗的可能性，尤其是在開源研究環(huán)境中。

近日，PrimeIntellect發(fā)布了INTELLECT-2，這是一個擁有320億參數(shù)的推理模型，采用廣義強化策略優(yōu)化(GRPO)在完全去中心化的異步強化學(xué)習(xí)框架內(nèi)進(jìn)行訓(xùn)練。與傳統(tǒng)的集中式訓(xùn)練方法不同，INTELLECT-2通過全球分布式的、異構(gòu)的、無需許可的計算貢獻(xiàn)者網(wǎng)絡(luò)進(jìn)行訓(xùn)練，開創(chuàng)了大型語言模型訓(xùn)練的新范式。

該版本采用Apache 2.0許可，不僅包含模型權(quán)重，還包含完整的代碼庫和訓(xùn)練日志。INTELLECT-2在關(guān)鍵推理基準(zhǔn)測試中超越了此前領(lǐng)先的QwQ-32B模型。這一開源發(fā)布旨在支持可重復(fù)性、可擴(kuò)展性和持續(xù)研究，為開源社區(qū)提供了寶貴的資源。

全球首個去中心化訓(xùn)練的32B參數(shù)大模型：INTELLECT-2如何重塑AI訓(xùn)練范式-AI.x社區(qū)

架構(gòu)與技術(shù)創(chuàng)新：分布式訓(xùn)練的全新范式

INTELLECT-2是基于專為分布式環(huán)境構(gòu)建的全新訓(xùn)練堆棧開發(fā)的。該系統(tǒng)由三個主要組件構(gòu)成：

PRIME-RL：異步強化學(xué)習(xí)框架

PRIME-RL是一個異步強化學(xué)習(xí)引擎，它將rollout生成、訓(xùn)練和參數(shù)分發(fā)三個階段分離。這種解耦消除了同步更新的需要，并允許系統(tǒng)在多變且不可靠的網(wǎng)絡(luò)條件下運行。與傳統(tǒng)的集中式強化學(xué)習(xí)框架不同，PRIME-RL原生支持訓(xùn)練和推理的異步執(zhí)行，使模型更新可以在可信的集中節(jié)點上計算，而rollout則可以在不可信的分散節(jié)點上獨立生成。

PRIME-RL的架構(gòu)將訓(xùn)練和推理組件完全分離為不同的可執(zhí)行文件，它們僅在交換數(shù)據(jù)和檢查點時通信。這種干凈的分離消除了對像Ray這樣的集中式協(xié)調(diào)器的需求，而且其兩步異步設(shè)計有效地隱藏了通常與數(shù)據(jù)傳輸相關(guān)的延遲，創(chuàng)建了一個高效的分布式強化學(xué)習(xí)管道。

在訓(xùn)練方面，PRIME-RL使用PyTorch FSDP2對模型權(quán)重、梯度和優(yōu)化器狀態(tài)進(jìn)行分片，遵循類似于ZeRO-3的策略。推理方面，它使用vLLM，并在bfloat16精度下加載模型。為了支持TOPLOC證明構(gòu)建，它通過logits處理器中的鉤子捕獲最終隱藏狀態(tài)。

SHARDCAST：高效的權(quán)重廣播系統(tǒng)

SHARDCAST是一個基于HTTP樹形拓?fù)渚W(wǎng)絡(luò)的庫，用于高效地將更新后的模型權(quán)重傳播到分散的推理工作節(jié)點。它通過中繼服務(wù)器網(wǎng)絡(luò)分發(fā)檢查點，類似于內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)。為了最小化延遲，檢查點文件被分片并以流水線方式傳輸，允許推理工作節(jié)點在中繼服務(wù)器上的完整檢查點可用之前開始下載分片。

SHARDCAST解決了異步分布式強化學(xué)習(xí)中的關(guān)鍵挑戰(zhàn)：確保最新的策略權(quán)重能夠快速交付給推理工作節(jié)點。它使用nginx作為HTTP服務(wù)器，并配置了每IP速率限制和動態(tài)防火墻規(guī)則，以保護(hù)中繼服務(wù)器免受惡意攻擊。

為了最大化客戶端吞吐量和負(fù)載均衡，SHARDCAST實現(xiàn)了一種基于預(yù)期吞吐量的概率采樣策略，而不是讓每個客戶端總是選擇最快的中繼服務(wù)器。這種策略通過使用多個連接到不同中繼服務(wù)器，實現(xiàn)了比任何單一連接更高的總帶寬。

TOPLOC：可信推理驗證機(jī)制

TOPLOC是一種基于局部敏感哈希的驗證機(jī)制，用于檢測推理輸出中的修改。這對于確保分布式和潛在的非確定性硬件環(huán)境中的完整性至關(guān)重要。由于INTELLECT-2依賴不可信的計算節(jié)點進(jìn)行推理，因此需要確保這些節(jié)點忠實地執(zhí)行推理。

TOPLOC通過三類檢查來確保可驗證的合規(guī)性：

計算檢查：每個推理工作節(jié)點為每個生成的序列生成TOPLOC證明，作為解碼過程中產(chǎn)生的最終隱藏狀態(tài)的加密承諾。可信驗證節(jié)點隨后使用預(yù)填充重建這些激活，并將其與提交的承諾進(jìn)行比較以確認(rèn)一致性。
采樣檢查：驗證生成序列的終止標(biāo)準(zhǔn)是否合法（達(dá)到模型的最大上下文長度或生成EOS令牌），并檢查logit分布以檢測不一致性。
數(shù)據(jù)完整性檢查：確保使用了正確的樣本，并驗證報告的標(biāo)量值（如獎勵和優(yōu)勢）是否在預(yù)定義的范圍內(nèi)。

Prime Intellect協(xié)議：去中心化協(xié)調(diào)層

Prime Inellect協(xié)議通過模塊化、去中心化的協(xié)調(diào)層協(xié)調(diào)無需許可的節(jié)點。它為模型訓(xùn)練者提供了檢查所有節(jié)點健康狀況、查看日志和分發(fā)新任務(wù)的能力，類似于去中心化的SLURM。

該系統(tǒng)由多個用Rust實現(xiàn)的組件組成，包括去中心化賬本、工作節(jié)點軟件、發(fā)現(xiàn)服務(wù)和協(xié)調(diào)器。去中心化賬本存儲有關(guān)當(dāng)前訓(xùn)練運行、所有權(quán)和工作節(jié)點貢獻(xiàn)的信息。每個貢獻(xiàn)者和計算池所有者都有用于簽名交易和證明所有權(quán)的加密地址，確保API交互的安全性和計算資源的正確歸屬。

工作節(jié)點軟件負(fù)責(zé)向中央?yún)f(xié)調(diào)器傳輸心跳和指標(biāo)，并配置和管理本地Docker環(huán)境以執(zhí)行任務(wù)。發(fā)現(xiàn)服務(wù)允許節(jié)點上傳工作節(jié)點元數(shù)據(jù)信息，并將這些數(shù)據(jù)存儲在Redis數(shù)據(jù)庫中。協(xié)調(diào)器的核心任務(wù)包括分發(fā)任務(wù)和基于心跳觀察分散工作節(jié)點的生命周期。

訓(xùn)練配方：優(yōu)化分布式強化學(xué)習(xí)

INTELLECT-2的目標(biāo)是訓(xùn)練一個具有推理能力的模型，特別是在數(shù)學(xué)和編碼領(lǐng)域。此外，它還旨在通過允許用戶在任務(wù)提示中指定所需的思考令牌數(shù)量，來控制模型的思考預(yù)算。作為基礎(chǔ)模型，團(tuán)隊使用了QwQ-32B，并在很大程度上遵循了Deepseek-R1的基于GRPO的訓(xùn)練方法，結(jié)合可驗證獎勵。

訓(xùn)練數(shù)據(jù)與獎勵

INTELLECT-2使用雙重目標(biāo)進(jìn)行訓(xùn)練：一方面是鼓勵模型在數(shù)學(xué)和編碼任務(wù)上改進(jìn)推理的任務(wù)獎勵，另一方面是長度獎勵，以教導(dǎo)模型遵守提示中提供的思考預(yù)算。

團(tuán)隊策劃了一個訓(xùn)練數(shù)據(jù)集，由可通過符號驗證/字符串匹配和單元測試執(zhí)行進(jìn)行驗證的數(shù)學(xué)和編碼任務(wù)組成。他們選擇了來自NuminaMath-1.5和Deepscaler的高質(zhì)量數(shù)學(xué)問題，以及之前為SYNTHETIC-1策劃的編碼任務(wù)。完整數(shù)據(jù)集包含285k個任務(wù)，其中包括26k個基于Python的算法編碼挑戰(zhàn)和259k個數(shù)學(xué)問題。

對于數(shù)學(xué)和代碼任務(wù)，他們實現(xiàn)了二元獎勵，正確響應(yīng)分配1分，錯誤響應(yīng)分配0分。此外，他們還納入了長度獎勵，使用戶能夠在任務(wù)提示的一部分中指定INTELLECT-2的思考預(yù)算。

異步強化學(xué)習(xí)

INTELLECT-2使用異步強化學(xué)習(xí)來利用專用的推理和訓(xùn)練節(jié)點，最大限度地減少GPU空閑時間。在集中式異步RL訓(xùn)練設(shè)置中，更新后的策略權(quán)重可以立即用于下一個RL步驟的訓(xùn)練。但在分布式設(shè)置中，由于權(quán)重廣播需要時間，推理工作節(jié)點無法立即獲得更新后的策略權(quán)重，因此使用的是來自兩個或更多步驟之前的權(quán)重。

全球首個去中心化訓(xùn)練的32B參數(shù)大模型：INTELLECT-2如何重塑AI訓(xùn)練范式-AI.x社區(qū)

團(tuán)隊進(jìn)行了消融實驗，驗證異步RL訓(xùn)練不會損害模型性能。結(jié)果表明，即使異步級別高達(dá)四步，模型的獎勵軌跡仍與同步基線的軌跡匹配，表明在稍微離策略的數(shù)據(jù)上訓(xùn)練不會損害RL訓(xùn)練的性能。

離線與在線數(shù)據(jù)過濾

在消融實驗中，團(tuán)隊發(fā)現(xiàn)按難度過濾數(shù)據(jù)集對訓(xùn)練性能有顯著影響。他們同時采用了訓(xùn)練前的離線過濾和選擇性選擇訓(xùn)練樣本的在線過濾。

對于離線過濾，他們發(fā)現(xiàn)從訓(xùn)練集中過濾掉太簡單或太難的問題至關(guān)重要。在使用Deepscaler數(shù)學(xué)數(shù)據(jù)集訓(xùn)練DeepSeek-R1-Distill-Qwen-7B時，過濾掉基礎(chǔ)模型pass@8率高于50%和低于12.5%的問題后，獎勵顯著提高。

對于在線過濾，由于GRPO和RLOO等訓(xùn)練算法依賴于基于組的相對獎勵來計算優(yōu)勢，如果一個問題的所有完成獲得相同的獎勵，則這些樣本的優(yōu)勢為零，除了輔助損失外沒有訓(xùn)練信號。為了緩解這一問題，他們在執(zhí)行訓(xùn)練步驟之前，持續(xù)從推理工作節(jié)點采樣響應(yīng)，直到有一個完整批次的非零優(yōu)勢樣本。

雙邊GRPO裁剪提高訓(xùn)練穩(wěn)定性

在訓(xùn)練過程中，團(tuán)隊面臨損失和梯度范數(shù)峰值導(dǎo)致的不穩(wěn)定性，特別是隨著模型變大。經(jīng)檢查，他們發(fā)現(xiàn)主要原因是GRPO和類PPO訓(xùn)練目標(biāo)中采用的單邊令牌概率比裁剪。

為了緩解這一問題，他們引入了一個額外的超參數(shù)δ，在負(fù)優(yōu)勢情況下為令牌概率比添加上限：

JGRPO(θ) = Eq～P(Q), {oi}G i=1～πθold(O|q) 1/G ∑G i=11/|oi| ∑|oi| t=1[min(min(πθ(oi,t|q, oi,<t)/πθold(oi,t|q, oi,<t), δ)?Ai,t, clip(πθ(oi,t|q, oi,<t)/πθold(oi,t|q, oi,<t), 1?ε, 1+ε)?Ai,t)]

δ值應(yīng)高于1+ε，以仍然允許遠(yuǎn)離不良rollout的大幅更新，但避免數(shù)百或更高的巨大令牌概率比。有了這一改變，訓(xùn)練穩(wěn)定性顯著提高。

緩解大規(guī)模訓(xùn)練不穩(wěn)定性

盡管上述雙邊GRPO裁剪機(jī)制顯著減少了大幅損失和梯度峰值，但在使用更大模型時，團(tuán)隊觀察到了額外類型的訓(xùn)練不穩(wěn)定性，這些不穩(wěn)定性與大規(guī)模預(yù)訓(xùn)練中遇到的不穩(wěn)定性相似。

他們觀察到梯度范數(shù)逐漸但持續(xù)增加，即使在沒有立即峰值的情況下。這種現(xiàn)象似乎與模型大小相關(guān)，在更大的架構(gòu)中更為明顯。他們發(fā)現(xiàn)采用激進(jìn)的梯度裁剪（閾值低至0.05-0.1）有效緩解了穩(wěn)定性問題，而不會顯著阻礙收斂。

此外，他們還觀察到令牌概率裁剪比在訓(xùn)練期間穩(wěn)步增加，以及熵?fù)p失的獨特模式：在初始下降后，熵?fù)p失開始上升趨勢，這通常預(yù)示著災(zāi)難性訓(xùn)練失敗。

有趣的是，團(tuán)隊注意到基于QwQ的訓(xùn)練比基于DeepSeek-R1-Distill-Qwen-32B的訓(xùn)練穩(wěn)定性更差，盡管兩者都基于相同的預(yù)訓(xùn)練模型（Qwen 2.5）。他們推測，這種差異源于QwQ已經(jīng)經(jīng)歷了一階段可驗證獎勵的強化學(xué)習(xí)，這種先前的RL訓(xùn)練似乎使模型更容易受到后續(xù)優(yōu)化不穩(wěn)定性的影響。

實驗與結(jié)果：分布式訓(xùn)練的實證驗證

在兩周內(nèi)，團(tuán)隊使用由可信訓(xùn)練集群和驗證器節(jié)點以及不可信、社區(qū)貢獻(xiàn)的異構(gòu)推理工作節(jié)點組成的設(shè)置進(jìn)行了多次訓(xùn)練運行。

實驗設(shè)置

使用QwQ-32B作為基礎(chǔ)模型，團(tuán)隊采用了修改后的GRPO進(jìn)行訓(xùn)練，裁剪閾值ε=0.2，δ=4，熵?fù)p失系數(shù)為1e-4。他們將KL散度損失系數(shù)設(shè)為0.001，將α設(shè)為0.0003以平衡任務(wù)和長度獎勵，并在0.1處應(yīng)用梯度范數(shù)裁剪。訓(xùn)練使用學(xué)習(xí)率3e-7，預(yù)熱步驟25；在每個rollout步驟中，他們生成了4096個樣本，由對256個提示的16個響應(yīng)組成，并使用512的批量大小執(zhí)行8個優(yōu)化器步驟。

為了最大限度地提高32K序列長度的計算效率，團(tuán)隊實現(xiàn)了序列打包，以解決樣本長度的顯著差異。盡管RL基本上需要保留完整樣本，但GRPO的令牌級損失公式允許他們通過調(diào)整注意力掩碼并將樣本整理到序列維度中來實現(xiàn)跨樣本打包。這一優(yōu)化對于擴(kuò)展到20K+序列長度至關(guān)重要，同時保持了跨打包序列的交叉熵計算的完整性。

計算利用率

在兩個主要實驗中，團(tuán)隊成功地通過異步強化學(xué)習(xí)重疊了通信和計算。SHARDCAST廣播到所有節(jié)點平均需要14分鐘，對應(yīng)約590 Mb/s的帶寬吞吐量。具有更好連接性的節(jié)點更早接收檢查點，允許它們提前開始數(shù)據(jù)生成。此外，具有更多計算資源的節(jié)點（如完整H100節(jié)點）更快地生成批次。

訓(xùn)練與推理FLOP的比率在兩個實驗中平均為4.5×，在分散的推理工作節(jié)點上花費的計算量明顯多于訓(xùn)練方面。異步設(shè)置有效地與廣播、推理生成和驗證階段同步，確保幾乎完美的計算重疊，最小化GPU空閑時間。

獎勵軌跡

在整個訓(xùn)練過程中，團(tuán)隊看到任務(wù)獎勵顯著提高，表明模型在數(shù)學(xué)和編碼問題上的表現(xiàn)有所改善。他們還看到長度懲罰減少，但比1.5B和7B參數(shù)模型的消融實驗慢得多。因此，他們的模型在給定的實驗時間內(nèi)沒有學(xué)會嚴(yán)格遵守指定的思考預(yù)算。

基準(zhǔn)性能

團(tuán)隊使用evalchemy及其默認(rèn)設(shè)置來測試模型在常見推理基準(zhǔn)上的性能。如表1所示，他們能夠提高QwQ-32B在數(shù)學(xué)和編碼基準(zhǔn)上的性能，同時在IFEval上略有下降，這可能是由于他們僅在數(shù)學(xué)和編碼任務(wù)上進(jìn)行訓(xùn)練，而不是使用更通用的指令遵循任務(wù)。

模型	AIME24	AIME25	LiveCodeBench (v5)	GPQA-Diamond	IFEval
INTELLECT-2	78.8	64.9	67.8	66.8	81.5
QwQ-32B	76.6	64.8	66.1	66.3	83.4
Qwen-R1-Distill-32B	69.9	58.4	55.1	65.2	72.0
Deepseek-R1	78.6	65.1	64.1	71.6	82.7

總體而言，由于QwQ-32B已經(jīng)通過強化學(xué)習(xí)進(jìn)行了廣泛訓(xùn)練，因此很難在基準(zhǔn)測試上獲得大量泛化改進(jìn)，超出他們在訓(xùn)練數(shù)據(jù)集上的改進(jìn)。要看到更強的改進(jìn)，可能需要更好的基礎(chǔ)模型（如現(xiàn)在可用的Qwen3）或更高質(zhì)量的數(shù)據(jù)集和RL環(huán)境。

討論：測試時計算范式中的去中心化訓(xùn)練

隨著大型語言模型的計算需求在近年來增加了幾個數(shù)量級，跨數(shù)據(jù)中心的分布式訓(xùn)練變得越來越相關(guān)。除了為協(xié)作開源開發(fā)提供經(jīng)濟(jì)可持續(xù)的路徑外，訓(xùn)練這些模型所需的計算能力和能源很快將超過世界上最大的數(shù)據(jù)中心。

到目前為止，大多數(shù)進(jìn)展來自擴(kuò)展參數(shù)和數(shù)據(jù)集大小——通常稱為預(yù)訓(xùn)練擴(kuò)展。最近，一個互補的進(jìn)展軸出現(xiàn)了：測試時計算擴(kuò)展，如在以推理為重點的模型中所見。

雖然這兩種形式的擴(kuò)展都與去中心化兼容，但團(tuán)隊認(rèn)為測試時計算擴(kuò)展特別適合去中心化訓(xùn)練。它減少了協(xié)調(diào)要求，并將計算需求轉(zhuǎn)向推理，使異構(gòu)設(shè)備能夠更廣泛地參與。

異步RL隱藏了大部分通信開銷

通信是去中心化訓(xùn)練中的主要瓶頸。DiLoCo等技術(shù)可以將預(yù)訓(xùn)練通信開銷減少高達(dá)兩個數(shù)量級。然而，隨著模型大小的增加，通信——特別是阻塞通信——再次成為限制因素。

一個有前途的策略是重疊通信和計算。與ZeRO-offload等延遲梯度應(yīng)用并影響收斂的方法不同，延遲RL中的rollout提供了更好的權(quán)衡。這是因為延遲應(yīng)用于模型級別，而不是優(yōu)化步驟。即使模型稍微離策略，它仍然可以生成有用的推理軌跡，導(dǎo)致正面獎勵，這是有效的訓(xùn)練信號。

進(jìn)一步的研究需要評估超過兩步的異步RL延遲。盡管如此，使用4-5步的延遲，可以有效地隱藏RL管道中的各種阻塞階段——包括權(quán)重廣播、環(huán)境驗證、無需許可的驗證和相對KL對數(shù)概率計算。這一策略提高了訓(xùn)練和推理的計算利用率，并實現(xiàn)了更大的硬件異構(gòu)性。

推理將消耗大部分計算

在INTELLECT-2中，訓(xùn)練與推理的計算比約為1:4。團(tuán)隊預(yù)計，隨著測試時推理的擴(kuò)展，這一比率將更加傾向于推理。這一趨勢為在全球分布式異構(gòu)計算資源上訓(xùn)練具有數(shù)千億參數(shù)的模型打開了大門。

這一轉(zhuǎn)變的關(guān)鍵驅(qū)動因素是數(shù)據(jù)集過濾。如圖8所示，當(dāng)訓(xùn)練專注于更具挑戰(zhàn)性的樣本時，模型能力會提高。然而，推理過程中生成的并非所有數(shù)據(jù)都有用。隨著模型處理更困難的任務(wù)，正面獎勵越來越稀疏，推理將需要比訓(xùn)練多得多的計算。在這種情況下，生成高質(zhì)量的rollout成為主要的計算成本。

這種計算需求的不對稱重塑了去中心化RL的擴(kuò)展動態(tài)，并間接解決了其歷史限制之一：內(nèi)存限制。通過將大部分工作負(fù)載轉(zhuǎn)移到推理——內(nèi)存需求顯著低于訓(xùn)練——去中心化訓(xùn)練在更廣泛的硬件范圍內(nèi)變得可行。

結(jié)論與未來工作

INTELLECT-2是全球首個通過分布式異步強化學(xué)習(xí)訓(xùn)練的32B參數(shù)大型語言模型，它開創(chuàng)了大型語言模型訓(xùn)練的新范式。團(tuán)隊開源了訓(xùn)練模型、任務(wù)和驗證器環(huán)境，以及所有基礎(chǔ)設(shè)施組件，包括訓(xùn)練框架PRIME-RL。這一開源發(fā)布為研究社區(qū)探索去中心化訓(xùn)練提供了寶貴的資源，有助于推進(jìn)全球分布式強化學(xué)習(xí)作為構(gòu)建前沿開源模型的基礎(chǔ)。

雖然INTELLECT-2是朝著以去中心化方式訓(xùn)練開源前沿推理模型的第一步，但仍有幾個未來工作方向值得探索：

增加強化學(xué)習(xí)中推理與訓(xùn)練計算的比率：由于推理是無限可并行的，不需要工作節(jié)點之間的通信，因此相對于訓(xùn)練花費更高計算量的RL訓(xùn)練配方非常適合去中心化訓(xùn)練。如VinePPO等方法花費額外時間進(jìn)行推理，以計算基于蒙特卡洛的價值估計，而不是利用像PPO這樣的價值網(wǎng)絡(luò)，是一個值得探索的有趣領(lǐng)域。
推理模型的工具調(diào)用：最新一代專有推理模型可以在推理鏈中訪問工具調(diào)用，如網(wǎng)絡(luò)搜索或Python解釋器。開源研究在這一方向已有初步成果，為進(jìn)一步擴(kuò)展這些方法并訓(xùn)練能夠利用此類工具的更大開源推理模型打開了大門。
眾包RL任務(wù)和環(huán)境：要教導(dǎo)模型新技能，需要構(gòu)建多樣化的RL環(huán)境。這歸結(jié)為一個傳統(tǒng)的軟件工程問題，高度可并行，需要具有專業(yè)領(lǐng)域知識的各種貢獻(xiàn)者，非常適合開源、社區(qū)驅(qū)動的努力。
模型合并和DiLoCo：模型合并已成為最近工作中的有效后訓(xùn)練技術(shù)。這種能力是否擴(kuò)展到推理任務(wù)仍是一個開放問題。然而，能夠合并在不同推理領(lǐng)域上訓(xùn)練的模型將標(biāo)志著跨并行計算資源擴(kuò)展異步強化學(xué)習(xí)的重要一步。

INTELLECT-2展示了全球去中心化RL的可行性，為開源社區(qū)提供了一個強大的基礎(chǔ)，可以在此基礎(chǔ)上構(gòu)建更強大、更靈活的AI系統(tǒng)。隨著測試時計算范式的發(fā)展，去中心化訓(xùn)練將在塑造AI未來方面發(fā)揮越來越重要的作用。。