全球首個去中心化訓(xùn)練的32B參數(shù)大模型:INTELLECT-2如何重塑AI訓(xùn)練范式
在大型語言模型(LLM)不斷擴(kuò)展參數(shù)規(guī)模和推理復(fù)雜度的今天,傳統(tǒng)的集中式訓(xùn)練流程面臨著越來越多的限制。高性能模型訓(xùn)練通常依賴于緊密耦合且具有快速互連的計算集群,這些集群成本高昂、可用性有限,并且容易出現(xiàn)可擴(kuò)展性瓶頸。此外,集中式架構(gòu)限制了廣泛協(xié)作和實驗的可能性,尤其是在開源研究環(huán)境中。
近日,PrimeIntellect發(fā)布了INTELLECT-2,這是一個擁有320億參數(shù)的推理模型,采用廣義強化策略優(yōu)化(GRPO)在完全去中心化的異步強化學(xué)習(xí)框架內(nèi)進(jìn)行訓(xùn)練。與傳統(tǒng)的集中式訓(xùn)練方法不同,INTELLECT-2通過全球分布式的、異構(gòu)的、無需許可的計算貢獻(xiàn)者網(wǎng)絡(luò)進(jìn)行訓(xùn)練,開創(chuàng)了大型語言模型訓(xùn)練的新范式。
該版本采用Apache 2.0許可,不僅包含模型權(quán)重,還包含完整的代碼庫和訓(xùn)練日志。INTELLECT-2在關(guān)鍵推理基準(zhǔn)測試中超越了此前領(lǐng)先的QwQ-32B模型。這一開源發(fā)布旨在支持可重復(fù)性、可擴(kuò)展性和持續(xù)研究,為開源社區(qū)提供了寶貴的資源。

架構(gòu)與技術(shù)創(chuàng)新:分布式訓(xùn)練的全新范式
INTELLECT-2是基于專為分布式環(huán)境構(gòu)建的全新訓(xùn)練堆棧開發(fā)的。該系統(tǒng)由三個主要組件構(gòu)成:
PRIME-RL:異步強化學(xué)習(xí)框架
PRIME-RL是一個異步強化學(xué)習(xí)引擎,它將rollout生成、訓(xùn)練和參數(shù)分發(fā)三個階段分離。這種解耦消除了同步更新的需要,并允許系統(tǒng)在多變且不可靠的網(wǎng)絡(luò)條件下運行。與傳統(tǒng)的集中式強化學(xué)習(xí)框架不同,PRIME-RL原生支持訓(xùn)練和推理的異步執(zhí)行,使模型更新可以在可信的集中節(jié)點上計算,而rollout則可以在不可信的分散節(jié)點上獨立生成。
PRIME-RL的架構(gòu)將訓(xùn)練和推理組件完全分離為不同的可執(zhí)行文件,它們僅在交換數(shù)據(jù)和檢查點時通信。這種干凈的分離消除了對像Ray這樣的集中式協(xié)調(diào)器的需求,而且其兩步異步設(shè)計有效地隱藏了通常與數(shù)據(jù)傳輸相關(guān)的延遲,創(chuàng)建了一個高效的分布式強化學(xué)習(xí)管道。
在訓(xùn)練方面,PRIME-RL使用PyTorch FSDP2對模型權(quán)重、梯度和優(yōu)化器狀態(tài)進(jìn)行分片,遵循類似于ZeRO-3的策略。推理方面,它使用vLLM,并在bfloat16精度下加載模型。為了支持TOPLOC證明構(gòu)建,它通過logits處理器中的鉤子捕獲最終隱藏狀態(tài)。
SHARDCAST:高效的權(quán)重廣播系統(tǒng)
SHARDCAST是一個基于HTTP樹形拓?fù)渚W(wǎng)絡(luò)的庫,用于高效地將更新后的模型權(quán)重傳播到分散的推理工作節(jié)點。它通過中繼服務(wù)器網(wǎng)絡(luò)分發(fā)檢查點,類似于內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)。為了最小化延遲,檢查點文件被分片并以流水線方式傳輸,允許推理工作節(jié)點在中繼服務(wù)器上的完整檢查點可用之前開始下載分片。
SHARDCAST解決了異步分布式強化學(xué)習(xí)中的關(guān)鍵挑戰(zhàn):確保最新的策略權(quán)重能夠快速交付給推理工作節(jié)點。它使用nginx作為HTTP服務(wù)器,并配置了每IP速率限制和動態(tài)防火墻規(guī)則,以保護(hù)中繼服務(wù)器免受惡意攻擊。
為了最大化客戶端吞吐量和負(fù)載均衡,SHARDCAST實現(xiàn)了一種基于預(yù)期吞吐量的概率采樣策略,而不是讓每個客戶端總是選擇最快的中繼服務(wù)器。這種策略通過使用多個連接到不同中繼服務(wù)器,實現(xiàn)了比任何單一連接更高的總帶寬。
TOPLOC:可信推理驗證機(jī)制
TOPLOC是一種基于局部敏感哈希的驗證機(jī)制,用于檢測推理輸出中的修改。這對于確保分布式和潛在的非確定性硬件環(huán)境中的完整性至關(guān)重要。由于INTELLECT-2依賴不可信的計算節(jié)點進(jìn)行推理,因此需要確保這些節(jié)點忠實地執(zhí)行推理。
TOPLOC通過三類檢查來確保可驗證的合規(guī)性:
- 計算檢查:每個推理工作節(jié)點為每個生成的序列生成TOPLOC證明,作為解碼過程中產(chǎn)生的最終隱藏狀態(tài)的加密承諾。可信驗證節(jié)點隨后使用預(yù)填充重建這些激活,并將其與提交的承諾進(jìn)行比較以確認(rèn)一致性。
- 采樣檢查:驗證生成序列的終止標(biāo)準(zhǔn)是否合法(達(dá)到模型的最大上下文長度或生成EOS令牌),并檢查logit分布以檢測不一致性。
- 數(shù)據(jù)完整性檢查:確保使用了正確的樣本,并驗證報告的標(biāo)量值(如獎勵和優(yōu)勢)是否在預(yù)定義的范圍內(nèi)。
Prime Intellect協(xié)議:去中心化協(xié)調(diào)層
Prime Inellect協(xié)議通過模塊化、去中心化的協(xié)調(diào)層協(xié)調(diào)無需許可的節(jié)點。它為模型訓(xùn)練者提供了檢查所有節(jié)點健康狀況、查看日志和分發(fā)新任務(wù)的能力,類似于去中心化的SLURM。
該系統(tǒng)由多個用Rust實現(xiàn)的組件組成,包括去中心化賬本、工作節(jié)點軟件、發(fā)現(xiàn)服務(wù)和協(xié)調(diào)器。去中心化賬本存儲有關(guān)當(dāng)前訓(xùn)練運行、所有權(quán)和工作節(jié)點貢獻(xiàn)的信息。每個貢獻(xiàn)者和計算池所有者都有用于簽名交易和證明所有權(quán)的加密地址,確保API交互的安全性和計算資源的正確歸屬。
工作節(jié)點軟件負(fù)責(zé)向中央?yún)f(xié)調(diào)器傳輸心跳和指標(biāo),并配置和管理本地Docker環(huán)境以執(zhí)行任務(wù)。發(fā)現(xiàn)服務(wù)允許節(jié)點上傳工作節(jié)點元數(shù)據(jù)信息,并將這些數(shù)據(jù)存儲在Redis數(shù)據(jù)庫中。協(xié)調(diào)器的核心任務(wù)包括分發(fā)任務(wù)和基于心跳觀察分散工作節(jié)點的生命周期。
訓(xùn)練配方:優(yōu)化分布式強化學(xué)習(xí)
INTELLECT-2的目標(biāo)是訓(xùn)練一個具有推理能力的模型,特別是在數(shù)學(xué)和編碼領(lǐng)域。此外,它還旨在通過允許用戶在任務(wù)提示中指定所需的思考令牌數(shù)量,來控制模型的思考預(yù)算。作為基礎(chǔ)模型,團(tuán)隊使用了QwQ-32B,并在很大程度上遵循了Deepseek-R1的基于GRPO的訓(xùn)練方法,結(jié)合可驗證獎勵。
訓(xùn)練數(shù)據(jù)與獎勵
INTELLECT-2使用雙重目標(biāo)進(jìn)行訓(xùn)練:一方面是鼓勵模型在數(shù)學(xué)和編碼任務(wù)上改進(jìn)推理的任務(wù)獎勵,另一方面是長度獎勵,以教導(dǎo)模型遵守提示中提供的思考預(yù)算。
團(tuán)隊策劃了一個訓(xùn)練數(shù)據(jù)集,由可通過符號驗證/字符串匹配和單元測試執(zhí)行進(jìn)行驗證的數(shù)學(xué)和編碼任務(wù)組成。他們選擇了來自NuminaMath-1.5和Deepscaler的高質(zhì)量數(shù)學(xué)問題,以及之前為SYNTHETIC-1策劃的編碼任務(wù)。完整數(shù)據(jù)集包含285k個任務(wù),其中包括26k個基于Python的算法編碼挑戰(zhàn)和259k個數(shù)學(xué)問題。
對于數(shù)學(xué)和代碼任務(wù),他們實現(xiàn)了二元獎勵,正確響應(yīng)分配1分,錯誤響應(yīng)分配0分。此外,他們還納入了長度獎勵,使用戶能夠在任務(wù)提示的一部分中指定INTELLECT-2的思考預(yù)算。
異步強化學(xué)習(xí)
INTELLECT-2使用異步強化學(xué)習(xí)來利用專用的推理和訓(xùn)練節(jié)點,最大限度地減少GPU空閑時間。在集中式異步RL訓(xùn)練設(shè)置中,更新后的策略權(quán)重可以立即用于下一個RL步驟的訓(xùn)練。但在分布式設(shè)置中,由于權(quán)重廣播需要時間,推理工作節(jié)點無法立即獲得更新后的策略權(quán)重,因此使用的是來自兩個或更多步驟之前的權(quán)重。

團(tuán)隊進(jìn)行了消融實驗,驗證異步RL訓(xùn)練不會損害模型性能。結(jié)果表明,即使異步級別高達(dá)四步,模型的獎勵軌跡仍與同步基線的軌跡匹配,表明在稍微離策略的數(shù)據(jù)上訓(xùn)練不會損害RL訓(xùn)練的性能。
離線與在線數(shù)據(jù)過濾
在消融實驗中,團(tuán)隊發(fā)現(xiàn)按難度過濾數(shù)據(jù)集對訓(xùn)練性能有顯著影響。他們同時采用了訓(xùn)練前的離線過濾和選擇性選擇訓(xùn)練樣本的在線過濾。
對于離線過濾,他們發(fā)現(xiàn)從訓(xùn)練集中過濾掉太簡單或太難的問題至關(guān)重要。在使用Deepscaler數(shù)學(xué)數(shù)據(jù)集訓(xùn)練DeepSeek-R1-Distill-Qwen-7B時,過濾掉基礎(chǔ)模型pass@8率高于50%和低于12.5%的問題后,獎勵顯著提高。
對于在線過濾,由于GRPO和RLOO等訓(xùn)練算法依賴于基于組的相對獎勵來計算優(yōu)勢,如果一個問題的所有完成獲得相同的獎勵,則這些樣本的優(yōu)勢為零,除了輔助損失外沒有訓(xùn)練信號。為了緩解這一問題,他們在執(zhí)行訓(xùn)練步驟之前,持續(xù)從推理工作節(jié)點采樣響應(yīng),直到有一個完整批次的非零優(yōu)勢樣本。
雙邊GRPO裁剪提高訓(xùn)練穩(wěn)定性
在訓(xùn)練過程中,團(tuán)隊面臨損失和梯度范數(shù)峰值導(dǎo)致的不穩(wěn)定性,特別是隨著模型變大。經(jīng)檢查,他們發(fā)現(xiàn)主要原因是GRPO和類PPO訓(xùn)練目標(biāo)中采用的單邊令牌概率比裁剪。
為了緩解這一問題,他們引入了一個額外的超參數(shù)δ,在負(fù)優(yōu)勢情況下為令牌概率比添加上限:
JGRPO(θ) = Eq~P(Q), {oi}G i=1~πθold(O|q) 1/G ∑G i=11/|oi| ∑|oi| t=1[min(min(πθ(oi,t|q, oi,<t)/πθold(oi,t|q, oi,<t), δ)?Ai,t, clip(πθ(oi,t|q, oi,<t)/πθold(oi,t|q, oi,<t), 1?ε, 1+ε)?Ai,t)]δ值應(yīng)高于1+ε,以仍然允許遠(yuǎn)離不良rollout的大幅更新,但避免數(shù)百或更高的巨大令牌概率比。有了這一改變,訓(xùn)練穩(wěn)定性顯著提高。
緩解大規(guī)模訓(xùn)練不穩(wěn)定性
盡管上述雙邊GRPO裁剪機(jī)制顯著減少了大幅損失和梯度峰值,但在使用更大模型時,團(tuán)隊觀察到了額外類型的訓(xùn)練不穩(wěn)定性,這些不穩(wěn)定性與大規(guī)模預(yù)訓(xùn)練中遇到的不穩(wěn)定性相似。
他們觀察到梯度范數(shù)逐漸但持續(xù)增加,即使在沒有立即峰值的情況下。這種現(xiàn)象似乎與模型大小相關(guān),在更大的架構(gòu)中更為明顯。他們發(fā)現(xiàn)采用激進(jìn)的梯度裁剪(閾值低至0.05-0.1)有效緩解了穩(wěn)定性問題,而不會顯著阻礙收斂。
此外,他們還觀察到令牌概率裁剪比在訓(xùn)練期間穩(wěn)步增加,以及熵?fù)p失的獨特模式:在初始下降后,熵?fù)p失開始上升趨勢,這通常預(yù)示著災(zāi)難性訓(xùn)練失敗。
有趣的是,團(tuán)隊注意到基于QwQ的訓(xùn)練比基于DeepSeek-R1-Distill-Qwen-32B的訓(xùn)練穩(wěn)定性更差,盡管兩者都基于相同的預(yù)訓(xùn)練模型(Qwen 2.5)。他們推測,這種差異源于QwQ已經(jīng)經(jīng)歷了一階段可驗證獎勵的強化學(xué)習(xí),這種先前的RL訓(xùn)練似乎使模型更容易受到后續(xù)優(yōu)化不穩(wěn)定性的影響。
實驗與結(jié)果:分布式訓(xùn)練的實證驗證
在兩周內(nèi),團(tuán)隊使用由可信訓(xùn)練集群和驗證器節(jié)點以及不可信、社區(qū)貢獻(xiàn)的異構(gòu)推理工作節(jié)點組成的設(shè)置進(jìn)行了多次訓(xùn)練運行。
實驗設(shè)置
使用QwQ-32B作為基礎(chǔ)模型,團(tuán)隊采用了修改后的GRPO進(jìn)行訓(xùn)練,裁剪閾值ε=0.2,δ=4,熵?fù)p失系數(shù)為1e-4。他們將KL散度損失系數(shù)設(shè)為0.001,將α設(shè)為0.0003以平衡任務(wù)和長度獎勵,并在0.1處應(yīng)用梯度范數(shù)裁剪。訓(xùn)練使用學(xué)習(xí)率3e-7,預(yù)熱步驟25;在每個rollout步驟中,他們生成了4096個樣本,由對256個提示的16個響應(yīng)組成,并使用512的批量大小執(zhí)行8個優(yōu)化器步驟。
為了最大限度地提高32K序列長度的計算效率,團(tuán)隊實現(xiàn)了序列打包,以解決樣本長度的顯著差異。盡管RL基本上需要保留完整樣本,但GRPO的令牌級損失公式允許他們通過調(diào)整注意力掩碼并將樣本整理到序列維度中來實現(xiàn)跨樣本打包。這一優(yōu)化對于擴(kuò)展到20K+序列長度至關(guān)重要,同時保持了跨打包序列的交叉熵計算的完整性。
計算利用率
在兩個主要實驗中,團(tuán)隊成功地通過異步強化學(xué)習(xí)重疊了通信和計算。SHARDCAST廣播到所有節(jié)點平均需要14分鐘,對應(yīng)約590 Mb/s的帶寬吞吐量。具有更好連接性的節(jié)點更早接收檢查點,允許它們提前開始數(shù)據(jù)生成。此外,具有更多計算資源的節(jié)點(如完整H100節(jié)點)更快地生成批次。
訓(xùn)練與推理FLOP的比率在兩個實驗中平均為4.5×,在分散的推理工作節(jié)點上花費的計算量明顯多于訓(xùn)練方面。異步設(shè)置有效地與廣播、推理生成和驗證階段同步,確保幾乎完美的計算重疊,最小化GPU空閑時間。
獎勵軌跡
在整個訓(xùn)練過程中,團(tuán)隊看到任務(wù)獎勵顯著提高,表明模型在數(shù)學(xué)和編碼問題上的表現(xiàn)有所改善。他們還看到長度懲罰減少,但比1.5B和7B參數(shù)模型的消融實驗慢得多。因此,他們的模型在給定的實驗時間內(nèi)沒有學(xué)會嚴(yán)格遵守指定的思考預(yù)算。
基準(zhǔn)性能
團(tuán)隊使用evalchemy及其默認(rèn)設(shè)置來測試模型在常見推理基準(zhǔn)上的性能。如表1所示,他們能夠提高QwQ-32B在數(shù)學(xué)和編碼基準(zhǔn)上的性能,同時在IFEval上略有下降,這可能是由于他們僅在數(shù)學(xué)和編碼任務(wù)上進(jìn)行訓(xùn)練,而不是使用更通用的指令遵循任務(wù)。
模型 | AIME24 | AIME25 | LiveCodeBench (v5) | GPQA-Diamond | IFEval |
INTELLECT-2 | 78.8 | 64.9 | 67.8 | 66.8 | 81.5 |
QwQ-32B | 76.6 | 64.8 | 66.1 | 66.3 | 83.4 |
Qwen-R1-Distill-32B | 69.9 | 58.4 | 55.1 | 65.2 | 72.0 |
Deepseek-R1 | 78.6 | 65.1 | 64.1 | 71.6 | 82.7 |
總體而言,由于QwQ-32B已經(jīng)通過強化學(xué)習(xí)進(jìn)行了廣泛訓(xùn)練,因此很難在基準(zhǔn)測試上獲得大量泛化改進(jìn),超出他們在訓(xùn)練數(shù)據(jù)集上的改進(jìn)。要看到更強的改進(jìn),可能需要更好的基礎(chǔ)模型(如現(xiàn)在可用的Qwen3)或更高質(zhì)量的數(shù)據(jù)集和RL環(huán)境。
討論:測試時計算范式中的去中心化訓(xùn)練
隨著大型語言模型的計算需求在近年來增加了幾個數(shù)量級,跨數(shù)據(jù)中心的分布式訓(xùn)練變得越來越相關(guān)。除了為協(xié)作開源開發(fā)提供經(jīng)濟(jì)可持續(xù)的路徑外,訓(xùn)練這些模型所需的計算能力和能源很快將超過世界上最大的數(shù)據(jù)中心。
到目前為止,大多數(shù)進(jìn)展來自擴(kuò)展參數(shù)和數(shù)據(jù)集大小——通常稱為預(yù)訓(xùn)練擴(kuò)展。最近,一個互補的進(jìn)展軸出現(xiàn)了:測試時計算擴(kuò)展,如在以推理為重點的模型中所見。
雖然這兩種形式的擴(kuò)展都與去中心化兼容,但團(tuán)隊認(rèn)為測試時計算擴(kuò)展特別適合去中心化訓(xùn)練。它減少了協(xié)調(diào)要求,并將計算需求轉(zhuǎn)向推理,使異構(gòu)設(shè)備能夠更廣泛地參與。
異步RL隱藏了大部分通信開銷
通信是去中心化訓(xùn)練中的主要瓶頸。DiLoCo等技術(shù)可以將預(yù)訓(xùn)練通信開銷減少高達(dá)兩個數(shù)量級。然而,隨著模型大小的增加,通信——特別是阻塞通信——再次成為限制因素。
一個有前途的策略是重疊通信和計算。與ZeRO-offload等延遲梯度應(yīng)用并影響收斂的方法不同,延遲RL中的rollout提供了更好的權(quán)衡。這是因為延遲應(yīng)用于模型級別,而不是優(yōu)化步驟。即使模型稍微離策略,它仍然可以生成有用的推理軌跡,導(dǎo)致正面獎勵,這是有效的訓(xùn)練信號。
進(jìn)一步的研究需要評估超過兩步的異步RL延遲。盡管如此,使用4-5步的延遲,可以有效地隱藏RL管道中的各種阻塞階段——包括權(quán)重廣播、環(huán)境驗證、無需許可的驗證和相對KL對數(shù)概率計算。這一策略提高了訓(xùn)練和推理的計算利用率,并實現(xiàn)了更大的硬件異構(gòu)性。
推理將消耗大部分計算
在INTELLECT-2中,訓(xùn)練與推理的計算比約為1:4。團(tuán)隊預(yù)計,隨著測試時推理的擴(kuò)展,這一比率將更加傾向于推理。這一趨勢為在全球分布式異構(gòu)計算資源上訓(xùn)練具有數(shù)千億參數(shù)的模型打開了大門。
這一轉(zhuǎn)變的關(guān)鍵驅(qū)動因素是數(shù)據(jù)集過濾。如圖8所示,當(dāng)訓(xùn)練專注于更具挑戰(zhàn)性的樣本時,模型能力會提高。然而,推理過程中生成的并非所有數(shù)據(jù)都有用。隨著模型處理更困難的任務(wù),正面獎勵越來越稀疏,推理將需要比訓(xùn)練多得多的計算。在這種情況下,生成高質(zhì)量的rollout成為主要的計算成本。
這種計算需求的不對稱重塑了去中心化RL的擴(kuò)展動態(tài),并間接解決了其歷史限制之一:內(nèi)存限制。通過將大部分工作負(fù)載轉(zhuǎn)移到推理——內(nèi)存需求顯著低于訓(xùn)練——去中心化訓(xùn)練在更廣泛的硬件范圍內(nèi)變得可行。
結(jié)論與未來工作
INTELLECT-2是全球首個通過分布式異步強化學(xué)習(xí)訓(xùn)練的32B參數(shù)大型語言模型,它開創(chuàng)了大型語言模型訓(xùn)練的新范式。團(tuán)隊開源了訓(xùn)練模型、任務(wù)和驗證器環(huán)境,以及所有基礎(chǔ)設(shè)施組件,包括訓(xùn)練框架PRIME-RL。這一開源發(fā)布為研究社區(qū)探索去中心化訓(xùn)練提供了寶貴的資源,有助于推進(jìn)全球分布式強化學(xué)習(xí)作為構(gòu)建前沿開源模型的基礎(chǔ)。
雖然INTELLECT-2是朝著以去中心化方式訓(xùn)練開源前沿推理模型的第一步,但仍有幾個未來工作方向值得探索:
- 增加強化學(xué)習(xí)中推理與訓(xùn)練計算的比率:由于推理是無限可并行的,不需要工作節(jié)點之間的通信,因此相對于訓(xùn)練花費更高計算量的RL訓(xùn)練配方非常適合去中心化訓(xùn)練。如VinePPO等方法花費額外時間進(jìn)行推理,以計算基于蒙特卡洛的價值估計,而不是利用像PPO這樣的價值網(wǎng)絡(luò),是一個值得探索的有趣領(lǐng)域。
- 推理模型的工具調(diào)用:最新一代專有推理模型可以在推理鏈中訪問工具調(diào)用,如網(wǎng)絡(luò)搜索或Python解釋器。開源研究在這一方向已有初步成果,為進(jìn)一步擴(kuò)展這些方法并訓(xùn)練能夠利用此類工具的更大開源推理模型打開了大門。
- 眾包RL任務(wù)和環(huán)境:要教導(dǎo)模型新技能,需要構(gòu)建多樣化的RL環(huán)境。這歸結(jié)為一個傳統(tǒng)的軟件工程問題,高度可并行,需要具有專業(yè)領(lǐng)域知識的各種貢獻(xiàn)者,非常適合開源、社區(qū)驅(qū)動的努力。
- 模型合并和DiLoCo:模型合并已成為最近工作中的有效后訓(xùn)練技術(shù)。這種能力是否擴(kuò)展到推理任務(wù)仍是一個開放問題。然而,能夠合并在不同推理領(lǐng)域上訓(xùn)練的模型將標(biāo)志著跨并行計算資源擴(kuò)展異步強化學(xué)習(xí)的重要一步。
INTELLECT-2展示了全球去中心化RL的可行性,為開源社區(qū)提供了一個強大的基礎(chǔ),可以在此基礎(chǔ)上構(gòu)建更強大、更靈活的AI系統(tǒng)。隨著測試時計算范式的發(fā)展,去中心化訓(xùn)練將在塑造AI未來方面發(fā)揮越來越重要的作用。。
參考資料
- INTELLECT-2 Technical Report:??https://storage.googleapis.com/public-technical-paper/INTELLECT_2_Technical_Report.pdf??
- INTELLECT-2 on Hugging Face:??https://huggingface.co/collections/PrimeIntellect/intellect-2-68205b03343a82eabc802dc2??
- PRIME-RL GitHub Repository:??https://github.com/PrimeIntellect-ai/prime-rl??
- Prime Intellect Protocol GitHub:??https://github.com/primeIntellect-ai/protocol??
- Official Release Blog:??https://www.primeintellect.ai/blog/intellect-2-release???
本文轉(zhuǎn)載自??頓數(shù)AI??,作者:小頓

















