Every Step Evolves：萬億參數(shù)思維模型如何靠三大支柱穩(wěn)訓(xùn)高效？

作者：肆零柒 2025-11-10 09:17:53

Ling Team發(fā)布首個開源萬億參數(shù)思維模型Ring-1T，通過IcePop、C3PO++與ASystem三大創(chuàng)新，首次實現(xiàn)穩(wěn)定高效的超大規(guī)模強化學(xué)習(xí)訓(xùn)練，在IMO等高難度任務(wù)中達到銀牌水平。

大家好，我是肆〇柒。今天我們一起來看看來自 Ling Team（InclusionAI）的最新工作《Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model》。這篇論文不僅開源了首個萬億參數(shù)思維模型 Ring-1T，更系統(tǒng)性地解決了超大規(guī)模強化學(xué)習(xí)中的穩(wěn)定性與效率難題——從訓(xùn)練-推理失配導(dǎo)致的崩潰，到長思維鏈Rollout的資源浪費，再到系統(tǒng)級同步瓶頸。其背后三大創(chuàng)新 IcePop、C3PO++ 與 ASystem，共同構(gòu)成了一個可復(fù)現(xiàn)、可擴展的萬億參數(shù)RL訓(xùn)練范式。

當(dāng)下的人工智能正經(jīng)歷關(guān)鍵轉(zhuǎn)型：大型語言模型（LLM）正超越靜態(tài)人類知識庫，成為將信息轉(zhuǎn)化為行動洞察與理解的動態(tài)處理器。這一向更通用智能的演進，通過其核心能力——復(fù)雜、自適應(yīng)的問題解決能力得到實證驗證。近期在解決高難度人類競賽問題上的突破，為大型語言模型顯著提升的推理能力提供了具體證據(jù)。在這一背景下，Ling團隊推出的Ring-1T成為首個開源、最先進的萬億參數(shù)思維模型，它擁有1萬億總參數(shù)，每Token激活約500億參數(shù)，僅依靠自然語言推理能力即達到IMO銀牌水平。實現(xiàn)這一突破的關(guān)鍵在于三大相互關(guān)聯(lián)的創(chuàng)新：IcePop解決訓(xùn)練-推理失配問題，C3PO++提升長Rollout處理效率，ASystem則克服了萬億參數(shù)模型訓(xùn)練的系統(tǒng)瓶頸。

多基準(zhǔn)測試性能對比

如上圖所示，Ring-1T在多項關(guān)鍵基準(zhǔn)測試中展現(xiàn)出全面領(lǐng)先優(yōu)勢：AIME-2025得分為93.40（第二，領(lǐng)先所有開源模型），HMMT-2025得分為86.72（第二，領(lǐng)先所有開源模型），CodeForces評分為2088（最高分，超越所有開源和閉源API），ARC-AGI-1得分為55.94（第二，比DeepSeek-V3.1提升15.32個百分點）。這些結(jié)果驗證了穩(wěn)定高效的RL訓(xùn)練方法與系統(tǒng)的重要性，展示了萬億參數(shù)推理模型的可行性與卓越能力。

訓(xùn)練體系全景：從基礎(chǔ)模型到思維引擎的三階段演進

Ring-1T的訓(xùn)練流程始于Ling-1T-base模型，這是一種擁有1萬億總參數(shù)、激活500億參數(shù)的新型專家混合（MoE）模型。其訓(xùn)練過程包含三個關(guān)鍵階段，形成遞進式能力培養(yǎng)體系。

如下圖所示，Long-CoT SFT階段通過長鏈思維監(jiān)督微調(diào)為模型奠定基礎(chǔ)能力。研究團隊收集并合成了大量涵蓋數(shù)學(xué)、代碼、科學(xué)等多領(lǐng)域的推理軌跡數(shù)據(jù)，其中數(shù)學(xué)占46%、STEM占26%、代碼占20%、其他占8%。

Ring-1T訓(xùn)練流水線

如下圖所示，SFT數(shù)據(jù)的域分布清晰展示了其多領(lǐng)域覆蓋特性，為模型奠定廣泛的推理基礎(chǔ)。這些訓(xùn)練數(shù)據(jù)經(jīng)過嚴(yán)格的數(shù)據(jù)清洗協(xié)議處理：1) 去重，采用精確匹配移除重復(fù)樣本；2) 有害內(nèi)容過濾，識別并清除包含有毒或有害信息的數(shù)據(jù)樣本；3) 數(shù)據(jù)凈化，利用哈希和精確字符串匹配技術(shù)檢測并消除與現(xiàn)有基準(zhǔn)重疊的樣本；4) 低質(zhì)量樣本過濾，移除包括不可見控制碼和額外Unicode字符在內(nèi)的各種噪聲源。

SFT數(shù)據(jù)域分布

訓(xùn)練數(shù)據(jù)被打包為64k長度序列，模型訓(xùn)練3個epoch，學(xué)習(xí)率為2×10??，采用余弦衰減調(diào)度器（30個預(yù)熱步）并應(yīng)用0.1的權(quán)重衰減。此階段的目標(biāo)是賦予基礎(chǔ)模型持續(xù)連貫的多步驟思考能力，為后續(xù)強化學(xué)習(xí)訓(xùn)練奠定堅實基礎(chǔ)。

隨后的Reasoning RL階段構(gòu)建了一個涵蓋數(shù)學(xué)、代碼、科學(xué)和邏輯任務(wù)的綜合、高質(zhì)量RL數(shù)據(jù)集，包含可驗證結(jié)果。研究團隊對RL數(shù)據(jù)集進行了全面構(gòu)建：數(shù)學(xué)領(lǐng)域擴展自Ling-Team等人的數(shù)據(jù)集，包含來自權(quán)威來源的嚴(yán)格數(shù)學(xué)問題；代碼領(lǐng)域通過多階段工作流合成、驗證、質(zhì)量評分和選擇額外測試用例；科學(xué)領(lǐng)域通過眾包方式收集高難度物理、化學(xué)和生物問題，并將選擇題重新格式化為開放式問題，對于有機化學(xué)，建立了專用的圖像語義化管道，將分子結(jié)構(gòu)等視覺信息轉(zhuǎn)換為結(jié)構(gòu)化文本描述；邏輯領(lǐng)域涵蓋五個領(lǐng)域：視覺模式歸納、網(wǎng)格謎題、路徑尋找、算術(shù)推理和命題邏輯，通過整合公共資源到內(nèi)部游戲生成器實現(xiàn)可擴展創(chuàng)建；通用數(shù)據(jù)則聚合自公共倉庫和真實用戶交互。

RL數(shù)據(jù)難度分布

如上圖所示，RL數(shù)據(jù)集的難度分布顯示"非常困難"類別占比高達30%，這為模型在高難度任務(wù)上的卓越表現(xiàn)提供了數(shù)據(jù)基礎(chǔ)。研究團隊采用多階段篩選流程，包括解析、重構(gòu)和去重，通過LLM和基于規(guī)則的雙重評分確保數(shù)據(jù)質(zhì)量，同時通過細(xì)粒度元數(shù)據(jù)注釋實現(xiàn)動態(tài)采樣和跨領(lǐng)域混合，顯著提高訓(xùn)練效率和模型在復(fù)雜任務(wù)上的表現(xiàn)。

最后的General RL階段在可驗證任務(wù)的大規(guī)模強化學(xué)習(xí)之后，進行第二階段的強化學(xué)習(xí)，聚焦于一般性任務(wù)。此階段采用RLHF（Reinforcement Learning from Human Feedback）重新校準(zhǔn)模型的能力分布，在保持核心推理能力的同時增強人類對齊、指令遵循、創(chuàng)意寫作、安全性和整體可用性。

這三個階段形成清晰的能力遞進關(guān)系：Long-CoT SFT奠定基礎(chǔ)推理模式→Reasoning RL提升專業(yè)領(lǐng)域推理能力→General RL優(yōu)化通用任務(wù)表現(xiàn)，共同塑造出強大的思維模型。

第一支柱：IcePop —— 解決訓(xùn)練-推理失配的梯度凈化器

在萬億參數(shù)規(guī)模的強化學(xué)習(xí)訓(xùn)練中，一個根本性挑戰(zhàn)是訓(xùn)練引擎與推理引擎之間的概率計算差異，這在MoE模型中因動態(tài)路由機制而被放大。在長思維鏈（CoT）設(shè)置中，這些差異會隨著迭代逐步累積并進一步放大。

理論分析表明，這種復(fù)合概率偏差遵循特定規(guī)律：設(shè)πinfer(·; θ)和πtrain(·; θ)分別為推理引擎和訓(xùn)練引擎加載的策略模型，δt = DKL(πinfer(·; θt) ∥ πtrain(·; θt))表示第t步的概率偏差，在一定條件下存在常數(shù)η > 0，使得δt+1 ≥ (1+ η2μ) δt。這一不等式證明了概率偏差會以指數(shù)級速度累積，導(dǎo)致訓(xùn)練不穩(wěn)定。

為解決這一問題，研究團隊提出IcePop，一種通過雙側(cè)差異掩碼和裁剪穩(wěn)定RL訓(xùn)練的GRPO變體。IcePop的核心機制是僅在校準(zhǔn)區(qū)域內(nèi)更新梯度，而丟棄所有超出此邊界的噪聲梯度更新，從而在不減慢推理速度的情況下穩(wěn)定訓(xùn)練。

IcePop采用兩項關(guān)鍵技術(shù)：

雙側(cè)校準(zhǔn)：在校準(zhǔn)函數(shù)定義的區(qū)域內(nèi)校準(zhǔn)Token級梯度，該函數(shù)為M(k)={k if k ∈[α, β], 0 otherwise}，其中α和β控制上下限
掩碼機制：將超出概率偏差范圍的Token從梯度計算中排除，將梯度更新限制在穩(wěn)定區(qū)域內(nèi)

其目標(biāo)函數(shù)設(shè)計為：

對應(yīng)的梯度計算為：

與現(xiàn)有方法相比，TIS（Yao et al., 2025）通過重要性采樣校正解決訓(xùn)練-推理失配問題，對發(fā)散梯度應(yīng)用修正系數(shù)；而IcePop則直接丟棄超出范圍的梯度，確保訓(xùn)練穩(wěn)定性。實驗證明，這種"丟棄所有噪聲梯度更新"的方法在長期訓(xùn)練中更為有效。

AIME25性能對比

如上圖所示，在Ring-mini-2.0上的初步實驗顯示，IcePop在AIME25基準(zhǔn)測試上穩(wěn)定提升性能，最終比基線（63%）提高超過14%，并相對于TIS擴大了6%的性能差距。

在Ring-1T的實際訓(xùn)練中，IcePop有效抑制了梯度范數(shù)增長和概率偏差累積，使訓(xùn)練過程保持穩(wěn)定。實驗數(shù)據(jù)顯示，IcePop的掩碼比例維持在1-2‰的訓(xùn)練Token，這表明只有極少數(shù)但關(guān)鍵的噪聲梯度被丟棄，既保證了訓(xùn)練穩(wěn)定性，又保留了足夠的探索空間。

訓(xùn)練獎勵與梯度范數(shù)對比

如上圖所示，在Ring-mini-2.0實驗中，基線方法在180-200步后獎勵崩潰，而IcePop和TIS均能維持穩(wěn)定增長；在梯度范數(shù)方面，基線迅速爆炸，而IcePop和TIS保持穩(wěn)定。這表明IcePop有效解決了訓(xùn)練不穩(wěn)定問題。

如下圖所示，IcePop在訓(xùn)練過程中保持相對較低且穩(wěn)定的概率差異，而TIS顯示出更大的極端差異和更快的增長；同時，IcePop的token對數(shù)概率保持相對穩(wěn)定，而基線則快速上升后驟降。這表明IcePop能夠有效控制訓(xùn)練-推理失配問題。

概率差異與token對數(shù)概率

如下圖所示，IcePop的裁剪比例維持在1-2‰的訓(xùn)練token，隨著訓(xùn)練進行，裁剪比例急劇上升，表明訓(xùn)練過程中逐漸出現(xiàn)更微妙但有害的梯度更新。對被裁剪token的詳細(xì)分析表明，相比所有token，被裁剪token具有更高的熵值，這意味著這些被裁剪的token在訓(xùn)練中扮演著關(guān)鍵角色，它們的高熵特性使它們成為探索多樣性的重要來源，但同時也可能引入不穩(wěn)定性。

裁剪比例與token熵比較

掩碼范圍的敏感性分析如圖13所示，[0.5, 5.0]是最佳范圍：默認(rèn)范圍[0.5, 5.0]不僅穩(wěn)定訓(xùn)練，還豐富了采樣多樣性；過窄范圍[0.5, 2.0]立即導(dǎo)致訓(xùn)練不穩(wěn)定；而過寬范圍[0.4, 5.0]雖然保持穩(wěn)定，但包含過多高log概率Token，不利于探索多樣性。具體而言，[0.4, 5.0]范圍內(nèi)的token對數(shù)概率較低（如下圖右下角所示），意味著模型過度自信，這反而限制了探索空間。

不同掩碼范圍下的訓(xùn)練動態(tài)

第二支柱：C3PO++ —— Token預(yù)算驅(qū)動的高效Rollout調(diào)度器

在萬億參數(shù)思維模型的強化學(xué)習(xí)訓(xùn)練中，長思維鏈生成導(dǎo)致Rollout階段效率低下，成為訓(xùn)練瓶頸。為解決這一問題，研究團隊提出C3PO++，一種基于Token預(yù)算的動態(tài)劃分機制，顯著提升資源利用率。

IcePop與C3PO++集成框架

如上圖所示，IcePop與C3PO共同構(gòu)成了Ring-1T的強化學(xué)習(xí)核心，其中IcePop解決訓(xùn)練-推理失配問題，C3PO優(yōu)化Rollout效率，二者與推理引擎、訓(xùn)練引擎和RL數(shù)據(jù)語料庫共同協(xié)作，顯著提升RL訓(xùn)練的效率和效果。

C3PO++引入了預(yù)算控制的Rollout分區(qū)機制，通過動態(tài)劃分Rollout生成防止因個別長Rollout導(dǎo)致的計算資源閑置。系統(tǒng)包含兩個關(guān)鍵組件：容量為Ωinfer的高吞吐推理池Pinfer用于并行生成，以及容量為Ωtrain的訓(xùn)練池Qtrain用于收集已完成的軌跡。

C3PO++的Rollout緩沖區(qū)動態(tài)管理

如上圖所示，C3PO++在每個訓(xùn)練步驟中維護跨策略版本的Rollout狀態(tài)。當(dāng)?shù)_到Token預(yù)算時，優(yōu)化即刻執(zhí)行；未完成的Rollout被存儲在緩沖區(qū)中，由下一迭代中更新的策略繼續(xù)處理。每個序列經(jīng)歷的分區(qū)次數(shù)稱為保留期（retention period），每次迭代后，未完成Rollout的保留期自動增加1。保留期超過閾值σ的Rollout會在每次迭代前被清除。這一機制確保系統(tǒng)不會無限期保留未完成的Rollout，同時給予足夠機會讓策略模型繼續(xù)處理先前未完成的序列，從而最大化計算資源利用率。

C3PO++的算法流程如下：

1. 初始化推理池和訓(xùn)練池

2. 按保留期清理過期rollout（保留期超過閾值σ的Rollout被清除）

3. 維持推理池容量，補充新提示

4. 并行生成rollout，達到token預(yù)算后停止

5. 將完成rollout移至訓(xùn)練池，更新模型參數(shù)

算法1詳細(xì)展示了C3PO++的工作流程：在每個訓(xùn)練步驟t，推理引擎πinfer;θt并行生成rollout，同時實時跟蹤生成的token總數(shù)C。當(dāng)rollout達到終端狀態(tài)（[EOS]）時，它將從Pinfer移至訓(xùn)練池Qtrain，并計入訓(xùn)練token C。推理持續(xù)進行，直到C達到token預(yù)算Φ。此時，訓(xùn)練引擎πtrain;θt使用Qtrain中受token預(yù)算調(diào)控的已完成軌跡更新參數(shù)，這些軌跡可能包含從早期推理版本恢復(fù)的樣本。將序列經(jīng)歷的分區(qū)次數(shù)稱為保留期，每個迭代后，未完成rollout的保留期自動增加1。在每次迭代前，保留期超過閾值σ的rollout將從Pinfer中清除。同時，可能采樣新提示以填充Pinfer，直到達到容量Ωinfer。模型參數(shù)更新至θt+1后，推理引擎πinfer;θt+1啟動新的rollout生成迭代，繼續(xù)處理有效保留期內(nèi)的rollout，并由token預(yù)算監(jiān)控。

C3PO++與基線的時間成本對比

實驗結(jié)果表明，C3PO顯著提升了訓(xùn)練效率。如上圖所示，在Rollout階段實現(xiàn)了約2.5倍的速度提升，由于Rollout階段通常占RL訓(xùn)練時間的很大比例，C3PO使端到-end訓(xùn)練速度提升了約1.5倍。

C3PO++與基線的獎勵和基準(zhǔn)性能比較

更重要的是，C3PO在提升效率的同時保持了訓(xùn)練效果。如上圖所示，獎勵曲線與基線保持接近，表明其在Rollout管理中的優(yōu)化維持了可比的訓(xùn)練動態(tài)。在代表性推理基準(zhǔn)測試中，C3PO實現(xiàn)了與基線相當(dāng)?shù)男阅埽篈IME25為92.29 vs 92.29，CodeForces評級為2084 vs 2085，ARC-AGI-1得分為53.25 vs 53.62。這證明了C3PO++在提高效率的同時，沒有犧牲模型性能。

第三支柱：ASystem —— 為萬億參數(shù)RL量身打造的高性能框架

訓(xùn)練萬億參數(shù)規(guī)模的強化學(xué)習(xí)模型需要專門的基礎(chǔ)設(shè)施，以管理其前所未有的規(guī)模。模型的巨大尺寸與分布式RL工作流的固有復(fù)雜性，在內(nèi)存管理、狀態(tài)同步和計算吞吐方面提出了獨特挑戰(zhàn)。為此，研究團隊開發(fā)了ASystem，一個高性能RL框架，其組件針對Ring-1T的需求進行了協(xié)同設(shè)計。

ASystem RL訓(xùn)練框架架構(gòu)

如上圖所示，ASystem的架構(gòu)圍繞統(tǒng)一執(zhí)行環(huán)境構(gòu)建，包含以下關(guān)鍵組件：

Hybrid Runtime：ASystem的核心，無縫集成訓(xùn)練和推理工作負(fù)載。對于Ring-1T，這意味著可以同時進行大規(guī)模并行策略評估（推理）和模型權(quán)重更新（訓(xùn)練），消除系統(tǒng)間數(shù)據(jù)傳輸開銷，確保數(shù)千GPU的高效利用。

AMem：GPU內(nèi)存管理庫，專為克服大規(guī)模RL訓(xùn)練中的內(nèi)存瓶頸而設(shè)計。它優(yōu)化內(nèi)存使用和數(shù)據(jù)傳輸，支持更大的批處理量，減少OOM錯誤，并通過最小代碼更改加速部署，且不損失準(zhǔn)確性。AMem通過三項關(guān)鍵技術(shù)提升內(nèi)存效率：內(nèi)存切換（透明釋放和恢復(fù)訓(xùn)練狀態(tài)）、分布式多路徑傳輸（聚合多通道帶寬）和統(tǒng)一內(nèi)存池（跨GPU和節(jié)點的動態(tài)分配）。

AState：高性能權(quán)重同步框架，高效解決將更新后的模型參數(shù)從訓(xùn)練器分發(fā)到推理執(zhí)行者的挑戰(zhàn)。它采用零冗余點對點機制，能夠在10秒內(nèi)完成萬億參數(shù)模型的同步。這一機制通過僅傳輸必要權(quán)重分片、硬件-軟件協(xié)同設(shè)計（NUMA拓?fù)浜虲PU-GPU親和性感知）以及多傳輸通信層（動態(tài)選擇最佳協(xié)議）實現(xiàn)。相比之下，早期RL框架依賴分布式文件系統(tǒng)（如NFS）進行檢查點共享，同步延遲達數(shù)十分鐘，而AState將同步時間縮短至秒級，實現(xiàn)了數(shù)量級的性能突破。

ASandbox：按需無服務(wù)器沙箱環(huán)境，提供快速場景驗證。通過毫秒級冷啟動和高吞吐隔離，ASandbox加速了大型規(guī)模RL訓(xùn)練中Ring-1T Rollout的評估。它提供專用沙箱（數(shù)學(xué)、代碼、STEM、終端），支持HTTP和MCP協(xié)議，并具備內(nèi)核級隔離、自動故障檢測和高擴展性（5,000 QPS/200ms吞吐）。

ASystem基于SingleController+SPMD（Single Program, Multiple Data）架構(gòu)設(shè)計，提供了顯著優(yōu)勢：為訓(xùn)練、推理和獎勵模型后端提供即插即用支持，便于在規(guī)模上進行獨立調(diào)試和開發(fā)；通過將控制流與數(shù)據(jù)流分離，有效緩解了主流SingleController框架中普遍存在的單點數(shù)據(jù)流瓶頸；此外，系統(tǒng)還包含快速失敗報告和自動恢復(fù)機制，增強訓(xùn)練穩(wěn)定性。

在細(xì)節(jié)層面，AReaL作為高性能RL算法框架，提供異步多階段流水線（并發(fā)執(zhí)行軌跡生成、獎勵計算和訓(xùn)練）、高效數(shù)據(jù)管理（智能數(shù)據(jù)打包和分片，最小化填充開銷）以及容錯機制（自動錯誤檢測、重試和恢復(fù)），與算法創(chuàng)新無縫集成。

實驗驗證：從訓(xùn)練動態(tài)到基準(zhǔn)測試的全方位驗證

研究團隊進行了全面實驗，驗證IcePop和C3PO++的有效性，以及ASystem框架的性能優(yōu)勢。

在數(shù)據(jù)分布方面，如圖14所示，Long-CoT SFT數(shù)據(jù)集的域分布為數(shù)學(xué)46%、STEM 26%、代碼20%、其他8%，確保了模型在多領(lǐng)域的基礎(chǔ)推理能力。而RL數(shù)據(jù)集的多領(lǐng)域分布如圖15所示，為數(shù)學(xué)23%、科學(xué)28%、代碼24%、邏輯19%，難度分布為非常簡單15%、簡單11%、中等13%、困難17%、非常困難30%，構(gòu)成了高質(zhì)量的強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)。

在IcePop有效性驗證方面，Ring-mini-2.0上的實驗顯示，IcePop在AIME25基準(zhǔn)測試上穩(wěn)定提升性能，而TIS存在平臺期。在Ring-1T的實際訓(xùn)練中，IcePop有效抑制了梯度范數(shù)增長和概率偏差累積。掩碼范圍實驗表明，[0.5,5.0]范圍在穩(wěn)定性和探索空間間取得最佳平衡，保持1-2‰的Token被裁剪，同時確保訓(xùn)練穩(wěn)定性。

C3PO的效率驗證顯示，其在Rollout階段提速2.5倍，端到-end訓(xùn)練提速1.5倍。獎勵曲線與基線保持高度一致，證明無性能損失。在AIME25、CodeForces、ARC-AGI-1等基準(zhǔn)測試中，C3PO實現(xiàn)了與基線相當(dāng)?shù)男阅埽炞C了其在提高效率的同時不犧牲模型能力。

成果與啟示：Ring-1T的性能表現(xiàn)與行業(yè)意義

Ring-1T在多項關(guān)鍵基準(zhǔn)測試中展現(xiàn)出突破性結(jié)果：AIME-2025得分為93.40（第二，領(lǐng)先所有開源模型），HMMT-2025得分為86.72（第二，領(lǐng)先所有開源模型），CodeForces評分為2088（最高分，超越所有開源和閉源API），ARC-AGI-1得分為55.94（第二，比DeepSeek-V3.1提升15.32個百分點），ArenaHard v2勝率為81.59%（第二，僅落后GPT-5-Thinking 1.32個百分點）。

尤為引人注目的是，Ring-1T在IMO-2025評估中達到銀牌水平。在AWorld 2框架內(nèi)，Ring-1T僅通過純自然語言推理（不依賴代碼生成或外部符號求解器）即正確解決了四道問題，并部分證明了問題2，所有這些都在單次提交中完成。具體而言，模型首次嘗試即正確解決了問題1、3、4和5；第三次嘗試為問題2生成了近乎完整的幾何證明；對于最具挑戰(zhàn)性的問題6（IMO 2025中無AI參與者正確解決），Ring-1T與Gemini 2.5 Pro收斂到相同錯誤答案（4048），而正確答案為2112。

以問題1為例，Ring-1T展示了完整的推理鏈：

步驟1：理解點集結(jié)構(gòu) - 識別所需覆蓋的點集Pn={(a,b)∈Z+×Z+:a+b≤n+1}，共T(n)=n(n+1)/2個點
步驟2：非陽光線分類 - 確定非陽光線分為三類：水平線(y=c)、垂直線(x=d)、對角線(x+y=e)
步驟3：最大覆蓋分析 - 計算m=n?k條非陽光線最多覆蓋M(m,n)=m(2n?m+1)/2個點，剩余U(k)=k(k+1)/2個點需由k條陽光線覆蓋
步驟4：偶數(shù)k≥2不可能性 - 證明k條陽光線最多覆蓋k2/2個點，小于U(k)=k(k+1)/2
步驟5：奇數(shù)k≥5不可能性 - 對k=2t?1(t≥3)，證明僅存在3條不相交的t點陽光線，剩余2t(t?2)個點無法被剩余2t?4條線覆蓋
步驟6：k=0構(gòu)造 - 使用n條對角線x+y=2,...,n+1覆蓋所有點
步驟7：k=1構(gòu)造 - 使用n?1條水平線覆蓋b≤n?1的點，剩余點(1,n)用陽光線y=x+(n?1)覆蓋
步驟8：k=3構(gòu)造 - 使用n?3條水平線留下P3子網(wǎng)格，用三條陽光線（斜率1、?1/2、?2）覆蓋所有6個點

這一完整的純自然語言推理過程，無需任何代碼或符號計算，充分展示了Ring-1T的深度推理能力。

這些結(jié)果驗證了穩(wěn)定高效的RL訓(xùn)練方法與系統(tǒng)的重要性，展示了萬億參數(shù)推理模型的可行性與卓越能力。Ring-1T的成功證明，算法與系統(tǒng)必須協(xié)同設(shè)計，才能克服超大規(guī)模RL訓(xùn)練中的穩(wěn)定性與效率挑戰(zhàn)。IcePop解決了訓(xùn)練-推理失配問題，但其效果依賴于ASystem提供的統(tǒng)一執(zhí)行環(huán)境；C3PO的效率提升需要AState的快速權(quán)重同步支持；而ASystem的組件設(shè)計則充分考慮了IcePop和C3PO的算法需求。

模型局限與未來方向

盡管取得了一定的成績，Ring-1T及其相關(guān)訓(xùn)練系統(tǒng)仍存在若干局限，指向未來研究的有益方向。

在模型架構(gòu)與推理效率方面，模型使用的GQA（Grouped-Query Attention）架構(gòu)在性能與速度間提供了良好平衡。然而，對于生成大量內(nèi)部"思維"過程的Ring-1T思維模型，GQA帶來的推理成本仍然顯著。未來需要探索替代機制，如MoBA 或高級線性注意力變體，以實現(xiàn)更高的推理吞吐量。

在訓(xùn)練-推理一致性方面，雖然IcePop方法緩解了主要的訓(xùn)練-推理失配問題，但并未實現(xiàn)完美的訓(xùn)練-推理一致性。訓(xùn)練和推理計算操作符之間的底層數(shù)值差異仍然是潛在的不穩(wěn)定性來源。解決這一基礎(chǔ)系統(tǒng)挑戰(zhàn)對于未來模型的穩(wěn)定擴展至關(guān)重要。

在能力缺陷方面，Ring-1T的訓(xùn)練策略針對基礎(chǔ)自然語言推理進行了優(yōu)化，導(dǎo)致高級智能體技能（如工具使用）未得到充分優(yōu)化。未來迭代將把Ring-1T定位為基礎(chǔ)模型，整合專門數(shù)據(jù)和訓(xùn)練范式（如智能體RL），培養(yǎng)復(fù)雜的自主問題解決能力。此外，身份混淆和語言代碼切換等小問題，歸因于數(shù)據(jù)雜質(zhì)和正則化不足，將通過改進數(shù)據(jù)凈化技術(shù)解決。

總結(jié)：Every Step Evolves，每一步都在進化

Ring-1T的發(fā)布標(biāo)志著萬億參數(shù)思維模型領(lǐng)域的里程碑。這一成就成功解決了將強化學(xué)習(xí)擴展到萬億參數(shù)規(guī)模所固有的深刻系統(tǒng)和算法挑戰(zhàn)。其核心貢獻在于三個相互關(guān)聯(lián)的創(chuàng)新：IcePop解決了訓(xùn)練-推理失配問題，C3PO++實現(xiàn)了高效長軌跡Rollout，ASystem則消除了可擴展性瓶頸并確保訓(xùn)練穩(wěn)定性。

這三大創(chuàng)新環(huán)環(huán)相扣：IcePop確保訓(xùn)練穩(wěn)定性→C3PO++提高Rollout效率→ASystem提供系統(tǒng)級支撐，共同構(gòu)成了萬億參數(shù)思維模型訓(xùn)練的完整解決方案。通過向社區(qū)發(fā)布完整的1T參數(shù)MoE模型，研究團隊為研究社區(qū)提供了直接訪問尖端推理能力的機會，標(biāo)志著大規(guī)模推理智能民主化的重要里程碑。

作為首個開源的萬億參數(shù)思維模型，Ring-1T為研究社區(qū)提供了前所未有的機會，使研究人員能夠直接探索超大規(guī)模RL訓(xùn)練的穩(wěn)定性與效率問題。隨著GitHub代碼庫和HuggingFace模型權(quán)重的開放，Ring-1T將為AI社區(qū)提供強大的基礎(chǔ)，推動推理模型研究的邊界。未來，從"思維模型"到"行動智能體"的演進路徑將更加清晰，每一步都在進化，每一次進化都在改變AI的未來。我大愛這篇論文中的數(shù)據(jù)配方配比。

責(zé)任編輯：龐桂玉來源：覺察流

開源大型語言模型 LLM