精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Every Step Evolves:萬億參數(shù)思維模型如何靠三大支柱穩(wěn)訓(xùn)高效?

人工智能 開源
Ling Team發(fā)布首個開源萬億參數(shù)思維模型Ring-1T,通過IcePop、C3PO++與ASystem三大創(chuàng)新,首次實現(xiàn)穩(wěn)定高效的超大規(guī)模強化學(xué)習(xí)訓(xùn)練,在IMO等高難度任務(wù)中達到銀牌水平。

大家好,我是肆〇柒。今天我們一起來看看來自 Ling Team(InclusionAI) 的最新工作《Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model》。這篇論文不僅開源了首個萬億參數(shù)思維模型 Ring-1T,更系統(tǒng)性地解決了超大規(guī)模強化學(xué)習(xí)中的穩(wěn)定性與效率難題——從訓(xùn)練-推理失配導(dǎo)致的崩潰,到長思維鏈Rollout的資源浪費,再到系統(tǒng)級同步瓶頸。其背后三大創(chuàng)新 IcePop、C3PO++ 與 ASystem,共同構(gòu)成了一個可復(fù)現(xiàn)、可擴展的萬億參數(shù)RL訓(xùn)練范式。

當(dāng)下的人工智能正經(jīng)歷關(guān)鍵轉(zhuǎn)型:大型語言模型(LLM)正超越靜態(tài)人類知識庫,成為將信息轉(zhuǎn)化為行動洞察與理解的動態(tài)處理器。這一向更通用智能的演進,通過其核心能力——復(fù)雜、自適應(yīng)的問題解決能力得到實證驗證。近期在解決高難度人類競賽問題上的突破,為大型語言模型顯著提升的推理能力提供了具體證據(jù)。在這一背景下,Ling團隊推出的Ring-1T成為首個開源、最先進的萬億參數(shù)思維模型,它擁有1萬億總參數(shù),每Token激活約500億參數(shù),僅依靠自然語言推理能力即達到IMO銀牌水平。實現(xiàn)這一突破的關(guān)鍵在于三大相互關(guān)聯(lián)的創(chuàng)新:IcePop解決訓(xùn)練-推理失配問題,C3PO++提升長Rollout處理效率,ASystem則克服了萬億參數(shù)模型訓(xùn)練的系統(tǒng)瓶頸。

多基準(zhǔn)測試性能對比

如上圖所示,Ring-1T在多項關(guān)鍵基準(zhǔn)測試中展現(xiàn)出全面領(lǐng)先優(yōu)勢:AIME-2025得分為93.40(第二,領(lǐng)先所有開源模型),HMMT-2025得分為86.72(第二,領(lǐng)先所有開源模型),CodeForces評分為2088(最高分,超越所有開源和閉源API),ARC-AGI-1得分為55.94(第二,比DeepSeek-V3.1提升15.32個百分點)。這些結(jié)果驗證了穩(wěn)定高效的RL訓(xùn)練方法與系統(tǒng)的重要性,展示了萬億參數(shù)推理模型的可行性與卓越能力。

訓(xùn)練體系全景:從基礎(chǔ)模型到思維引擎的三階段演進

Ring-1T的訓(xùn)練流程始于Ling-1T-base模型,這是一種擁有1萬億總參數(shù)、激活500億參數(shù)的新型專家混合(MoE)模型。其訓(xùn)練過程包含三個關(guān)鍵階段,形成遞進式能力培養(yǎng)體系。

如下圖所示,Long-CoT SFT階段通過長鏈思維監(jiān)督微調(diào)為模型奠定基礎(chǔ)能力。研究團隊收集并合成了大量涵蓋數(shù)學(xué)、代碼、科學(xué)等多領(lǐng)域的推理軌跡數(shù)據(jù),其中數(shù)學(xué)占46%、STEM占26%、代碼占20%、其他占8%。

Ring-1T訓(xùn)練流水線

如下圖所示,SFT數(shù)據(jù)的域分布清晰展示了其多領(lǐng)域覆蓋特性,為模型奠定廣泛的推理基礎(chǔ)。這些訓(xùn)練數(shù)據(jù)經(jīng)過嚴(yán)格的數(shù)據(jù)清洗協(xié)議處理:1) 去重,采用精確匹配移除重復(fù)樣本;2) 有害內(nèi)容過濾,識別并清除包含有毒或有害信息的數(shù)據(jù)樣本;3) 數(shù)據(jù)凈化,利用哈希和精確字符串匹配技術(shù)檢測并消除與現(xiàn)有基準(zhǔn)重疊的樣本;4) 低質(zhì)量樣本過濾,移除包括不可見控制碼和額外Unicode字符在內(nèi)的各種噪聲源。

SFT數(shù)據(jù)域分布

訓(xùn)練數(shù)據(jù)被打包為64k長度序列,模型訓(xùn)練3個epoch,學(xué)習(xí)率為2×10??,采用余弦衰減調(diào)度器(30個預(yù)熱步)并應(yīng)用0.1的權(quán)重衰減。此階段的目標(biāo)是賦予基礎(chǔ)模型持續(xù)連貫的多步驟思考能力,為后續(xù)強化學(xué)習(xí)訓(xùn)練奠定堅實基礎(chǔ)。

隨后的Reasoning RL階段構(gòu)建了一個涵蓋數(shù)學(xué)、代碼、科學(xué)和邏輯任務(wù)的綜合、高質(zhì)量RL數(shù)據(jù)集,包含可驗證結(jié)果。研究團隊對RL數(shù)據(jù)集進行了全面構(gòu)建:數(shù)學(xué)領(lǐng)域擴展自Ling-Team等人的數(shù)據(jù)集,包含來自權(quán)威來源的嚴(yán)格數(shù)學(xué)問題;代碼領(lǐng)域通過多階段工作流合成、驗證、質(zhì)量評分和選擇額外測試用例;科學(xué)領(lǐng)域通過眾包方式收集高難度物理、化學(xué)和生物問題,并將選擇題重新格式化為開放式問題,對于有機化學(xué),建立了專用的圖像語義化管道,將分子結(jié)構(gòu)等視覺信息轉(zhuǎn)換為結(jié)構(gòu)化文本描述;邏輯領(lǐng)域涵蓋五個領(lǐng)域:視覺模式歸納、網(wǎng)格謎題、路徑尋找、算術(shù)推理和命題邏輯,通過整合公共資源到內(nèi)部游戲生成器實現(xiàn)可擴展創(chuàng)建;通用數(shù)據(jù)則聚合自公共倉庫和真實用戶交互。

RL數(shù)據(jù)難度分布

如上圖所示,RL數(shù)據(jù)集的難度分布顯示"非常困難"類別占比高達30%,這為模型在高難度任務(wù)上的卓越表現(xiàn)提供了數(shù)據(jù)基礎(chǔ)。研究團隊采用多階段篩選流程,包括解析、重構(gòu)和去重,通過LLM和基于規(guī)則的雙重評分確保數(shù)據(jù)質(zhì)量,同時通過細(xì)粒度元數(shù)據(jù)注釋實現(xiàn)動態(tài)采樣和跨領(lǐng)域混合,顯著提高訓(xùn)練效率和模型在復(fù)雜任務(wù)上的表現(xiàn)。

最后的General RL階段在可驗證任務(wù)的大規(guī)模強化學(xué)習(xí)之后,進行第二階段的強化學(xué)習(xí),聚焦于一般性任務(wù)。此階段采用RLHF(Reinforcement Learning from Human Feedback)重新校準(zhǔn)模型的能力分布,在保持核心推理能力的同時增強人類對齊、指令遵循、創(chuàng)意寫作、安全性和整體可用性。

這三個階段形成清晰的能力遞進關(guān)系:Long-CoT SFT奠定基礎(chǔ)推理模式→Reasoning RL提升專業(yè)領(lǐng)域推理能力→General RL優(yōu)化通用任務(wù)表現(xiàn),共同塑造出強大的思維模型。

第一支柱:IcePop —— 解決訓(xùn)練-推理失配的梯度凈化器

在萬億參數(shù)規(guī)模的強化學(xué)習(xí)訓(xùn)練中,一個根本性挑戰(zhàn)是訓(xùn)練引擎與推理引擎之間的概率計算差異,這在MoE模型中因動態(tài)路由機制而被放大。在長思維鏈(CoT)設(shè)置中,這些差異會隨著迭代逐步累積并進一步放大。

理論分析表明,這種復(fù)合概率偏差遵循特定規(guī)律:設(shè)πinfer(·; θ)和πtrain(·; θ)分別為推理引擎和訓(xùn)練引擎加載的策略模型,δt = DKL(πinfer(·; θt) ∥ πtrain(·; θt))表示第t步的概率偏差,在一定條件下存在常數(shù)η > 0,使得δt+1 ≥ (1+ η2μ) δt。這一不等式證明了概率偏差會以指數(shù)級速度累積,導(dǎo)致訓(xùn)練不穩(wěn)定。

為解決這一問題,研究團隊提出IcePop,一種通過雙側(cè)差異掩碼和裁剪穩(wěn)定RL訓(xùn)練的GRPO變體。IcePop的核心機制是僅在校準(zhǔn)區(qū)域內(nèi)更新梯度,而丟棄所有超出此邊界的噪聲梯度更新,從而在不減慢推理速度的情況下穩(wěn)定訓(xùn)練。

IcePop采用兩項關(guān)鍵技術(shù):

  • 雙側(cè)校準(zhǔn):在校準(zhǔn)函數(shù)定義的區(qū)域內(nèi)校準(zhǔn)Token級梯度,該函數(shù)為M(k)={k if k ∈[α, β], 0 otherwise},其中α和β控制上下限
  • 掩碼機制:將超出概率偏差范圍的Token從梯度計算中排除,將梯度更新限制在穩(wěn)定區(qū)域內(nèi)

其目標(biāo)函數(shù)設(shè)計為:

對應(yīng)的梯度計算為:

與現(xiàn)有方法相比,TIS(Yao et al., 2025)通過重要性采樣校正解決訓(xùn)練-推理失配問題,對發(fā)散梯度應(yīng)用修正系數(shù);而IcePop則直接丟棄超出范圍的梯度,確保訓(xùn)練穩(wěn)定性。實驗證明,這種"丟棄所有噪聲梯度更新"的方法在長期訓(xùn)練中更為有效。

AIME25性能對比

如上圖所示,在Ring-mini-2.0上的初步實驗顯示,IcePop在AIME25基準(zhǔn)測試上穩(wěn)定提升性能,最終比基線(63%)提高超過14%,并相對于TIS擴大了6%的性能差距。

在Ring-1T的實際訓(xùn)練中,IcePop有效抑制了梯度范數(shù)增長和概率偏差累積,使訓(xùn)練過程保持穩(wěn)定。實驗數(shù)據(jù)顯示,IcePop的掩碼比例維持在1-2‰的訓(xùn)練Token,這表明只有極少數(shù)但關(guān)鍵的噪聲梯度被丟棄,既保證了訓(xùn)練穩(wěn)定性,又保留了足夠的探索空間。

訓(xùn)練獎勵與梯度范數(shù)對比

如上圖所示,在Ring-mini-2.0實驗中,基線方法在180-200步后獎勵崩潰,而IcePop和TIS均能維持穩(wěn)定增長;在梯度范數(shù)方面,基線迅速爆炸,而IcePop和TIS保持穩(wěn)定。這表明IcePop有效解決了訓(xùn)練不穩(wěn)定問題。

如下圖所示,IcePop在訓(xùn)練過程中保持相對較低且穩(wěn)定的概率差異,而TIS顯示出更大的極端差異和更快的增長;同時,IcePop的token對數(shù)概率保持相對穩(wěn)定,而基線則快速上升后驟降。這表明IcePop能夠有效控制訓(xùn)練-推理失配問題。

概率差異與token對數(shù)概率

如下圖所示,IcePop的裁剪比例維持在1-2‰的訓(xùn)練token,隨著訓(xùn)練進行,裁剪比例急劇上升,表明訓(xùn)練過程中逐漸出現(xiàn)更微妙但有害的梯度更新。對被裁剪token的詳細(xì)分析表明,相比所有token,被裁剪token具有更高的熵值,這意味著這些被裁剪的token在訓(xùn)練中扮演著關(guān)鍵角色,它們的高熵特性使它們成為探索多樣性的重要來源,但同時也可能引入不穩(wěn)定性。

裁剪比例與token熵比較

掩碼范圍的敏感性分析如圖13所示,[0.5, 5.0]是最佳范圍:默認(rèn)范圍[0.5, 5.0]不僅穩(wěn)定訓(xùn)練,還豐富了采樣多樣性;過窄范圍[0.5, 2.0]立即導(dǎo)致訓(xùn)練不穩(wěn)定;而過寬范圍[0.4, 5.0]雖然保持穩(wěn)定,但包含過多高log概率Token,不利于探索多樣性。具體而言,[0.4, 5.0]范圍內(nèi)的token對數(shù)概率較低(如下圖右下角所示),意味著模型過度自信,這反而限制了探索空間。

不同掩碼范圍下的訓(xùn)練動態(tài)

第二支柱:C3PO++ —— Token預(yù)算驅(qū)動的高效Rollout調(diào)度器

在萬億參數(shù)思維模型的強化學(xué)習(xí)訓(xùn)練中,長思維鏈生成導(dǎo)致Rollout階段效率低下,成為訓(xùn)練瓶頸。為解決這一問題,研究團隊提出C3PO++,一種基于Token預(yù)算的動態(tài)劃分機制,顯著提升資源利用率。

IcePop與C3PO++集成框架

如上圖所示,IcePop與C3PO共同構(gòu)成了Ring-1T的強化學(xué)習(xí)核心,其中IcePop解決訓(xùn)練-推理失配問題,C3PO優(yōu)化Rollout效率,二者與推理引擎、訓(xùn)練引擎和RL數(shù)據(jù)語料庫共同協(xié)作,顯著提升RL訓(xùn)練的效率和效果。

C3PO++引入了預(yù)算控制的Rollout分區(qū)機制,通過動態(tài)劃分Rollout生成防止因個別長Rollout導(dǎo)致的計算資源閑置。系統(tǒng)包含兩個關(guān)鍵組件:容量為Ωinfer的高吞吐推理池Pinfer用于并行生成,以及容量為Ωtrain的訓(xùn)練池Qtrain用于收集已完成的軌跡。

C3PO++的Rollout緩沖區(qū)動態(tài)管理

如上圖所示,C3PO++在每個訓(xùn)練步驟中維護跨策略版本的Rollout狀態(tài)。當(dāng)?shù)_到Token預(yù)算時,優(yōu)化即刻執(zhí)行;未完成的Rollout被存儲在緩沖區(qū)中,由下一迭代中更新的策略繼續(xù)處理。每個序列經(jīng)歷的分區(qū)次數(shù)稱為保留期(retention period),每次迭代后,未完成Rollout的保留期自動增加1。保留期超過閾值σ的Rollout會在每次迭代前被清除。這一機制確保系統(tǒng)不會無限期保留未完成的Rollout,同時給予足夠機會讓策略模型繼續(xù)處理先前未完成的序列,從而最大化計算資源利用率。

C3PO++的算法流程如下:

1. 初始化推理池和訓(xùn)練池

2. 按保留期清理過期rollout(保留期超過閾值σ的Rollout被清除)

3. 維持推理池容量,補充新提示

4. 并行生成rollout,達到token預(yù)算后停止

5. 將完成rollout移至訓(xùn)練池,更新模型參數(shù)

算法1詳細(xì)展示了C3PO++的工作流程:在每個訓(xùn)練步驟t,推理引擎πinfer;θt并行生成rollout,同時實時跟蹤生成的token總數(shù)C。當(dāng)rollout達到終端狀態(tài)([EOS])時,它將從Pinfer移至訓(xùn)練池Qtrain,并計入訓(xùn)練token C。推理持續(xù)進行,直到C達到token預(yù)算Φ。此時,訓(xùn)練引擎πtrain;θt使用Qtrain中受token預(yù)算調(diào)控的已完成軌跡更新參數(shù),這些軌跡可能包含從早期推理版本恢復(fù)的樣本。將序列經(jīng)歷的分區(qū)次數(shù)稱為保留期,每個迭代后,未完成rollout的保留期自動增加1。在每次迭代前,保留期超過閾值σ的rollout將從Pinfer中清除。同時,可能采樣新提示以填充Pinfer,直到達到容量Ωinfer。模型參數(shù)更新至θt+1后,推理引擎πinfer;θt+1啟動新的rollout生成迭代,繼續(xù)處理有效保留期內(nèi)的rollout,并由token預(yù)算監(jiān)控。

C3PO++與基線的時間成本對比

實驗結(jié)果表明,C3PO顯著提升了訓(xùn)練效率。如上圖所示,在Rollout階段實現(xiàn)了約2.5倍的速度提升,由于Rollout階段通常占RL訓(xùn)練時間的很大比例,C3PO使端到-end訓(xùn)練速度提升了約1.5倍。

C3PO++與基線的獎勵和基準(zhǔn)性能比較

更重要的是,C3PO在提升效率的同時保持了訓(xùn)練效果。如上圖所示,獎勵曲線與基線保持接近,表明其在Rollout管理中的優(yōu)化維持了可比的訓(xùn)練動態(tài)。在代表性推理基準(zhǔn)測試中,C3PO實現(xiàn)了與基線相當(dāng)?shù)男阅埽篈IME25為92.29 vs 92.29,CodeForces評級為2084 vs 2085,ARC-AGI-1得分為53.25 vs 53.62。這證明了C3PO++在提高效率的同時,沒有犧牲模型性能。

第三支柱:ASystem —— 為萬億參數(shù)RL量身打造的高性能框架

訓(xùn)練萬億參數(shù)規(guī)模的強化學(xué)習(xí)模型需要專門的基礎(chǔ)設(shè)施,以管理其前所未有的規(guī)模。模型的巨大尺寸與分布式RL工作流的固有復(fù)雜性,在內(nèi)存管理、狀態(tài)同步和計算吞吐方面提出了獨特挑戰(zhàn)。為此,研究團隊開發(fā)了ASystem,一個高性能RL框架,其組件針對Ring-1T的需求進行了協(xié)同設(shè)計。

ASystem RL訓(xùn)練框架架構(gòu)

如上圖所示,ASystem的架構(gòu)圍繞統(tǒng)一執(zhí)行環(huán)境構(gòu)建,包含以下關(guān)鍵組件:

Hybrid Runtime:ASystem的核心,無縫集成訓(xùn)練和推理工作負(fù)載。對于Ring-1T,這意味著可以同時進行大規(guī)模并行策略評估(推理)和模型權(quán)重更新(訓(xùn)練),消除系統(tǒng)間數(shù)據(jù)傳輸開銷,確保數(shù)千GPU的高效利用。

AMem:GPU內(nèi)存管理庫,專為克服大規(guī)模RL訓(xùn)練中的內(nèi)存瓶頸而設(shè)計。它優(yōu)化內(nèi)存使用和數(shù)據(jù)傳輸,支持更大的批處理量,減少OOM錯誤,并通過最小代碼更改加速部署,且不損失準(zhǔn)確性。AMem通過三項關(guān)鍵技術(shù)提升內(nèi)存效率:內(nèi)存切換(透明釋放和恢復(fù)訓(xùn)練狀態(tài))、分布式多路徑傳輸(聚合多通道帶寬)和統(tǒng)一內(nèi)存池(跨GPU和節(jié)點的動態(tài)分配)。

AState:高性能權(quán)重同步框架,高效解決將更新后的模型參數(shù)從訓(xùn)練器分發(fā)到推理執(zhí)行者的挑戰(zhàn)。它采用零冗余點對點機制,能夠在10秒內(nèi)完成萬億參數(shù)模型的同步。這一機制通過僅傳輸必要權(quán)重分片、硬件-軟件協(xié)同設(shè)計(NUMA拓?fù)浜虲PU-GPU親和性感知)以及多傳輸通信層(動態(tài)選擇最佳協(xié)議)實現(xiàn)。相比之下,早期RL框架依賴分布式文件系統(tǒng)(如NFS)進行檢查點共享,同步延遲達數(shù)十分鐘,而AState將同步時間縮短至秒級,實現(xiàn)了數(shù)量級的性能突破。

ASandbox:按需無服務(wù)器沙箱環(huán)境,提供快速場景驗證。通過毫秒級冷啟動和高吞吐隔離,ASandbox加速了大型規(guī)模RL訓(xùn)練中Ring-1T Rollout的評估。它提供專用沙箱(數(shù)學(xué)、代碼、STEM、終端),支持HTTP和MCP協(xié)議,并具備內(nèi)核級隔離、自動故障檢測和高擴展性(5,000 QPS/200ms吞吐)。

ASystem基于SingleController+SPMD(Single Program, Multiple Data)架構(gòu)設(shè)計,提供了顯著優(yōu)勢:為訓(xùn)練、推理和獎勵模型后端提供即插即用支持,便于在規(guī)模上進行獨立調(diào)試和開發(fā);通過將控制流與數(shù)據(jù)流分離,有效緩解了主流SingleController框架中普遍存在的單點數(shù)據(jù)流瓶頸;此外,系統(tǒng)還包含快速失敗報告和自動恢復(fù)機制,增強訓(xùn)練穩(wěn)定性。

在細(xì)節(jié)層面,AReaL作為高性能RL算法框架,提供異步多階段流水線(并發(fā)執(zhí)行軌跡生成、獎勵計算和訓(xùn)練)、高效數(shù)據(jù)管理(智能數(shù)據(jù)打包和分片,最小化填充開銷)以及容錯機制(自動錯誤檢測、重試和恢復(fù)),與算法創(chuàng)新無縫集成。

實驗驗證:從訓(xùn)練動態(tài)到基準(zhǔn)測試的全方位驗證

研究團隊進行了全面實驗,驗證IcePop和C3PO++的有效性,以及ASystem框架的性能優(yōu)勢。

在數(shù)據(jù)分布方面,如圖14所示,Long-CoT SFT數(shù)據(jù)集的域分布為數(shù)學(xué)46%、STEM 26%、代碼20%、其他8%,確保了模型在多領(lǐng)域的基礎(chǔ)推理能力。而RL數(shù)據(jù)集的多領(lǐng)域分布如圖15所示,為數(shù)學(xué)23%、科學(xué)28%、代碼24%、邏輯19%,難度分布為非常簡單15%、簡單11%、中等13%、困難17%、非常困難30%,構(gòu)成了高質(zhì)量的強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)。

在IcePop有效性驗證方面,Ring-mini-2.0上的實驗顯示,IcePop在AIME25基準(zhǔn)測試上穩(wěn)定提升性能,而TIS存在平臺期。在Ring-1T的實際訓(xùn)練中,IcePop有效抑制了梯度范數(shù)增長和概率偏差累積。掩碼范圍實驗表明,[0.5,5.0]范圍在穩(wěn)定性和探索空間間取得最佳平衡,保持1-2‰的Token被裁剪,同時確保訓(xùn)練穩(wěn)定性。

C3PO的效率驗證顯示,其在Rollout階段提速2.5倍,端到-end訓(xùn)練提速1.5倍。獎勵曲線與基線保持高度一致,證明無性能損失。在AIME25、CodeForces、ARC-AGI-1等基準(zhǔn)測試中,C3PO實現(xiàn)了與基線相當(dāng)?shù)男阅埽炞C了其在提高效率的同時不犧牲模型能力。

成果與啟示:Ring-1T的性能表現(xiàn)與行業(yè)意義

Ring-1T在多項關(guān)鍵基準(zhǔn)測試中展現(xiàn)出突破性結(jié)果:AIME-2025得分為93.40(第二,領(lǐng)先所有開源模型),HMMT-2025得分為86.72(第二,領(lǐng)先所有開源模型),CodeForces評分為2088(最高分,超越所有開源和閉源API),ARC-AGI-1得分為55.94(第二,比DeepSeek-V3.1提升15.32個百分點),ArenaHard v2勝率為81.59%(第二,僅落后GPT-5-Thinking 1.32個百分點)。

尤為引人注目的是,Ring-1T在IMO-2025評估中達到銀牌水平。在AWorld 2框架內(nèi),Ring-1T僅通過純自然語言推理(不依賴代碼生成或外部符號求解器)即正確解決了四道問題,并部分證明了問題2,所有這些都在單次提交中完成。具體而言,模型首次嘗試即正確解決了問題1、3、4和5;第三次嘗試為問題2生成了近乎完整的幾何證明;對于最具挑戰(zhàn)性的問題6(IMO 2025中無AI參與者正確解決),Ring-1T與Gemini 2.5 Pro收斂到相同錯誤答案(4048),而正確答案為2112。

以問題1為例,Ring-1T展示了完整的推理鏈:

  • 步驟1:理解點集結(jié)構(gòu) - 識別所需覆蓋的點集Pn={(a,b)∈Z+×Z+:a+b≤n+1},共T(n)=n(n+1)/2個點
  • 步驟2:非陽光線分類 - 確定非陽光線分為三類:水平線(y=c)、垂直線(x=d)、對角線(x+y=e)
  • 步驟3:最大覆蓋分析 - 計算m=n?k條非陽光線最多覆蓋M(m,n)=m(2n?m+1)/2個點,剩余U(k)=k(k+1)/2個點需由k條陽光線覆蓋
  • 步驟4:偶數(shù)k≥2不可能性 - 證明k條陽光線最多覆蓋k2/2個點,小于U(k)=k(k+1)/2
  • 步驟5:奇數(shù)k≥5不可能性 - 對k=2t?1(t≥3),證明僅存在3條不相交的t點陽光線,剩余2t(t?2)個點無法被剩余2t?4條線覆蓋
  • 步驟6:k=0構(gòu)造 - 使用n條對角線x+y=2,...,n+1覆蓋所有點
  • 步驟7:k=1構(gòu)造 - 使用n?1條水平線覆蓋b≤n?1的點,剩余點(1,n)用陽光線y=x+(n?1)覆蓋
  • 步驟8:k=3構(gòu)造 - 使用n?3條水平線留下P3子網(wǎng)格,用三條陽光線(斜率1、?1/2、?2)覆蓋所有6個點

這一完整的純自然語言推理過程,無需任何代碼或符號計算,充分展示了Ring-1T的深度推理能力。

這些結(jié)果驗證了穩(wěn)定高效的RL訓(xùn)練方法與系統(tǒng)的重要性,展示了萬億參數(shù)推理模型的可行性與卓越能力。Ring-1T的成功證明,算法與系統(tǒng)必須協(xié)同設(shè)計,才能克服超大規(guī)模RL訓(xùn)練中的穩(wěn)定性與效率挑戰(zhàn)。IcePop解決了訓(xùn)練-推理失配問題,但其效果依賴于ASystem提供的統(tǒng)一執(zhí)行環(huán)境;C3PO的效率提升需要AState的快速權(quán)重同步支持;而ASystem的組件設(shè)計則充分考慮了IcePop和C3PO的算法需求。

模型局限與未來方向

盡管取得了一定的成績,Ring-1T及其相關(guān)訓(xùn)練系統(tǒng)仍存在若干局限,指向未來研究的有益方向。

在模型架構(gòu)與推理效率方面,模型使用的GQA(Grouped-Query Attention)架構(gòu)在性能與速度間提供了良好平衡。然而,對于生成大量內(nèi)部"思維"過程的Ring-1T思維模型,GQA帶來的推理成本仍然顯著。未來需要探索替代機制,如MoBA 或高級線性注意力變體,以實現(xiàn)更高的推理吞吐量。

在訓(xùn)練-推理一致性方面,雖然IcePop方法緩解了主要的訓(xùn)練-推理失配問題,但并未實現(xiàn)完美的訓(xùn)練-推理一致性。訓(xùn)練和推理計算操作符之間的底層數(shù)值差異仍然是潛在的不穩(wěn)定性來源。解決這一基礎(chǔ)系統(tǒng)挑戰(zhàn)對于未來模型的穩(wěn)定擴展至關(guān)重要。

在能力缺陷方面,Ring-1T的訓(xùn)練策略針對基礎(chǔ)自然語言推理進行了優(yōu)化,導(dǎo)致高級智能體技能(如工具使用)未得到充分優(yōu)化。未來迭代將把Ring-1T定位為基礎(chǔ)模型,整合專門數(shù)據(jù)和訓(xùn)練范式(如智能體RL),培養(yǎng)復(fù)雜的自主問題解決能力。此外,身份混淆和語言代碼切換等小問題,歸因于數(shù)據(jù)雜質(zhì)和正則化不足,將通過改進數(shù)據(jù)凈化技術(shù)解決。

總結(jié):Every Step Evolves,每一步都在進化

Ring-1T的發(fā)布標(biāo)志著萬億參數(shù)思維模型領(lǐng)域的里程碑。這一成就成功解決了將強化學(xué)習(xí)擴展到萬億參數(shù)規(guī)模所固有的深刻系統(tǒng)和算法挑戰(zhàn)。其核心貢獻在于三個相互關(guān)聯(lián)的創(chuàng)新:IcePop解決了訓(xùn)練-推理失配問題,C3PO++實現(xiàn)了高效長軌跡Rollout,ASystem則消除了可擴展性瓶頸并確保訓(xùn)練穩(wěn)定性。

這三大創(chuàng)新環(huán)環(huán)相扣:IcePop確保訓(xùn)練穩(wěn)定性→C3PO++提高Rollout效率→ASystem提供系統(tǒng)級支撐,共同構(gòu)成了萬億參數(shù)思維模型訓(xùn)練的完整解決方案。通過向社區(qū)發(fā)布完整的1T參數(shù)MoE模型,研究團隊為研究社區(qū)提供了直接訪問尖端推理能力的機會,標(biāo)志著大規(guī)模推理智能民主化的重要里程碑。

作為首個開源的萬億參數(shù)思維模型,Ring-1T為研究社區(qū)提供了前所未有的機會,使研究人員能夠直接探索超大規(guī)模RL訓(xùn)練的穩(wěn)定性與效率問題。隨著GitHub代碼庫和HuggingFace模型權(quán)重的開放,Ring-1T將為AI社區(qū)提供強大的基礎(chǔ),推動推理模型研究的邊界。未來,從"思維模型"到"行動智能體"的演進路徑將更加清晰,每一步都在進化,每一次進化都在改變AI的未來。我大愛這篇論文中的數(shù)據(jù)配方配比。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2016-11-04 23:29:40

云計算IT基礎(chǔ)設(shè)施

2012-10-24 14:08:25

Elop趕快下臺

2017-10-10 08:30:21

Kubernetes容器編排

2023-09-25 07:31:19

算力AI框架

2021-08-30 08:00:00

編程語言WebAssembly安全

2024-04-01 12:10:48

數(shù)據(jù)訓(xùn)練

2013-05-26 15:47:12

SUSEEnterprise SUSE Cloud

2023-12-27 06:51:21

可觀測性系統(tǒng)數(shù)字體驗

2025-07-07 06:36:14

大模型大模型開源人工智能

2021-02-02 13:00:30

快手參數(shù)推薦精排模型

2023-05-24 07:47:23

ChatGPT參數(shù)模型

2023-05-26 07:47:41

ChatGPT模型AI

2023-05-19 10:26:01

谷歌模型

2025-07-08 03:22:00

大模型參數(shù)AI

2024-01-18 15:38:17

語言模型大型語言模型

2011-05-23 09:15:20

諾基亞SymbianWindows Pho

2024-09-23 16:12:44

2021-12-13 20:00:49

工業(yè)網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全漏洞

2023-09-20 16:55:15

華為AI 計算集群

2018-08-03 10:25:53

區(qū)塊鏈大數(shù)據(jù)比特幣
點贊
收藏

51CTO技術(shù)棧公眾號

亚洲国产激情| 欧美高清hd| 国产欧美一区二区精品忘忧草| 国产999在线观看| 一级黄色片网址| 成人豆花视频| 午夜精品视频在线观看| 欧美日韩三区四区| 97国产成人无码精品久久久| 欧美三级第一页| 亚洲人a成www在线影院| 五月天婷婷亚洲| 成入视频在线观看| 中文字幕制服丝袜一区二区三区 | 秋霞毛片久久久久久久久| 亚洲专区第一页| 最新亚洲激情| 久久伊人精品视频| 国产精品815.cc红桃| 韩国三级成人在线| 91久久久免费一区二区| 亚洲精品国产suv一区88| 黄色片在线看| 懂色av一区二区夜夜嗨| 国产精品三级久久久久久电影| 久久精品一区二区三| 欧美亚洲国产一区| 亚洲精品国产精品国产自| 在线免费黄色网| 激情开心成人网| 亚洲成人动漫一区| 在线观看免费黄色片| 国产中文字幕在线观看| www.亚洲在线| 波多野结衣一区二区三区在线观看 | 日韩精品免费一区二区夜夜嗨| 6080亚洲精品一区二区| 激情综合网俺也去| 中文字幕高清在线播放| 亚洲国产另类av| 日产精品久久久久久久蜜臀| 日本在线免费播放| 国产日韩精品久久久| 狠狠色狠狠色综合人人| 91免费电影网站| 国产ts在线观看| 99热这里有精品| 一区二区精品| 欧美精品做受xxx性少妇| av男人的天堂av| 日韩中文av| 日韩av在线免费观看| 色诱av手机版| 成人av激情人伦小说| 91精品中文字幕一区二区三区 | 日本伊人午夜精品| 日本精品久久久久影院| 女人十八岁毛片| 9久re热视频在线精品| 久久久亚洲精选| 国产午夜久久久| 影音先锋久久久| 77777少妇光屁股久久一区| 国产无遮挡aaa片爽爽| 亚洲巨乳在线| 欧美做受高潮1| 天天操夜夜操视频| 三级一区在线视频先锋| 国产精品大片wwwwww| 中文字幕视频免费观看| 免费的成人av| 亚洲一区二区三区乱码aⅴ| 国产精品久久久久久久久久久久久久久久久久 | 国产成人无码精品亚洲| 亚洲一区黄色| 国产精品久久久久久久久粉嫩av| 怡春院在线视频| 国产精品自在在线| 国产日韩精品久久| 可以免费看污视频的网站在线| 国产亚洲欧美日韩在线一区| 亚洲精品视频一二三| h视频在线免费观看| 亚洲一区国产视频| 男人日女人bb视频| 久久精品黄色| 日韩一级在线观看| 成人免费无码大片a毛片| 精品日产免费二区日产免费二区| 久久精品99久久久久久久久| 久久久一区二区三区四区| 国产亚洲高清视频| 国产日韩欧美视频| 色婷婷中文字幕| 99re这里只有精品首页| 亚洲国产精品一区在线观看不卡| 亚洲综合影视| 色综合色狠狠天天综合色| 五月婷婷丁香色| 国产96在线亚洲| 国产一区二区av| 欧美极品aaaaabbbbb| 麻豆久久精品| 999国产在线| 男人的天堂在线免费视频| 亚洲欧美日韩在线不卡| 男人揉女人奶房视频60分| 91视频亚洲| 亚洲精品色婷婷福利天堂| 中国1级黄色片| 亚洲美女视频在线免费观看| 国产欧美精品va在线观看| 四虎免费在线观看| 亚洲欧美综合另类在线卡通| 国产亚洲精品网站| 日韩精品一区二区三区中文在线| 亚洲欧洲国产精品| 日本三级2019| 国产乱对白刺激视频不卡| 日韩精品电影网站| 波多野结衣精品| 欧美精品 日韩| 欧美 日韩 国产 成人 在线观看| 国产精品www.| 成人天堂噜噜噜| 国产三级视频在线看| 天天综合色天天综合| 久久久久久综合网| 一区二区视频免费| youjizz亚洲| 日韩中文字幕视频在线| 日韩精品久久久久久免费| 成人免费视频网站在线观看| 在线一区日本视频| 久久国内精品| 中文在线不卡视频| 潘金莲一级淫片aaaaaa播放| 99久久99久久精品免费看蜜桃| 成人高清dvd| 96视频在线观看欧美| 在线观看视频99| 69视频免费看| 久久精品一区二区三区不卡 | av网站在线免费看推荐| 欧美日韩在线精品一区二区三区激情| 国产激情在线免费观看| 国产情侣一区| 精品日本一区二区三区| 国产乱码午夜在线视频| 精品国产凹凸成av人网站| 中文字幕另类日韩欧美亚洲嫩草| 久久国产精品99精品国产| 四虎影院一区二区三区| 99九九久久| 色哟哟亚洲精品一区二区| 中文字幕+乱码+中文乱码www| 久久久久国产精品麻豆| 黑人粗进入欧美aaaaa| 欧洲激情综合| 国产美女精品免费电影| 毛片网站在线| 欧美视频精品在线观看| youjizz亚洲女人| 久久国产剧场电影| 夜夜爽99久久国产综合精品女不卡| 久久精品国产精品亚洲毛片| 久久精品国产一区二区电影| 国产av无码专区亚洲av| 亚洲一区二区三区小说| 朝桐光av一区二区三区| 久久成人精品| 亚洲欧美综合一区| 涩涩屋成人免费视频软件| 欧美精品videos性欧美| 日本中文字幕电影在线观看| 欧美性猛交xxxx黑人交| 91久久久久久久久久久久久久 | 欧美精品激情| 国产日韩在线一区二区三区| 在线观看特色大片免费视频| 国产午夜精品全部视频播放| 国产精品自产拍| 亚洲国产你懂的| 鲁丝一区二区三区| 国产专区综合网| 男人添女人下部高潮视频在观看| 国产精品日韩精品中文字幕| 国产日韩中文字幕在线| 欧美人与动牲性行为| 亚洲精品综合久久中文字幕| 中文在线观看av| 亚洲成在线观看| www.99热| av动漫一区二区| gogogo高清免费观看在线视频| 黑人一区二区| 日韩在线第一区| 97精品久久| 国产免费一区二区三区在线观看| 里番在线播放| 中文国产成人精品久久一| 精品国产伦一区二区三区| 欧美性猛交xxxx富婆弯腰| 麻豆明星ai换脸视频| 26uuu亚洲| 樱花草www在线| 香蕉成人久久| 亚洲中文字幕无码一区二区三区| 免费成人高清在线视频theav| 亚洲一区二区三区四区视频| 成人影院av| 久久久久女教师免费一区| yiren22综合网成人| 精品国产人成亚洲区| 成年人晚上看的视频| 亚洲1区2区3区视频| 午夜激情视频在线播放| 久久久综合精品| 亚洲av综合色区无码另类小说| 蜜臀av一区二区在线免费观看| 欧美精品123区| 91小视频在线播放| 老色鬼久久亚洲一区二区| 日韩成人三级视频| 中文字幕一区二区三三| 涩涩涩999| 中国av一区| 精品国产一区二区三区免费| 视频精品国内| 91香蕉电影院| 久久夜夜久久| 国产精品久久久久高潮| 中文在线а√天堂| 午夜精品久久久久久99热| 超碰在线caoporen| 日韩视频第一页| 岛国在线视频免费看| 亚洲精品天天看| 亚洲av片一区二区三区| 亚洲白拍色综合图区| 精品人妻aV中文字幕乱码色欲| 欧美高清www午色夜在线视频| 伊人免费在线观看| 欧美视频一区二区三区四区| 中文字幕在线观看视频免费| 懂色av中文一区二区三区天美| 黄色小视频在线免费看| 亚洲黄色尤物视频| 成人免费看片98| 午夜精品免费在线| 欧美h在线观看| 黑人狂躁日本妞一区二区三区| 日韩欧美a级片| 懂色aⅴ精品一区二区三区蜜月| 久久艹免费视频| 色综合欧美在线| 国产一级片免费视频| 欧美日韩色一区| 国产成人精品毛片| 日韩精品专区在线影院重磅| 亚洲AV无码一区二区三区少妇| 日韩欧美在线网站| 亚洲成a人片在线| 亚洲成人久久久| 日韩a级作爱片一二三区免费观看| 亚洲欧美中文日韩v在线观看| av在线播放网站| 久久伊人精品天天| 视频在线这里都是精品| 久久久久久久久久国产| 美女av在线免费看| 国产精品jizz在线观看麻豆| 农村妇女一区二区| 福利视频一区二区三区| 亚欧日韩另类中文欧美| 水蜜桃亚洲一二三四在线| 在线观看免费一区二区| 秋霞无码一区二区| 日韩精品91亚洲二区在线观看| 日韩一级免费片| 成人高清视频免费观看| 国产毛片久久久久久久| 成人免费在线播放视频| 日韩 欧美 亚洲| 在线观看亚洲a| 精品人妻无码一区二区| 日韩大片在线观看视频| 伊人在线视频| 久久久久免费视频| 日本黄色一区| 国产精品久久九九| 精品欧美激情在线观看| 亚洲精品少妇一区二区| 久久久久久久尹人综合网亚洲| 超碰人人草人人| 26uuu国产一区二区三区| 波多野结衣久久久久| 日韩欧美在线视频日韩欧美在线视频 | 亚洲综合清纯丝袜自拍| 在线观看亚洲黄色| 精品捆绑美女sm三区| 二区三区在线| 97超碰国产精品女人人人爽| 成人免费观看49www在线观看| 国产一区二区视频在线免费观看| 欧美gvvideo网站| 怡红院av亚洲一区二区三区h| 精品亚洲成a人| 成年人网站免费在线观看| 一区二区三区四区五区视频在线观看 | 欧美日韩国产精品一区二区三区四区 | 精品伦精品一区二区三区视频| 色男人天堂综合再现| 97超碰青青草| 成人三级在线视频| 国产一区二区视频在线观看免费| 色狠狠色狠狠综合| 少妇人妻一区二区| 欧美美最猛性xxxxxx| 亚洲精品tv| 性欧美.com| 在线成人欧美| 亚洲午夜精品在线观看| av网站免费在线观看| 久久久久久有精品国产| 国产欧美视频在线| 天天综合色天天综合色hd| 亚洲综合精品| 人妻丰满熟妇av无码久久洗澡| 亚洲资源中文字幕| 99国产揄拍国产精品| 久久精品国产视频| 四虎影视成人精品国库在线观看| 日本一区二区三区视频免费看| 免费亚洲婷婷| 久久一区二区电影| 午夜激情久久久| 国产综合在线播放| 欧美激情亚洲自拍| 日本少妇精品亚洲第一区| 黄色一级片网址| 精品亚洲aⅴ乱码一区二区三区| 成人三级视频在线观看| 欧美日韩成人综合在线一区二区| av在线收看| 国产精品成人免费电影| 欧美日韩久久精品| 中文字幕视频在线免费观看| 国产女主播视频一区二区| 一级片在线免费播放| 有码中文亚洲精品| 91国内外精品自在线播放| 日韩一区二区电影在线观看| 蜜臀av一区二区在线免费观看| 亚洲色图27p| 91麻豆精品国产91久久久久久| 羞羞视频在线观看不卡| yellow视频在线观看一区二区 | 超碰精品在线观看| 日韩伦理在线免费观看| 91在线视频网址| 无码人妻aⅴ一区二区三区有奶水| 亚洲欧美日韩视频一区| 欧美日韩尤物久久| 中文字幕欧美日韩一区二区| 国产乱淫av一区二区三区| 青青青在线视频| 日韩精品高清在线| 日本成人片在线| 中文字幕一区二区三区有限公司 | 色偷偷88欧美精品久久久| 国产乱子伦三级在线播放| 国产精品视频地址| 欧美日韩1区| 成人免费看aa片| 欧美浪妇xxxx高跟鞋交| 里番在线播放| 日韩av影视| 国产高清精品网站| 欧美a视频在线观看| 精品国内亚洲在观看18黄| 成人自拍在线| 草草草在线视频| 一区二区三区在线观看视频| 色久视频在线播放| 成人欧美在线观看| 国产日韩欧美三级| 91人妻一区二区三区蜜臀| 亚洲激情久久久| 香蕉视频亚洲一级| 久久久无码中文字幕久...| 91丨porny丨国产| 一级做a爰片久久毛片16| 国内精品400部情侣激情| 91综合在线| 久久人人爽人人人人片| 91精品欧美久久久久久动漫| www.成人爱| 成人免费看片'免费看| 国产精品少妇自拍|