精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速

發(fā)布于 2025-9-22 07:05

瀏覽

0收藏

一、背景

最近一直在關(guān)注 RL Infra 相關(guān)的工作，尤其是 RL 性能優(yōu)化，后續(xù)會(huì)逐漸介紹一下該領(lǐng)域的相關(guān)文章，本文先簡(jiǎn)單介紹一下字節(jié)新發(fā)布的 RhymeRL。

對(duì)應(yīng)的論文為：[2508.18588] History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL

二、摘要

RL 成為提升 LLM Reasoning 能力的關(guān)鍵方法，與傳統(tǒng)預(yù)訓(xùn)練不同，RL 包含多個(gè)階段：Rollout、Reward、Training，需要多種類型的 Worker 協(xié)同配合；除此之外，為了效率也可能引入異步訓(xùn)練方式，需要考慮效率與效果的 Tradeoff。然而，當(dāng)前 RL 系統(tǒng)面臨 GPU 利用率低的問(wèn)題，主要原因?yàn)椋篟ollout 在整個(gè) RL 過(guò)程中占比很高，并且 Rollout 的過(guò)程中很容易出現(xiàn)負(fù)載不均，導(dǎo)致 GPU Bubble。而異步訓(xùn)練、截?cái)嗟确绞诫m然可以緩解該問(wèn)題，但是可能犧牲準(zhǔn)確率。

RhymeRL 中，作者發(fā)現(xiàn)相鄰訓(xùn)練 Epoch 中，Rollout 的 Response 表現(xiàn)出高度相似性?；诖?，設(shè)計(jì)了用于加速 Rollout 的方案：

HistoSpec，基于相似性，用上一個(gè) Epoch 的 Response 作為草稿，使用投機(jī)采樣技術(shù)加速 Rollout 生成速度。
HistoPipe，基于相似性，用上一個(gè) Epoch 的 Response 的長(zhǎng)度分布來(lái)預(yù)測(cè)當(dāng)前 Epoch 的 Response 長(zhǎng)度，進(jìn)而實(shí)現(xiàn)負(fù)載均衡。

此外，作者也解決了其中的相關(guān)問(wèn)題，比如動(dòng)態(tài)調(diào)整投機(jī)采樣的草稿長(zhǎng)度，以避免引入過(guò)多無(wú)效計(jì)算；以及引入雙層調(diào)度策略，進(jìn)一步實(shí)現(xiàn)負(fù)載的均衡。

作者在真實(shí)生產(chǎn)環(huán)境中進(jìn)行評(píng)估，證明其具備從數(shù)十到數(shù)千 GPU 的擴(kuò)展能力。實(shí)驗(yàn)結(jié)果表明，RhymeRL 在保持準(zhǔn)確性的前提下，相較于現(xiàn)有方法實(shí)現(xiàn)了 2.6x 的性能提升。

PS：也有一些需要注意的地方：

冷啟和樣本復(fù)用的問(wèn)題。因?yàn)榛跇颖镜臍v史 Response 生成草稿和預(yù)測(cè)長(zhǎng)度，所以在初次 Rollout 時(shí)無(wú)法使用。極端情況，如果 Epoch 為 1，所有數(shù)據(jù)只會(huì)被使用 1 次，則不會(huì)有提升。
在優(yōu)化 Rollout 的過(guò)程中也需要避免陷入 GPU Util 高的誤區(qū)：

通過(guò)負(fù)載均衡確實(shí)可以降低 Bubble，提升 GPU Util；但是也要盡可能避免降低 Batch Size，導(dǎo)致 Memory Bound 問(wèn)題加劇。

投機(jī)采樣確實(shí)可以提升算力利用率，不過(guò)如果 Token 接受率較低，將存在大量的無(wú)效計(jì)算。

Batch Size 較小可能因?yàn)轱@存不足（長(zhǎng)序列尤其明顯）、時(shí)延要求較高等原因?qū)е拢?Rollout 場(chǎng)景對(duì)單個(gè)樣本的時(shí)延要求不高，也就可以嘗試更多降低顯存開銷來(lái)提升 Batch Size 的方案，比如量化、PD 分離等。

三、引言

3.1 RL 相關(guān)問(wèn)題

如下圖 Figure 2 所示，在一個(gè) 32B 模型的 RL 訓(xùn)練中，Code 和 Math 數(shù)據(jù)集下 Rollout 階段占比達(dá)到 84%-91%（最大序列長(zhǎng)度為 16K），并且 Rollout 中存在明顯的 Bubble 問(wèn)題；隨著最大序列長(zhǎng)度的增加，該問(wèn)題會(huì)更加明顯。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

如下圖 Figure 3a 所示，隨著訓(xùn)練 Step 的增加，Response 長(zhǎng)度會(huì)動(dòng)態(tài)增加；如下圖 Figure 3b 所示，不同樣本的 Response 也會(huì)存在高度差異化。這些都進(jìn)一步加劇負(fù)載不均的問(wèn)題。如下圖 Figure 3c 所示，不同 GPU 的 SM Active 指標(biāo)出現(xiàn)了明顯的差異。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

3.2 RL 性能的優(yōu)化

如上所示，RL 系統(tǒng)會(huì)存在 GPU 利用率低的問(wèn)題，主要有 3 個(gè)原因：

Rollout 階段占比很大，甚至可以達(dá)到 84%-91%，但是由于 LLM 的自回歸特性，Inference 的效率可能不高（Batch Size 不夠大時(shí)，Decoding 階段是明顯 Memory Bound）。
由于同一個(gè) Batch 中的序列長(zhǎng)短不一，會(huì)存在長(zhǎng)尾效應(yīng)，導(dǎo)致出現(xiàn)明顯的負(fù)載不均問(wèn)題。
Training 和 Rollout 階段之間模型參數(shù)同步的效率可能不高。

也有一些常見(jiàn)的優(yōu)化方案：

通過(guò)截?cái)嗟姆绞浇档烷L(zhǎng)尾問(wèn)題，但是也需要權(quán)衡精度和速度。
通過(guò)多 Batch，Continuous Batching 等方式實(shí)現(xiàn)更加均衡的調(diào)度。
使用一些常用的 LLM Inference 優(yōu)化方案加速，比如采用 FP8 執(zhí)行 Rollout，使用 Prefix Cache 等。
通過(guò)分布式 P2P 傳輸模型權(quán)重，充分利用節(jié)點(diǎn)互聯(lián)帶寬。

四、方案

4.1 RhymeRL 概覽

如下圖 Figure 5 所示，RhymeRL 延續(xù)了 HybridFlow（Verl）的混合 Controller 以及解耦 Rollout-Train 的架構(gòu)，通過(guò) Rollout Worker 生成 Response，Reward Worker 計(jì)算獎(jiǎng)勵(lì)，Train Worker 執(zhí)行 Policy 優(yōu)化。

為了提升 RL 系統(tǒng)的整體效率，作者采用了流式流水線架構(gòu)。在每個(gè) Step 中：

各 Rollout Worker 從 sub-batch 隊(duì)列異步獲取 sub-batch 的 Prompt，并通過(guò) Inference Engine 生成 Response（?）。
已完成的 Rollout Response 在傳輸?shù)?Train Worker 的 Reply Buffer 前，先由 Reward Worker 打分（?）。
當(dāng) Reply Buffer 積累的樣本達(dá)到 Batch Size 的要求時(shí)（?），Train Worker 執(zhí)行用戶定義的 RL 算法以優(yōu)化模型（?）。
完成 Full-Batch 的 Policy 優(yōu)化后，更新后的模型權(quán)重從 Train Worker 傳輸?shù)?Rollout Worker 的 Weight Buffer（主機(jī)內(nèi)存中）。在處理每個(gè) sub-batch 前，Rollout Worker 將權(quán)重同步到 GPU（?）。這種權(quán)重更新策略可以消除全局同步開銷，最小化空閑等待時(shí)間。

為了實(shí)現(xiàn) Rollout 的加速，RhymeRL 做了幾個(gè)優(yōu)化：

引入投機(jī)采樣技術(shù)（HistoSpec），基于獎(jiǎng)勵(lì)感知后綴樹方法，以最小開銷從歷史數(shù)據(jù)中高效生成草稿。
受 AIMD 啟發(fā)，通過(guò)動(dòng)態(tài)調(diào)整投機(jī) Token 的長(zhǎng)度，從而在提升計(jì)算強(qiáng)度的同時(shí)獲得更高接受率。
為了實(shí)現(xiàn) Rollout Worker 間的負(fù)載均衡，RhymeRL 采用分布感知調(diào)度策略（HistoPipe），利用 Step 間的互補(bǔ)性實(shí)現(xiàn)整體工作負(fù)載平衡，并通過(guò)基于遷移的再平衡機(jī)制處理異常離群值。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

4.2 HistoSpec

4.2.1 動(dòng)機(jī)

RL 訓(xùn)練包含多個(gè) Epoch，（論文里引用 DeepSeekMath，介紹為 50-100，不過(guò)隨著數(shù)據(jù)量的增加，比如更多的合成數(shù)據(jù)，Epoch 可能沒(méi)這么大）。在此期間，Prompt 會(huì)在不同 Epoch 內(nèi)被重復(fù)采樣；主流的 RL 算法也都會(huì)采用梯度裁剪來(lái)限制模型更新太快。此外，每個(gè) Prompt 都會(huì)生成多組 Response（8-64），從而在每個(gè)周期內(nèi)實(shí)現(xiàn)多樣化 Reasoning 路徑的探索。因此，在相鄰的訓(xùn)練 Epoch 的 Rollout 輸出中，相同 Prompt 所生成的結(jié)果會(huì)呈現(xiàn)出高度相似性。

基于以上的相似性，可以將上一個(gè) Epoch 的 Response 作為當(dāng)前 Rollout 投機(jī)采樣的草稿，以加速 Rollout 的生成速度。

如下圖 Figure 6a 所示，經(jīng)過(guò) 8 個(gè) Epoch 后，數(shù)學(xué)任務(wù)中 93% 的 Token 可以通過(guò)此流程被成功接受。
如下圖 Figure 6b 也展示了 Respond 接受率的分布情況，在 Math-1 中接受率會(huì)更高一些。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

4.2.2 基于樹結(jié)構(gòu)的歷史管理

但是基于歷史 Response 進(jìn)行投機(jī)采樣的加速方法也會(huì)存在一些挑戰(zhàn)，主要是 2 個(gè)方面：

過(guò)長(zhǎng)的輸出序列會(huì)導(dǎo)致顯著的前綴匹配開銷，并且歷史 Response 中的分支結(jié)構(gòu)會(huì)使草案 Token 選擇更加復(fù)雜。
被接受的 Token 長(zhǎng)度不可預(yù)測(cè)，并且接受率越低，浪費(fèi)的算力越多；而每次接受的 Token 太少，又可能獲得不了明顯的加速。

草稿生成開銷過(guò)大將會(huì)削弱投機(jī)采樣帶來(lái)的加速收益。為此，作者采用以下方案：

異步緩存構(gòu)建：RL 的工作模式可以放開對(duì)草稿生成的約束，可以將檢索相關(guān)計(jì)算轉(zhuǎn)移到索引階段。RhymeRL 采用 History Worker 異步索引歷史序列——當(dāng)生成新的 Response 時(shí)，Controller 將其分派給 History Worker 構(gòu)建索引。當(dāng)調(diào)度 Prompt 到 Rollout Worker 時(shí)，Controller 通知相應(yīng) History Worker 傳輸相應(yīng)構(gòu)建好的 Cache。
基于獎(jiǎng)勵(lì)感知的樹管理：RhymeRL 采用后綴樹索引緩存 Response，實(shí)現(xiàn)對(duì)長(zhǎng)度為 m 的 Prefix 進(jìn)行 O(m) 時(shí)間復(fù)雜度的匹配。由于每個(gè) Prompt 可能生成多個(gè) Response，單個(gè) Prefix 可能有多個(gè)不同的后綴分支，導(dǎo)致 Token 選擇的復(fù)雜化。作者觀察到，RL 算法會(huì)優(yōu)化模型使其以更高概覽生成高獎(jiǎng)勵(lì)的解決方案，因此，作者在每個(gè)樹節(jié)點(diǎn)添加優(yōu)先級(jí)數(shù)值，其權(quán)重由該分支的獎(jiǎng)勵(lì)總和決定。對(duì)于存在的每個(gè)后綴分支，HistoSpec 會(huì)選擇優(yōu)先級(jí)最高的分支。如下圖 Figure 7 所示，父節(jié)點(diǎn)的優(yōu)先級(jí)是所有子節(jié)點(diǎn)優(yōu)先級(jí)（獎(jiǎng)勵(lì)）的總和。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

4.2.3 基于樹結(jié)構(gòu)的歷史管理

為了應(yīng)對(duì) Token 接受率與提升計(jì)算強(qiáng)度之間的 Tradeoff，作者借鑒了網(wǎng)絡(luò)擁塞控制采用的經(jīng)典方案 AIMD：

HistoSpec 為每個(gè) Response 設(shè)計(jì)動(dòng)態(tài)草稿長(zhǎng)度，初始值為 2 個(gè) Token；當(dāng)所有 Token 都被接受時(shí)，將窗口長(zhǎng)度增加 2，直到到達(dá)上限閾值（默認(rèn) 32）。但如果有 Token 被拒絕，則直接將窗口重置為 2。
HistoSpec 還為 Prefix 設(shè)置了動(dòng)態(tài)長(zhǎng)度，初始為 7，若未能找到匹配后綴，逐步縮減到 3。
HistoSpec 還考慮了 Batch Size 的影響，在大 Batch Size 時(shí)（空閑算力少），縮短草稿長(zhǎng)度；在小 Batch Size（空閑算力多），增加草稿長(zhǎng)度。

4.3 HistoPipe

4.3.1 動(dòng)機(jī)

歷史 Response 除了可以幫助生成草稿 Token，還可以幫助預(yù)測(cè) Response 長(zhǎng)度，具體來(lái)說(shuō)，作者觀察到相同 Prompt 在相鄰 Epoch 周期中的 Response 長(zhǎng)度分布相似，也就可以利用歷史長(zhǎng)度數(shù)據(jù)對(duì) Rollout 的 Prompt 長(zhǎng)度進(jìn)行排序，以便更好的負(fù)載均衡。

如下圖 Figure 9 所示，針對(duì) 5 個(gè)數(shù)據(jù)集在多個(gè) Epoch 上分析了 Response 長(zhǎng)度排序。具體而言，將 Response 長(zhǎng)度分為 8 組（從低到高）。在 20 個(gè) Epoch 中，數(shù)學(xué)任務(wù)平均僅有 16% 的 Response 會(huì)躍升到更高組別（代碼任務(wù)為 28%）。并且，其中數(shù)學(xué)任務(wù) 13% Response 僅在組邊界相鄰位置波動(dòng)。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

4.3.2 分布感知 Hybrid Pipeline

作者提出了分布感知的 Hybrid Pipeline 方案，該方案會(huì)在保持算法完整性的同時(shí)，通過(guò)連續(xù)訓(xùn)練 Step 間的 Worker 互補(bǔ)，構(gòu)建跨 Step 的協(xié)同負(fù)載均衡機(jī)制。

如下圖 Figure 10 所示，在奇數(shù)（1,3,5）Step 中，Scheduler 按執(zhí)行長(zhǎng)度升序排列并分配給 Worker；在偶數(shù) Step 中按降序分配，通過(guò)這種交替互補(bǔ)方式，可以有效填充 Bubble，提升整體利用率。（PS：由于第一個(gè) Epoch 缺乏歷史數(shù)據(jù)，因此在第一個(gè) Epoch 不啟用）

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

然而，在真實(shí)的工作負(fù)載中仍會(huì)面臨一些挑戰(zhàn)：

極端情況非常長(zhǎng)的 Response 會(huì)破壞這種互補(bǔ)性。
Rollout 的長(zhǎng)尾分布使得連續(xù) Step 無(wú)法實(shí)現(xiàn)完美的工作負(fù)載互補(bǔ)，依然會(huì)存在 Bubble。

4.3.3 基于遷移的重新負(fù)載

為了緩解超長(zhǎng) Rollout Response 對(duì) Hybrid Pipeline 的影響，作者采用了兩種策略：

Step 內(nèi)遷移——將過(guò)長(zhǎng)的 Rollout 遷移到同 Step 內(nèi)其他仍在 Rollout 的 Group。
跨 Step 遷移——將異常值遷移到后續(xù)的 Step 中（PS：數(shù)學(xué)不等價(jià)，是否會(huì)影響效果）。

具體而言，每個(gè)排序組都設(shè)置一個(gè)閾值，當(dāng) Rollout 長(zhǎng)度超過(guò)閾值時(shí)即觸發(fā)遷移。

對(duì)于 Step 內(nèi)遷移，會(huì)在執(zhí)行過(guò)程中動(dòng)態(tài)地將長(zhǎng) Rollout 重新分配給其他組別，并且已經(jīng)生成的 Token 會(huì)保留，后續(xù)會(huì)重新計(jì)算相應(yīng)的 KV Cache（Prefill 階段）。
對(duì)于跨 Step 遷移，待遷移的樣本會(huì)加入下一個(gè) Step 中，同樣會(huì)保留相應(yīng)已生成的 Token。

此外，作者也討論了上述閾值的設(shè)定問(wèn)題，在 5 個(gè)數(shù)據(jù)集 20 個(gè) Epoch 的實(shí)驗(yàn)中，僅有 1.49%-3.55% 的 Response 需要遷移，證明該機(jī)制產(chǎn)生的開銷在可接受范圍，且對(duì)訓(xùn)練精度的影響可忽略不計(jì)。

4.3.4 雙層調(diào)度

實(shí)現(xiàn)近乎無(wú) Bubble 的 Step 間互補(bǔ)性，需要各執(zhí)行組之間呈現(xiàn)近似線性的執(zhí)行時(shí)間分布。然而，在實(shí)際應(yīng)用中，長(zhǎng)尾序列會(huì)導(dǎo)致執(zhí)行時(shí)間呈指數(shù)分布，如下圖 Figure 11a 所示，這會(huì)導(dǎo)致某些節(jié)點(diǎn)上依然存在 Bubble。為此，HistoPipe 提出雙層調(diào)度機(jī)制：

第一層：從 Prompt 到排序組，首先將已排序 Prompt 均勻分配到排序組。
第二層：將排序組映射到 GPU。若為每個(gè)排序組分配等量 GPU，由于長(zhǎng)尾序列存在，其執(zhí)行時(shí)間會(huì)呈指數(shù)分布。因此，HistoPipe 設(shè)計(jì)了分布重組策略：不再平均分配 GPU，而是為短 Response 組和中長(zhǎng) Response 組分配較少 GPU，為少數(shù)長(zhǎng) Response 組分配額外 GPU，從而將執(zhí)行時(shí)間分布從指數(shù)型調(diào)整為線性，從而進(jìn)一步減少 Bubble。如下圖 Figure 11b 所示。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

五、實(shí)驗(yàn)&結(jié)果

5.1 端到端訓(xùn)練評(píng)估

如下圖 Figure 13 所示，與 veRL（v0.4.1）和 AReaL（v0.3.0）相比，RhymeRL 在 8B-32B 模型，8K/16K 訓(xùn)練長(zhǎng)度，DAPO/GRPO 算法上都獲得了不錯(cuò)的加速。相比 veRL，在 8K 上平均加速 1.9x，16K 上平均加速 16K。

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

如下圖 Figure 14 為各種優(yōu)化手段相對(duì)提升的占比：

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

5.2 HistoSpec 消融實(shí)驗(yàn)

如下圖 Figure 16 所示，隨著 Step 的增加，基于投機(jī)采樣的 RhymeRL 能獲得更明顯的加速：

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

如下圖 Figure 17 所示，隨著訓(xùn)練的持續(xù)進(jìn)行，采用投機(jī)采樣生成的 Token 比例（ Spec. rate）逐漸上升。草稿 Token 中的接受率保持在 65% - 79% 區(qū)間，并且隨著訓(xùn)練進(jìn)程同步提升：

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

5.3 HistoPipe 消融實(shí)驗(yàn)

如下圖 Figure 15 所示，作者同樣驗(yàn)證了 HistoPipe 中優(yōu)化手段的加速效果：

字節(jié) RhythmRL：基于投機(jī)采樣+長(zhǎng)度預(yù)測(cè)的 RL 加速-AI.x社區(qū)

六、參考鏈接

??https://arxiv.org/abs/2508.18588??

本文轉(zhuǎn)載自??AI閑談??，作者：AI閑談

標(biāo)簽

投機(jī)采樣

已于2025-9-22 07:05:04修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

阿里集團(tuán)基于Fluid+JindoCache加速大模型訓(xùn)練的實(shí)踐

wx5bbef785639a1 ? 5223瀏覽 ? 0回復(fù)
大模型推理優(yōu)化實(shí)踐：KV cache復(fù)用與投機(jī)采樣

wx5bbef785639a1 ? 9298瀏覽 ? 0回復(fù)
加速擴(kuò)散模型，最快1步生成SOTA級(jí)圖片，字節(jié)Hyper-SD開源了

輕薄滴假象 ? 3912瀏覽 ? 0回復(fù)
基于多級(jí)注意力機(jī)制的并行預(yù)測(cè)模型

Tang_Lan ? 6698瀏覽 ? 0回復(fù)
基于多級(jí)注意力機(jī)制的并行預(yù)測(cè)模型

Tang_Lan ? 4709瀏覽 ? 0回復(fù)
LFPLM：基于預(yù)訓(xùn)練語(yǔ)言模型的通用靈活負(fù)荷預(yù)測(cè)框架

AIRoobt ? 6001瀏覽 ? 0回復(fù)
如何改良基于Basis的時(shí)間序列預(yù)測(cè)模型？

海因斯DK ? 4422瀏覽 ? 0回復(fù)
聊聊基于 Informer+BiGRU-GlobalAttention的并行預(yù)測(cè)模型

Tang_Lan ? 6258瀏覽 ? 0回復(fù)
我們一起聊聊基于時(shí)空特征提取的并行預(yù)測(cè)模型

Tang_Lan ? 4422瀏覽 ? 0回復(fù)
聊聊基于 LSTM 的多特征序列預(yù)測(cè)-SHAP可視化！

Tang_Lan ? 9361瀏覽 ? 0回復(fù)
LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣

NLP工作站 ? 4744瀏覽 ? 0回復(fù)
NeurIPS'24 基于自適應(yīng)多尺度超圖Transfromer的時(shí)間序列預(yù)測(cè)方法

海因斯DK ? 5562瀏覽 ? 0回復(fù)
聊聊基于 Python 優(yōu)化算法的創(chuàng)新預(yù)測(cè)模型

Tang_Lan ? 3179瀏覽 ? 0回復(fù)
一種基于學(xué)習(xí)的電池壽命預(yù)測(cè)（Python）

步驚云_32 ? 4235瀏覽 ? 0回復(fù)
LLM之后，Agent的未來(lái)是RL！

探索AGI ? 5928瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強(qiáng)化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 3648瀏覽 ? 0回復(fù)
時(shí)序Pattern提取+語(yǔ)義對(duì)齊增強(qiáng)基于LLM的時(shí)序預(yù)測(cè)效果

海因斯DK ? 6678瀏覽 ? 0回復(fù)
從模式到預(yù)測(cè)：嘈雜金融市場(chǎng)中基于形狀的方向預(yù)測(cè)框架

靈度智能 ? 2026瀏覽 ? 0回復(fù)
阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練

amei2000go ? 1120瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練 2025-10-28 07:51:32發(fā)布
Meta ScaleRL：40 萬(wàn) B200 GPU 小時(shí)，讓 RL 擁有“可預(yù)測(cè) Scaling Law” 2025-10-28 07:51:18發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識(shí)圖譜，實(shí)現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

2025 年最強(qiáng) OCR 大比拼：從識(shí)別文本到文檔智能，誰(shuí)才是終極解法？ 0回復(fù)

8%價(jià)格，2倍速度！國(guó)產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實(shí)測(cè)后發(fā)現(xiàn)堪稱性價(jià)比之王！ 0回復(fù)

上一篇：阿里云 SkeletonHunter：診斷與定位大模型訓(xùn)練中的網(wǎng)絡(luò)故障

下一篇： Meta ScaleRL：40 萬(wàn) B200 GPU 小時(shí)，讓 RL 擁有“可預(yù)測(cè) Scaling Law”

社區(qū)精華內(nèi)容

目錄

97精品一区二区三区| 欧美日韩精品久久久| 欧美精品123| 一级片一级片一级片| 日韩精品视频中文字幕| 国产精品美女久久久久aⅴ| 国产91精品久| 亚洲精品自拍视频在线观看| 91精品啪在线观看国产爱臀| 色女孩综合影院| 日韩欧美视频免费在线观看| 男男激情在线| 国产成人免费视频精品含羞草妖精 | 久久亚洲影音av资源网| 韩国无码一区二区三区精品| 中文成人在线| 色综合久久中文综合久久牛| 中文字幕在线中文| 浮生影视网在线观看免费| 国产91精品欧美| 91精品久久久久久久久久另类| 亚洲图片第一页| 久久影视三级福利片| 欧美日韩国产首页| 国产在线青青草| 色呦呦视频在线观看| 国产精品女主播av| 黑人中文字幕一区二区三区| 国产精品国产三级国产aⅴ| 国产一区二区三区的电影| 日韩电视剧在线观看免费网站| 青青草精品视频在线| 色影院视频在线| 国产视频视频一区| 六十路精品视频| 免费成人在线看| 国产成人精品在线看| 国产欧美日韩高清| 国产成人av免费| 久久性天堂网| 日韩美女免费线视频| 国产一二三四区在线| 日本精品另类| 黑人精品xxx一区一二区| 日韩黄色片在线| 国产高清在线| 久久青草国产手机看片福利盒子| 国产久一一精品| 国产一级二级三级视频| 伊人久久大香线蕉精品组织观看| 日韩av网址在线| av鲁丝一区鲁丝二区鲁丝三区| 亚洲精品一区三区三区在线观看| 亚洲激情成人在线| 裸体裸乳免费看| 快射av在线播放一区| 国产精品短视频| 五月天男人天堂| jizz性欧美| 亚洲在线成人精品| 免费特级黄色片| www.九色在线| 一本到不卡精品视频在线观看| 国产内射老熟女aaaa| fc2ppv国产精品久久| 亚洲精选视频在线| www.在线观看av| 毛片电影在线| 91福利区一区二区三区| 蜜臀av免费观看| 久久精品免视看国产成人| 日韩视频在线观看一区二区| 伊人久久一区二区三区| 天堂俺去俺来也www久久婷婷| 4438x亚洲最大成人网| wwww.国产| 警花av一区二区三区| 亚洲成人av片| 日本一级免费视频| 91精品国产91久久久久久黑人| 亚洲人成在线观| 免费看毛片的网站| 综合国产视频| 久久精品国产一区| 秋霞网一区二区三区| 五月综合激情| 69av成年福利视频| 在线免费观看高清视频| 国产精品1区2区3区在线观看| 国产区精品在线观看| www.黄色片| 国产午夜亚洲精品午夜鲁丝片| 就去色蜜桃综合| 色老头视频在线观看| 亚洲国产视频直播| 爱情岛论坛亚洲首页入口章节| 唐人社导航福利精品| 欧美一区中文字幕| 欧美深性狂猛ⅹxxx深喉 | 视频一区二区三区在线看免费看| 国产精品中文字幕日韩精品| 国产一区二区丝袜| 人妻妺妺窝人体色www聚色窝 | 精品中文一区| 久久成人这里只有精品| 国产精品人人人人| 国产激情视频一区二区在线观看 | 国产特级黄色大片| 日本黄色成人| 精品亚洲va在线va天堂资源站| 日本美女视频网站| 成人三级视频| 欧洲美女7788成人免费视频| 国产91视频在线| 国产丝袜美腿一区二区三区| 国产精品大全| 视频三区在线| 色国产综合视频| 亚洲天堂av网站| 婷婷久久综合| 国产精品国产三级国产专播精品人| 在线免费黄色av| 国产一区二区三区综合| 亚洲图片小说在线| sis001欧美| 亚洲精品久久久久| 久久99久久久| 国产精品一卡二卡在线观看| 一个色的综合| 成人国产精品一区二区免费麻豆| 色中色一区二区| 白丝校花扒腿让我c| 亚洲欧美综合久久久| 国产欧美日韩丝袜精品一区| 国产资源在线播放| 欧美视频免费在线观看| 给我免费观看片在线电影的| 精品国产午夜| 国产成人精品网站| 五月婷婷久久久| 欧美国产国产综合| 凹凸日日摸日日碰夜夜爽1| 欧洲亚洲精品久久久久| 一区二区三区www| 国产精品熟女视频| 国产拍欧美日韩视频二区| 欧美成人激情视频| 男生和女生一起差差差视频| 偷拍欧美精品| 91精品视频观看| 97影院秋霞午夜在线观看| 亚洲一区自拍偷拍| 三级在线免费看| 成人h动漫免费观看网站| 九九久久国产精品| 亚洲xxxx天美| 亚洲va欧美va国产va天堂影院| 福利视频一二区| 日本欧美韩国| 深夜福利一区二区| 国产欧美日韩成人| 成人国产精品视频| 男人日女人逼逼| 蜜臀久久99精品久久一区二区| 色妞久久福利网| 国产一区二区三区中文字幕| 国产精品萝li| 亚洲欧美日韩国产综合在线| 久久福利在线| 美女福利精品视频| 性一交一乱一伧老太| 欧美日韩亚洲91| 久久久久无码精品国产sm果冻| 91精品国产乱码久久久久久久| 97在线日本国产| 你懂的在线看| 欧美影院精品一区| 国产一区二区三区在线视频观看| 国产精品嫩草99av在线| 欧美一区二区三区成人久久片| 人交獸av完整版在线观看| 亚洲第一福利网| 午夜久久久久久久久久影院| 中文字幕制服丝袜一区二区三区| 日韩精品在线观看av| 日韩精品社区| 国产欧美日韩免费| 1区2区3区在线| 在线播放一区二区三区| 国产一级片视频| 亚洲国产精品二十页| 在线成人精品视频| 久久久久久穴| 久久久综合亚洲91久久98| 国产一区一一区高清不卡| 欧美黑人巨大xxx极品| 九色网友自拍视频手机在线| 337p亚洲精品色噜噜噜| 天天操天天爽天天干| 国产精品久久久久国产精品日日| www.日日操| 欧美午夜a级限制福利片| 日本一区二区三不卡| 2023国产精华国产精品| 国产精品18久久久久久首页狼| 国产区视频在线播放| 日韩免费看网站| 国产又粗又黄又爽的视频| 欧美日韩中文字幕| 久久精品亚洲无码| 中文在线资源观看网站视频免费不卡| 一区二区成人网| 亚洲精选久久| 粉嫩av一区二区三区天美传媒| 成人另类视频| 欧美亚洲激情在线| 欧美人体视频xxxxx| 日日噜噜噜夜夜爽亚洲精品| 日本大片在线观看| 精品国产精品一区二区夜夜嗨| 国产无码精品在线观看| 中文字幕欧美一区| 大胸美女被爆操| 国产午夜一区二区三区| 天天摸天天舔天天操| 日日摸夜夜添夜夜添国产精品 | 欧美a大片欧美片| 亚洲在线免费观看| 欧美激情三区| 国产精品免费福利| 激情开心成人网| 日本亚洲欧洲色| 丝袜诱惑一区二区| 最新的欧美黄色| www.中文字幕久久久| 亚洲色图激情小说| 精品福利视频导航大全| 日韩精品在线观看一区二区| 日批视频免费播放| 亚洲国产欧美在线成人app| 蜜桃视频在线观看www| 日韩欧美激情一区| 日韩在线播放中文字幕| 五月天亚洲婷婷| 亚洲精品www久久久久久| 国产精品久久久久桃色tv| 永久免费成人代码| 国产清纯白嫩初高生在线观看91| 欧美熟妇精品一区二区 | 可以在线看的av网站| 成人在线国产| 亚洲精品日韩在线观看| 外国成人激情视频| 中文字幕色呦呦| 欧美日韩在线二区| 亚洲成人精品电影在线观看| 欧美一区二区三| 一区二区精品免费视频| 99久久精品网| 免费网站永久免费观看| 亚洲高清电影| 国产福利视频在线播放| 日韩经典中文字幕一区| jizzzz日本| 欧美中文字幕| 校园春色亚洲色图| 国产农村妇女精品一区二区| 激情综合在线观看| 免费成人在线视频观看| 亚洲一二区在线观看| 成人午夜私人影院| www.久久com| 成人高清在线视频| 在线免费观看视频| 亚洲精品网站在线观看| 欧美成人精品欧美一级乱黄| 色香色香欲天天天影视综合网| 国产一级在线视频| 亚洲色大成网站www久久九九| 国产sm调教视频| 亚洲日本中文字幕区| 日本一级片免费看| 欧美日韩久久久| 熟妇高潮一区二区高潮| 国产一区二区三区视频在线观看| 美女毛片在线看| 精品视频偷偷看在线观看| 1769视频在线播放免费观看| 国产一区二区三区四区福利| 欧美另类自拍| 亚洲三级av在线| a毛片在线观看| 日韩美女视频免费看| 欧美片第一页| 91嫩草国产在线观看| 久久99国内| av一区二区三区免费观看| 亚洲综合精品| 人妻精品久久久久中文字幕69| 激情综合网av| 国产偷人妻精品一区| 久久久不卡网国产精品一区| 国产精品无码一区二区三区免费 | 亚洲自拍偷拍色片视频| 亚洲欧洲美洲国产香蕉| 老汉色影院首页| 国产真实久久| 高清一区在线观看| 91免费版在线| 妺妺窝人体色www聚色窝仙踪 | 国产乱国产乱300精品| 法国伦理少妇愉情| 亚洲福利视频一区| 国产乱色精品成人免费视频| 欧美成人免费网站| 免费在线观看黄| 国产v综合ⅴ日韩v欧美大片| 国产精伦一区二区三区| 超碰在线免费观看97| 日韩av一二三| 亚洲综合网在线观看| 婷婷久久综合九色综合伊人色| 日韩久久中文字幕| 欧美大片一区二区| 中文av资源在线| 欧美一级淫片aaaaaaa视频| 亚洲国产高清在线观看| 一级特黄录像免费播放全99| 日本怡春院一区二区| 午夜理伦三级做爰电影| 国产精品久久久久久久久搜平片 | 免费在线黄色网址| 性欧美激情精品| jizz性欧美23| 性一交一乱一伧国产女士spa| 久久亚洲国产精品一区二区| 亚洲av人人澡人人爽人人夜夜| 国产欧美精品国产国产专区| 在线观看免费国产视频| 亚洲精品久久久久久久久| 色网站在线看| 97在线精品国自产拍中文| 国产精品毛片久久久| 亚洲制服中文| 久久精品国产99国产| 免费精品在线视频| 91精品国产入口| 天堂va在线| 国产伦精品一区二区三区在线| 日本成人小视频| 中文字幕第88页| 中文字幕亚洲欧美在线不卡| 国产成人精品亚洲| 中文字幕av一区二区| 四虎地址8848精品| 蜜桃91精品入口| 午夜精品偷拍| 亚洲啪av永久无码精品放毛片| 中文字幕一区二区三区不卡在线 | 亚洲免费网址| av网站免费在线播放| 色88888久久久久久影院野外| 性做久久久久久久久久| 亚洲线精品一区二区三区| 天堂v在线视频| 国产999精品久久| 国产精品欧美日韩| 精品视频中文字幕| 91精品韩国| 黄色高清视频网站| 国产99一区视频免费| 人人干人人干人人干| 亚洲人在线观看| 四虎国产精品永久在线国在线| 91免费看片网站| 国内精品嫩模av私拍在线观看| 91高清国产视频| 一区二区三区高清在线| 无码国产精品96久久久久| 日本精品视频在线| 国产精品99久久久久久动医院| 99久久国产宗和精品1上映| 成人免费黄色在线| 国产免费一级视频| 精品国模在线视频| 欧美黑白配在线| 日日干夜夜操s8| 中文字幕的久久| 精品人妻伦一区二区三区久久| 日韩性xxxx爱| 国产精品1luya在线播放| 热久久精品国产| 一区二区三区高清在线| 九色在线免费| 91免费版黄色| 欧美激情亚洲| 成人精品999| 日韩免费一区二区三区在线播放| av毛片在线免费看| 日本不卡二区高清三区|