精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擴(kuò)散LLM推理用上類GRPO強(qiáng)化學(xué)習(xí)!優(yōu)于單獨(dú)SFT,UCLA、Meta新框架d1開(kāi)源

人工智能 新聞
大語(yǔ)言模型的推理能力,不再是 AR(自回歸)的專屬。擴(kuò)散模型現(xiàn)在也能「動(dòng)腦子」,新框架 d1 讓它們學(xué)會(huì)了解數(shù)學(xué)、懂邏輯、會(huì)思考。

當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)方法在最近模型的推理任務(wù)上取得了顯著的改進(jìn),比如 DeepSeek-R1、Kimi K1.5,顯示了將 RL 直接用于基礎(chǔ)模型可以取得媲美 OpenAI o1 的性能。

不過(guò),基于 RL 的后訓(xùn)練進(jìn)展主要受限于自回歸的大語(yǔ)言模型(LLM),它們通過(guò)從左到右的序列推理來(lái)運(yùn)行。

與此同時(shí),離散擴(kuò)散大語(yǔ)言模型(dLLM)成為有潛力的語(yǔ)言建模的非自回歸替代。不像以因果方式逐 token 生成文本的自回歸模型那樣,dLLM 通過(guò)迭代去噪過(guò)程生成文本,在多步驟操作中優(yōu)化序列的同時(shí)并通過(guò)雙向注意力利用過(guò)去和未來(lái)的上下文。其中,LLaDA 等開(kāi)放的掩碼 dLLM 實(shí)現(xiàn)了媲美同尺寸自回歸模型的性能,而 Mercury 等閉源 dLLM 進(jìn)一步展現(xiàn)了出色的推理延遲。

然而,頂級(jí)的開(kāi)源 dLLM 并沒(méi)有使用 RL 后訓(xùn)練,使得這一有潛力的研究方向還有很大的挖掘空間。這一范式轉(zhuǎn)變引出了重要的問(wèn)題:RL 后訓(xùn)練如何在非自回歸上下文中高效地實(shí)現(xiàn)?

RL 算法適應(yīng)掩碼 dLLM 面臨一些獨(dú)特的挑戰(zhàn),原因在于自回歸模型采用的已有方法(如 PPO、GRPO)通過(guò)計(jì)算生成序列的對(duì)數(shù)概率來(lái)估計(jì)和優(yōu)化策略分布,導(dǎo)致無(wú)法直接應(yīng)用于 dLLM。雖然這種計(jì)算在自回歸模型中通過(guò)序列因式分解很容易實(shí)現(xiàn),但 dLLM 由于它們的迭代、非序列生成過(guò)程而缺乏這種自然分解。

為了解決這些問(wèn)題,來(lái)自 UCLA 和 Meta AI 的研究者提出了一個(gè)兩階段后訓(xùn)練框架 d1,從而可以在掩碼 dLLM 中進(jìn)行推理。在第一階段,模型在高質(zhì)量推理軌跡中進(jìn)行監(jiān)督微調(diào);在第二即 RL 階段,研究者引入了用于掩碼 dLLM 的新穎策略梯度方法 diffu-GRPO,它利用提出的高效一步(one-step)對(duì)數(shù)概率估計(jì)在 GRPO 的基礎(chǔ)上創(chuàng)建。

研究者表示,他們的估計(jì)器利用了隨機(jī)提示詞掩碼,作為策略優(yōu)化的一種正則化,使得可以擴(kuò)展 per batch 的梯度更新數(shù)量并減少 RL 訓(xùn)練所需的在線生成數(shù)量。這將極大地降低計(jì)算時(shí)間。

圖片

  • 論文標(biāo)題:d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2504.12216
  • 項(xiàng)目主頁(yè):https://dllm-reasoning.github.io/
  • GitHub 地址:https://github.com/dllm-reasoning/d1

在實(shí)驗(yàn)部分,研究者使用 LLaDA-8B-Instruct 作為基礎(chǔ)模型實(shí)例化 d1。他們將 d1-LLaDA 的性能與基礎(chǔ) LLaDA 模型以及僅使用 SFT 和僅使用 diffu-GRPO 訓(xùn)練的 LLaDA 模型進(jìn)行比較。結(jié)果表明,d1 在四個(gè)數(shù)學(xué)和邏輯推理基準(zhǔn)測(cè)試中始終優(yōu)于基礎(chǔ)模型,如下圖 1 所示。d1-LLaDA 同樣優(yōu)于僅使用 SFT 方法和僅使用 diffu-GRPO 方法的模型。

圖片

方法概覽

d1 是一個(gè)兩階段框架,通過(guò)依次結(jié)合監(jiān)督微調(diào)(SFT)和在線強(qiáng)化學(xué)習(xí)(RL)來(lái)增強(qiáng)預(yù)訓(xùn)練掩碼 dLLMs 的推理性能。

其中,在線強(qiáng)化學(xué)習(xí)(特別是 GRPO 算法)已被證明能有效提升離線訓(xùn)練語(yǔ)言模型的性能。然而,GRPO 的學(xué)習(xí)策略并不能直接泛化到 dLLMs。

GRPO 的目標(biāo)函數(shù)(如公式 3 所示)需要同時(shí)計(jì)算當(dāng)前策略 π_θ 和舊策略 π_θold 在以下兩個(gè)層面的(對(duì)數(shù))似然比:

  1. token 層面(用于優(yōu)勢(shì)權(quán)重計(jì)算);
  2. 序列層面(用于反向 KL 散度項(xiàng))。

核心問(wèn)題在于:研究者需要高效計(jì)算 dLLMs 生成內(nèi)容的逐 token 對(duì)數(shù)概率和序列對(duì)數(shù)概率。

自回歸(AR)模型,如 Transformer,直接對(duì)每個(gè) token 的對(duì)數(shù)概率進(jìn)行建模,并且可以通過(guò)鏈?zhǔn)椒▌t使用一次前向傳遞輕松計(jì)算出序列級(jí)別的對(duì)數(shù)概率image.png。同樣,KL 項(xiàng)可以分解為image.png。

與 AR 模型不同,dLLMs 不遵循序列對(duì)數(shù)概率的順序分解。同時(shí),每個(gè) token 的對(duì)數(shù)概率計(jì)算成本也很高,因?yàn)榻獯a過(guò)程中需要多次調(diào)用掩碼預(yù)測(cè)器 f_θ。基于此,該研究提出了一個(gè)高效的對(duì)數(shù)概率估計(jì)器。

對(duì)于序列對(duì)數(shù)概率,該研究使用均場(chǎng)近似方法,將其分解為獨(dú)立的每個(gè) token 對(duì)數(shù)概率的乘積。

對(duì)于每個(gè) token 的對(duì)數(shù)概率,該研究引入了一種估計(jì)方法,該方法僅調(diào)用一次 f_θ。

基于新引入的對(duì)數(shù)概率估計(jì)器,該研究將 GRPO 擴(kuò)展到掩碼 dLLMs,推導(dǎo)出 diffu-GRPO 的損失函數(shù)。

圖片

算法如下圖所示。

圖片

實(shí)驗(yàn)結(jié)果

表 1 報(bào)告了基線模型 LLaDA-8B-Instruct 與采用不同后訓(xùn)練優(yōu)化方案的模型,在四項(xiàng)任務(wù)上的零樣本性能對(duì)比。

圖片

圖 3 繪制了有效 token 的平均數(shù)量:

圖片

基于實(shí)驗(yàn),該研究得出以下主要發(fā)現(xiàn):

diffu-GRPO 在所有 12 種設(shè)置中都一致優(yōu)于基礎(chǔ)的 LLaDA 和 SFT(監(jiān)督式微調(diào))。diffu-GRPO 和 SFT 都相較于 LLaDA-8B-Instruct 基線有所提升,但 diffu-GRPO 顯示出更持續(xù)且幅度更大的增益。具體來(lái)說(shuō),diffu-GRPO 在所有 12 種設(shè)置中都優(yōu)于 LLaDA-8B-Instruct 和 SFT,而 SFT 僅在其中的 7 種設(shè)置中優(yōu)于 LLaDA-8B-Instruct,這表明 diffu-GRPO 相比于單獨(dú)的 SFT 實(shí)現(xiàn)了更強(qiáng)的整體性能提升。

LLaDA+diffu-GRPO 在所有設(shè)置中都優(yōu)于基礎(chǔ)的 LLaDA-8B-Instruct 模型,而 d1-LLaDA 在每種情況下都超過(guò)了 LLaDA+SFT。這表明,無(wú)論初始化是來(lái)自預(yù)訓(xùn)練模型還是經(jīng)過(guò) SFT 調(diào)整的檢查點(diǎn),diffu-GRPO 都能提供可靠的性能提升。

d1 訓(xùn)練方案實(shí)現(xiàn)了最顯著的性能提升。通過(guò)先進(jìn)行監(jiān)督微調(diào)(SFT)、再結(jié)合 diffu-GRPO 訓(xùn)練所形成的 d1-LLaDA 模型,產(chǎn)生了超越單一方法的疊加增益。這種組合式方法在 12 個(gè)實(shí)驗(yàn)設(shè)置中有 11 項(xiàng)優(yōu)于純 diffu-GRPO 方案,表明兩個(gè)訓(xùn)練階段存在協(xié)同效應(yīng)。

定性結(jié)果表明,在 SFT 和 d1-LLaDA 生成中出現(xiàn)了頓悟時(shí)刻。盡管與 LLaDA-8B-Instruct 相比,生成序列長(zhǎng)度為 128 和 256 的性能隨著 SFT、diffu-GRPO 和 d1 有所提高,但從質(zhì)的方面看,在生成的推理軌跡中并未觀察到顯著差異。然而當(dāng)序列長(zhǎng)度達(dá)到 512 時(shí),該研究開(kāi)始觀察到 SFT 和 d1-LLaDA 模型展現(xiàn)出兩種關(guān)鍵能力:自我修正機(jī)制和回溯行為。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-03 08:49:00

2024-09-13 06:32:25

2025-05-30 04:00:00

IBMRLVRGRPO

2025-10-11 04:00:00

2025-10-23 09:05:50

2025-06-03 03:15:00

2025-11-10 04:15:00

2025-06-05 06:36:17

2020-11-16 08:54:05

Google 開(kāi)源技術(shù)

2025-06-27 15:44:35

蘋果AI模型

2025-10-08 10:44:16

2025-08-19 08:58:17

2025-05-28 02:25:00

2025-02-03 00:00:01

Ai2o1LLM

2025-03-21 13:00:54

2025-09-11 06:57:11

2025-06-23 09:07:00

2025-08-07 09:16:41

2025-03-11 01:00:00

GRPO算法模型

2024-04-12 08:59:02

強(qiáng)化學(xué)習(xí)系統(tǒng)人工智能擴(kuò)散模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

aaaaa黄色片| 亚洲a∨一区二区三区| 日韩乱码人妻无码中文字幕| 性欧美lx╳lx╳| 欧美最猛黑人xxxxx猛交| 正在播放一区| 日本高清视频免费看| 国产精品一卡| 久久这里有精品| 99re这里只有| 四虎成人精品一区二区免费网站| 亚洲综合网站在线观看| 视频一区二区三| 刘亦菲久久免费一区二区| 蜜桃一区二区三区在线| 久久青草精品视频免费观看| 久久久久亚洲AV成人无在| 国产精品流白浆在线观看| 欧美性感一区二区三区| www.av片| 午夜羞羞小视频在线观看| 91亚洲精品久久久蜜桃| 69174成人网| 进去里视频在线观看| 亚洲美女黄色| 欧美剧在线观看| 欧美人与禽zoz0善交| 牛牛影视久久网| 日韩精品一区二区三区在线| 最新中文字幕免费视频| 欧美13videosex性极品| 亚洲午夜精品17c| 在线播放 亚洲| 成人综合影院| 久久精品亚洲精品国产欧美kt∨| 91九色对白| 在线观看日韩一区二区| 日韩视频不卡| 欧美xxxx综合视频| 影音先锋男人在线| 成人午夜大片| 欧美色视频在线观看| 亚洲自偷自拍熟女另类| 激情在线视频播放| 国产精品伦一区| 青青草原亚洲| 色一情一乱一区二区三区| 麻豆成人在线观看| 国产精品9999| 欧美日韩一二三四区| 欧美久久视频| 久久综合五月天| 亚洲天堂精品一区| 精品精品久久| 一本久久综合亚洲鲁鲁| 色天使在线视频| 成人性生交大片免费看96| 欧美一区二区美女| www.五月天色| av在线成人| 欧美日韩免费观看一区三区| 欧美激情精品久久久久久小说| 国内激情视频在线观看| 一区2区3区在线看| 国产在线视频在线| 日本不卡影院| 亚洲午夜一二三区视频| wwwwww欧美| 男女视频在线| 亚洲一区二区三区四区在线观看 | 欧美—级a级欧美特级ar全黄| 国产又粗又长又黄的视频| 日韩电影免费网址| 北条麻妃99精品青青久久| a天堂中文字幕| 神马电影久久| 中文字幕欧美视频在线| 亚洲精品国产精品乱码在线观看| 国产一区二区三区四区五区传媒| 亚洲欧美资源在线| 蜜乳av中文字幕| 国产videos久久| 亚洲一区二区久久| 狂野欧美性猛交| 国产精品99在线观看| 日韩在线不卡视频| 欧美日韩三级在线观看| 激情欧美丁香| 69**夜色精品国产69乱| 日韩精品1区2区| 日韩专区中文字幕一区二区| 欧美亚洲视频在线看网址| 欧美三级韩国三级日本三斤在线观看| 久久婷婷av| 国产在线播放91| 国产三级视频在线播放| kk眼镜猥琐国模调教系列一区二区| 国产伦精品一区二区三区视频孕妇| 天天摸夜夜添狠狠添婷婷| 久久亚洲精品小早川怜子| 日韩精品成人一区二区在线观看| 在线看黄色av| 亚洲一区精品在线| 人妻熟女一二三区夜夜爱| 99久久精品一区二区成人| 6080日韩午夜伦伦午夜伦| 动漫av在线免费观看| 国产成人1区| 超薄丝袜一区二区| 日本三级一区二区| 久久www免费人成看片高清| 3d蒂法精品啪啪一区二区免费| 亚洲av永久无码国产精品久久| 成人国产精品免费观看| 亚洲欧美日韩综合一区| 久久av色综合| 在线国产电影不卡| 欧美久久久久久久久久久| 欧美久久综合网| 欧美国产亚洲视频| 自拍偷拍精品视频| 不卡av在线网| 自拍偷拍99| 亚洲综合电影| 欧美成人三级在线| 欧美午夜激情影院| 日韩午夜高潮| 国产原创欧美精品| 成人在线视频成人| 午夜精品视频在线观看| 成 人 黄 色 小说网站 s色| 日韩精品社区| 久99久在线视频| 中文字幕乱码视频| 91网站黄www| 97在线免费视频观看| 欧美精品资源| 精品视频在线导航| 日本亚洲欧美在线| 国产麻豆精品一区二区| 视频二区一区| 中文字幕乱码中文乱码51精品| 91麻豆精品国产91久久久久| 精品人妻一区二区三区四区| 国产日韩免费| 91麻豆蜜桃| 亚洲图片88| 欧美性大战久久| 色无极影院亚洲| 午夜在线视频一区二区区别| 超碰97人人人人人蜜桃| 国产理论在线观看| 欧美日韩亚洲综合一区| 色欲狠狠躁天天躁无码中文字幕 | 91麻豆视频网站| 国产真人做爰毛片视频直播| 亚洲欧美日本国产| 欧美激情videoshd| 亚洲国产精品国自产拍久久| 国产精品黄色在线观看| 免费涩涩18网站入口| 国产91一区| 国产精品高精视频免费| 可以免费看污视频的网站在线| 亚洲国产视频网站| 女同性αv亚洲女同志| 欧美在线免费| 动漫3d精品一区二区三区| 最新超碰在线| 精品久久久久久久久久久久久久久久久| 成人黄色短视频| 视频一区欧美日韩| 手机成人在线| 亚洲ww精品| 欧美成人激情视频免费观看| 国产视频在线观看免费| 樱花草国产18久久久久| 欧美做受高潮中文字幕| 久久久久久一区二区| 日韩久久在线| 国产成年精品| 欧美成人精品在线观看| 亚洲成人久久精品| 亚洲韩国一区二区三区| 国产制服丝袜在线| 美腿丝袜在线亚洲一区| 国产日产欧美一区二区| 国产毛片精品| 国产精品第一第二| 日本www在线观看视频| 欧美日韩精品一区二区三区蜜桃 | 99免费精品在线观看| 女人扒开屁股爽桶30分钟| 欧美综合另类| 亚洲free性xxxx护士hd| 国产白浆在线免费观看| 一区二区三区四区在线观看视频| 91美女精品网站| 一区二区三区日韩在线观看| 久久久老熟女一区二区三区91| 国产精品久久久亚洲一区| 日韩欧美电影一区二区| 免费一区二区三区在线视频| 欧美亚洲激情在线| 色大18成网站www在线观看| 欧美变态口味重另类| 999这里只有精品| 亚洲激情六月丁香| 中文字幕一区二区三区人妻电影| 久久99精品视频| 欧美久久久久久久久久久久久| 亚洲大片精品免费| 国产一区二区在线免费| 欧美色图天堂| 在线成人激情视频| 丰满人妻一区二区三区四区53 | 国产婷婷精品av在线| 香蕉视频色在线观看| 亚洲一区二区动漫| 26uuu成人| 国产成人高清| 国产美女精品在线观看| 天堂久久一区| 日韩av免费在线看| 日本性爱视频在线观看| 亚洲精品在线不卡| 国产日韩欧美视频在线观看| 在线亚洲一区观看| 日韩污视频在线观看| 自拍偷拍亚洲激情| 日本xxxxxxxxx18| 成人国产电影网| 古装做爰无遮挡三级聊斋艳谭| 天堂成人免费av电影一区| 欧美中文字幕在线观看视频 | 国产成人99久久亚洲综合精品| 91视频免费版污| 国产精品一二| 欧美精品自拍视频| 国模一区二区三区| 91免费视频黄| 欧美激情777| 亚洲va韩国va欧美va精四季| 清纯唯美亚洲经典中文字幕| 国偷自产av一区二区三区小尤奈| 欧美1区2区3| 91精品在线看| 四虎精品永久免费| 国产精品天天狠天天看| 日韩精品一区二区三区| 日产精品99久久久久久| 中文在线а√在线8| 欧美重口另类videos人妖| 手机在线理论片| 欧美成人免费大片| 直接在线观看的三级网址| 久久天天躁日日躁| 免费黄色在线| 久久精品国产综合| 九色porny丨首页在线| 久久黄色av网站| 在线观看美女网站大全免费| 有码中文亚洲精品| 香蕉视频免费在线播放| 中文字幕日韩在线观看| 成年女人的天堂在线| 一区二区亚洲欧洲国产日韩| 成人精品一区二区| 主播福利视频一区| 久久亚洲天堂| 欧美成人免费播放| 国产黄色大片在线观看| 国产69精品久久久久9999| 理论不卡电影大全神| 日韩av免费在线| 国产精品久久久久久久久久齐齐| 国产精品男人的天堂| 亚洲精品伊人| 97netav| 日本成人手机在线| 久久国产精品-国产精品| 国产91一区| 国产精品波多野结衣| 欧美日韩国产高清| 久久视频这里有精品| 久久免费黄色| 手机版av在线| 丁香婷婷综合网| 800av在线播放| 国产精品国产精品国产专区不蜜| 国产免费美女视频| 亚洲国产精品精华液网站| 毛片在线免费视频| 欧美三区在线观看| 性一交一乱一色一视频麻豆| 日韩精品www| 男人天堂久久久| 国内偷自视频区视频综合| 日韩制服诱惑| 高清国产在线一区| 国产亚洲一区二区三区啪| 久久av喷吹av高潮av| 亚洲日本激情| 最新av免费在线观看| 成人av免费在线播放| 91视频免费看片| 婷婷国产在线综合| 91久久精品无码一区二区| 亚洲黄页网在线观看| 91社区在线高清| 97视频在线观看亚洲| 日本午夜精品久久久久| 国产一区高清视频| 天天做天天爱天天爽综合网| 久久av高潮av| 国产乱码精品一区二区三区忘忧草 | 日韩欧美在线第一页| 一区二区三区免费观看视频| 亚洲精品一区久久久久久| 成人在线观看亚洲| 国产精品扒开腿做爽爽爽的视频| 国产+成+人+亚洲欧洲在线| 亚洲国产精品一区二区第一页| 99视频在线精品国自产拍免费观看| a在线观看免费视频| 99精品视频中文字幕| 中日韩一级黄色片| 欧美综合在线视频| 深夜福利在线视频| 欧美日韩第一视频| 巨胸喷奶水www久久久免费动漫| 成人免费观看网站| 国产一区二区三区四区二区| 无码专区aaaaaa免费视频| 国产一区二区h| 中文字幕第69页| 色哟哟在线观看一区二区三区| 国模人体一区二区| 欧美床上激情在线观看| 青娱乐极品盛宴一区二区| 亚洲午夜久久久影院伊人| 快she精品国产999| 国产精品久久久免费观看| 亚洲综合成人在线视频| 老熟妇一区二区三区| 亚洲女人天堂av| 国产高清视频色在线www| av观看久久| 狠狠色丁香久久综合频道 | 麻豆精品一二三| 亚洲av无码一区二区二三区| 粉嫩老牛aⅴ一区二区三区| 乱色精品无码一区二区国产盗| 久久综合伊人77777尤物| 青青青国产精品| 91免费网站视频| 黑人巨大精品欧美一区| 黑人狂躁日本娇小| 欧美精品三级在线观看| 在线中文字幕视频观看| αv一区二区三区| 国产尤物精品| 97人妻精品一区二区三区免费| 亚洲国产精品久久人人爱| 日本高清视频在线| 久久久久久久国产精品| 亚洲成在人线免费观看| 成人一区二区三| 国产精品天干天干在观线| 自拍偷拍第八页| 久久精品91久久久久久再现| 九九99久久精品在免费线bt| 黑人巨茎大战欧美白妇| 国产成人精品在线看| aaa人片在线| 亚洲性生活视频| 四虎国产精品永久在线国在线| 在线播放 亚洲| 岛国av在线一区| 日本午夜视频在线观看| 亚洲视频欧美视频| 日韩国产在线不卡视频| 青青在线免费观看| 久久亚洲春色中文字幕久久久| 免费黄色一级大片| 成年无码av片在线| 福利电影一区| 丝袜制服一区二区三区| 亚洲婷婷综合久久一本伊一区| www.狠狠干| 奇米4444一区二区三区| 999国产精品| 污污免费在线观看| 黄色精品一区二区| 国产免费a∨片在线观看不卡| 成人欧美一区二区三区黑人| 黄色精品免费| 国产精品久久久久久久av| 日韩欧美一级特黄在线播放| 欧亚av在线|