精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從掩碼生成到「再掩碼」訓練:RemeDi讓擴散語言模型學會自我糾正與反思

人工智能 新聞
這篇文章介紹了由西湖大學 MAPLE 實驗室推出的,具有再掩碼反思機制的擴散語言模型,RemeDi。

近期,擴散語言模型備受矚目,提供了一種不同于自回歸模型的文本生成解決方案。為使模型能夠在生成過程中持續修正與優化中間結果,西湖大學 MAPLE 實驗室齊國君教授團隊成功訓練了具有「再掩碼」能力的擴散語言模型(Remasking-enabled Diffusion Language Model, RemeDi 9B)。在擴散去噪的多步過程中,通過進行再掩碼 SFT 和 RL 訓練,為每個 token 輸出一個去掩碼置信度,RemeDi 能夠從序列中已經生成的內容中識別無法確定的位置進行再掩碼(remask),從而修正錯誤內容并提升文本質量,在各方面都超越了現有的擴散語言模型。該模型還具有可變長生成(variable-length generation)能力,打破了現有中大規模擴散語言模型僅支持定長生成的限制,提高了模式能力的靈活性。

  • 論文地址:https://arxiv.org/abs/2509.23653
  • 代碼與模型地址:https://github.com/maple-research-lab/RemeDi

背景

擴散語言模型已成為自回歸語言模型的有力替代方案。這一類方法首先定義了一個將文本逐步破壞為噪聲的前向過程,然后讓模型學習從噪聲中恢復出干凈文本的逆向過程。在這一類方法中,當前最主流的是基于掩碼的擴散語言模型。該方案要求模型在訓練中學習恢復被掩碼的 token,而已經被恢復的 token 則在之后的生成步驟中保持不變,直到生成結束。這其中蘊含了一則假設:每一步中預測的 token 都必然是正確的,無需修正,直接可以當作最后的生成內容。這一假設顯然過于理想 —— 生成過程中,模型不可避免地會產生預測錯誤,而我們應當賦予模型通過自我反思發現并修正這些錯誤的能力。

為解決這一問題,提出一種面向擴散語言模型的自我反思式生成范式 —— 再掩碼(remask),并基于這一范式訓練了具有「再掩碼」能力的擴散語言模型 RemeDi。如圖所示,RemeDi 具備發現錯誤 token,并通過再掩碼將其修正的能力:模型首先生成了 “left”,但隨后在生成完整句子的語義表示時,發現 “left for the pies” 這一表述與實際含義不符,因此,將 “left” 一詞再掩碼,修改為更合適的 “used”。可以看出,通過再掩碼,模型能利用在后續步驟中生成的上下文信息,識別較早步驟中存在的錯誤,將其改正,并基于更豐富的上下文信息進行更精確的預測。

用置信度識別「再掩碼」目標

為了讓 RemeDi 能夠通過再掩碼修改已經生成的文本內容,一個核心的挑戰是讓模型能夠找到需要修改的 token,執行再掩碼操作。為此,我們對網絡結構進行了修改,讓其在預測序列中每個 token 輸出分布的同時,能夠為每個 token 額外預測一個置信度分數。整個模型采用了一種雙流協同的模型結構:

  • TPS(Token Prediction Stream):負責對掩碼位置給出候選 token 分布 ,類似常規的擴散語言模型;
  • UPS(Unmasking Policy Stream):為序列每一個位置輸出一個置信度分數,表示模型在這一步輸出時,該位置上結果的確定度。分數高即說明模型認為,這一步的結果有更大的概率是正確的,無需再被掩碼。與此同時,得分較低的位置就應當仍然保持掩碼狀態,或是被再掩碼,直到模型能依賴更多上下文做出更準確的預測。

基于這一模型結構,RemeDi 按如下方式逐步執行去噪推理步驟:以上一步的結果 作為輸入,UPS 模塊首先會為序列中每一個位置預測 ,決定哪些位置不再需要被掩碼。然后,對于那些不需要掩碼的位置,如果輸入本身就已經不是掩碼 token,我們會直接保留輸入 token 值;否則,我們會基于 TPS 輸出的 采樣該位置的輸出 token。與 “生成即固定” 的傳統掩碼擴散生成范式不同,RemeDi 在每一步都會依賴輸出的置信度決定需要 / 不需要掩碼的部分。因此,模型有可能對已經生成的 token 預測出較低的置信度,將其「再掩碼」,使其后續可以依據更充分的上下文重寫,使推理過程具備 “邊寫邊改” 的能力。

此外,在語言生成任務中,許多場景下的輸出并非固定長度。如果模型只能在固定長度下生成,將導致資源浪費或生成結果被壓縮、截斷。因此,使擴散語言模型具備靈活的不定長生成能力 (variable-length generation)是必要的。在 RemeDi 中,我們采用分塊自回歸生成的方法實現這一點:模型每次會通過一個完整的反向擴散過程生成一段長為 L=32 的序列。完成后,如果該序列中沒有生成結束符,則將已生成的這一段序列拼接在上下文中,繼續往后生成下一段長為 L=32 的序列,如此重復直到生成結束符為止。與自回歸模型類似,我們采用分塊因果注意力掩碼機制,確保在生成時,每個 token 能看到自己所在的 block 內的其他 token,和之前已生成 block 內的 token,而無法看到未來將要生成的 block。

在實驗中,我們基于 LLaDA 的權重繼續訓練,將其改造成一個具有不定長生成能力的分塊擴散模型。上面表 4 中的 baseline 模型即展示了不定長生成模型在經過再掩碼訓練前的性能。

兩階段訓練,賦予「再掩碼」能力

1.Remask SFT(監督微調階段)

傳統的掩碼擴散語言模型通常通過在輸入序列上隨機掩碼進行有監督微調(SFT)。與之不同的是,RemeDi 在反向擴散過程中還需要能夠找到潛在的不正確 token 并再掩碼。我們在 SFT 過程中將這類不正確 token 視為除掩碼 token 之后的第二類噪聲。因此,在 SFT 階段,我們不僅要訓練模型從掩碼 token 恢復原文本的能力,同時也需要訓練識別那些需要再掩碼的不正確 token。

我們從干凈文本 引入兩類噪聲構造訓練樣本 :首先,隨機采樣一個擴散時間 ,并設定對應的隨機掩碼比率 以及不正確 token 的比率 。我們以比例 隨機掩碼一部分 token;接著,在剩余未被掩碼的位置中,以比例 采樣一個子集,并把其中的每個 token 隨機替換為一個其他 token,用以模擬反向擴散過程中可能出現的不正確 token。

由于在反向擴散過程中,噪聲水平(定義為 mask token 的數量)應當單調遞減。由于在 SFT 設計中,長度為 L 的輸入序列中,所有不正確 token 都必須被重新掩碼,因此需要滿足以下不等式約束:

以確保輸出中掩碼位置的數量單調減少。若該不等式不成立,則在下一步重新掩碼所有不正確 token 會增加總的掩碼數量,從而違反擴散過程中掩碼比例應逐步減少的基本原則。

基于上述約束,我們選擇噪聲調度為 ,以及 ,其中 r 為常數。在實驗中我們設定 r=0.1,此時不難驗證在 區間上,上述不等式總是成立。

在實際訓練過程中,除了常規的 token 預測損失外,我們還需要在所有 token 位置上使用二元交叉熵(BCE)目標函數監督模型預測的 。我們按以下規則構造對應的訓練標簽 y:

  • 掩碼 tokens ,即 。此類 token 標簽為 y=1,表示該 token 應保持不被掩碼;
  • 可見但錯誤的 tokens 即 。此類 token 標簽為 y=0,表示該 token 應被掩碼;
  • 可見且正確的 tokens,即 。對這一類 token,我們會賦予軟標簽 ,即模型預測出對應真值 的概率。該概率越高,說明預測出真值的可能性越大,因此該 token 更不應該被掩碼。

整個再掩碼微調算法流程如下圖:

2.Remask RL(強化學習階段)

在完成 Remask SFT 訓練后,我們進一步通過基于結果的強化學習對模型進行微調。根據實驗室先前的研究,反向擴散過程中的每一步中間結果都可以視為大模型的一個「思考」步驟,而基于結果的強化學習可以優化整個生成軌跡,提升模型生成正確最終答案的概率。這種面向擴散語言模型的大模型推理范式稱為擴散式「發散思維鏈」,在機器之心的往期報道中已有詳細闡述。

在具備「再掩碼」能力的 RemeDi 模型中,這一擴散式「發散思維鏈」同樣也包含了 N 個去噪步驟。對于時刻的第 n 步,我們將從 生成 的去噪過程拆解為兩部分策略:

1)去掩碼策略:UPS 為每個 token 位置生成一個置信度分數 ,表示模型多大程度上確信該位置上的 token 是正確的(若已去掩碼)或可預測的(若仍為掩碼)。在推理時,我們根據該置信度對所有 token 排序,并優先為置信度高的位置去掩碼。在 RL 訓練中,我們基于 Plackett–Luce 模型構造解掩碼策略:根據 無放回地順序采樣該步驟的去掩碼位置集合  。這一去掩碼位置集合的采樣概率為:

2)Token 預測策略:對于包含在去掩碼位置集合 中的每一個位置,如果 ,則模型會依據 采樣預測 token 值;否則,該位置 token 值保持輸入不變。這一步中,給定和 采樣的概率為:

綜合上述兩個策略,在一個去噪步驟中,基于上一步結果 采樣 的最終概率可建模為:

該策略可用于基于結果的強化學習,鼓勵所有能夠得到正確答案的完整軌跡

實驗結果

在同規模與相近計算預算下,RemeDi 在數學推理、代碼生成與通用問答三類任務上均取得穩定提升。其中,僅采用 Remask SFT 帶來顯著增益;在此基礎上加入 Remask RL,多數基準再獲得進一步提升。

我們在不同類型的任務上對再掩碼次數進行了統計,可以看出:對輸出約束更強的任務(如代碼生成)會更頻繁觸發再掩碼。

而具體的生成示例也表明,通過再掩碼機制,RemeDi 可以實現糾錯、插入、刪除等多種文本修改手段。

總結

這篇文章介紹了由西湖大學 MAPLE 實驗室推出的,具有再掩碼反思機制的擴散語言模型,RemeDi。基于額外的置信度預測,RemeDi 能夠識別生成過程中的錯誤,并通過「再掩碼」機制重新預測,從而做到生成過程中的自我反思與優化。針對「再掩碼」機制設計的有監督訓練與強化學習算法確保了這一機制的有效性。實驗結果表明 RemeDi 在數學推理、代碼生成、通用知識問答等多個任務上都取得了超越其他擴散語言模型的性能。這些結果說明「再掩碼」能有效提升擴散語言模型的文本生成質量,值得進一步探討。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-14 09:00:00

模型訓練數據

2021-12-17 10:09:47

編碼器語言模型DeepMind

2024-12-05 13:00:00

2025-03-24 09:35:00

2025-06-05 11:52:27

U-Net擴散模型掩碼

2025-11-06 08:45:00

AI語言模型算法

2025-10-30 01:55:00

2025-07-15 08:50:00

AI模型訓練

2024-09-18 09:50:00

大模型AI

2013-07-10 10:14:07

子網掩碼OSPF

2025-02-17 12:30:00

2025-04-23 09:44:54

2022-12-19 14:53:07

模型訓練

2025-04-11 00:16:00

模態編碼器MAECLIP

2025-03-17 11:35:36

LLaDALLM大型語言模型

2023-09-13 10:41:24

子網掩碼網絡

2024-09-06 13:31:31

2025-07-28 07:00:00

2024-09-27 12:20:18

2023-06-24 19:59:40

點贊
收藏

51CTO技術棧公眾號

青青视频在线观| 久久精品第一页| 亚洲成人激情社区| 久久精品视频免费| 国产精品人人做人人爽| 视频国产一区二区| 日本一区二区三区电影免费观看| 亚洲一区中文日韩| 欧美日韩喷水| 91精品国产乱码久久| 天天综合网91| 精品国产一区二区三区四区四| 91视频 -- 69xx| 1769在线观看| 大桥未久av一区二区三区中文| 欧美一区二区影院| 日本爱爱小视频| 盗摄系列偷拍视频精品tp| 91高清在线观看| 日韩中文字幕亚洲精品欧美| 亚洲色偷精品一区二区三区| 另类的小说在线视频另类成人小视频在线 | 国产精品suv一区二区69| 欧美**vk| 精品国内片67194| 三级a在线观看| 丁香花在线电影小说观看| 国产欧美综合在线观看第十页 | 精品自拍偷拍| 9191国产精品| 欧美少妇性生活视频| 日本天码aⅴ片在线电影网站| 久久久99久久| 狠狠色伊人亚洲综合网站色| 国产精品伦理一区| 视频在线在亚洲| 国产综合在线看| 免费成人深夜夜行网站| 久草在线成人| 亚洲精品www久久久| 爽爽爽在线观看| 成人国产精选| 欧美日韩中文字幕综合视频| av一区二区三区免费观看| 美女免费久久| 欧美国产日韩精品免费观看| 国产欧美日韩伦理| 国产草草影院ccyycom| 美女mm1313爽爽久久久蜜臀| 国产成人精品免高潮费视频| 亚洲精品www久久久久久| 激情久久久久久| 欧美成人免费网| 午夜国产福利视频| 久久精品国产www456c0m| 亚洲欧洲午夜一线一品| 中文字幕乱码一区| 成人台湾亚洲精品一区二区| 日韩视频在线永久播放| 久久精品视频在线观看免费| 欧美aaaaaaaa| 欧美日韩国产综合草草| 九九九在线观看视频| 久久毛片亚洲| 色狠狠色噜噜噜综合网| 欧美女人性生活视频| 小h片在线观看| 精品国产鲁一鲁一区二区张丽| 91成人综合网| 久久青青色综合| 亚洲一二三专区| 女人被男人躁得好爽免费视频| 四虎亚洲精品| 亚洲妇女屁股眼交7| 99久久久精品视频| √8天堂资源地址中文在线| 一区二区三区在线视频观看58| 超碰超碰超碰超碰超碰| 黄污视频在线观看| 五月婷婷综合激情| 欧美成人精品欧美一级乱| 少妇一区视频| 欧美日韩午夜影院| 亚洲日本黄色片| 亚洲1区在线| 亚洲国产91色在线| 无码国产69精品久久久久同性| 国产在线观看91一区二区三区| 亚洲视频视频在线| 日本不卡一二区| 精品动漫av| 日本a级片电影一区二区| 中文字幕人妻色偷偷久久| 激情五月婷婷综合| 国产日韩欧美综合精品| 男人的天堂av高清在线| 中文字幕av在线一区二区三区| 一区二区三区日韩视频| 国模雨婷捆绑高清在线| 色哟哟一区二区三区| 国内外成人免费在线视频| 久久gogo国模啪啪裸体| 日韩成人免费视频| 国产一区第一页| 国产一区日韩欧美| 日本精品久久久久影院| 国产手机精品视频| 99久久久精品| 在线看无码的免费网站| a级片在线免费| 欧美性猛交xxxxxx富婆| 亚洲欧美日韩中文字幕在线观看| 一区二区小说| 欧美国产日韩视频| 中文字幕乱码人妻二区三区| 大陆成人av片| 尤物一区二区三区| 少妇淫片在线影院| 欧美一级二级在线观看| 免费看污片网站| 黄色另类av| 国产有码在线一区二区视频| 偷拍精品一区二区三区| 亚洲视频一二区| 国产偷人视频免费| 粉嫩一区二区三区四区公司1| 国产亚洲欧洲高清| 日韩精品一区三区| 国产麻豆精品视频| 亚洲精品乱码视频| 日韩伦理在线| 精品国产乱子伦一区| 女性裸体视频网站| 久久人人超碰| 国语精品免费视频| 在线h片观看| 欧美精品自拍偷拍| 91精品国自产在线| 国产美女高潮在线| 欧美一区二区视频观看视频 | 一区二区三区精彩视频| 久久久综合精品| 极品粉嫩国产18尤物| 国产精品**亚洲精品| 中文字幕视频一区二区在线有码| 91美女免费看| 久久人人超碰| 狠狠色狠狠色综合人人| 在线中文字幕第一页| 欧美日韩免费高清一区色橹橹| 成人性生交大免费看| 亚洲免费激情| 国产精品日韩欧美一区二区| 肉肉视频在线观看| 欧美一级片免费看| 69夜色精品国产69乱| 韩国三级电影一区二区| 日日骚一区二区网站| 欧美成人ⅴideosxxxxx| 亚洲九九九在线观看| 国产无套丰满白嫩对白| 96av麻豆蜜桃一区二区| 波多野结衣乳巨码无在线| 欧美电影在线观看完整版| 性色av一区二区三区| 欧美 日韩 国产 在线| 亚洲午夜激情网站| 午夜男人的天堂| 国产精品毛片| 欧美中日韩一区二区三区| 色综合一本到久久亚洲91| 亚洲人成亚洲人成在线观看| а中文在线天堂| 国产精品看片你懂得| 中文字幕中文在线| 中文字幕一区二区三区欧美日韩| 69堂成人精品视频免费| 国产丝袜在线播放| 日韩高清av在线| 久久久久久久亚洲| 中文字幕日韩一区| 国产又黄又嫩又滑又白| 一区二区三区高清视频在线观看| 免费在线观看91| 国产精品久久亚洲不卡| 久久久精品日本| 精品人妻av一区二区三区| 天天综合日日夜夜精品| 成人国产精品久久久网站| 免费人成在线不卡| 妺妺窝人体色www看人体| 丝袜久久网站| 国产日韩欧美电影在线观看| 日本乱理伦在线| 亚洲女人天堂成人av在线| 中文字幕av片| 亚洲大片在线观看| 国产aaaaaaaaa| 国产成人免费视频一区| 97xxxxx| 一级欧洲+日本+国产| 国产精品中出一区二区三区| 欧美暴力调教| 欧美激情按摩在线| 蜜桃视频在线观看网站| 欧美一区午夜精品| www.com国产| 亚洲少妇屁股交4| 在线 丝袜 欧美 日韩 制服| 久久成人麻豆午夜电影| 日韩精品―中文字幕| 99九九热只有国产精品| 国产在线精品一区| 日韩毛片免费看| 91av在线视频观看| 91精品久久| 亚洲石原莉奈一区二区在线观看| a级片免费观看| 欧美亚洲动漫另类| 国产午夜精品无码一区二区| 国产精品久久久久国产精品日日| 波多野结衣视频播放| 国产一区二区在线电影| 乱子伦视频在线看| 亚洲黄色视屏| 黄色成人在线免费观看| 91亚洲国产成人久久精品| 麻豆一区区三区四区产品精品蜜桃| 欧美中文高清| 国产日韩欧美综合| 日本精品裸体写真集在线观看| 97视频com| 色呦呦网站在线观看| 久久精品久久精品亚洲人| 全色精品综合影院| 亚洲成人av资源网| 午夜精品久久久久久久96蜜桃 | 日韩av在线第一页| 欧美暴力喷水在线| 宅男av一区二区三区| 精品国产成人| 久久精品二区| 日韩手机在线| 韩国成人一区| 成人性生交大片免费看96| 亚洲精品欧美日韩专区| 成人国产精品久久| 91精品在线观| gogo大尺度成人免费视频| 国产精品美乳在线观看| 成人免费直播| 青草成人免费视频| 中老年在线免费视频| 欧美一级大片视频| 自拍一区在线观看| 国产91精品青草社区| 欧美aa一级| 国产69久久精品成人| 中文字幕 在线观看| 91精品国产99| 成人性生交大片免费观看网站| 欧美亚洲在线视频| 天堂√中文最新版在线| 人九九综合九九宗合| 丝袜美腿一区| 国产精品视频在线观看| 福利一区二区三区视频在线观看| 国产精品人人做人人爽| 黄色日韩网站| 91九色露脸| 成人台湾亚洲精品一区二区 | 久久资源综合| 九色91国产| 国产videos久久| 色视频一区二区三区| 欧美大人香蕉在线| 国产女人18毛片| 亚洲精品综合| 又色又爽又高潮免费视频国产| 蜜臀a∨国产成人精品| 欧美丝袜在线观看| 国产成人综合在线| 亚洲熟女一区二区| 中文字幕va一区二区三区| 97在线观看免费高| 午夜精品免费在线观看| 无码人妻丰满熟妇区五十路| 欧美精品自拍偷拍动漫精品| www.四虎在线观看| 日韩第一页在线| 91电影在线播放| 色综合久久久888| 三级在线看中文字幕完整版| 国产精品久久久久久久久久三级| 亚洲精品一区av| 国产九色精品| 欧美天天综合| 国产精品久久久久久久乖乖| 麻豆久久婷婷| 色18美女社区| 91在线精品一区二区三区| 亚洲综合图片一区| 亚洲午夜日本在线观看| 中文字幕av第一页| 精品欧美乱码久久久久久1区2区| 欧美挠脚心网站| 美女精品视频一区| 性感美女一区二区在线观看| 91成人理论电影| 国产一区二区三区网| 国产在线观看欧美| 男女激情视频一区| 亚洲午夜久久久久久久久| 中文子幕无线码一区tr| 精品在线视频免费观看| 欧美色图第一页| 污污视频在线观看网站| 久久影院在线观看| 欧美电影免费观看| 成人在线观看av| 91亚洲自偷观看高清| 国产精品沙发午睡系列| 国产麻豆午夜三级精品| 野花社区视频在线观看| 亚洲香蕉伊在人在线观| 中文字幕在线视频免费| 亚洲精品国产欧美| 丝袜美腿av在线| 国产在线观看不卡| 国产精品美女久久久久久不卡| 成年人看的毛片| 国产一本一道久久香蕉| 国产精品理论在线| 色老汉一区二区三区| 深夜视频在线免费| 97视频com| 国产精品久久久网站| 国产一二三四区在线观看| 另类欧美日韩国产在线| 日本成人免费视频| 偷拍亚洲欧洲综合| 性一交一乱一色一视频麻豆| 久久精品中文字幕| 精品176极品一区| 日韩经典在线视频| 久久久久国产精品午夜一区| 黄色a一级视频| 欧美视频中文在线看| 色呦呦中文字幕| 午夜精品三级视频福利| 99精品国产高清一区二区麻豆| 亚洲精品偷拍视频| 国产一区二区三区免费看| 亚洲综合图片一区| 欧美疯狂性受xxxxx喷水图片| 自拍视频在线网| 国产精品亚洲美女av网站| 色综合五月天| 可以看污的网站| 亚洲日本乱码在线观看| 国产毛片在线视频| 欧美乱大交做爰xxxⅹ性3| 一本色道69色精品综合久久| 国产日韩欧美大片| 成人看片黄a免费看在线| 国产无码精品一区二区| 亚洲精品wwww| 日韩在线影院| 亚洲激情一区二区三区| 九九视频精品免费| 免费在线观看h片| 精品电影一区二区| 黄色在线观看www| 日韩免费一区二区三区| 蜜乳av一区二区| 精品97人妻无码中文永久在线| 337p日本欧洲亚洲大胆精品| 亚洲天堂av影院| 日韩一区国产在线观看| 久久精品国产色蜜蜜麻豆| 尤物在线免费视频| 精品国产乱码久久久久久图片| 国内激情视频在线观看| 欧美一区二区三区成人久久片| 老司机一区二区| 国产一级生活片| 亚洲欧美精品中文字幕在线| 日韩一级视频| 日本中文字幕亚洲| 久久久精品人体av艺术| 91福利在线观看视频| 欧美精品国产精品日韩精品| 亚洲调教一区| 不卡的在线视频| 午夜精品久久久久久久99水蜜桃 | 亚洲欧美在线磁力| 伊人国产精品| 男人添女人下面高潮视频| 国产精品沙发午睡系列990531| 国产成人三级一区二区在线观看一 |