精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擴散語言模型扛把子LLaDA迎來新版本,數學、代碼、對齊能力均提升

人工智能 新聞
近期,擴散語言模型受到廣泛關注,催生了一系列針對該領域的探索性研究,隨著 Gemini Diffusion 的發布,這一趨勢進一步加速。

本文介紹的工作由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。朱峰琪、王榕甄、聶燊是中國人民大學高瓴人工智能學院的博士生,導師為李崇軒副教授。

該研究基于團隊前期發布的 8B 擴散語言模型 LLaDA(國內率先做到真正可用的擴散語言模型,是后續很多研究的主干基礎模型),探索了擴散語言模型的偏好對齊方法,提出了方差縮減的偏好優化方法 VRPO,并利用 VRPO 對 LLaDA 進行了強化對齊,推出了 LLaDA 1.5。與 LLaDA 相比,LLaDA 1.5 在數學、代碼和對齊任務上取得了一致性的提升。同時,VRPO 為后續擴散語言模型的對齊提供了統一的框架。

近期,擴散語言模型受到廣泛關注,催生了一系列針對該領域的探索性研究,隨著 Gemini Diffusion 的發布,這一趨勢進一步加速。

然而,現有的大型擴散語言模型多采用「預訓練 + 有監督微調」的范式,針對擴散語言模型的強化對齊進行深入研究的工作較為有限。

強化對齊對于大語言模型的指令遵循和通用任務能力至關重要。研究團隊以直接偏好優化(DPO)為切入點,剖析了擴散語言模型在強化對齊時面臨的關鍵問題,提出了方差縮減的偏好優化方法,使擴散語言模型能夠實現穩定的強化對齊訓練,這一原則也為后續擴散語言模型的對齊工作提供了理論基礎和實踐指南。

圖片

  • 論文標題:LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
  • 論文鏈接:https://arxiv.org/abs/2505.19223
  • 項目地址:https://ml-gsai.github.io/LLaDA-1.5-Demo/

性能表現:數學、代碼、對齊任務相比 LLaDA 取得一致性提升

相比于 LLaDA,LLaDA 1.5 在數學、代碼生成、對齊任務上取得了一致性的提升。

圖片

此外,LLaDA 1.5 是當前最具有競爭力的擴散語言模型。與其他擴散語言模型相比,在數學任務(如 GSM8K,Math)上具有競爭性優勢。

圖片

相比于 LLaDA,LLaDA 1.5 在指令遵循能力上的提升顯著:

圖片

上述指令給出了對模型的一系列要求:提出兩種新型補品的名字并包含關鍵詞「brand」,名稱以雙尖括號標注,先逐詞復述請求,再給出答案。相比 LLaDA,LLaDA 1.5 遵循了全部指令。

方法介紹

該研究以直接偏好優化(DPO)為切入點,原始 DPO 損失基于模型對給定偏好數據對的對數似然。對于掩碼擴散語言模型,難以計算精確的對數似然,使用證據下界(ELBO)近似。需要通過對時間步 t 和掩碼數據 y_t 進行雙重采樣進行估計:

圖片

將 ELBO 帶入 DPO 損失的對數似然項,可以得到基于 ELBO 的 DPO 損失估計器:

圖片

其中,紅色部分為偏好估計。

在實際應用中,采用蒙特卡洛方法近似對數似然會引入 DPO 損失的偏差和方差,影響模型的梯度估計,進而導致訓練過程不穩定,甚至影響模型對齊后的最終性能表現。

本研究首先證明了:蒙特卡洛估計引入的偏差和方差,可以被偏好估計器的方差限制;降低偏好估計器的方差可以分解為降低 ELBO 估計的方差,以及提高 π_θ 和 π_ref 的 ELBO 估計之間的相關性。據此,本研究提出并證明了以下方差縮減策略的有效性:

  1. 提高蒙特卡洛估計的采樣預算;提高采樣預算能夠降低 ELBO 估計的方差。
  2. 給定總采樣預算的最優分配策略;在給定總采樣預算 n=n_t×n_(y_t) 下,當采樣預算分配為采樣 n 個時間步、每個時間步采樣一個加噪樣本時,ELBO 估計的方差達到最小。
  3. 對偶采樣策略。通過增加 π_θ 和 π_ref 所使用噪聲樣本之間的相關性,能夠進一步降低梯度估計的方差。具體而言,在 ELBO 估計中,對于 π_θ 和 π_ref,應當共享相同的偏好數據的噪聲樣本和拒絕數據的噪聲樣本。

綜合上述策略,最終得到的方差縮減的偏好優化方法如下右圖。對于每一個偏好數據對,在給定的采樣預算 n 下,采樣 n_t=n 個時間步,對于每個時間步采樣 1 個噪聲樣本,并在 π_θ 和 π_ref 間共享噪聲樣本,以進行高效偏好估計。

圖片

總結與展望

本研究圍繞擴散語言模型的偏好對齊任務,提出了方差縮減的偏好優化方法 VRPO,并從理論分析與實際實驗兩方面系統論證了該方法在有效降低梯度估計方差、提升模型對齊效果上的優越性。基于 VRPO 優化的 LLaDA 1.5 模型,在數學推理、代碼生成、模型對齊等多個任務上均實現了全面且穩定的性能提升,驗證了方法的通用性和有效性。

本研究提出的方差縮減算法 VRPO 主要以 DPO 為分析對象,但所提出的方法具有普適性,可被推廣應用到其他涉及 ELBO 估算或強化對齊的算法中,為擴散語言模型在強化對齊領域構建了統一的理論與方法框架。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-17 11:35:36

LLaDALLM大型語言模型

2025-02-17 12:30:00

2011-05-19 10:09:15

”Qomo Linux

2011-08-01 15:35:51

GlassFishJava 7

2011-09-29 21:12:53

點心桌面

2025-05-27 15:35:02

大模型技術AI

2017-05-10 14:27:29

靜態代碼漏洞安全

2009-05-19 08:51:42

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-06-07 09:26:30

模型數學

2020-11-19 15:02:56

TensorFlow數據機器學習

2015-09-08 11:18:44

動畫窗口用戶界面Windows 10

2024-03-13 11:58:00

自動化數據

2024-08-27 09:35:47

2015-02-05 16:59:36

平安WiFiiOS

2010-02-23 17:44:48

Python 3.0

2009-06-17 09:24:34

學習strutsStruts新版本

2025-02-12 10:17:12

2009-12-31 11:09:36

Ubuntu wine
點贊
收藏

51CTO技術棧公眾號

7777精品伊人久久久大香线蕉完整版 | av一区二区三区免费观看| 国产哺乳奶水91在线播放| 亚洲国产婷婷| 中文精品99久久国产香蕉| 欧美熟妇另类久久久久久多毛| 国产探花在线观看| 国产日韩欧美在线一区| julia一区二区中文久久94| 亚洲免费激情视频| 91超碰成人| 亚洲美女动态图120秒| 国产精品探花在线播放| 自拍视频在线看| 亚洲人午夜精品天堂一二香蕉| 国产一区二区三区高清视频| 一区二区视频播放| 99精品国产在热久久婷婷| 中文字幕日韩欧美| 国产伦精品一区二区三区妓女| av在线亚洲一区| 欧美性精品220| 国产亚洲精品久久久久久久| 成全电影播放在线观看国语| 成人91在线观看| 成人女保姆的销魂服务| 天天爱天天做天天爽| 影音先锋中文字幕一区二区| 久久久国产精彩视频美女艺术照福利| 国产ts丝袜人妖系列视频| 欧美电影在线观看一区| 欧美日韩中文字幕一区二区| 国产日韩一区二区在线| 美女尤物在线视频| 亚洲人成在线播放网站岛国| 日本一区二区三区免费观看| 亚洲av成人无码久久精品老人 | 91视频99| 一区二区三区黄| 日韩高清不卡一区| 日韩免费视频在线观看| 99精品视频99| 亚洲免费激情| 97精品国产91久久久久久| 久久r这里只有精品| 婷婷丁香综合| 日韩视频在线观看免费| 亚洲一二三精品| 国产精品一区二区99| 日韩电影中文字幕一区| 一级黄色片毛片| 在线日韩成人| 日韩免费电影网站| 老女人性生活视频| 一区二区三区视频免费视频观看网站 | 欧美精品在线播放| 色哟哟一一国产精品| 色135综合网| 中文字幕在线成人| 又色又爽的视频| 97偷自拍亚洲综合二区| 日韩视频在线一区| 久久国产高清视频| 女人天堂亚洲aⅴ在线观看| 久久精品国产电影| 永久看片925tv| 午夜天堂精品久久久久| 欧美日韩成人在线视频| 国产亚洲精久久久久久无码77777| 一区二区三区午夜视频| 色综合五月天导航| 国产性xxxx高清| 男人的天堂成人在线| 国产精品1234| 亚洲天堂免费av| 国产二区国产一区在线观看| 国产精品swag| 毛片在线免费| 国产精品二区一区二区aⅴ污介绍| 一区二区三区在线观看www| 国产高清一区二区三区视频 | 国产一级片91| 成人一级福利| 欧美性生活久久| 精品国产午夜福利在线观看| 久久夜色精品国产噜噜av小说| 亚洲精选一区二区| 貂蝉被到爽流白浆在线观看| 亚洲欧美日韩高清在线| 97在线观看视频国产| 欧美特级黄色片| 国产精品99精品久久免费| 精品中文字幕人| 日本在线观看网站| 亚洲成人资源在线| 天堂网在线免费观看| 一区二区三区免费在线看| 亚洲美女免费精品视频在线观看| 美女福利视频网| 亚洲三级视频| 成人免费观看a| 日本黄在线观看| 1024精品合集| 不卡影院一区二区| 免费精品一区二区三区在线观看| 日韩精品久久久久久久玫瑰园| 亚洲а∨天堂久久精品2021| 国产精品红桃| 成人激情视频在线| 久久伊伊香蕉| 亚洲国产成人av网| 亚洲一区二区在线视频观看| 国产福利资源一区| 久久精品国产一区二区三区 | 欧美裸体bbwbbwbbw| 日韩免费高清一区二区| 国产精品7m凸凹视频分类| 78m国产成人精品视频| 国产免费黄色网址| 欧美激情综合在线| 国产精品亚洲a| 98视频精品全部国产| 久久亚洲精品国产亚洲老地址| 国内自拍视频在线播放| 国产盗摄女厕一区二区三区| 亚洲午夜久久久影院伊人| 成人影院入口| 日韩成人在线电影网| 欧美精品一区二区蜜桃| 久久99蜜桃精品| 亚洲免费在线精品一区| 午夜精品久久久久久久久久蜜桃| 亚洲精品一线二线三线| 黑人巨大精品一区二区在线| 麻豆91在线观看| 欧美一区二区三区四区在线观看地址 | 国产精品久久国产精品99gif| 丁香六月色婷婷| 亚洲最新视频在线观看| 小早川怜子一区二区三区| 日韩精品电影| 国产精品免费视频久久久| 欧美日本韩国一区二区| 欧美午夜电影在线| 国产精品无码在线| 99精品国产在热久久| 精品乱码一区二区三区| 蜜臀av在线| 精品国产免费一区二区三区四区| 永久久久久久久| 国产一区欧美二区| 青青草综合视频| 日韩成人在线观看视频| 欧美高清videos高潮hd| 亚洲第一视频在线| 五月综合激情婷婷六月色窝| av免费观看不卡| 日韩亚洲精品在线| 欧美xxxx黑人又粗又长精品| 都市激情亚洲一区| 精品视频在线播放| 亚洲图片欧美日韩| 亚洲欧洲一区二区在线播放| 中文字幕55页| 一区二区蜜桃| 好吊妞www.84com只有这里才有精品 | 情事1991在线| 国产原创av在线| 欧美影院一区二区| 日本一级片免费| 成人免费毛片app| 免费 成 人 黄 色| 国产一区二区三区日韩精品 | 91成人国产综合久久精品| 亚洲丝袜精品丝袜在线| 国产性猛交96| 亚洲欧美日韩国产一区| 亚洲国产精品久久久久婷婷老年| 成人噜噜噜噜| 国产综合在线视频| 国产小视频免费在线网址| 这里只有精品99re| 日韩av一二三区| 久久精品夜夜夜夜久久| 欧美色图校园春色| 国产日韩欧美三级| 91社在线播放| 婷婷综合福利| 成人自拍性视频| 国产传媒在线观看| 色偷偷亚洲男人天堂| www.五月激情| 91精品福利在线| 亚洲国产成人精品综合99| 99re免费视频精品全部| 亚洲综合色在线观看| 国产在线成人| 欧美在线3区| **爰片久久毛片| 国产精品jizz在线观看麻豆| 99在线视频观看| 国产亚洲激情在线| 人妻少妇一区二区三区| 欧美在线你懂的| 日本一本高清视频| 亚洲欧美日韩国产中文在线| 国产精品无码午夜福利| 国产麻豆一精品一av一免费 | 国产午夜精品麻豆| a视频免费在线观看| 欧美日韩中文字幕| 国产第一页第二页| 最新久久zyz资源站| 三上悠亚ssⅰn939无码播放 | 99在线看视频| 成人自拍视频| 国产精品一区二区久久精品| 午夜影视一区二区三区| 欧美激情网友自拍| a免费在线观看| 色妞在线综合亚洲欧美| 日本一二三区在线视频| 亚洲精品97久久| 亚洲国产剧情在线观看| 在线播放/欧美激情| 天天天天天天天干| 色综合天天综合狠狠| 日韩精品一区二区不卡| 亚洲一区二区综合| 色在线观看视频| 亚洲欧美一区二区三区久本道91| 亚洲一级黄色录像| 国产亚洲综合色| 91网站免费视频| 久久久三级国产网站| 中文字幕人妻一区二区| 91麻豆免费视频| 国产成人无码一区二区在线观看| 成人一级视频在线观看| 又大又长粗又爽又黄少妇视频| 国产一区二区视频在线播放| 国产一级免费大片| 国产一区 二区 三区一级| 一级黄色录像在线观看| 久久国产综合精品| 天天做天天干天天操| 极品少妇一区二区| 九九热精品国产| 国产一区二区三区免费看| 日本高清免费在线视频| 国产乱码精品一区二区三| 超碰在线资源站| 国产成人综合在线播放| 日批视频免费看| 9i在线看片成人免费| 亚洲午夜福利在线观看| 国产偷国产偷亚洲高清人白洁| 久久久久无码精品国产sm果冻 | 国产极品久久久久久久久波多结野| 国产99在线|中文| 国产综合色在线观看| 国产欧美久久久久久| 久久久久久爱| 国产精品日韩欧美一区二区| 婷婷成人影院| 亚洲国产欧洲综合997久久| 久久久久av| a级黄色小视频| 性感少妇一区| 国产日韩欧美久久| 国产成人精品三级麻豆| 欲求不满的岳中文字幕| 国产欧美日韩另类一区| 欧美风情第一页| 五月天国产精品| 特级西西444www大胆免费看| 777亚洲妇女| 天天av天天翘| 在线观看国产欧美| 性爱视频在线播放| 国产91精品不卡视频| av久久网站| 成人欧美一区二区| 国产免费av一区二区三区| mm131午夜| 香蕉亚洲视频| 日本黄色一级网站| 久久精品视频在线免费观看| 国产va在线播放| 91久久精品国产91性色tv| 亚洲第一大网站| 中文字幕亚洲欧美日韩2019| 成人高潮aa毛片免费| 国产精品亚洲自拍| 麻豆成人入口| 国产精品无码乱伦| 亚洲欧美日韩视频二区| 日韩精品在线播放视频| 久久精品视频一区二区| 久久久久久天堂| 欧美嫩在线观看| 理论视频在线| 高清视频欧美一级| 超碰国产精品一区二页| 日本黑人久久| 亚洲国产一区二区三区高清 | 欧美专区一区| 欧美午夜精品久久久久免费视| 午夜国产一区| 狠狠操狠狠干视频| 久久蜜臀中文字幕| av电影一区二区三区| 亚久久调教视频| 黑人无套内谢中国美女| 国产人久久人人人人爽| 国产污视频在线看| 日韩一级在线观看| 天天在线视频色| 国产精品久久久久久久app| 国产成人精品亚洲线观看| 日本一本草久p| 激情综合亚洲精品| 一级肉体全黄裸片| 欧美性猛交xxxx乱大交蜜桃| www三级免费| 欧美成人免费播放| 欧美成人xxxx| 亚洲精品成人自拍| 免费看精品久久片| 欧美人与性囗牲恔配| 色婷婷综合久久久中文字幕| 色wwwwww| 午夜精品久久17c| 超碰97久久| 少妇高潮毛片色欲ava片| 粉嫩av一区二区三区粉嫩| 老妇女50岁三级| 日韩丝袜情趣美女图片| 国产精品va在线观看视色 | 成人小视频在线看| 91亚洲精品乱码久久久久久蜜桃 | 2019男人天堂| 在线观看中文字幕不卡| 成人jjav| 成人网中文字幕| 久久精品影视| 国产麻豆剧传媒精品国产| 夜夜揉揉日日人人青青一国产精品| 国产乱码精品一区二三区蜜臂 | 精品国产视频一区二区三区| 884aa四虎影成人精品一区| 国产婷婷视频在线| 91网免费观看| 99精品欧美| 亚洲色成人网站www永久四虎 | 欧美日韩国产免费观看视频| 熟女人妇 成熟妇女系列视频| 国产午夜久久久久| 亚洲专区在线播放| 欧美成年人视频| 超碰在线成人| 国产成人a亚洲精v品无码| 国产亚洲综合在线| 一级黄色大片免费观看| 另类色图亚洲色图| 超碰成人免费| 超碰网在线观看| 亚洲私人黄色宅男| 天天操天天射天天舔| 国产91亚洲精品| 亚洲精品a级片| 一区二区三区免费在线观看视频| 在线一区二区三区四区五区| 二区在线播放| 激情小说网站亚洲综合网| 日本中文字幕一区二区有限公司| 午夜国产福利视频| 亚洲国产91色在线| 欧美与亚洲与日本直播| www国产无套内射com| 97se亚洲国产综合自在线观| 欧美激情一区二区三区免费观看| 蜜月aⅴ免费一区二区三区| 人人网欧美视频| 亚洲精品久久久中文字幕| 亚洲电影中文字幕在线观看| 男同在线观看| 99精彩视频| 日本欧美在线观看| 九九九久久久久| 在线亚洲国产精品网| 一区二区三区国产好| 国产成人综合一区| 一个色在线综合| 成人精品福利| 精品欧美一区二区精品久久| 久久精品国产一区二区| 日本va欧美va国产激情| 欧美www在线| 日韩精品免费|