精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

token危機解決?擴散模型數據潛力3倍于自回歸,重訓480次性能仍攀升

人工智能 新聞
擴散語言模型(DLMs)是超強的數據學習者。

token 危機終于要不存在了嗎?

近日,新加坡國立大學 AI 研究者 Jinjie Ni 及其團隊向著解決 token 危機邁出了關鍵一步。

在當前大語言模型(LLM)的持續發展中,面臨的挑戰之一是可用的高質量訓練文本數據(tokens)即將枯竭,并成為限制模型性能持續提升的關鍵瓶頸。另外,新增的高質量數據來源少,獲取成本高,去重后更加稀缺。因此,當模型規模繼續擴大,所需數據量按 Scaling Laws 成倍增加時,就出現了「優質 token 不夠訓練」的危機。

針對這一現象,該團隊從零開始預訓練了擴散語言模型(DLMs)與自回歸(AR)模型,其中規模最高至 80 億參數、4800 億 tokens、480 個 epoch。

研究有以下三項重要發現:

  • 在 token 數量受限的情況下,DLMs 優于 AR,并且具有超過 3 倍的數據潛力;
  • 一個僅用 10 億 tokens 訓練的 10 億參數 DLM,在 HellaSwag(常識推理基準) 上可達 56%,在 MMLU(綜合多任務語言理解基準) 上可達 33%,無任何技巧、無挑選數據;
  • 未出現性能飽和:重復訓練次數越多,提升越明顯。

此外,團隊還剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的嚴重方法論缺陷 —— 以共同提升開放評審的標準!

Jinjie Ni 在社媒 X 上詳細介紹了其團隊的研究結論、研究方法,接下來我們一一來看。

圖片

結論 1:擴散語言模型(DLMs)是超強的數據學習者。

如上所述,團隊從零開始預訓練了一系列 DLMs,規模最高達 80 億參數、4800 億 tokens。結果提供了有力證據:在普通網頁數據上進行重復訓練時,DLMs 在數據受限場景下無論模型規模如何,都優于自回歸(AR)模型,展現出顯著更高的潛力且未出現性能飽和。

總體而言,DLMs 的最終數據潛力比 AR 模型高出三倍以上。

圖片

結論 2:重復越多,收獲更多。

為了研究 DLM 訓練中 token 的全部潛力,團隊進行了額外實驗:將同一份 10 億 token 的數據集重復訓練 480 個 epoch,總訓練量達到 4800 億 tokens。結果顯示,模型在 HellaSwag 上取得約 56% 的準確率,在 MMLU 上取得約 33%,顯著優于 AR 的約 41% 和約 29%。

令人驚訝的是,即使在如此極端的重復條件下,性能依然未出現飽和,這表明 DLMs 能夠從固定的 10 億 token 語料中提取到遠超預期的有效信息。

圖片

「在驗證集上出現過擬合的模型,在下游任務上的表現卻持續提升。」為什么會這樣呢?

圖片

團隊可視化了多選評測中,真實答案與其他選項的平均負對數似然(NLL),以及它們之間的差值(△NLL)。即使在驗證集上出現「過擬合」后,真實答案與其他選項的 NLL 差距(△NLL)依然持續擴大,這表明盡管驗證損失在上升,模型的底層判別能力仍在不斷提升。這一現象在域內數據和域外數據的訓練中都同樣存在。

圖片

雖然 DLMs 對數據重復具有較強的魯棒性,但在訓練足夠長的 epoch 后,它們同樣會發生過擬合。更大的唯一數據量可以延緩過擬合的出現,而更大的模型規模則會加速過擬合的到來。

圖片

為什么 DLMs 是超強的數據學習者呢?原因有二。

其一,如下圖所示,網頁文本數據并非完全因果結構!雖然用非因果方向建模會導致更高的損失,但它仍然是可行的。這意味著僅用純因果方式來建模網頁數據是一種浪費!借助擴散目標和雙向注意力,DLMs 能夠對數據進行雙向建模,從網頁數據中提取到更多信息。

圖片

其二,DLMs 是「超密集模型」,它們在計算上的超高密度(每個任務需要更多的 FLOPs)直接轉化為更強的智能。

圖片

相比之下,AR 模型更優先考慮計算效率,而非數據潛力。它們的 Transformer 設計(包括教師強制和因果掩碼)最大化 GPU 的使用效率,但限制了建模能力。隨著計算成本下降,數據可得性反而成為關鍵瓶頸 —— 這正是團隊研究 DLMs 的動力所在。

擴散目標要求在有效訓練中,將預訓練數據集中的每個數據點在多個掩碼比例和組合下進行損壞,以便更精確估計期望值。這進一步解釋了為什么數據重復訓練能帶來如此顯著的收益。

圖片

巧合的是,一項同期研究「Diffusion Beats Autoregressive in Data-Constrained Settings」[1] 也探討了類似主題。然而,團隊在細致分析后,揭示了其中存在的若干方法論問題,可能導致結論存在偏差。

圖片

[1] 地址:https://arxiv.org/abs/2507.15857

在 [1] 的所有實驗中,研究者使用了損失函數 (1),但未做出明確的理論解釋。然而,這個損失函數與理論基礎更扎實、被廣泛采用的掩碼擴散語言建模損失 (2) 有顯著差異。從理論上可以證明損失函數 (1) 并不能忠實地表示模型似然,這可能會對其結論造成嚴重影響。

團隊還注意到,[1] 在最新的 arXiv v3 版本中對原始草稿進行了修改,增加了一個線性時間依賴的重新加權項。但仍假設其所有實驗均使用了公式 (1),因為論文中圖 4 (b) 的損失范圍與公式 (1) 的預期表現高度吻合。團隊期待 [1] 的代碼庫(在本文撰寫時仍為空倉庫)以及社區對相關實驗的復現。

圖片

問題來了:驗證集損失是比較 AR 和 DLM 的好指標嗎?簡短來說:當損失函數的形式本身有問題時,當然不是。它們并不代表相同的含義;即使損失函數形式正確,也依然不是好指標。

原因包括如下:

  • AR 測量的是精確的負似然,而 DLM 測量的是一個上界;
  • 更低的損失并不意味著更強的能力,這一點在上文的討論中已有體現。

此外,[1] 報告的 AR 基準測試結果距離最佳水平相差甚遠。換句話說,[1] 實際上是在拿一個尚未訓練到最佳狀態的 AR 檢查點,與一個最佳的擴散模型檢查點進行比較。這是不公平的。

圖片

此外,[1] 在比較 AR 與擴散模型的過擬合趨勢時,為 AR 使用了更大的模型規模和更少的唯一訓練 token 數量。這種設置并不公平,因為更大的模型在訓練數據多樣性不足的情況下,本身就更容易更早出現過擬合。

圖片

最后,[1] 中使用的 scaling law 公式假設驗證集損失不會下降,但這一假設在實際中并不成立,因為過擬合會導致驗證損失上升。這個有缺陷的假設會導致擬合效果不佳,并使基于其預測得出的任何結論產生偏差。

目前,團隊正在用一種瘋狂的設置訓練一個大模型,并在之后發布完整論文。

更多細節內容請參考博客和即將發布的論文。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-14 09:10:00

2024-06-13 20:20:46

2025-07-10 14:54:13

AI模型圖像生成

2021-05-28 12:59:23

數據庫工具技術

2024-04-26 12:51:48

2023-05-24 07:47:23

ChatGPT參數模型

2023-05-26 07:47:41

ChatGPT模型AI

2025-03-25 12:44:24

2010-03-24 09:12:02

IE9性能測試

2025-05-27 15:28:11

模型訓練AI

2025-08-12 09:08:00

2019-12-18 16:17:56

自動駕駛數據人工智能

2025-05-30 15:54:16

模型AI生成

2023-09-04 10:05:01

GPT-4AI模型

2025-02-27 13:45:00

2025-08-04 08:23:00

2024-01-18 10:57:35

AIM模型NLP

2023-10-30 18:58:57

芯片

2024-11-12 13:10:49

2025-03-25 09:04:12

點贊
收藏

51CTO技術棧公眾號

一区二区三区视频在线看| 日本怡春院一区二区| 日韩美女视频一区二区在线观看| 青青在线免费观看| 天天干天天爽天天操| 一本色道久久精品| 色偷偷av一区二区三区乱| 伊人久久久久久久久| 依依综合在线| 亚洲人成网站色在线观看| 国产不卡一区二区在线观看| 销魂美女一区二区| 欧美一区久久| 亚洲精品中文字幕av| av噜噜在线观看| 最新欧美色图| 亚洲精品一二三区| 日本在线观看一区二区三区| 国产三级三级在线观看| 天使萌一区二区三区免费观看| 中文字幕一区二区三区电影| 在线观看亚洲免费视频| 日韩欧国产精品一区综合无码| 亚洲一区二区成人在线观看| 亚洲国产一区二区精品视频 | 中文成人激情娱乐网| 黄网站色欧美视频| mm131午夜| www.黄在线观看| 成人av网站在线观看免费| 国产精品专区h在线观看| 久久精品一二区| 午夜精品久久| 久久av在线看| 天天舔天天操天天干| 日韩精品社区| 亚洲精品久久久久久久久久久| 国产资源中文字幕| 亚洲精品毛片| 欧美三级日本三级少妇99| 免费在线观看毛片网站| 少妇视频一区| 欧美日韩国产一中文字不卡| 欧美精品卡一卡二| 欧美大片黄色| 亚洲精品视频观看| 国产免费xxx| 国产欧美黑人| 亚洲欧美激情视频在线观看一区二区三区| 亚洲乱码一区二区三区三上悠亚| 精华区一区二区三区| 久久综合色播五月| 美女亚洲精品| 国产在线黄色| 国产三区在线成人av| 欧美在线3区| 992tv免费直播在线观看| www激情久久| 日本在线成人一区二区| 番号集在线观看| 国产精品嫩草99a| 永久域名在线精品| 国产精品刘玥久久一区| 亚洲精品成人少妇| 国产精品入口芒果| 最近在线中文字幕| 欧美午夜精品电影| 国产资源中文字幕| 露出调教综合另类| 亚洲免费高清视频| 青青草自拍偷拍| 国产电影一区二区在线观看| 大胆人体色综合| 日韩三级小视频| 久久精品伊人| 国产日韩精品在线播放| www三级免费| 成人高清在线视频| 日本免费高清不卡| 成人在线播放免费观看| 亚洲成av人影院| 成人性做爰aaa片免费看不忠| 成人在线观看免费视频| 日韩一区二区电影网| 精品人妻伦一二三区久| 精品理论电影在线| 欧美精品一本久久男人的天堂| 久久久夜色精品| 老**午夜毛片一区二区三区| 成人精品视频99在线观看免费 | 精品偷拍一区二区三区在线看 | 天天爱天天干天天操| 国产日韩av一区| 黄色一级视频播放| 欧美亚洲日本精品| 777午夜精品视频在线播放| 野战少妇38p| 欧美超碰在线| 97在线看福利| 国产伦一区二区| 91啪亚洲精品| 91看片淫黄大片91| 日韩一区二区三区免费| 精品国产区一区| 国产探花视频在线播放| 伊人狠狠色j香婷婷综合| 国产精品美女久久久久久免费 | 99天天综合性| 波多野结衣激情| 台湾佬成人网| 精品国产1区二区| 国产中文字幕久久| 久久精品道一区二区三区| 92看片淫黄大片看国产片| 免费在线观看一级毛片| 亚洲mv在线观看| 午夜福利123| 日韩成人免费| 琪琪第一精品导航| 男人的天堂a在线| 亚洲欧美日韩久久精品| 欧美第一页浮力影院| 妖精视频一区二区三区免费观看| 欧美激情2020午夜免费观看| 97视频免费在线| 日本一区二区在线不卡| 欧美日韩在线视频一区二区三区| 91精品入口| 美女啪啪无遮挡免费久久网站| 精品国产青草久久久久96| 久久一区二区三区国产精品| 久久99久久久久久| 中文字幕一区二区三区中文字幕| 亚洲视频在线免费观看| 在线观看中文字幕视频| 成人h精品动漫一区二区三区| 日本三日本三级少妇三级66| 亚洲精品一区av| 最新的欧美黄色| 中文人妻熟女乱又乱精品| 久久综合色一综合色88| 国产三区在线视频| 九九在线高清精品视频| 日韩av第一页| 韩日视频在线| 在线精品国精品国产尤物884a | 亚洲丝袜精品丝袜在线| 亚洲美女性囗交| 91麻豆精品国产91久久久平台| 国产精品人成电影| 97视频在线观看网站| 欧洲av一区二区嗯嗯嗯啊| 少妇久久久久久久久久| 日韩国产精品大片| 亚洲欧美日韩在线综合| 欧美黄页在线免费观看| 久久久极品av| www.xxxx国产| 午夜欧美视频在线观看| 9.1成人看片| 老司机午夜精品视频在线观看| 国内精品国语自产拍在线观看| 欧美私密网站| 中文字幕av日韩| 国产毛片毛片毛片毛片毛片| 亚洲激情五月婷婷| 欧美肉大捧一进一出免费视频| 午夜在线视频观看日韩17c| 欧美一区三区二区在线观看| 久久亚洲国产精品尤物| 欧美精品性视频| 午夜影院免费体验区| 欧美综合亚洲图片综合区| 国产三级aaa| 国产精品538一区二区在线| 无码粉嫩虎白一线天在线观看 | 久久久久久亚洲精品美女| 欧美国产中文字幕| 色吊丝在线永久观看最新版本| 日韩欧美a级成人黄色| 香蕉久久久久久久| 成人免费毛片嘿嘿连载视频| 国产免费成人在线| 久久久久蜜桃| 久久99导航| 欧美性生活一级| 97视频人免费观看| 免费高清在线观看| 日韩欧美精品在线| 波多野结衣不卡| 亚洲一区二区三区自拍| 摸摸摸bbb毛毛毛片| 国产成人在线观看| 国产精品亚洲二区在线观看| 欧美aa国产视频| 清纯唯美一区二区三区| 精品一区二区三区在线观看视频 | 免费成人毛片| 午夜精品久久久久久久99热浪潮 | 九九视频直播综合网| 日本人妖在线| 欧美大片拔萝卜| 中国一区二区视频| 精品国产精品三级精品av网址| 国内毛片毛片毛片毛片毛片| 99免费精品视频| 亚洲精品在线网址| 日韩精品电影一区亚洲| 成人免费毛片在线观看| 亚洲国产精品久久久久蝴蝶传媒| 极品日韩久久| 136国产福利精品导航网址应用| 国产精品扒开腿爽爽爽视频| 7777kkk亚洲综合欧美网站| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 视频福利一区| 国产精华一区| av一级久久| 国产精品久久久久久久av大片| h片在线观看视频免费免费| 久久久999精品| 成人亚洲综合天堂| 亚洲女同精品视频| 亚洲av激情无码专区在线播放| 91精品国产91综合久久蜜臀| 伊人免费在线观看| 色欧美88888久久久久久影院| 精品无码久久久久| 一区二区三区在线观看动漫| 99成人在线观看| 国产精品蜜臀在线观看| 在线免费看黄视频| 久久奇米777| av直播在线观看| 99视频一区二区三区| 在线xxxxx| 成人午夜激情影院| 国产麻豆剧传媒精品国产| 国产乱码精品1区2区3区| 色呦色呦色精品| 精品在线观看视频| 在线观看国产一级片| 麻豆精品在线播放| 亚洲精品视频三区| 国内精品第一页| 奇米777在线视频| 国产黄人亚洲片| 日本一区二区免费视频| 成人av资源网站| 麻豆国产精品一区| 国产午夜精品美女毛片视频| 四虎永久免费在线观看| 国产欧美精品国产国产专区| 亚洲欧美va天堂人熟伦| 中文字幕一区在线观看| 在线观看亚洲网站| 亚洲精品成人少妇| 日本在线视频免费观看| 欧美日韩亚洲视频| 中文字幕在线天堂| 91麻豆精品国产91久久久久| 成人激情四射网| 日韩精品在线免费| 成人18在线| 久久久精品国产| sm在线播放| 国产精品久久999| 不卡的国产精品| 国产日韩欧美精品| 亚洲欧洲免费| 一区二区精品免费视频| 亚洲最大黄网| 亚洲中文字幕无码中文字| 久久精品动漫| 波多野结衣网页| 2023国产精品自拍| 亚洲熟女毛茸茸| 亚洲自拍偷拍麻豆| 无码人妻丰满熟妇精品| 3d成人h动漫网站入口| 国产成人自拍一区| 亚洲人午夜色婷婷| 中文字幕伦理免费在线视频| 91精品国产网站| 九七影院97影院理论片久久| 不卡一卡2卡3卡4卡精品在| 久久av免费| 公共露出暴露狂另类av| 亚洲在线一区| 久久久久久久久久一区| jlzzjlzz亚洲日本少妇| 超碰人人人人人人人| 亚洲午夜久久久久久久久电影网 | 国产一区二区三区视频免费| yellow91字幕网在线| 日本一本a高清免费不卡| 久久久精品区| 亚洲精品欧洲精品| 国产亚洲在线| 青娱乐国产精品视频| 久久亚洲综合av| 激情综合五月网| 欧美色视频一区| 天天操天天操天天干| 欧美老少配视频| jizz欧美| 欧美日韩在线精品| 亚洲视频一区| 91视频福利网| 国产精品视频看| 欧美精品亚洲精品日韩精品| 欧美电影影音先锋| 国模吧精品人体gogo| 97色伦亚洲国产| 日韩精品亚洲专区在线观看| 日韩片电影在线免费观看| 99热免费精品在线观看| 日本黄色www| 亚洲丝袜自拍清纯另类| 中文字幕日日夜夜| 亚洲免费视频网站| 蜜桃视频动漫在线播放| 国产91亚洲精品一区二区三区| 91精品成人| 精品久久久99| 中文字幕一区免费在线观看| 无码人妻精品一区二区蜜桃色欲| 亚洲国产精品yw在线观看| av激情在线| 亚洲自拍在线观看| 亚洲最新av| 亚洲AV无码久久精品国产一区| 国产精品国产精品国产专区不片 | 日韩精品一区二区三区视频播放| 拍真实国产伦偷精品| 国产精品一区专区欧美日韩| 国产探花在线精品一区二区| 欧美老熟妇喷水| 久久综合九色欧美综合狠狠| 国产无遮挡aaa片爽爽| 日韩欧美国产精品一区| 免费网站在线观看人| 97在线中文字幕| 欧美日韩一视频区二区| 日批视频免费看| 亚洲国产另类av| 天天干视频在线观看| 97在线日本国产| 美女久久99| 日本激情综合网| 国产精品国产自产拍高清av王其| 一级片在线观看视频| 久久中国妇女中文字幕| 亚洲一区二区电影| 成人性生活视频免费看| 91麻豆免费观看| 久久久999久久久| 日韩中文字幕视频在线观看| 99精品美女视频在线观看热舞| 先锋影音男人资源| 成人精品一区二区三区四区 | 欧美精品123区| 最新日本在线观看| 国产一区二区不卡视频| 久久久成人网| 中文字幕资源站| 日韩三级精品电影久久久| aa视频在线观看| 日本不卡在线播放| 国产精品自产自拍| 国产小视频在线观看免费| 亚洲精品视频在线观看视频| 成人在线免费电影网站| 欧美日韩亚洲国产成人| 成人免费av在线| 中文字幕免费播放| 九九久久久久99精品| 西野翔中文久久精品国产| 欧美成人三级在线播放| 亚洲福利视频三区| 国产系列电影在线播放网址| 亚洲在线www| 午夜一区二区三区不卡视频| 免费精品在线视频| 亚洲成人教育av| 国产一区影院| 波多野结衣综合网| 中文欧美字幕免费| 男人天堂av网| 国产中文字幕日韩| 国产日韩亚洲| 久久久久久久麻豆| 亚洲精品在线91| 亚洲精品不卡在线观看| 看欧美ab黄色大片视频免费| 一区二区成人在线视频| sese在线视频| 国产一区二区高清不卡| 加勒比av一区二区| 国产精品久久久久久久久久精爆|