擴(kuò)散語言模型真的會比自回歸好?理論分析結(jié)果可能恰恰相反
本工作來自北京大學(xué)智能學(xué)院賀笛老師課題組與螞蟻集團(tuán)武威團(tuán)隊。賀笛老師在機(jī)器學(xué)習(xí)領(lǐng)域獲得過多項榮譽,包括 ICLR 2023 杰出論文獎與 ICLR 2024 杰出論文獎提名。
擴(kuò)散模型近年來在圖像生成領(lǐng)域取得了令人矚目的成就,其生成圖像的質(zhì)量和多樣性令人驚嘆。這自然引發(fā)了人們的思考:這種強(qiáng)大的生成范式能否遷移到文本領(lǐng)域,挑戰(zhàn)甚至取代目前主流的自回歸語言模型?擴(kuò)散語言模型(Diffusion Language Models)憑借其并行生成多個詞元的潛力,似乎預(yù)示著文本生成領(lǐng)域的一場效率革命。然而,這一前景是否真的如此美好?來自北京大學(xué)和螞蟻集團(tuán)的最新研究表明,答案遠(yuǎn)非簡單的 “是” 或 “否”,在某些關(guān)鍵場景下,結(jié)論甚至可能恰恰相反。

- 論文標(biāo)題:Theoretical Benefit and Limitation of Diffusion Language Model
- 論文鏈接:https://arxiv.org/pdf/2502.09622
擴(kuò)散模型 vs. 自回歸:效率神話面臨拷問
自回歸模型,作為語言生成領(lǐng)域的主流范式,以其逐詞元(token-by-token)的順序生成方式著稱。盡管在生成質(zhì)量上取得了巨大成功,但其固有的串行機(jī)制限制了推理速度,尤其是在處理長序列時。與之相對,擴(kuò)散語言模型,特別是其中的掩碼擴(kuò)散模型(Masked Diffusion Models, MDMs),允許在每個擴(kuò)散步驟中并行采樣多個詞元,這從理論上為提升生成效率提供了可能。
然而,理論上的優(yōu)勢在實踐中似乎遭遇了 “效率悖論”。研究人員觀察到,目前開源的擴(kuò)散語言模型在某些任務(wù)上需要更多的采樣步驟才能達(dá)到與自回歸模型相當(dāng)?shù)臏?zhǔn)確率,導(dǎo)致了比自回歸模型更高的推理成本。這一悖論在實驗中得到了印證。下圖直觀展示了這一現(xiàn)象:在數(shù)學(xué)推理基準(zhǔn)測試 GSM8K(8-shot)上,當(dāng)與同等規(guī)模的自回歸模型 Qwen2.5-7B 對比時,兩款最近發(fā)布的大型掩碼擴(kuò)散模型 Dream-v0-7B 和 LLaDA-8B,在不同的采樣步數(shù)下,其性能和效率均落后于自回歸基線,處于左圖中的第三象限(代表更低效率和更低性能)。
鑒于不同模型可能使用了不同的訓(xùn)練數(shù)據(jù),研究人員意識到這可能對性能評估造成天然偏差。為消除該因素帶來的影響,團(tuán)隊設(shè)計了更加客觀、公平的對比實驗:給定一個預(yù)訓(xùn)練好的擴(kuò)散語言模型,我們強(qiáng)制約束其在推理中采用從左到右的逐詞生成方式,并以這種"偽自回歸式"的解碼性能與效率作為基線,重新進(jìn)行對比分析。理論上,在消除訓(xùn)練數(shù)據(jù)差異的前提下,相對這種偽自回歸式的解碼方式,擴(kuò)散語言模型理應(yīng)在效率與性能之間取得更優(yōu)平衡,表現(xiàn)應(yīng)進(jìn)入第一象限。然而,實驗結(jié)果卻出人意料 —— 即使與這種被約束的模型對比,擴(kuò)散語言模型仍未展現(xiàn)出任何優(yōu)勢,未能同時實現(xiàn)更高的生成效率與更優(yōu)的輸出質(zhì)量。

圖 1:MDMs 在 GSM8K (8-shot) 上的效率和準(zhǔn)確率。(左) MDMs 相對于 Qwen2.5-7B 的表現(xiàn)。(右) MDMs 相對于其自身自回歸式解碼的表現(xiàn)。
這些觀察結(jié)果引出了一個核心問題:“離散擴(kuò)散模型是否真的能提供比自回歸模型更好的權(quán)衡,即在保持高質(zhì)量生成內(nèi)容的同時實現(xiàn)更高的效率?” 這正是這項新研究試圖解答的關(guān)鍵。
北大團(tuán)隊新研究:撥開迷霧,關(guān)鍵在評估指標(biāo)
針對上述疑問,研究團(tuán)隊對此進(jìn)行了深入的理論剖析。他們的研究目標(biāo)是 “對一種廣泛采用的變體 —— 掩碼擴(kuò)散模型(MDM)進(jìn)行嚴(yán)格的理論分析”,以探究觀測到的效率限制是否是其固有的缺陷。
這項研究的核心結(jié)論是,關(guān)于擴(kuò)散模型與自回歸模型優(yōu)劣的 “結(jié)論高度依賴于評估指標(biāo)的選擇”。研究團(tuán)隊采用了兩種互補的評估指標(biāo)來全面衡量 MDM 的性能:
詞元錯誤率(TER):該指標(biāo)量化了詞元級別的準(zhǔn)確性,通常與生成文本的流暢度相關(guān)。在實踐中,困惑度(Perplexity)是衡量語言模型詞元級別錯誤的常用指標(biāo),因此論文中 TER 由困惑度定義。較低的 TER 通常意味著模型能生成更流暢、連貫的文本。
序列錯誤率(SER):該指標(biāo)評估整個序列的正確性,這對于需要邏輯上完全正確的序列的推理任務(wù)(如解決數(shù)學(xué)問題、代碼生成)至關(guān)重要。
研究團(tuán)隊首先分析了擴(kuò)散語言模型以詞元錯誤率(TER)為主要衡量標(biāo)準(zhǔn)時的效率,即評估的重點在于生成文本的流暢度和連貫性。研究團(tuán)隊證明目標(biāo)是接近最優(yōu)的困惑度時,MDM 可以在與序列長度無關(guān)的恒定采樣步數(shù)內(nèi)實現(xiàn)這一目標(biāo)。換而言之,為了達(dá)到理想的困惑度,MDM 所需的采樣步數(shù)并不隨序列長度的增加而增長,而是一個常數(shù)。這與自回歸模型形成了鮮明對比,后者必須執(zhí)行序列長度的次數(shù)才能生成整個序列。因此,在生成長篇流暢文本等任務(wù)中,MDM 具備顯著的效率提升潛力。
然而,當(dāng)將評估的標(biāo)準(zhǔn)從流暢度轉(zhuǎn)向序列級別的完全正確性,即采用序列錯誤率(SER)作為衡量標(biāo)準(zhǔn)時,擴(kuò)散語言模型將不再高效。相較于困惑度,SER 評估的是整個序列的正確性,而非單個詞元,其定義為
,其中
為所有正確序列的集合,因此,SER 也就是擴(kuò)散語言模型生成錯誤序列的概率。SER 特別適用于那些要求邏輯一致性或推理的任務(wù),在這些任務(wù)中,完整正確的思維鏈至關(guān)重要。研究團(tuán)隊證明:當(dāng)目標(biāo)是低序列錯誤率時,在最壞情況下,擴(kuò)散語言模型所需的采樣步數(shù)必須與序列長度線性相關(guān)。然而在相同架構(gòu)下,MDM 的每個采樣步驟通常比自回歸步驟產(chǎn)生更高的計算成本,從而失去了效率優(yōu)勢。
這一定程度上解釋了為何 MDM 在 GSM8K 這類數(shù)學(xué)推理基準(zhǔn)測試中表現(xiàn)不佳(如圖 1 所示)。數(shù)學(xué)推理要求思維鏈條的每一步都完美正確。SER 與 MDM 解決數(shù)學(xué)問題的準(zhǔn)確性密切相關(guān),因為錯誤的思維鏈通常會導(dǎo)致錯誤的答案。因此,MDM 難以在這類數(shù)學(xué)推理任務(wù)上取得效率優(yōu)勢,從而解釋了觀察到的實驗現(xiàn)象。
除了理論分析,研究團(tuán)隊又進(jìn)一步在一些形式語言上驗證了這些理論結(jié)果,如下圖 2 所示。這些實驗結(jié)果再一次證明,當(dāng)考慮詞元級別的錯誤率時,MDM 能夠展現(xiàn)出效率優(yōu)勢,然而當(dāng)使用序列級別錯誤率作為衡量指標(biāo)時,MDM 則不如 AR 模型高效。

圖 2:MDMs 在形式語言上的表現(xiàn)。(上) MDMs 的困惑度與采樣步數(shù)的關(guān)系。(右) MDMs 序列錯誤率與采樣步數(shù)的關(guān)系。
結(jié)論:擴(kuò)散語言模型,何時才是更優(yōu)選?
那么,回到最初的問題:擴(kuò)散語言模型真的會比自回歸模型更好嗎?這項研究給出的答案是:視情況而定,關(guān)鍵在于用什么樣的指標(biāo)去衡量。 基于這項研究的理論分析和實驗結(jié)果,我們可以為實踐者提供以下的指導(dǎo)方針 。
當(dāng)任務(wù)優(yōu)先考慮生成文本的流暢性、高吞吐量,并且能夠容忍一定程度的序列級別不完美時,例如:長篇幅的創(chuàng)意寫作,其中整體的可讀性和連貫性比每一句話的絕對事實準(zhǔn)確性更重要,在這些場景下,擴(kuò)散語言模型能夠展現(xiàn)出效率的優(yōu)勢。然而,當(dāng)任務(wù)對序列級別的準(zhǔn)確性和邏輯正確性有極高要求時,擴(kuò)散語言模型為達(dá)到低 SER 所需的采樣步數(shù)隨序列長度線性增長,這抵消了其潛在的并行效率優(yōu)勢,甚至可能因單步計算成本更高而變得更慢。此時,自回歸模型是更好的選擇。
這項研究為理解 MDM 的比較優(yōu)勢和局限性奠定了首個堅實的理論基礎(chǔ)。當(dāng)然,研究團(tuán)隊也指出了當(dāng)前工作的一些局限性,例如分析主要集中在形式語言上,未來需要將其擴(kuò)展到更復(fù)雜的現(xiàn)代大語言模型;同時,分析主要針對掩碼擴(kuò)散模型,其他類型的擴(kuò)散模型的表現(xiàn)仍有待探索。
總而言之,擴(kuò)散技術(shù)在圖像生成領(lǐng)域的巨大成功,并不意味著其優(yōu)勢可以直接、簡單地平移到語言領(lǐng)域。語言的離散性和序列性帶來了獨特的挑戰(zhàn),需要更細(xì)致和針對性的評估。這項研究以其嚴(yán)謹(jǐn)?shù)睦碚摵颓逦膶嶒灒瑸槲覀兘沂玖藬U(kuò)散語言模型在效率與質(zhì)量權(quán)衡上的復(fù)雜性,為整個領(lǐng)域的發(fā)展注入了重要的理性思考。對于追求特定目標(biāo)的模型部署而言,理解這種權(quán)衡對于成本控制和用戶體驗都至關(guān)重要,錯誤的選擇可能導(dǎo)致用戶體驗不佳或不必要的計算資源浪費。最終,沒有絕對 “最好” 的模型,只有最適合特定任務(wù)和特定評估標(biāo)準(zhǔn)的模型。



































