微信、清華連續(xù)自回歸模型CALM,新范式實(shí)現(xiàn)從「離散詞元」到「連續(xù)向量」轉(zhuǎn)變
眾所周知,大型語言模型(LLM)的根本運(yùn)作方式是預(yù)測下一個 token(詞元),能夠保證生成的連貫性和邏輯性,但這既是 LLM 強(qiáng)大能力的「靈魂」所在,也是其枷鎖,將導(dǎo)致高昂的計算成本和響應(yīng)延遲。
可以說,業(yè)界「苦」LLM 效率久矣,為了解決這一瓶頸,研究人員進(jìn)行了多種嘗試。
其實(shí)從根本上分析,大型語言模型(LLM)的效率是受限于其逐個詞元生成的順序過程。那如果 LLM 預(yù)測的不再是「下一個詞元」,而是「若干個詞元」的話,是不是會帶來不一樣的效果?
為此,騰訊微信 AI 聯(lián)合清華大學(xué)在新發(fā)布論文中提出了一種新方法 —— 連續(xù)自回歸語言模型(CALM),模型不再預(yù)測下一個詞元,而是預(yù)測下一個連續(xù)向量。
具體來看,CALM 使用高保真自編碼器將 K 個詞元壓縮成一個連續(xù)向量,并能以超過 99.9% 的準(zhǔn)確率從中重構(gòu)原始詞元,將語言建模為一系列連續(xù)向量,而非離散詞元,從而將生成步驟的數(shù)量減少了 K 倍。
從效果上來看,這種方法顯著改善性能與計算成本之間的權(quán)衡,在更低的計算成本下,性能可以與強(qiáng)大的離散基線模型相媲美。更重要的是,這是一種新的范式,為構(gòu)建超高效語言模型提供了一種強(qiáng)大且可擴(kuò)展的途徑。

- 論文鏈接:https://arxiv.org/pdf/2510.27688
而論文一經(jīng)發(fā)布,就引起了業(yè)界熱議。
有網(wǎng)友認(rèn)為,「這可能是人工智能領(lǐng)域的下一個重大范式轉(zhuǎn)變」「如果這種模型能夠大規(guī)模應(yīng)用,那么現(xiàn)有的所有語言模型都將過時。」

離散詞元:LLM 的效率瓶頸
大語言模型(LLMs)的成功與其高昂的計算成本相伴相生。作者認(rèn)為,其效率問題的根源,在于當(dāng)前所有模型都遵循的一個基礎(chǔ)范式:在離散的詞元(token)序列上進(jìn)行自回歸預(yù)測。問題的關(guān)鍵并非自回歸機(jī)制本身,而在于離散詞元的內(nèi)在局限性。這一局限性體現(xiàn)在兩個層面:
- 首先,離散詞元的信息密度極低:以一個 32K 大小的詞表為例,每個詞元所承載的信息量僅為 15 比特 (log2 詞表大小)。即使模型擁有強(qiáng)大的推理和表征能力,它在每一步中也只能產(chǎn)出一個信息量極低的單元,這構(gòu)成了效率的直接瓶頸。
- 其次,該信息密度難以擴(kuò)展:若要讓離散詞元承載更豐富的語義(如短語),詞表規(guī)模將指數(shù)級增長,使得模型在計算上幾乎不可行。離散表示的本質(zhì),為單步生成的信息吞吐量設(shè)置了上限。
這揭示了一個根本性的矛盾:模型強(qiáng)大的表征能力,與預(yù)測任務(wù)的過細(xì)粒度之間,形成了「強(qiáng)模型、弱任務(wù)」的不匹配。我們擁有了參數(shù)規(guī)模巨大的模型,其能力卻被束縛在一個低效、冗余的生成框架之中。
CALM:從離散詞元到連續(xù)向量
CALM 的核心思想是將語言建模的基礎(chǔ)任務(wù)從預(yù)測離散的詞元,轉(zhuǎn)向預(yù)測連續(xù)的向量。這一范式轉(zhuǎn)移的可行性基于一個高保真度的自編碼器(Autoencoder)。它能將一個由 K 個詞元組成的文本塊壓縮為一個稠密的連續(xù)向量,并能以超過 99.9% 的準(zhǔn)確率從該向量中重建原始詞元。
因此,語言模型只需預(yù)測代表下一個文本塊的連續(xù)向量,即可通過自編碼器還原回 K 個詞元,從而將自回歸生成的總步數(shù)減少為原來的 1/K。

然而,從離散到連續(xù)的轉(zhuǎn)變,也讓一些傳統(tǒng)方法失效,帶來了一系列技術(shù)挑戰(zhàn):
- 向量表示:如何設(shè)計自編碼器,以產(chǎn)出既能無損重建、又平滑魯棒的向量表示,以供下游模型學(xué)習(xí)?
- 模型訓(xùn)練:向量空間是無限且不可數(shù)的,無法直接計算概率分布。如何訓(xùn)練模型來進(jìn)行向量預(yù)測?
- 性能評估:在無法計算概率的情況下,困惑度不再可用。如何準(zhǔn)確地評估模型性能?
- 可控生成:溫度采樣等控制生成多樣性的技術(shù)依賴于對輸出概率的顯式調(diào)整。對黑盒采樣的框架,如何實(shí)現(xiàn)類似的控制?
圍繞這些挑戰(zhàn),作者建立了一套完整的無似然技術(shù)體系,使 CALM 這一新范式得以實(shí)現(xiàn)。
自編碼器
實(shí)現(xiàn) CALM 框架的基礎(chǔ),是構(gòu)建一個高保真度的自編碼器,用以建立離散詞元與連續(xù)向量之間的雙向映射。它由兩部分組成:
- 編碼器:將 K 個詞元的文本塊壓縮為一個連續(xù)向量。
- 解碼器:將該向量重建為原始的 K 個詞元。
這一過程的可行性在于,理論上一個浮點(diǎn)數(shù)向量的信息容量遠(yuǎn)超離散詞元。在實(shí)踐中,作者嘗試將 K=4 個詞元壓縮為向量,僅需 10 個維度便可實(shí)現(xiàn)超過 99.9% 的重建準(zhǔn)確率。

考慮到,在 CALM 的實(shí)際生成流程中,解碼器所接收的向量并非來自編碼器的「真值」,而是由語言模型預(yù)測出的結(jié)果。任何生成模型的預(yù)測都必然存在誤差。如果自編碼器只考慮重建,它會學(xué)到一個極其「脆弱」的映射,導(dǎo)致微小的預(yù)測誤差被災(zāi)難性地放大,解碼出完全無關(guān)的文本。
因此,向量表示必須具備魯棒性(robustness),能夠容忍來自預(yù)測結(jié)果的合理誤差。
為實(shí)現(xiàn)這一目標(biāo),作者的核心策略是將確定性段自編碼器升級為變分式的 VAE,使其學(xué)習(xí)將詞元塊映射為一個高斯分布,從而平滑向量空間。同時,作者在向量空間上引入 Dropout,迫使自編碼器學(xué)習(xí)一種冗余的、抗干擾的向量表示。
綜合這些技術(shù),作者最終構(gòu)建的自編碼器能將 K=4 的詞元塊映射到一個 128 維的向量中。它能承受標(biāo)準(zhǔn)差約 σ≈0.3 的高斯噪聲,同時依然保持超過 99.9% 的重建準(zhǔn)確率。
模型訓(xùn)練
通過自編碼器,原始的離散詞元序列被轉(zhuǎn)換為一個更緊湊的連續(xù)向量序列。因此,語言建模的目標(biāo)也從預(yù)測下一個詞元,演變?yōu)轭A(yù)測這個新序列中的下一個向量:

從離散到連續(xù)的轉(zhuǎn)變,帶來了一個生成建模上的挑戰(zhàn)。標(biāo)準(zhǔn)語言模型依賴 softmax 層計算有限詞表上的概率,但這在無限的連續(xù)空間中無法實(shí)現(xiàn)。
因此,該框架必須轉(zhuǎn)向無似然(likelihood-free)建模。作者的方案是在 Transformer 骨干網(wǎng)絡(luò)之后,引入一個輕量的生成頭(generative head),它的輸入是 Transformer 給出的隱狀態(tài)
,輸出是代表下一個文本塊的連續(xù)向量
。
效率是此處的關(guān)鍵。如果取 Diffusion、flow matching 這類模型作為生成頭,將需要進(jìn)行多步迭代生成來預(yù)測向量,會抵消 CALM 在減少生成步數(shù)上的優(yōu)勢。
因此,生成頭最好能具備高質(zhì)量、單步生成的能力。為此,作者采用了一個基于能量分?jǐn)?shù)(Energy Score)的訓(xùn)練目標(biāo)。能量分?jǐn)?shù)不依賴于概率密度,而是通過樣本間的距離來評估生成分布的質(zhì)量。對于模型預(yù)測的分布 P 和觀測到的真值 y,其能量分?jǐn)?shù)為:

該指標(biāo)巧妙地平衡了兩個目標(biāo):第一項(xiàng)驅(qū)動多樣性,鼓勵模型生成不同的樣本,防止模式坍塌;第二項(xiàng)驅(qū)動準(zhǔn)確性,使生成結(jié)果逼近真實(shí)數(shù)據(jù)。
從統(tǒng)計學(xué)角度,能量分?jǐn)?shù)是一種嚴(yán)格準(zhǔn)確的評分規(guī)則(strictly proper scoring rule),理論上保證了最大化該分?jǐn)?shù)等同于讓模型學(xué)習(xí)真實(shí)的數(shù)據(jù)分布。在實(shí)踐中,作者通過蒙特卡洛采樣來估計能量分?jǐn)?shù),并將其作為損失函數(shù)來訓(xùn)練模型。
在模型結(jié)構(gòu)上,為了使生成頭能夠產(chǎn)出多樣的樣本,其預(yù)測同時取決于兩個輸入:來自 Transformer 的確定性隱藏狀態(tài)(提供上下文),以及一個額外的隨機(jī)噪聲向量(提供隨機(jī)性)。通過在生成時采樣不同的噪聲,模型便能從同一個上下文中生成符合條件分布的、多樣的輸出向量。
在 CALM 架構(gòu)中,一個關(guān)鍵的設(shè)計是:模型預(yù)測出下一個向量
后,并非直接將其作為下一輪預(yù)測的輸入。作者發(fā)現(xiàn),模型難以從此類高度壓縮的表示中有效提取信息。相反,CALM 框架首先將預(yù)測的向量通過解碼器還原為離散詞元,再將這些詞元壓縮后作為 Transformer 的輸入。這一設(shè)計將模型的自回歸過程「錨定」在了結(jié)構(gòu)更清晰的離散空間,提供了更穩(wěn)定的輸入信號。

性能評估
由于 CALM 框架無法計算顯式概率,傳統(tǒng)的困惑度(Perplexity)指標(biāo)不再適用。因此,我們還需要一個無似然(likelihood-free)的評估方法。
作者引入了經(jīng)典的 Brier Score 作為解決方案,這一指標(biāo)最早由氣象學(xué)家 Glenn W. Brier 在 1950 年提出,用來評估天氣預(yù)報的準(zhǔn)確性,目前已成為評估概率預(yù)測校準(zhǔn)度(calibration)的標(biāo)準(zhǔn)工具之一。其定義為:

與困惑度類似,Brier 分?jǐn)?shù)的設(shè)計使其僅在模型準(zhǔn)確擬合數(shù)據(jù)分布時才能達(dá)到最優(yōu),這一點(diǎn)可以從其期望值的分解中看出:

盡管 Brier 分?jǐn)?shù)的仍由概率定義,但作者指出,它可以通過蒙特卡洛方法進(jìn)行無偏估計,且僅需從模型中采樣兩個樣本:

前兩項(xiàng)
估計了模型的準(zhǔn)確性(對應(yīng)項(xiàng) 2P (y));而第三項(xiàng)
則通過估計兩次采樣的「碰撞概率」,來衡量模型預(yù)測的多樣性(對應(yīng)項(xiàng)
)。
為了構(gòu)建一個全面的評估指標(biāo),作者將 Brier 分?jǐn)?shù)從單個詞元擴(kuò)展到 n-gram,并最終定義了 BrierLM,即 n=1 至 4 的 Brier-n 分?jǐn)?shù)的幾何平均值。BrierLM 是一個通用的評估指標(biāo),同樣適用于傳統(tǒng)語言模型。
通過在標(biāo)準(zhǔn) Transformer 模型上進(jìn)行驗(yàn)證,作者發(fā)現(xiàn) BrierLM 與交叉熵?fù)p失幾乎線性相關(guān)(Pearson 相關(guān)系數(shù)為 - 0.966),表明 BrierLM 可以作為困惑度在無似然場景下的有效替代。

可控生成
最后一個挑戰(zhàn)是實(shí)現(xiàn)給定溫度下的可控生成。傳統(tǒng)方法通過調(diào)整 logits 來調(diào)整輸出的概率分布,但對于像 CALM 這樣只給出采樣器而不提供 logits 的無似然模型,此路不通。
作者通過拒絕采樣(rejection sampling)解決了這一難題。以一個簡單的例子來說明:當(dāng)溫度 T=1/n 時,目標(biāo)是使采樣概率正比于
,這恰好等同于從模型中連續(xù)獨(dú)立地采樣 n 次,且這 n 次結(jié)果均為 x 的概率。因此,算法只需從模型中采樣 n 次,當(dāng)且僅當(dāng)這 n 次采樣結(jié)果完全相同時才接受該結(jié)果,否則便拒絕并重試。
對于更一般的溫度 T,作者借鑒伯努利工廠(Bernoulli Factory)理論,將此思想推廣為一個通用的拒絕采樣算法。
然而,純粹的拒絕采樣算法可能因極高的拒絕率而變得低效。為此,作者進(jìn)一步提出了一種高效的批處理近似(batch approximation)算法。該算法一次性從模型中采樣大量的樣本,然后以組合的方式在批內(nèi)尋找符合條件的重復(fù)樣本。這種方法極大地提升了樣本的利用率。作者證明了該近似算法是漸進(jìn)無偏的,即隨著批處理大小的增加,其輸出的樣本分布會收斂于精確的目標(biāo)分布。
實(shí)驗(yàn)效果
實(shí)驗(yàn)結(jié)果顯示,CALM 能夠建立一個更優(yōu)的性能 - 計算前沿:例如,一個 371M 參數(shù)的 CALM-M 模型,其性能與 281M 的 Transformer 基線相當(dāng),但所需的訓(xùn)練 FLOPs 減少了 44%,推理 FLOPs 減少了 34%。這證明 CALM 通過犧牲少量同規(guī)模下的性能,換取了顯著的計算效率提升,從而能在有限的計算預(yù)算下達(dá)到更高的性能水平。

實(shí)驗(yàn)進(jìn)一步驗(yàn)證了語義帶寬 K 作為一個全新 scale 維度的有效性。作者探究了不同 K 值對模型性能 - 計算權(quán)衡的影響。結(jié)果顯示,隨著 K 從 1 增加到 4,模型的計算成本幾乎成比例下降,而性能僅有輕微的回落。
這證明了通過提升單步生成的語義密度,是優(yōu)化語言模型效率的一條高效路徑。值得注意的是,當(dāng) K=1 時,CALM 的性能落后于其離散基線,這表明 CALM 的架構(gòu)設(shè)計仍有未來優(yōu)化的空間。

為了驗(yàn)證生成頭的設(shè)計選擇,作者對比了三種連續(xù)生成方案:本文使用的能量分?jǐn)?shù)、擴(kuò)散模型(Diffusion)與流匹配模型(Flow Matching)。實(shí)驗(yàn)表明:
- 擴(kuò)散模型在該任務(wù)上表現(xiàn)不佳。
- 流匹配模型雖然初期收斂更快,但最終的性能上限低于能量模型。
- 能量分?jǐn)?shù)方法不僅達(dá)到了最高的性能,且能夠在單步內(nèi)完成高質(zhì)量生成,而另外兩者則依賴于迭代采樣。

結(jié)語
作者也指出了該框架未來的多個關(guān)鍵研究方向:首先,作為框架基石的自編碼器可以被設(shè)計得更懂「語義」,而不僅是關(guān)注重建;核心生成模型也可以探索更強(qiáng)大的端到端架構(gòu)與訓(xùn)練目標(biāo);在采樣層面,需要研究更輕量高效的算法以降低推理開銷。
更宏觀地,一個重要的方向是建立包含語義帶寬 K 的全新縮放定律。
最后,從離散到連續(xù)的范式轉(zhuǎn)移,也要求學(xué)術(shù)界重新改造現(xiàn)有的算法生態(tài),例如如何將強(qiáng)化學(xué)習(xí)、知識蒸餾等技術(shù)適配到這個無似然的框架中。


































