推翻「預測下一個token」范式!微信AI新研究:把token壓縮成連續向量更具性價比
大模型一個token一個token生成,效率太低怎么辦?
微信AI聯手清華大學,提出了一個新的解法:
一個token能裝下的信息太少,不如把它們打包成連續向量,讓大模型從預測下一個token,轉變為預測下一個向量。

研究團隊給這種新范式取名CALM(連續自回歸語言模型)。
實驗表明,將K個詞元壓縮成一個連續向量,可以將語言模型建模為一系列連續向量,生成步驟減少至原來的1/K。
這樣一來,模型就能在平衡性能和計算成本時,實現更高的性價比。
有網友認為,這種方法看上去越來越接近大腦實際處理上下文的方式。

還有網友提出,CALM像是DeepSeekOCR/Glyph的改進版。

提升每個預測單元的語義帶寬
研究人員指出,預測下一個token的現有模型范式,一開始是因為基于字符級運行的模型計算量太大而被提出的。
也就是說,方法背后的關鍵思想是:提升每個文本單元的信息密度,能夠縮短序列長度并顯著提升模型效率。
進一步挖掘本質,可以總結出一條提升大模型生成效率的有效途徑:持續提升每個預測單元的語義帶寬。

問題在于,如果想讓一個token裝更多的信息,就得把詞表做得超大,反而會讓計算量和存儲成本爆炸。
微信AI和清華大學團隊想了個辦法:把多個token打包成一個連續向量,讓模型每次處理一個向量,而不是一個token。這樣一來,比如一個序列的長度為T,將K個token打包為1個向量,序列長度就會縮短為T/K。
他們設計了一個高保真自編碼器,能將K個token壓縮成一個連續向量,并能以超過99.9%的準確率從中重構原始token。

連續自回歸語言模型
不過,從處理token向處理向量轉變,還面臨著一個重大挑戰:
由于不存在有限詞匯表,模型將無法借助標準的softmax層,對所有可能結果計算出明確的概率分布。
這也就意味著,需要為此開發全新的建模工具。
于是,研究團隊提出了CALM——一套完整的、無需依賴概率似然的框架。

△CALM框架
無似然語言建模
訓練方面,CALM采用“能量損失”來教模型學習連續向量。
不用算概率,而是改用“能量分數”來判斷模型生成的向量好不好。
具體來說,為了實現連續向量生成,研究人員采用輕量級生成頭作為模型的核心輸出組件。該生成頭以最后一個隱藏狀態為條件,來生成輸出向量。
同時,為避免迭代式采樣過程造成新的推理瓶頸,研究人員引入了Energy Transformer。
Energy Transformer專為連續向量的高效單步生成設計,無需迭代,僅需1步計算即可輸出連續向量。
能量損失是CALM訓練Energy Transformer時用的損失函數,不依賴概率計算,而是用“距離”和“多樣性約束”兩個維度判斷向量質量——既讓生成的向量貼近真實值,又避免模型只會生成一種向量。
無似然語言模型評估
不算概率了,困惑度(Perplexity)這個評估指標也就不好用了。
為此,研究人員提出了BrierLM,一種基于布里爾分數的新型語言模型評估指標。
只需從模型中抽取樣本,就能無偏地估算出BrierLM值。
實驗證明,BrierLM值和困惑度高度相關,能保證對模型能力的公平比較。
無似然溫度采樣
現在流行的大語言模型是通過溫度采樣來實現可控生成的,但這同樣依賴于概率分布。
CALM提出了無似然溫度采樣,這一算法基于拒絕采樣,通過調整樣本的接受概率來實現溫度控制。

實驗結果:更具性價比
研究人員通過實驗驗證,CALM在平衡性能和計算成本時更有性價比。
在標準語言建模任務上,CALM-M(K=4,參數量371M)在性能上與Transformer-S(281M參數)相當,但訓練浮點運算數(FLOPs)減少了44%,推理FLOPs減少了34%。

模型越大,CALM的優勢越明顯。并且隨著語義帶寬K的增加,CALM的性能-效率比也會更優。

不過,研究人員也提到,壓縮的token數K太多時,反而會導致性能下降,可能需要更換更大的模型。
































