五倍推理加速,激發(fā)自回歸潛能,蘋果多token預(yù)測(cè)技術(shù)如何讓大模型"預(yù)知"未來(lái)

論文標(biāo)題:Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential論文鏈接:https://www.alphaxiv.org/abs/2507.11851
大型語(yǔ)言模型(LLM)自誕生以來(lái),一直遵循著嚴(yán)格的自回歸生成模式——每次只能生成一個(gè)token,然后將這個(gè)token作為上下文繼續(xù)生成下一個(gè)。這種模式雖然保證了生成文本的連貫性,卻也成為了制約推理速度的瓶頸。在2025年7月發(fā)布的論文《Your LLM Knows the Future》中,蘋果研究團(tuán)隊(duì)提出了一種革命性的方法,通過(guò)在輸入末尾插入mask token并進(jìn)行門控LoRA微調(diào),使預(yù)訓(xùn)練的自回歸LLM能夠在單步推理中預(yù)測(cè)多個(gè)token,從而實(shí)現(xiàn)高達(dá)5.35倍的推理加速,同時(shí)保持與標(biāo)準(zhǔn)自回歸生成相當(dāng)?shù)奈谋举|(zhì)量。這一突破不僅為大模型推理優(yōu)化開(kāi)辟了新路徑,也為輕量設(shè)備上流暢運(yùn)行強(qiáng)大實(shí)時(shí)助手提供了可能。
一、多token預(yù)測(cè):打破自回歸生成的效率瓶頸
傳統(tǒng)LLM的自回歸生成模式本質(zhì)上是順序執(zhí)行的,每一步解碼都需要完整運(yùn)行一次模型。這種模式雖然簡(jiǎn)單有效,卻帶來(lái)了顯著的計(jì)算開(kāi)銷。想象一下,當(dāng)大模型生成一段數(shù)百token的文本時(shí),它需要重復(fù)執(zhí)行數(shù)百次前向傳播,每次僅生成一個(gè)token。這種"一token一世界"的生成方式,使得生成速度與token數(shù)量成線性關(guān)系,無(wú)法實(shí)現(xiàn)真正的并行計(jì)算,嚴(yán)重制約了LLM在實(shí)時(shí)交互場(chǎng)景中的應(yīng)用。
蘋果研究團(tuán)隊(duì)在論文中首先探討了一個(gè)基本問(wèn)題:語(yǔ)言模型能否在單個(gè)推理步驟中生成多個(gè)token?令人鼓舞的是,答案是肯定的。他們觀察到,自回歸模型雖然并未明確針對(duì)未來(lái)token進(jìn)行訓(xùn)練,但實(shí)際上已經(jīng)在一定程度上編碼了關(guān)于未來(lái)token的信息。例如,給定提示詞"what is two plus two?",一個(gè)預(yù)訓(xùn)練模型在標(biāo)準(zhǔn)自回歸解碼過(guò)程中通常會(huì)生成"two plus two equals four"。為了檢驗(yàn)?zāi)P褪欠窬邆鋵?duì)未來(lái)token的感知能力,研究者在提示后添加占位token(?表示),并分析輸出的logits。結(jié)果發(fā)現(xiàn),未來(lái)token的正確序列出現(xiàn)在前200個(gè)logits中,這表明模型在某種程度上隱含地掌握了即將生成的token信息 。

圖 1:自回歸模型能夠隱式預(yù)判未來(lái)的 token。
基于這一發(fā)現(xiàn),研究者提出了一個(gè)更深層次的問(wèn)題:是否可以在盡可能少改動(dòng)的前提下,適配現(xiàn)有的自回歸訓(xùn)練與推理框架,實(shí)現(xiàn)在保留自回歸模型核心優(yōu)勢(shì)的同時(shí),實(shí)現(xiàn)高效的多token生成?這一問(wèn)題的解決,將徹底改變LLM的推理效率。
二、核心技術(shù):mask token添加、門控LoRA微調(diào)與輕量級(jí)采樣模塊
蘋果論文的核心創(chuàng)新在于設(shè)計(jì)了一套輕量級(jí)、高效的多token預(yù)測(cè)框架,主要包含三個(gè)關(guān)鍵技術(shù):
1. Mask Token添加:引導(dǎo)模型預(yù)判未來(lái)
傳統(tǒng)自回歸生成中,模型只能逐個(gè)預(yù)測(cè)下一個(gè)token。蘋果研究者在輸入末尾插入多個(gè)mask token,這些token在訓(xùn)練過(guò)程中被模型視為需要預(yù)測(cè)的位置。與擴(kuò)散模型中的mask不同,蘋果的mask token并不改變?cè)夹蛄械囊蚬裕亲鳛檎嘉环龑?dǎo)模型學(xué)習(xí)未來(lái)token的預(yù)測(cè)能力 。這種設(shè)計(jì)使得模型能夠在單步推理中預(yù)測(cè)多個(gè)未來(lái)token,而非僅限于下一個(gè)token。
研究者通過(guò)實(shí)驗(yàn)驗(yàn)證了這一策略的有效性。他們發(fā)現(xiàn),在提示詞末尾添加mask token并進(jìn)行微調(diào)后,模型能夠?qū)⒄_的token提升至前10個(gè)logits中,顯著提高了多token預(yù)測(cè)的準(zhǔn)確性。這種能力的提升表明,模型在訓(xùn)練過(guò)程中已經(jīng)隱含地學(xué)習(xí)了未來(lái)token的分布規(guī)律,為后續(xù)的推理加速奠定了基礎(chǔ)。
2. 門控LoRA適配:輕量級(jí)參數(shù)調(diào)整
直接對(duì)整個(gè)LLM進(jìn)行多token預(yù)測(cè)的微調(diào)會(huì)帶來(lái)高昂的計(jì)算成本。蘋果研究者采用了門控LoRA(gated LoRA adaptation)技術(shù),通過(guò)可學(xué)習(xí)的門控函數(shù)控制LoRA參數(shù)的激活,僅調(diào)整與多token預(yù)測(cè)相關(guān)的網(wǎng)絡(luò)部分,而保留主模型的能力 。這種門控機(jī)制使得微調(diào)參數(shù)量大大減少,同時(shí)保持了模型的整體性能。

圖 2:在通過(guò)監(jiān)督微調(diào)訓(xùn)練門控 LoRA 和采樣頭后獲得的加速效果。
門控LoRA的具體實(shí)現(xiàn)如下:在LoRA適配器中引入門控層(通常使用sigmoid函數(shù)),根據(jù)輸入特征動(dòng)態(tài)調(diào)整LoRA參數(shù)的權(quán)重。當(dāng)模型處理需要多token預(yù)測(cè)的輸入時(shí),門控層會(huì)激活相應(yīng)的LoRA參數(shù),增強(qiáng)多token預(yù)測(cè)能力;而在處理常規(guī)任務(wù)時(shí),門控層會(huì)降低這些參數(shù)的權(quán)重,保持模型的原有性能。這種設(shè)計(jì)使得微調(diào)后的模型能夠根據(jù)任務(wù)需求自動(dòng)調(diào)整參數(shù)權(quán)重,實(shí)現(xiàn)"按需激活"的智能微調(diào)。
3. 輕量級(jí)采樣模塊:確保多token生成的連貫性
即使模型能夠預(yù)測(cè)多個(gè)token,如何確保這些token之間的連貫性仍然是一個(gè)挑戰(zhàn)。蘋果研究者引入了一個(gè)兩層感知機(jī)(two-layer perceptron)作為輕量級(jí)采樣模塊,在預(yù)測(cè)每個(gè)token時(shí),結(jié)合先前已采樣出的token作為條件,動(dòng)態(tài)調(diào)整后續(xù)token的預(yù)測(cè)分布 。這一模塊的設(shè)計(jì)使得模型能夠在生成多個(gè)token的同時(shí),保持與自回歸生成相當(dāng)?shù)奈谋举|(zhì)量。
采樣模塊的工作原理可以理解為一種"條件校正"機(jī)制。當(dāng)模型預(yù)測(cè)第一個(gè)未來(lái)token后,采樣模塊會(huì)將該token的嵌入向量與原始上下文結(jié)合,形成新的條件信息,用于預(yù)測(cè)下一個(gè)token。這種迭代過(guò)程使得模型能夠利用已生成token的信息,調(diào)整后續(xù)預(yù)測(cè),從而保證生成文本的連貫性。與現(xiàn)有推測(cè)解碼方法不同的是,蘋果的MLP模塊不需要額外的驗(yàn)證器模型,而是通過(guò)輕量級(jí)的條件校正實(shí)現(xiàn)加速,大大降低了系統(tǒng)復(fù)雜度。
三、技術(shù)實(shí)現(xiàn)細(xì)節(jié):從理論到實(shí)踐
蘋果論文的多token預(yù)測(cè)技術(shù)在實(shí)踐中如何實(shí)現(xiàn)?以下是技術(shù)實(shí)現(xiàn)的詳細(xì)解析:
1. 模型架構(gòu)設(shè)計(jì)

圖 3:MTP 模型的組成部分。框 1(左上)顯示了帶有門控 LoRA 參數(shù)的自回歸模型。框 2(左下)說(shuō)明了采樣頭。框 3(右)展示了門控 LoRA 模塊的框圖。
蘋果的多token預(yù)測(cè)框架基于標(biāo)準(zhǔn)的Transformer架構(gòu),主要包含三個(gè)關(guān)鍵組件:
- 共享主干(Shared Trunk):模型的主體部分保持不變,用于提取輸入文本的特征表示。
- 多token預(yù)測(cè)頭(Multi-token Prediction Heads):在輸入末尾添加多個(gè)mask token后,模型會(huì)生成多個(gè)預(yù)測(cè)頭,每個(gè)頭負(fù)責(zé)預(yù)測(cè)一個(gè)未來(lái)token。
- 輕量級(jí)采樣模塊(Lightweight Sampling Module):一個(gè)兩層感知機(jī),用于結(jié)合已生成token的條件信息,動(dòng)態(tài)調(diào)整后續(xù)token的預(yù)測(cè)分布。
這種架構(gòu)設(shè)計(jì)使得模型能夠在不改變主干結(jié)構(gòu)的情況下,通過(guò)添加少量模塊實(shí)現(xiàn)多token預(yù)測(cè)能力,大大降低了實(shí)現(xiàn)難度。
2. 訓(xùn)練策略與損失函數(shù)
蘋果研究者采用了特殊的訓(xùn)練策略來(lái)引導(dǎo)模型學(xué)習(xí)多token預(yù)測(cè)能力:
- 動(dòng)態(tài)mask token插入:在訓(xùn)練過(guò)程中,隨機(jī)在輸入末尾插入1-8個(gè)mask token,迫使模型學(xué)習(xí)預(yù)測(cè)不同數(shù)量的未來(lái)token。
- 門控LoRA微調(diào):僅對(duì)與多token預(yù)測(cè)相關(guān)的網(wǎng)絡(luò)層進(jìn)行微調(diào),通過(guò)門控函數(shù)控制參數(shù)更新的幅度。
- 混合損失函數(shù):結(jié)合標(biāo)準(zhǔn)的next-token預(yù)測(cè)損失和多token預(yù)測(cè)損失,確保模型在學(xué)習(xí)預(yù)測(cè)未來(lái)token的同時(shí),不丟失原有的生成能力。
損失函數(shù)的設(shè)計(jì)是關(guān)鍵。蘋果研究者提出了以下?lián)p失函數(shù):
L_total = α * L_next_token + β * L_mask_token其中,L_next_token是標(biāo)準(zhǔn)的next-token預(yù)測(cè)損失,L_mask_token是mask token位置的預(yù)測(cè)損失,α和β是平衡兩種損失的權(quán)重系數(shù)。這種混合損失函數(shù)使得模型能夠在保持原有性能的同時(shí),逐步學(xué)習(xí)預(yù)測(cè)未來(lái)token的能力。
3. 推理加速機(jī)制
在推理階段,蘋果的多token預(yù)測(cè)技術(shù)如何實(shí)現(xiàn)加速?以下是關(guān)鍵機(jī)制:
- 并行預(yù)測(cè):在輸入末尾插入多個(gè)mask token后,模型可以同時(shí)預(yù)測(cè)這些位置的token,減少生成步驟。
- 自推測(cè)解碼(Self-Speculative Decoding):模型先預(yù)測(cè)多個(gè)token,然后驗(yàn)證這些預(yù)測(cè)的準(zhǔn)確性。如果預(yù)測(cè)與標(biāo)準(zhǔn)自回歸生成結(jié)果一致,則直接使用這些預(yù)測(cè),加速生成過(guò)程。
- 輕量級(jí)采樣模塊:MLP模塊通過(guò)動(dòng)態(tài)整合已生成token的上下文信息,優(yōu)化預(yù)測(cè)分布,減少驗(yàn)證失敗的可能性。

蘋果研究者通過(guò)實(shí)驗(yàn)驗(yàn)證了這些機(jī)制的有效性。在Tulu3-8B模型基礎(chǔ)上微調(diào),使其能夠預(yù)測(cè)8個(gè)額外token,即可獲得顯著的推理加速效果。在代碼生成任務(wù)上,推理速度提升了5.35倍;在通用文本生成任務(wù)上,推理速度提升了約2.5倍 。
四、性能對(duì)比:多token預(yù)測(cè)與其他技術(shù)的較量
蘋果的多token預(yù)測(cè)技術(shù)與現(xiàn)有的推測(cè)解碼方法、擴(kuò)散模型生成方法以及DeepSeek的MTP技術(shù)相比,具有哪些優(yōu)勢(shì)和局限?
1. 與推測(cè)解碼方法的對(duì)比
推測(cè)解碼方法通常使用一個(gè)草稿模型生成多個(gè)token,然后通過(guò)一個(gè)驗(yàn)證器檢查它們與標(biāo)準(zhǔn)自回歸輸出的一致性 。這種方法雖然能夠提供加速,但根本上仍然依賴于自回歸生成,因?yàn)椴莞迥P秃万?yàn)證器都需要按順序處理輸入。此外,驗(yàn)證器模型的引入增加了系統(tǒng)復(fù)雜度和計(jì)算開(kāi)銷。
蘋果的多token預(yù)測(cè)技術(shù)則不同。它通過(guò)微調(diào)主模型,使其能夠在單步推理中直接預(yù)測(cè)多個(gè)token,無(wú)需額外的草稿模型和驗(yàn)證器 。這種設(shè)計(jì)大大簡(jiǎn)化了系統(tǒng)架構(gòu),同時(shí)保持了與推測(cè)解碼相當(dāng)甚至更好的加速效果。
技術(shù)方法 | 加速倍數(shù) | 系統(tǒng)復(fù)雜度 | 生成質(zhì)量 |
標(biāo)準(zhǔn)自回歸生成 | 1x | 低 | 高 |
推測(cè)解碼 | 2-3x | 高(需草稿模型和驗(yàn)證器) | 中 |
蘋果多token預(yù)測(cè) | 2.5-5.35x | 中(僅需微調(diào)和采樣模塊) | 高 |
2. 與擴(kuò)散模型生成方法的對(duì)比
擴(kuò)散模型生成方法通過(guò)逐步去噪的方式生成文本,理論上可以實(shí)現(xiàn)并行生成。然而,擴(kuò)散模型需要構(gòu)建全新的建模與訓(xùn)練流程,與現(xiàn)有自回歸框架兼容性差。此外,擴(kuò)散模型的生成過(guò)程通常需要數(shù)十個(gè)去噪步驟,雖然每個(gè)步驟可以并行,但整體生成時(shí)間仍然較長(zhǎng)。
蘋果的多token預(yù)測(cè)技術(shù)則充分利用了現(xiàn)有自回歸模型的全部深度與表示能力,并結(jié)合整個(gè)序列的上下文信息進(jìn)行預(yù)測(cè)。這種設(shè)計(jì)使得模型在生成多個(gè)token時(shí),能夠充分利用其已有的知識(shí)和理解能力,從而在效果上顯著優(yōu)于擴(kuò)散模型生成方法。
3. 與DeepSeek-R1的MTP技術(shù)對(duì)比
DeepSeek-R1的MTP技術(shù)也采用了多token預(yù)測(cè)的思路,但在實(shí)現(xiàn)方式上有所不同:
- mask token策略:DeepSeek在每個(gè)位置預(yù)測(cè)接下來(lái)的n個(gè)token,而蘋果則在輸入末尾插入多個(gè)mask token。
- 訓(xùn)練方法:DeepSeek采用了深度加權(quán)損失函數(shù)和參數(shù)共享策略,而蘋果則采用了門控LoRA微調(diào)。
- 加速效果:DeepSeek在推理速度上提升了1.5倍,而蘋果在代碼任務(wù)上提升了5.35倍。
蘋果的門控LoRA技術(shù)使得微調(diào)參數(shù)量大大減少,僅需調(diào)整模型的1-2%參數(shù)即可實(shí)現(xiàn)顯著的加速效果 。而DeepSeek的MTP技術(shù)雖然也能夠加速推理,但需要對(duì)模型進(jìn)行更全面的修改,增加了實(shí)現(xiàn)難度和計(jì)算成本。
本文轉(zhuǎn)載自??AIGC深一度??,作者:tailet

















