HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼
論文(Not-a-Bandit: Provably No-Regret Drafter Selection in Speculative Decoding for LLMs)通過推測解碼為大語言模型推理加速創造了新的SOTA。通過協調一組專家drafters,論文在Llama-3.1-8B-Instruct上實現了4.99倍加速,在Qwen-32B上實現了4.93倍加速——比EAGLE3快了近2倍。
那么它是如何工作的?大語言模型會收到各種各樣的請求:數學、編程、科學、論文寫作等。EAGLE3草稿器是一個試圖在整體上表現良好的通才。但在每個領域中,專家會更好。論文的方法——HedgeSpec——幾乎能為每個查詢匹配到最佳專家!

論文在每輪推測解碼后添加了一個評估階段,在這個階段論文在那些未被選擇的草稿器上"重放"生成的token。這能夠動態更新"押注"。最佳drafters通常在幾輪內就會脫穎而出。
一個自然的替代想法是使用賭博機算法( bandits algorithms)。BanditSpec平衡了"探索"和"利用"。lunwen 的洞察是"探索"實際上是不必要的,因此可以實現更快的學習。

HedgeSpec享有可證明的遺憾保證。而且它在專家數量方面以指數級優勢擊敗BanditSpec(見下圖)。

唯一剩下的障礙是工程挑戰——以低開銷為所有專家實現評估階段。

結果:在論文測試的7個領域中,HedgeSpec在每一個領域都占主導地位。

本文轉載自??AI帝國??,作者:無影寺
已于2025-10-31 07:45:46修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















