DeepSeek-V3.2-Exp:用稀疏注意力打破長文本效率瓶頸
在人工智能領域,尤其是自然語言處理(NLP)領域,模型的效率和性能一直是研究者們關注的焦點。隨著數據量的不斷增長和應用場景的日益復雜,如何在保持模型性能的同時提高其處理長文本的效率,成為了一個亟待解決的問題。
DeepSeek團隊推出了DeepSeek-V3.2-Exp模型,通過引入稀疏注意力機制,解決如何保持模型性能的同時提高其處理長文本的效率。
一、長文本處理的挑戰與現有方案局限性
傳統的注意力機制(如Transformer架構中的自注意力機制),即自注意力機制的時間復雜度為O(L2),其中L是文本的長度。這意味著隨著文本長度的增加,計算量會呈平方級增長,導致模型在訓練和推理階段的效率大幅下降。例如,對于一個長度為128K的文本,傳統的自注意力機制需要計算約16384K2次操作,這在實際應用中幾乎是不可接受的。
為了解決這一問題,通常有兩種做法。
- 一種是將文本分割成多個較短的片段,分別進行處理后再進行拼接。然而,這種方法可能會導致上下文信息的丟失,影響模型對長文本的整體理解。
- 另一種方法是采用近似注意力機制,通過減少計算量來提高效率,但這些方法往往會在一定程度上犧牲模型的性能。
DeepSeek團隊推出的DeepSeek-V3.2-Exp模型,通過引入一種名為DeepSeek Sparse Attention(DSA)的稀疏注意力機制,在保持模型性能的同時顯著提高了長文本處理的效率。
二、DeepSeek-V3.2-Exp的創新:稀疏注意力機制
2.1 解決思路與創新點
- 稀疏注意力機制的核心思想
- 稀疏注意力機制的核心在于選擇性地關注文本中的關鍵信息,而不是對所有文本片段進行同等程度的計算。
- 通過這種方式,可以顯著減少計算量,同時保留對任務最有用的信息。
- DeepSeek-V3.2-Exp模型中的DeepSeek Sparse Attention(DSA)機制正是基于這一思想設計的。
- 創新點:閃電索引器與細粒度令牌選擇機制
- DSA機制由兩個主要組件構成:閃電索引器(lightning indexer)和細粒度令牌選擇機制。
- 閃電索引器通過計算查詢令牌與前序令牌之間的索引分數,確定哪些令牌對當前查詢最為重要。
- 細粒度令牌選擇機制則根據這些索引分數,選擇得分最高的k個令牌進行后續的注意力計算。這種機制不僅減少了計算量,還通過選擇性關注關鍵信息,提高了模型對長文本的理解能力。
- 計算效率的提升
- 閃電索引器的設計考慮了計算效率。使用ReLU激活函數,并且可以實現為FP8格式,這使得其計算效率極高。
- 即使在長文本場景下,閃電索引器的計算復雜度仍然遠低于傳統的自注意力機制。通過這種方式,DeepSeek-V3.2-Exp在保持模型性能的同時,顯著提高了長文本處理的效率。
2.2 技術細節
- 閃電索引器的工作原理

- 細粒度令牌選擇機制
- 在得到索引分數后,細粒度令牌選擇機制會根據這些分數選擇得分最高的k個令牌。
- 具體來說,對于每個查詢令牌ht,模型會從所有前序令牌中選擇索引分數最高的k個令牌,并將這些令牌對應的鍵值對{cs}用于后續的注意力計算。
- 這種選擇性機制不僅減少了計算量,還通過關注關鍵信息提高了模型的性能。
- 執行示例
- 假設我們有一個長度為128K的文本,模型需要對其中的一個查詢令牌ht進行處理。
- 首先,閃電索引器會計算ht與所有前序令牌之間的索引分數。
- 然后,細粒度令牌選擇機制會根據這些索引分數選擇得分最高的k個令牌。
- 假設k=2048,那么模型只需要對這2048個令牌進行注意力計算,而不是對整個128K的文本進行計算。
- 通過這種方式,模型的計算量從O(L2)降低到了O(Lk),其中k遠小于L,從而顯著提高了計算效率。
三、模型架構與訓練過程

3.1 模型架構
- DeepSeek-V3.2-Exp模型的架構基于DeepSeek-V3.1-Terminus,唯一的修改是引入了DeepSeek Sparse Attention(DSA)機制。
- 在原有性能的基礎上,通過稀疏注意力機制顯著提高長文本處理的效率。
- 具體來說,DSA機制在多查詢注意力(MQA)模式下實現,每個鍵值對(key-value entry)會在所有查詢頭之間共享,從而提高了計算效率。

3.2 訓練過程
- 持續預訓練
DeepSeek-V3.2-Exp的訓練過程包括兩個階段:持續預訓練和后訓練。
- 在持續預訓練階段,模型首先進行密集預熱,然后進入稀疏訓練階段。
- 在密集預熱階段,模型保持密集注意力,并凍結除閃電索引器之外的所有參數。
- 通過這種方式,閃電索引器的輸出可以與主注意力分布對齊。
- 在稀疏訓練階段,模型引入細粒度令牌選擇機制,并優化所有參數以適應稀疏注意力模式。
- 后訓練
在持續預訓練之后,模型進入后訓練階段。
- 模型采用與DeepSeek-V3.1-Terminus相同的后訓練流程、算法和數據。
- 后訓練階段包括專家蒸餾和混合強化學習訓練。
- 專家蒸餾階段,模型針對每個任務開發專門的模型,并使用大規模強化學習進行訓練。
- 混合強化學習訓練階段,模型采用組相對策略優化(GRPO)算法,將推理、代理和人類對齊訓練合并為一個階段,從而平衡了不同領域的性能。
3.3 模型性能與效率

- 與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在長文本處理效率上取得了顯著提升,同時在性能上沒有出現明顯的下降。
- 例如,在MMLU-Pro、GPQA-Diamond和Humanity’s Last Exam等基準測試中,DeepSeek-V3.2-Exp的性能與DeepSeek-V3.1-Terminus相當。在一些任務中,如BrowseComp和SimpleQA,DeepSeek-V3.2-Exp甚至表現更好。這表明稀疏注意力機制不僅提高了模型的效率,還保持了其在不同任務上的性能。
- 稀疏注意力機制顯著降低了模型的計算復雜度。
- 在長文本場景下,傳統的自注意力機制的時間復雜度為O(L2),而稀疏注意力機制將復雜度降低到了O(Lk),其中k遠小于L。
- 這種復雜度的降低使得模型在長文本處理時的效率大幅提升。
- 例如,在H800 GPU上進行的基準測試中,DeepSeek-V3.2-Exp在長文本推理階段的計算成本顯著低于DeepSeek-V3.1-Terminus。這種效率的提升不僅降低了計算成本,還使得模型在實際應用中更具可擴展性。
??https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/tree/main/inference??
??https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/tree/main?tab=readme-ov-file??
本文轉載自??CourseAI??,作者:CourseAI
已于2025-11-24 00:18:32修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















