DeepSeek-V3.2-Exp：用稀疏注意力打破長文本效率瓶頸

發布于 2025-11-24 00:18

瀏覽

0收藏

在人工智能領域，尤其是自然語言處理（NLP）領域，模型的效率和性能一直是研究者們關注的焦點。隨著數據量的不斷增長和應用場景的日益復雜，如何在保持模型性能的同時提高其處理長文本的效率，成為了一個亟待解決的問題。

DeepSeek團隊推出了DeepSeek-V3.2-Exp模型，通過引入稀疏注意力機制，解決如何保持模型性能的同時提高其處理長文本的效率。

一、長文本處理的挑戰與現有方案局限性

傳統的注意力機制（如Transformer架構中的自注意力機制），即自注意力機制的時間復雜度為O(L2)，其中L是文本的長度。這意味著隨著文本長度的增加，計算量會呈平方級增長，導致模型在訓練和推理階段的效率大幅下降。例如，對于一個長度為128K的文本，傳統的自注意力機制需要計算約16384K2次操作，這在實際應用中幾乎是不可接受的。

為了解決這一問題，通常有兩種做法。

一種是將文本分割成多個較短的片段，分別進行處理后再進行拼接。然而，這種方法可能會導致上下文信息的丟失，影響模型對長文本的整體理解。
另一種方法是采用近似注意力機制，通過減少計算量來提高效率，但這些方法往往會在一定程度上犧牲模型的性能。

DeepSeek團隊推出的DeepSeek-V3.2-Exp模型，通過引入一種名為DeepSeek Sparse Attention（DSA）的稀疏注意力機制，在保持模型性能的同時顯著提高了長文本處理的效率。

二、DeepSeek-V3.2-Exp的創新：稀疏注意力機制

2.1 解決思路與創新點

稀疏注意力機制的核心思想

稀疏注意力機制的核心在于選擇性地關注文本中的關鍵信息，而不是對所有文本片段進行同等程度的計算。
通過這種方式，可以顯著減少計算量，同時保留對任務最有用的信息。
DeepSeek-V3.2-Exp模型中的DeepSeek Sparse Attention（DSA）機制正是基于這一思想設計的。

創新點：閃電索引器與細粒度令牌選擇機制

DSA機制由兩個主要組件構成：閃電索引器（lightning indexer）和細粒度令牌選擇機制。
閃電索引器通過計算查詢令牌與前序令牌之間的索引分數，確定哪些令牌對當前查詢最為重要。
細粒度令牌選擇機制則根據這些索引分數，選擇得分最高的k個令牌進行后續的注意力計算。這種機制不僅減少了計算量，還通過選擇性關注關鍵信息，提高了模型對長文本的理解能力。

計算效率的提升

閃電索引器的設計考慮了計算效率。使用ReLU激活函數，并且可以實現為FP8格式，這使得其計算效率極高。
即使在長文本場景下，閃電索引器的計算復雜度仍然遠低于傳統的自注意力機制。通過這種方式，DeepSeek-V3.2-Exp在保持模型性能的同時，顯著提高了長文本處理的效率。

2.2 技術細節

閃電索引器的工作原理

DeepSeek-V3.2-Exp：用稀疏注意力打破長文本效率瓶頸-AI.x社區

細粒度令牌選擇機制

在得到索引分數后，細粒度令牌選擇機制會根據這些分數選擇得分最高的k個令牌。
具體來說，對于每個查詢令牌ht，模型會從所有前序令牌中選擇索引分數最高的k個令牌，并將這些令牌對應的鍵值對{cs}用于后續的注意力計算。
這種選擇性機制不僅減少了計算量，還通過關注關鍵信息提高了模型的性能。

執行示例

假設我們有一個長度為128K的文本，模型需要對其中的一個查詢令牌ht進行處理。
首先，閃電索引器會計算ht與所有前序令牌之間的索引分數。
然后，細粒度令牌選擇機制會根據這些索引分數選擇得分最高的k個令牌。
假設k=2048，那么模型只需要對這2048個令牌進行注意力計算，而不是對整個128K的文本進行計算。
通過這種方式，模型的計算量從O(L2)降低到了O(Lk)，其中k遠小于L，從而顯著提高了計算效率。

三、模型架構與訓練過程

DeepSeek-V3.2-Exp：用稀疏注意力打破長文本效率瓶頸-AI.x社區

3.1 模型架構

DeepSeek-V3.2-Exp模型的架構基于DeepSeek-V3.1-Terminus，唯一的修改是引入了DeepSeek Sparse Attention（DSA）機制。
在原有性能的基礎上，通過稀疏注意力機制顯著提高長文本處理的效率。
具體來說，DSA機制在多查詢注意力（MQA）模式下實現，每個鍵值對（key-value entry）會在所有查詢頭之間共享，從而提高了計算效率。

DeepSeek-V3.2-Exp：用稀疏注意力打破長文本效率瓶頸-AI.x社區

3.2 訓練過程

持續預訓練
DeepSeek-V3.2-Exp的訓練過程包括兩個階段：持續預訓練和后訓練。

在持續預訓練階段，模型首先進行密集預熱，然后進入稀疏訓練階段。
在密集預熱階段，模型保持密集注意力，并凍結除閃電索引器之外的所有參數。
通過這種方式，閃電索引器的輸出可以與主注意力分布對齊。
在稀疏訓練階段，模型引入細粒度令牌選擇機制，并優化所有參數以適應稀疏注意力模式。

后訓練
在持續預訓練之后，模型進入后訓練階段。

模型采用與DeepSeek-V3.1-Terminus相同的后訓練流程、算法和數據。
后訓練階段包括專家蒸餾和混合強化學習訓練。
專家蒸餾階段，模型針對每個任務開發專門的模型，并使用大規模強化學習進行訓練。
混合強化學習訓練階段，模型采用組相對策略優化（GRPO）算法，將推理、代理和人類對齊訓練合并為一個階段，從而平衡了不同領域的性能。

3.3 模型性能與效率

DeepSeek-V3.2-Exp：用稀疏注意力打破長文本效率瓶頸-AI.x社區

與DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2-Exp在長文本處理效率上取得了顯著提升，同時在性能上沒有出現明顯的下降。
例如，在MMLU-Pro、GPQA-Diamond和Humanity’s Last Exam等基準測試中，DeepSeek-V3.2-Exp的性能與DeepSeek-V3.1-Terminus相當。在一些任務中，如BrowseComp和SimpleQA，DeepSeek-V3.2-Exp甚至表現更好。這表明稀疏注意力機制不僅提高了模型的效率，還保持了其在不同任務上的性能。
稀疏注意力機制顯著降低了模型的計算復雜度。
在長文本場景下，傳統的自注意力機制的時間復雜度為O(L2)，而稀疏注意力機制將復雜度降低到了O(Lk)，其中k遠小于L。
這種復雜度的降低使得模型在長文本處理時的效率大幅提升。
例如，在H800 GPU上進行的基準測試中，DeepSeek-V3.2-Exp在長文本推理階段的計算成本顯著低于DeepSeek-V3.1-Terminus。這種效率的提升不僅降低了計算成本，還使得模型在實際應用中更具可擴展性。

??https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/tree/main/inference??
??https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/tree/main?tab=readme-ov-file??

本文轉載自??CourseAI??，作者：CourseAI

標簽

DeepSeek-V3.2

GPU

DSA

已于2025-11-24 00:18:32修改

贊

回復