老牌Transformer殺手在ICLR悄然更新：Mamba-3三大改進(jìn)趨近設(shè)計(jì)完全體

2025-10-15 08:53:08

Mamba-3 的高效長(zhǎng)序列處理能力，使它非常適合應(yīng)用于長(zhǎng)文檔理解、科學(xué)時(shí)間序列、基因建模等場(chǎng)景 —— 這些領(lǐng)域正是 Transformer 因上下文受限而表現(xiàn)不佳的地方。

至今為止 Transformer 架構(gòu)依然是 AI 模型的主流架構(gòu)，自從其確立了統(tǒng)治地位后，號(hào)稱 Transformer 殺手的各類改進(jìn)工作就沒有停止過。

在一眾挑戰(zhàn)者中最具影響力的自然是 2023 年社區(qū)爆火的基于結(jié)構(gòu)化的狀態(tài)空間序列模型（SSM）架構(gòu)的 Mamba。

Mamba 的爆火可能和名字有關(guān)，但硬實(shí)力確實(shí)強(qiáng)大。

在當(dāng)時(shí)，Mamba 在語言建模方面可以媲美甚至擊敗 Transformer。而且，它可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展，其性能在實(shí)際數(shù)據(jù)中可提高到百萬 token 長(zhǎng)度序列，并實(shí)現(xiàn) 5 倍的推理吞吐量提升。

在 Mamba 問世后，涌現(xiàn)出了超多在不同任務(wù)上使用 Mamba 的工作以及一些改進(jìn)工作，誕生了了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte、MambaOut 等多項(xiàng)工作，被稱為「Transformer 最有力的繼任者」。

但 Mamba 在 2024 年的 ICLR 會(huì)議中遭遇了滑鐵盧，最終還是被拒稿。

在 2024 年，在 Mamba 發(fā)布的半年后，Mamba-2 正式發(fā)布，拿下了頂會(huì) ICML 2024。核心層是對(duì) Mamba 的選擇性 SSM 的改進(jìn)，速度提高了 2-8 倍，同時(shí)在語言建模方面繼續(xù)與 Transformers 競(jìng)爭(zhēng)。

但 Mamba-2 除了讓第一代 Mamba Out 之外，似乎沒能獲得現(xiàn)象級(jí)的關(guān)注。

就在最近，Mamba 的第三代迭代工作 Mamba-3 悄悄的出現(xiàn)在了 ICLR 2026，正在盲審環(huán)節(jié)。

論文標(biāo)題：Mamba-3: Improved Sequence Modeling Using State Space Principles
論文鏈接：https://openreview.net/pdf?id=HwCvaJOiCj

Mamba-1 使用的是連續(xù)時(shí)間動(dòng)態(tài)模型，并通過「選擇性記憶更新」機(jī)制來保留信息，在不依賴注意力機(jī)制的情況下實(shí)現(xiàn)了高效記憶。

Mamba-2 更進(jìn)一步，提出狀態(tài)空間更新（SSM）與注意力機(jī)制在數(shù)學(xué)上是等價(jià)的兩種形式，從而在保持接近 Transformer 性能的同時(shí)，大幅提升了在 GPU 上的運(yùn)行速度。

關(guān)于 Mamba-1 和 Mamba-2 的技術(shù)解析，請(qǐng)參考我們之前的報(bào)道。

現(xiàn)在的 Mamba-3 給人的感覺是，這個(gè)架構(gòu)終于成熟了。它不僅是注意力機(jī)制的替代方案，而是在狀態(tài)演化方式、記憶機(jī)制以及硬件并行利用方式上，完成了一次更全面、更統(tǒng)一的設(shè)計(jì)。

三大重要改進(jìn)

Mamba-3 在三個(gè)關(guān)鍵領(lǐng)域相對(duì)于 Mamba-2 引入了重大改進(jìn)：

梯形離散化（Trapezoidal Discretization）

研究團(tuán)隊(duì)使用梯形法對(duì)底層的連續(xù)時(shí)間動(dòng)力系統(tǒng)進(jìn)行離散化。最終得到的遞推形式是 Mamba-2 遞推結(jié)構(gòu)的一個(gè)更具表達(dá)力的超集，并且可以被視為一種卷積。

之前的狀態(tài)更新只考慮區(qū)間起點(diǎn)的信息，而現(xiàn)在會(huì)同時(shí)結(jié)合起點(diǎn)和終點(diǎn)。

研究團(tuán)隊(duì)將這種新的離散化方式與作用于 B、C 的偏置項(xiàng)結(jié)合使用，發(fā)現(xiàn)這種組合在經(jīng)驗(yàn)上可以替代語言建模中的短因果卷積。

左圖：廣義梯形積分法引出的結(jié)構(gòu)化掩碼，是由衰減掩碼與卷積掩碼的乘積構(gòu)成的；右圖：歐拉方法（使用端點(diǎn)值保持不變）對(duì)比梯形積分法（取區(qū)間兩端點(diǎn)的平均值）

復(fù)數(shù)化狀態(tài)空間模型（Complexified State-Space Model）

通過將 Mamba-3 底層的狀態(tài)空間模型視為復(fù)值結(jié)構(gòu)，研究團(tuán)隊(duì)實(shí)現(xiàn)了相比 Mamba-2 更具表達(dá)力的狀態(tài)更新機(jī)制。

這種更新規(guī)則在設(shè)計(jì)上仍保持訓(xùn)練和推理的輕量級(jí)特性，同時(shí)克服了當(dāng)前許多線性模型在狀態(tài)追蹤能力上的不足。研究團(tuán)隊(duì)指出，這種復(fù)數(shù)更新機(jī)制等價(jià)于一種數(shù)據(jù)依賴的旋轉(zhuǎn)位置編碼，因此可以高效計(jì)算。

多輸入多輸出狀態(tài)空間模型（MIMO SSM）

為了提升解碼階段的 FLOP 利用效率，研究團(tuán)隊(duì)將狀態(tài)更新方式從基于外積（outer-product）的形式轉(zhuǎn)換為基于矩陣乘法的形式。從 SSM 的信號(hào)處理基礎(chǔ)來看，這一轉(zhuǎn)變正對(duì)應(yīng)于從單輸入單輸出（SISO）動(dòng)態(tài)系統(tǒng)向多輸入多輸出（MIMO）動(dòng)態(tài)系統(tǒng)的泛化。

Mamba-3 可以多通道同時(shí)更新狀態(tài)，極大提升 GPU 并行吞吐效率。

MIMO 形式尤其適合推理階段，因?yàn)槠漕~外的表達(dá)能力允許在狀態(tài)更新中投入更多計(jì)算量，而無需增加狀態(tài)大小，從而不影響速度。

同時(shí)，研究團(tuán)隊(duì)也對(duì)整體架構(gòu)進(jìn)行調(diào)整，使其更貼近基線 Transformer 架構(gòu)。Mamba-3 用更常見的 QK-normalization 替換了輸出前投影歸一化機(jī)制，并將短卷積設(shè)為可選項(xiàng)。

對(duì)比 Mamba-2 與 Mamba-3 的架構(gòu)升級(jí)

實(shí)證驗(yàn)證

研究團(tuán)隊(duì)在一系列合成任務(wù)和語言建模任務(wù)上對(duì)新模型進(jìn)行實(shí)證驗(yàn)證：

更好的質(zhì)量（Better Quality）

在標(biāo)準(zhǔn)下游語言建模評(píng)測(cè)中，Mamba-3 的表現(xiàn)達(dá)到或超過 Mamba-2 及其他開源架構(gòu)。例如，Mamba-3-1.5B 在所有下游任務(wù)上的平均準(zhǔn)確率優(yōu)于其 Transformer、Mamba-2 和 Gated DeltaNet 對(duì)應(yīng)模型。

在使用 100B 規(guī)模的 FineWeb-Edu 語料訓(xùn)練后，對(duì)各模型進(jìn)行下游語言建模評(píng)測(cè)的結(jié)果。

在參數(shù)規(guī)模匹配的預(yù)訓(xùn)練模型上進(jìn)行下游語言建模評(píng)測(cè)結(jié)果，其中包含 Mamba-3 的 MIMO 版本。

更強(qiáng)的能力（Better Capability）

Mamba-3 對(duì) SSM 狀態(tài)的復(fù)數(shù)化使模型能夠解決 Mamba-2 無法處理的合成狀態(tài)追蹤任務(wù)。

通過真實(shí)任務(wù)與合成任務(wù)混合評(píng)測(cè)檢索能力。真實(shí)檢索任務(wù)使用數(shù)據(jù)集的完形填空（cloze）變體，并截?cái)嘀?2K 長(zhǎng)度。

Mamba-3 在關(guān)聯(lián)記憶與問答能力上表現(xiàn)出色，但在半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的信息抽取方面存在不足。此外，Mamba-3 在「大海撈針」（NIAH）任務(wù)上具有很高的準(zhǔn)確率，并能夠泛化到其訓(xùn)練上下文之外的場(chǎng)景。

此外，研究團(tuán)隊(duì)表示，基于 RoPE 的高效計(jì)算幾乎可以完美解決算術(shù)任務(wù)，而不帶 RoPE 的 Mamba-3 與 Mamba-2 的表現(xiàn)則接近隨機(jī)猜測(cè)。

更高的推理效率（Better Inference Efficiency）

Mamba-3 的 MIMO 變體在保持相同狀態(tài)規(guī)模的同時(shí)，提升了相較于標(biāo)準(zhǔn) Mamba-3 及其他模型的硬件利用效率。在不增加內(nèi)存需求的前提下實(shí)現(xiàn)性能提升，從而推動(dòng)了推理效率的 Pareto 前沿。