Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
“歐洲OpenAI”和“Transformer挑戰者”強強聯合了!
Mistral AI剛剛推出了其第一個基于Mamba2架構的開源模型——Codestral Mamba(7B),專搞代碼生成。

與Transformer架構不同,Mamba架構可進行“線性時間推理”,理論上能夠支持無限長度輸入。
Mistral AI:這也就是為啥我們用Mamba架構推出的代碼推理模型抗打。

Mistral AI表示已經在最多256k token上下文中測試了Codestral Mamba。
基準測試中,Codestral Mamba總體性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有網友表示,這一波是Mistral AI要帶飛Mamba架構的節奏。
Mamba架構作者之一、CMU助理教授Albert Gu表示:
具有較弱“tokenizations”的不同模態或數據格式(例如代碼、byte級建模)會越來越多地從壓縮模型(如SSM)中受益。

除了Codestral Mamba,Mistral AI這次還同時發布了一個新的數學模型——Mathstral(7B)。
有意思的是,網友讓它做這幾天大模型頻頻翻車的“9.11和9.9哪個大”的問題,Mathstral先比較整數,然后再比較小數部分,最后成功做對。


7B性能接近22BTransformer
Codestral Mamba完整基準測試結果如下:

在HumanEval C++/Java/JavaScript/Bash等所有基準上,Codestral Mamba全面超越CodeGemma-1.1 7B、CodeLlama 7B,且超越比它更大的CodeLlama 34B。
Mistral AI此前自家的最強開源編程模型Codestral 22B也沒有和Codestral Mamba拉開太大差距。
除此外,DeepSeek v1.5 7B在基準中也比較突出,和Codestral Mamba打得有來有回。
DeepSeek v1.5 7B在Spider(復雜跨域語義分析和文本到SQL任務)、HumanEval Java、HumanEval Bash、MBPP等方面優于Codestral Mamba。
除了基準測試結果,Codestral Mamba最令人關注的當屬它是首批Mamba2架構模型。
Mamba架構由FlashAttention作者Tri Dao和CMU助理教授、Cartesia AI聯合創始人及首席科學家Albert Gu在去年年底提出。

此前,ChatGPT等Transformer架構大模型有一大痛點:處理長文本算力消耗巨大。其背后也是因為Transformer架構中注意力機制的二次復雜度。
而Mamba是第一個真正實現匹配Transformer性能的線性時間序列模型,也是一種狀態空間模型(SSM,State Space Model)。
Mamba建立在更現代的適用于深度學習的結構化SSM(S4, Structured SSM)基礎上,與經典架構RNN有相似之處。
主要有三點創新:對輸入信息有選擇性處理、硬件感知的算法、更簡單的架構。
Mamba架構一問世就引起了圈內廣泛關注。Stability AI創始人、英偉達科學家Jim Fan等都對它的出現感到興奮。


Mamba初代論文年初被ICLR拒稿,當時在圈內引起熱議。
不過,最近已經被新生代頂流會議CoLM2024接收了。

Mamba2是其二代,狀態空間擴大8倍,訓練速度提高50%。
Mamba2論文中更是發現,Transformer中的注意力機制與SSM存在著非常緊密的數學聯系,論文成功入選ICML 2024。

還發布了一個數學模型
除了Codestral Mamba,Mistral AI還同時推出了一個開源數學模型——Mathstral(7B),作為對阿基米德誕生2311周年的紀念。
Mathstral在Mistral 7B基礎之上,專注于STEM(科學、技術、工程、數學),上下文窗口32k。
在基準測試中,Mathstral MATH得分56.6%,MMLU達到了63.47%。
重點是,Mathstral還可以通過更多的推理時間計算獲得更好的結果:
使用多數投票機制時,Mathstral 7B在MATH測試中的得分為68.37%,而在64個候選模型中應用一個強效獎勵模型時,得分能夠提升到74.59%。

以下是Mathstral 7B和Mistral 7B在MMLU各科目中的表現差異:

參考鏈接:
[1]https://mistral.ai/news/codestral-mamba/。
[2]https://mistral.ai/news/mathstral/。
[3]https://x.com/MistralAI/status/1813222156265791531。
[4]https://x.com/GuillaumeLample/status/1813231491154899012。
[5]https://x.com/theo_gervet/status/1813226968600469824。
[6]https://x.com/tuturetom/status/1813238885453033540。
[7]https://x.com/WenhuChen/status/1812562112524226569。






























