Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命精華

發(fā)布于 2025-9-4 06:55

瀏覽

1收藏

DeepSeek-V3、Qwen 3和Kimi-K2等模型已經(jīng)證明，擴大模型規(guī)模和計算資源是提升性能的有效途徑。然而，隨著模型規(guī)模的不斷增長，計算效率和資源利用成為了亟待解決的關鍵問題。今天，我們將深入解析美團LongCat團隊最新發(fā)布的LongCat-Flash模型，這個擁有5600億參數(shù)的Mixture-of-Experts (MoE)語言模型如何在保證強大性能的同時，實現(xiàn)計算效率的突破性提升。

技術背景：大型語言模型的效率挑戰(zhàn)

近年來，大型語言模型的發(fā)展呈現(xiàn)出"越大越好"的趨勢，但隨之而來的是巨大的計算資源消耗和推理成本問題。傳統(tǒng)的大型模型在處理每個token時都會激活全部參數(shù)，這導致了嚴重的計算資源浪費。研究表明，并非所有token都需要相同的計算資源——簡單的token可能只需要少量計算就能準確預測，而復雜的token則需要更多資源。

此外，隨著模型規(guī)模的擴大，通信開銷成為了MoE模型擴展的主要瓶頸。在傳統(tǒng)的執(zhí)行范式中，專家并行性強制執(zhí)行順序工作流：必須先將token路由到指定的專家，然后才能開始計算。這種通信延遲成為瓶頸，導致設備利用率低下和整體系統(tǒng)吞吐量受限。

面對這些挑戰(zhàn)，美團LongCat團隊提出了LongCat-Flash模型，通過創(chuàng)新的架構設計和訓練策略，實現(xiàn)了計算效率和模型性能的雙重突破。

LongCat-Flash模型架構詳解

LongCat-Flash采用了創(chuàng)新的MoE架構，包含兩大核心創(chuàng)新：Zero-computation Experts（零計算專家）和Shortcut-connected MoE（快捷連接MoE）。

Zero-computation Experts：動態(tài)計算資源分配

Zero-computation Experts是LongCat-Flash的核心創(chuàng)新之一，它實現(xiàn)了根據(jù)token的重要性動態(tài)分配計算資源的機制。具體來說，LongCat-Flash在N個標準FFN專家的基礎上，額外增加了Z個零計算專家。這些零計算專家簡單地返回輸入xt作為輸出，不引入額外的計算成本。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

LongCat-Flash采用的架構圖

如圖2所示，每個層采用Shortcut-connected Mixture of Experts (ScMoE)與零計算專家。ScMoE顯著擴展了計算-通信窗口，提高了訓練和推理效率。零計算專家實現(xiàn)了基于上下文重要性的動態(tài)計算，提高了計算資源利用效率。

MoE模塊的數(shù)學表達如下：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中，R表示softmax路由器，bi是第i個專家對應的專家偏置，K表示每個token選擇的專家數(shù)量。

通過這種自適應分配機制，模型學會為具有更高上下文重要性的token動態(tài)分配更多計算資源，從而在相同計算容量下實現(xiàn)更優(yōu)的性能。如圖3a所示，在匹配計算預算下，帶零計算專家的模型（橙色）相比不帶零計算專家的模型（藍色）實現(xiàn)了持續(xù)的損失降低。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖3：(a)驗證損失曲線比較 (b)訓練期間激活的FFN專家平均數(shù)量 (c)激活的FFN專家的標準差

計算預算控制

為了激勵模型學習上下文相關的計算分配，LongCat-Flash采用了專家偏置機制，通過PID控制器動態(tài)調(diào)整路由分數(shù)。具體更新規(guī)則如下：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中，μ表示偏置適應率，Tall表示全局批次中的token數(shù)量，Ti表示路由到第i個專家的token數(shù)量，Ke表示激活的FFN專家的期望數(shù)量，小于K。

這種機制確保了第i個專家的token分配收斂到其目標比例。如圖3b所示，經(jīng)過約200億token的調(diào)整后，所有層中的平均專家數(shù)量收斂到期望值，波動小于1%。然而，如圖3c所示，標準差保持在相對較高水平，表明模型在不同token之間分配了顯著不同的計算資源。

負載平衡控制

為了確保FFN專家之間的負載平衡，LongCat-Flash引入了設備級負載平衡損失：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

在損失中，我們將所有零計算專家分配到一個額外的組，并平均每組中的頻率。通過調(diào)整fj的系數(shù)，我們確保當損失收斂時，F(xiàn)FN專家與零計算專家的比例接近Ke/(K-Ke)。

Shortcut-connected MoE：擴大計算-通信重疊窗口

Shortcut-connected MoE (ScMoE) 是LongCat-Flash的另一個核心創(chuàng)新，它解決了MoE模型擴展中的通信瓶頸問題。ScMoE引入了跨層快捷連接，重新排序了執(zhí)行流水線。這一關鍵創(chuàng)新允許前一個塊的密集FFN與當前MoE層的dispatch/combine通信并行執(zhí)行，創(chuàng)造了比共享專家設計更 substantial的重疊窗口。

ScMoE架構的優(yōu)勢已在多個實驗中得到驗證。如圖4所示，在四種不同的模型配置下，包括(a) 2.4B-16B與MLA，(b) 3B-20B與MHA，和(c) 15B-193B與GQA，我們的架構與不帶ScMoE的基線的訓練損失曲線幾乎相同，確認這種重新排序的執(zhí)行不會損害模型性能。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖4：四種不同模型配置下，基線模型（不帶ScMoE）與其ScMoE增強對應物的訓練損失曲線比較

ScMoE架構為大規(guī)模訓練和高效推理都帶來了實質(zhì)性的系統(tǒng)級效率提升：

大規(guī)模訓練：擴展的重疊窗口允許前一個塊的計算與MoE層中的dispatch和combine通信階段完全并行，通過沿token維度將操作劃分為細粒度的塊來實現(xiàn)。
高效推理：ScMoE實現(xiàn)了單批次重疊流水線，與DeepSeek-V3等領先模型相比，將理論每個輸出令牌時間(TPOT)減少了近50%。此外，它允許并發(fā)執(zhí)行不同的通信模式：密集FFN上的節(jié)點內(nèi)張量并行通信（通過NVLink）可以與節(jié)點間專家并行通信（通過RDMA）完全重疊，從而最大化總網(wǎng)絡利用率。

方差對齊設計：提升模型可擴展性

LongCat-Flash采用了方差對齊技術來解決模型擴展中的不穩(wěn)定性問題。具體包括兩個方面：

MLA的尺度校正

LongCat-Flash采用了改進的多頭潛在注意力(MLA)機制，整合了尺度校正因子αq和αkv來解決非對稱低秩分解中固有的方差不平衡問題。完整的數(shù)學表達式如下：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中，ht ∈ Rdmodel是輸入隱藏狀態(tài)，每個頭部i的最終查詢和鍵通過連接內(nèi)容部分(C)和旋轉部分(R)形成。

αq和αkv的引入解決了查詢/鍵向量分量之間的基本方差不匹配問題。在初始化時，它們的方差與其源維度成正比：σ2(qCt), σ2(qRt) ∝ dq和σ2(kCt) ∝ dkv。相比之下，旋轉鍵分量kRt的方差與完整模型維度成正比：σ2(kRt) ∝ dmodel。當dq、dkv和dmodel變化時，這種維度差異導致初始化時的注意力分數(shù)不穩(wěn)定，從而導致模型擴展時性能下降和不可預測。

解決方案是將低秩路徑分量重新縮放，使其最終方差與參考尺度對齊，我們使用完整模型維度作為參考。這是通過將縮放因子定義為：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

MLA的縮放因子

這種尺度不變的校正中和了方差不匹配，確保它們?yōu)樽⒁饬τ嬎闾峁┝肆己脳l件。如圖5a所示，我們的實驗表明這種方法提高了模型性能。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖5：(a)在MLA上加入尺度校正因子顯示在1B激活MOE模型上改進的收斂性（更低損失）(b)模型增長實驗中6B激活MoE模型的驗證損失曲線

專家初始化的方差補償

LongCat-Flash采用了DeepSeek-MoE中的細粒度專家策略，將每個專家分割為m個更細粒度的專家，以增強組合靈活性和知識專業(yè)化。然而，我們觀察到這種設計的性能對其他架構選擇（例如，專家數(shù)量、top-k、m）敏感。

為了解決這個問題，我們提出了方差補償機制，以抵消專家分割導致的初始化方差減少。該機制對專家的聚合輸出應用縮放因子γ，公式如下：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中，gi是mN個細粒度專家上的路由器輸出，N表示分割前的專家總數(shù)。

公式(8)中的縮放因子γ通過量化兩個主要的方差減少來源得出：

門控稀釋：將每個原始N個專家分解為m個更細粒度的專家，使專家總數(shù)擴展到mN。這種擴展迫使softmax門控在更大的專家池中分配其概率質(zhì)量，按比例降低單個門控值gi的大小。因此，輸出方差大約減少了m倍。
維度減少：每個細粒度專家的中間隱藏維度(dexpert_inter)減少了m倍。假設均勻的參數(shù)初始化，單個專家的輸出方差也減少了m倍。

為了在初始化時保持MoE層的輸出方差（與分割前基線匹配），γ必須補償這兩種效應。因此，組合的方差補償因子為γ = m。

模型信息

LongCat-Flash的詳細配置如下：

分詞器：采用字節(jié)對編碼(BPE)，詞匯量優(yōu)化為131,072個token，在計算效率和語言覆蓋之間取得了有效平衡。
多令牌預測：集成了多令牌預測(MTP)作為輔助訓練目標，以提高推理效率。MTP頭在評估中實現(xiàn)了>90%的接受率。
模型配置：LongCat-Flash包含28層（不包括MTP層），隱藏狀態(tài)維度為6144。每個MLA塊使用64個注意力頭，每個頭部維度為128。密集路徑中的FFN采用12288個中間維度，而每個FFN專家使用2048個維度。每層包含512個FFN專家和256個零計算專家，每個token精確激活12個專家（從兩種類型中選擇）。LongCat-Flash總共有5600億參數(shù)，根據(jù)上下文不同，每個token激活186億到313億參數(shù)，平均激活約270億參數(shù)。

訓練策略與優(yōu)化

LongCat-Flash的訓練遵循三階段課程：(1) 在約20萬億個token上訓練模型，序列長度為8192，建立強大的基礎模型；(2) 使用數(shù)萬億數(shù)據(jù)進一步增強推理和編碼能力；(3) 通過在長上下文語料庫上訓練，將上下文長度擴展到128k。每個階段都實施量身定制的數(shù)據(jù)策略，并輔以嚴格的去污染程序，以防止測試集泄漏。

超參數(shù)傳遞

LongCat-Flash采用基于寬度縮放的超參數(shù)傳遞策略，以高效訓練大規(guī)模模型。該方法包括：(1) 在較小的代理模型上識別最優(yōu)超參數(shù)，(2) 通過理論驅(qū)動的縮放規(guī)則將這些配置傳遞給目標模型。

傳遞機制以寬度縮放因子s = ntarget/nproxy為中心，其中n是模型的隱藏維度。我們特別采用"Adam LR Full Align"規(guī)則進行標準參數(shù)化。這些規(guī)則指定了如何調(diào)整代理模型的最優(yōu)初始化方差(σ2)和學習率(η)以適應目標架構。實際傳遞規(guī)則總結如下表：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

表1：實用超參數(shù)傳遞規(guī)則及其基礎縮放指數(shù)

模型增長初始化

LongCat-Flash采用模型增長作為其初始化策略，從在數(shù)百億token上預訓練的半規(guī)模模型開始。在現(xiàn)有的模型增長方法中，我們采用層堆疊技術來擴展參數(shù)并提高性能。暫時忽略嵌入和反嵌入過程，整個過程可以表述為：

Lsmall = l1 ? l2 ? · · · ? ln
Ltarget = Lsmall ? Lsmall ? · · · ? Lsmall (r次)

其中l(wèi)i表示模型中第i層的變換，r表示擴展率，Lsmall表示小模型從token嵌入到最終隱藏狀態(tài)的變換，Ltarget表示通過堆疊r個小模型副本構建的目標（大）模型的變換。我們的架構使用r = 2。

通過大量實驗，我們一致觀察到通過模型增長初始化的模型表現(xiàn)出特征損失軌跡：初始增加后加速收斂，最終優(yōu)于隨機初始化的基線。圖5b展示了我們6B激活模型實驗中的代表性案例，證明了模型增長初始化的優(yōu)勢。

訓練穩(wěn)定性

我們從三個角度增強了LongCat-Flash的訓練穩(wěn)定性：路由器穩(wěn)定性、激活穩(wěn)定性和優(yōu)化器穩(wěn)定性。

路由器穩(wěn)定性

訓練MoE模型的一個基本挑戰(zhàn)是路由器穩(wěn)定性，這源于兩個競爭梯度之間的張力：

語言建模(LM)損失，驅(qū)動專家專業(yè)化（將token分配給最合適的專家）
輔助負載平衡(LB)損失，強制路由均勻性（在專家之間均勻分配token）

當LB梯度占主導地位時，所有專家的路由器參數(shù)收斂到相似性，導致無論輸入token如何都做出均勻的路由決策。這消除了條件計算的好處，嚴重降低了模型性能。

為了診斷和控制這種行為，我們提出了一個具有兩個關鍵指標的監(jiān)控框架：

路由器權重相似性：測量專家權重向量{wi}之間的平均成對余弦相似性。高相似性是負載平衡損失過度主導的直接指標。
梯度范數(shù)比(Rg)：量化兩個損失對批量平均專家概率向量P?的相對影響：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中，LLB是不帶系數(shù)α計算的負載平衡損失。

通過隱藏z-loss實現(xiàn)激活穩(wěn)定性

受路由器z-loss的啟發(fā)，我們設計了隱藏z-loss來避免LLM訓練期間大規(guī)模激活的普遍發(fā)生。通過經(jīng)驗觀察，我們發(fā)現(xiàn)這種大規(guī)模激活與訓練期間的嚴重損失峰值相關，這些峰值與優(yōu)化不穩(wěn)定性和潛在的性能下降相關。隱藏z-loss主要用于抑制具有極大大小的元素：

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中，λ是加權此損失的系數(shù)，|xt|是隱藏大小，abs(*)表示絕對值函數(shù)。如圖6所示，我們發(fā)現(xiàn)非常小的損失系數(shù)可以顯著抑制大規(guī)模激活現(xiàn)象，而不會損害訓練損失，從而降低BF16訓練期間數(shù)值錯誤的風險。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖6：帶有次優(yōu)超參數(shù)的小模型的最后一層隱藏狀態(tài)的L2范數(shù)和訓練損失

Adam的Epsilon的實際配置

隨著模型規(guī)模的增加，Adam優(yōu)化器中的epsilon(ε)參數(shù)（傳統(tǒng)上被視為數(shù)值穩(wěn)定性的次要常數(shù)）成為一個關鍵超參數(shù)。OLMo等人證明，將其設置為1e-8比默認值1e-5產(chǎn)生更優(yōu)結果。這種增強的敏感性主要源于兩個因素：(1) 大規(guī)模模型通常采用較小的參數(shù)初始化，(2) 它們在訓練期間使用更大的批量大小。

如圖7所示，我們跟蹤梯度均方根(RMS)范數(shù)的經(jīng)驗分析揭示了兩個關鍵發(fā)現(xiàn)：(1) 閾值效應：當ε接近觀察到的梯度RMS范數(shù)時，發(fā)生顯著的性能退化；(2) 下限穩(wěn)定性：一旦ε降低到這個臨界閾值以下，進一步減少對模型性能的影響可以忽略不計。因此，我們建議將ε設置為一個小的值（比預期的梯度RMS范數(shù)小幾個數(shù)量級）。在LongCat-Flash中，我們采用ε=1e-16，這種配置確保了數(shù)值穩(wěn)定性，同時保留了優(yōu)化器的自適應特性。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

探索不同模型大小的梯度均方根(RMS)范數(shù)和epsilon對損失的影響

預訓練數(shù)據(jù)策略

通用預訓練

我們首先進行通用預訓練階段，以確保整體模型能力。設計了多階段流水線以確保數(shù)據(jù)質(zhì)量和多樣性。主要階段包括：

內(nèi)容提取：我們使用定制版本的trafilatura進行通用網(wǎng)絡內(nèi)容，并為STEM材料使用專用流程，以正確解析公式、代碼和表格等復雜元素。
質(zhì)量過濾：應用兩步過濾方法。初始分類器清除明顯低質(zhì)量的文檔，然后基于流暢性和內(nèi)容完整性等指標進行更細粒度的篩選。
去重：我們應用高效的MinHash實現(xiàn)進行大規(guī)模去重，輔以識別和處理重復網(wǎng)絡模板的策略，以實現(xiàn)更準確的文檔級去重。

最終的數(shù)據(jù)混合過程采用兩階段計劃，逐步增加高質(zhì)量推理數(shù)據(jù)（例如STEM和代碼）的比例。

階段1：對于通用數(shù)據(jù)，我們采用實例級數(shù)據(jù)混合策略，平衡SampleMix中描述的數(shù)據(jù)質(zhì)量和多樣性，其中我們使用質(zhì)量和多樣性分數(shù)計算初始采樣分布，并根據(jù)細粒度領域和寫作風格標簽進一步調(diào)整分布傾向。冗余的低價值領域（例如廣告、體育、招聘）被下采樣，而推理豐富的領域（例如科學）被上采樣。
階段2：我們在此階段優(yōu)先考慮推理密集型領域，STEM和代碼占最終混合的70%。初步實驗表明，通用領域數(shù)據(jù)的突然減少會暫時降低模型能力。因此，我們實施漸進式代碼比例增加，通過外部驗證集上的持續(xù)困惑度監(jiān)測指導，以確保平穩(wěn)過渡而不影響一般性能。

推理和編碼增強

為了進一步增強模型的推理和編碼能力，并建立具有后續(xù)訓練后潛力的強大基礎模型，我們利用通過預訓練數(shù)據(jù)檢索和數(shù)據(jù)合成相結合生成的高質(zhì)量相關數(shù)據(jù)進行中期訓練階段。

系統(tǒng)性的合成數(shù)據(jù)工作流通過三個關鍵機制優(yōu)化數(shù)據(jù)質(zhì)量和多樣性：(1) 知識圖譜遍歷和節(jié)點組合，以確保概念復雜性和領域覆蓋；(2) 多階段迭代細化，逐步提高難度水平和思維鏈(CoT)推理質(zhì)量；(3) 雙模態(tài)生成和驗證（文本和計算），以保證數(shù)學準確性和解決方案有效性。結合基于規(guī)則和基于模型的過濾器進行仔細的質(zhì)量控制，最終數(shù)據(jù)集包含數(shù)千億個token。

長上下文擴展

我們實施了兩階段上下文長度擴展策略，以滿足后續(xù)長上下文推理和智能體訓練的要求。在第一階段，使用800億訓練token將上下文窗口從8k擴展到32k，RoPE的基頻從1,000,000提高到5,000,000。在第二階段，我們通過額外的200億token進一步將其擴展到128k，將基頻提高到10,000,000。

訓練語料庫建立在自然發(fā)生的長文本數(shù)據(jù)之上，例如高質(zhì)量的書籍和小說。此外，我們開發(fā)了一種系統(tǒng)性的方法來組織存儲庫級別的源代碼，以提高模型的長上下文能力。我們仔細選擇了高質(zhì)量的存儲庫，并應用多階段過濾過程來刪除非文本內(nèi)容、構建工件和自動生成的代碼，從而為長上下文預訓練策劃了200億token的數(shù)據(jù)集。

為了確保模型在長度擴展期間的一般能力保持穩(wěn)定，我們采用與主要預訓練階段相同的數(shù)據(jù)混合策略，并用額外的25%的長上下文數(shù)據(jù)增強此混合，以提高模型的長上下文性能。

去污染

我們對所有訓練數(shù)據(jù)進行嚴格的去污染，以防止常見基準測試集的數(shù)據(jù)泄漏。對于網(wǎng)絡和代碼數(shù)據(jù)，我們刪除包含與預定義測試集的任何13-gram重疊的文檔。對于合成數(shù)據(jù)和問答對，我們采用基于BGE-m3嵌入的語義相似性的更嚴格策略。如果文檔滿足以下任一條件，則丟棄：(1) 與任何測試用例的語義相似性得分>0.9；(2) 詞匯重疊（通過稀疏嵌入測量）與0.7-0.9之間的相似性得分相結合。

實驗結果與性能評估

基準測試評估

本節(jié)介紹了LongCat-Flash基礎模型的全面評估，包括方法和結果。

評估基準和配置

模型評估涵蓋四個核心能力：通用任務、通用推理、數(shù)學推理和編碼。用于評估的基準包括：

通用任務：MMLU、MMLU-Pro、C-Eval和CMMLU。
推理任務：GPQA、SuperGPQA、BBH、PIQA、DROP、CLUEWSC和WinoGrande。
數(shù)學任務：GSM8K、MATH。
編碼任務：MBPP+、HumanEval+、MultiPL-E和CRUXEval。

我們將LongCat-Flash基礎模型與最先進的開源基礎MoE模型進行比較，包括DeepSeek-V3.1 Base、Llama-4-Maverick Base和Kimi-K2 Base。

為確保公平性，所有模型都在相同的流水線和配置下進行評估。對于無法重現(xiàn)的少數(shù)結果，我們直接采用公開報告中的指標，并在表2中明確標注。

評估結果

表2展示了不同基準測試的評估結果。盡管其緊湊的活動/總參數(shù)大小，LongCat-Flash基礎模型實現(xiàn)了與最先進基礎模型相當?shù)男阅堋ｋm然Llama-4-Maverick具有更少的激活和總參數(shù)，但LongCat-Flash在大多數(shù)基準測試中表現(xiàn)更好或相當，特別是在智能體任務方面。

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

表2：LongCat-Flash與其他模型在不同基準測試上的性能比較

推理性能

LongCat-Flash在推理效率方面表現(xiàn)出色，實現(xiàn)了每秒超過100個token(TPS)的推理速度，每百萬輸出token成本為0.70美元。這一性能顯著優(yōu)于類似規(guī)模的模型，主要得益于其創(chuàng)新的架構設計和系統(tǒng)優(yōu)化。

具體來說，ScMoE架構實現(xiàn)了單批次重疊流水線，將理論每個輸出令牌時間(TPOT)減少了近50%。此外，它允許并發(fā)執(zhí)行不同的通信模式：密集FFN上的節(jié)點內(nèi)張量并行通信（通過NVLink）可以與節(jié)點間專家并行通信（通過RDMA）完全重疊，從而最大化總網(wǎng)絡利用率。

訓練效率

得益于可擴展的架構設計、訓練策略和基礎設施工作的協(xié)同作用，LongCat-Flash實現(xiàn)了高訓練吞吐量和低推理延遲。值得注意的是，我們在30天內(nèi)完成了5600億模型在超過20萬億token上的預訓練，并且在沒有手動干預進行故障解決的情況下實現(xiàn)了98.48%的時間可用性。

結論與意義

LongCat-Flash代表了大型語言模型在計算效率和智能體能力方面的重大突破。通過創(chuàng)新的架構設計，包括Zero-computation Experts和Shortcut-connected MoE，LongCat-Flash實現(xiàn)了根據(jù)token重要性動態(tài)分配計算資源的能力，同時顯著擴大了計算-通信重疊窗口，提高了訓練和推理效率。

在訓練策略方面，LongCat-Flash采用了超參數(shù)傳遞、模型增長初始化、多管齊下的穩(wěn)定性套件和確定性計算等創(chuàng)新方法，確保了大規(guī)模模型訓練的穩(wěn)定性和可擴展性。這些創(chuàng)新使得LongCat-Flash能夠在30天內(nèi)完成超過20萬億token的訓練，同時實現(xiàn)超過100 TPS的推理速度和每百萬輸出token僅0.70美元的成本。

在性能方面，LongCat-Flash作為非思維基礎模型，在多個基準測試中表現(xiàn)出與最先進的非思維模型相當?shù)男阅埽―eepSeek-V3.1和Kimi-K2，同時使用更少的參數(shù)并提供更快的推理速度。特別是在智能體任務方面，LongCat-Flash表現(xiàn)出色，在ArenaHard-V2上得分86.5，在TerminalBench上得分39.5，在τ2-Bench上得分67.7，展示了在通用領域、編碼和智能體工具使用方面的強大能力。

LongCat-Flash的成功不僅在于其技術創(chuàng)新，更在于它證明了算法設計、底層系統(tǒng)優(yōu)化和數(shù)據(jù)策略在推動可擴展智能前沿方面同樣關鍵。這一發(fā)現(xiàn)為未來大型語言模型的發(fā)展指明了方向，即通過多方面的協(xié)同創(chuàng)新，實現(xiàn)模型性能和計算效率的雙重突破。

LongCat Chat: https://longcat.ai
Hugging Face: https://huggingface.co/meituan-longcat
Github: https://github.com/meituan-longcat

本文轉載自??????AIGC深一度??，作者：一度

標簽

MoE

大模型

算法

贊

回復

舉報

社區(qū)頭條

回復

51CTO

51CTO博客

51CTO學堂

Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命精華

技術背景：大型語言模型的效率挑戰(zhàn)