精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命 精華

發(fā)布于 2025-9-4 06:55
瀏覽
1收藏

DeepSeek-V3、Qwen 3和Kimi-K2等模型已經(jīng)證明,擴大模型規(guī)模和計算資源是提升性能的有效途徑。然而,隨著模型規(guī)模的不斷增長,計算效率和資源利用成為了亟待解決的關鍵問題。今天,我們將深入解析美團LongCat團隊最新發(fā)布的LongCat-Flash模型,這個擁有5600億參數(shù)的Mixture-of-Experts (MoE)語言模型如何在保證強大性能的同時,實現(xiàn)計算效率的突破性提升。

技術背景:大型語言模型的效率挑戰(zhàn)

近年來,大型語言模型的發(fā)展呈現(xiàn)出"越大越好"的趨勢,但隨之而來的是巨大的計算資源消耗和推理成本問題。傳統(tǒng)的大型模型在處理每個token時都會激活全部參數(shù),這導致了嚴重的計算資源浪費。研究表明,并非所有token都需要相同的計算資源——簡單的token可能只需要少量計算就能準確預測,而復雜的token則需要更多資源。

此外,隨著模型規(guī)模的擴大,通信開銷成為了MoE模型擴展的主要瓶頸。在傳統(tǒng)的執(zhí)行范式中,專家并行性強制執(zhí)行順序工作流:必須先將token路由到指定的專家,然后才能開始計算。這種通信延遲成為瓶頸,導致設備利用率低下和整體系統(tǒng)吞吐量受限。

面對這些挑戰(zhàn),美團LongCat團隊提出了LongCat-Flash模型,通過創(chuàng)新的架構設計和訓練策略,實現(xiàn)了計算效率和模型性能的雙重突破。

LongCat-Flash模型架構詳解

LongCat-Flash采用了創(chuàng)新的MoE架構,包含兩大核心創(chuàng)新:Zero-computation Experts(零計算專家)和Shortcut-connected MoE(快捷連接MoE)。

Zero-computation Experts:動態(tài)計算資源分配

Zero-computation Experts是LongCat-Flash的核心創(chuàng)新之一,它實現(xiàn)了根據(jù)token的重要性動態(tài)分配計算資源的機制。具體來說,LongCat-Flash在N個標準FFN專家的基礎上,額外增加了Z個零計算專家。這些零計算專家簡單地返回輸入xt作為輸出,不引入額外的計算成本。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

LongCat-Flash采用的架構圖

如圖2所示,每個層采用Shortcut-connected Mixture of Experts (ScMoE)與零計算專家。ScMoE顯著擴展了計算-通信窗口,提高了訓練和推理效率。零計算專家實現(xiàn)了基于上下文重要性的動態(tài)計算,提高了計算資源利用效率。

MoE模塊的數(shù)學表達如下:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中,R表示softmax路由器,bi是第i個專家對應的專家偏置,K表示每個token選擇的專家數(shù)量。

通過這種自適應分配機制,模型學會為具有更高上下文重要性的token動態(tài)分配更多計算資源,從而在相同計算容量下實現(xiàn)更優(yōu)的性能。如圖3a所示,在匹配計算預算下,帶零計算專家的模型(橙色)相比不帶零計算專家的模型(藍色)實現(xiàn)了持續(xù)的損失降低。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖3:(a)驗證損失曲線比較 (b)訓練期間激活的FFN專家平均數(shù)量 (c)激活的FFN專家的標準差

計算預算控制

為了激勵模型學習上下文相關的計算分配,LongCat-Flash采用了專家偏置機制,通過PID控制器動態(tài)調(diào)整路由分數(shù)。具體更新規(guī)則如下:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中,μ表示偏置適應率,Tall表示全局批次中的token數(shù)量,Ti表示路由到第i個專家的token數(shù)量,Ke表示激活的FFN專家的期望數(shù)量,小于K。

這種機制確保了第i個專家的token分配收斂到其目標比例。如圖3b所示,經(jīng)過約200億token的調(diào)整后,所有層中的平均專家數(shù)量收斂到期望值,波動小于1%。然而,如圖3c所示,標準差保持在相對較高水平,表明模型在不同token之間分配了顯著不同的計算資源。

負載平衡控制

為了確保FFN專家之間的負載平衡,LongCat-Flash引入了設備級負載平衡損失:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

在損失中,我們將所有零計算專家分配到一個額外的組,并平均每組中的頻率。通過調(diào)整fj的系數(shù),我們確保當損失收斂時,F(xiàn)FN專家與零計算專家的比例接近Ke/(K-Ke)。

Shortcut-connected MoE:擴大計算-通信重疊窗口

Shortcut-connected MoE (ScMoE) 是LongCat-Flash的另一個核心創(chuàng)新,它解決了MoE模型擴展中的通信瓶頸問題。ScMoE引入了跨層快捷連接,重新排序了執(zhí)行流水線。這一關鍵創(chuàng)新允許前一個塊的密集FFN與當前MoE層的dispatch/combine通信并行執(zhí)行,創(chuàng)造了比共享專家設計更 substantial的重疊窗口。

ScMoE架構的優(yōu)勢已在多個實驗中得到驗證。如圖4所示,在四種不同的模型配置下,包括(a) 2.4B-16B與MLA,(b) 3B-20B與MHA,和(c) 15B-193B與GQA,我們的架構與不帶ScMoE的基線的訓練損失曲線幾乎相同,確認這種重新排序的執(zhí)行不會損害模型性能。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖4:四種不同模型配置下,基線模型(不帶ScMoE)與其ScMoE增強對應物的訓練損失曲線比較

ScMoE架構為大規(guī)模訓練和高效推理都帶來了實質(zhì)性的系統(tǒng)級效率提升:

  • 大規(guī)模訓練:擴展的重疊窗口允許前一個塊的計算與MoE層中的dispatch和combine通信階段完全并行,通過沿token維度將操作劃分為細粒度的塊來實現(xiàn)。
  • 高效推理:ScMoE實現(xiàn)了單批次重疊流水線,與DeepSeek-V3等領先模型相比,將理論每個輸出令牌時間(TPOT)減少了近50%。此外,它允許并發(fā)執(zhí)行不同的通信模式:密集FFN上的節(jié)點內(nèi)張量并行通信(通過NVLink)可以與節(jié)點間專家并行通信(通過RDMA)完全重疊,從而最大化總網(wǎng)絡利用率。

方差對齊設計:提升模型可擴展性

LongCat-Flash采用了方差對齊技術來解決模型擴展中的不穩(wěn)定性問題。具體包括兩個方面:

MLA的尺度校正

LongCat-Flash采用了改進的多頭潛在注意力(MLA)機制,整合了尺度校正因子αq和αkv來解決非對稱低秩分解中固有的方差不平衡問題。完整的數(shù)學表達式如下:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中,ht ∈ Rdmodel是輸入隱藏狀態(tài),每個頭部i的最終查詢和鍵通過連接內(nèi)容部分(C)和旋轉部分(R)形成。

αq和αkv的引入解決了查詢/鍵向量分量之間的基本方差不匹配問題。在初始化時,它們的方差與其源維度成正比:σ2(qCt), σ2(qRt) ∝ dq和σ2(kCt) ∝ dkv。相比之下,旋轉鍵分量kRt的方差與完整模型維度成正比:σ2(kRt) ∝ dmodel。當dq、dkv和dmodel變化時,這種維度差異導致初始化時的注意力分數(shù)不穩(wěn)定,從而導致模型擴展時性能下降和不可預測。

解決方案是將低秩路徑分量重新縮放,使其最終方差與參考尺度對齊,我們使用完整模型維度作為參考。這是通過將縮放因子定義為:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

MLA的縮放因子

這種尺度不變的校正中和了方差不匹配,確保它們?yōu)樽⒁饬τ嬎闾峁┝肆己脳l件。如圖5a所示,我們的實驗表明這種方法提高了模型性能。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖5:(a)在MLA上加入尺度校正因子顯示在1B激活MOE模型上改進的收斂性(更低損失)(b)模型增長實驗中6B激活MoE模型的驗證損失曲線

專家初始化的方差補償

LongCat-Flash采用了DeepSeek-MoE中的細粒度專家策略,將每個專家分割為m個更細粒度的專家,以增強組合靈活性和知識專業(yè)化。然而,我們觀察到這種設計的性能對其他架構選擇(例如,專家數(shù)量、top-k、m)敏感。

為了解決這個問題,我們提出了方差補償機制,以抵消專家分割導致的初始化方差減少。該機制對專家的聚合輸出應用縮放因子γ,公式如下:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中,gi是mN個細粒度專家上的路由器輸出,N表示分割前的專家總數(shù)。

公式(8)中的縮放因子γ通過量化兩個主要的方差減少來源得出:

  1. 門控稀釋:將每個原始N個專家分解為m個更細粒度的專家,使專家總數(shù)擴展到mN。這種擴展迫使softmax門控在更大的專家池中分配其概率質(zhì)量,按比例降低單個門控值gi的大小。因此,輸出方差大約減少了m倍。
  2. 維度減少:每個細粒度專家的中間隱藏維度(dexpert_inter)減少了m倍。假設均勻的參數(shù)初始化,單個專家的輸出方差也減少了m倍。

為了在初始化時保持MoE層的輸出方差(與分割前基線匹配),γ必須補償這兩種效應。因此,組合的方差補償因子為γ = m。

模型信息

LongCat-Flash的詳細配置如下:

  • 分詞器:采用字節(jié)對編碼(BPE),詞匯量優(yōu)化為131,072個token,在計算效率和語言覆蓋之間取得了有效平衡。
  • 多令牌預測:集成了多令牌預測(MTP)作為輔助訓練目標,以提高推理效率。MTP頭在評估中實現(xiàn)了>90%的接受率。
  • 模型配置:LongCat-Flash包含28層(不包括MTP層),隱藏狀態(tài)維度為6144。每個MLA塊使用64個注意力頭,每個頭部維度為128。密集路徑中的FFN采用12288個中間維度,而每個FFN專家使用2048個維度。每層包含512個FFN專家和256個零計算專家,每個token精確激活12個專家(從兩種類型中選擇)。LongCat-Flash總共有5600億參數(shù),根據(jù)上下文不同,每個token激活186億到313億參數(shù),平均激活約270億參數(shù)。

訓練策略與優(yōu)化

LongCat-Flash的訓練遵循三階段課程:(1) 在約20萬億個token上訓練模型,序列長度為8192,建立強大的基礎模型;(2) 使用數(shù)萬億數(shù)據(jù)進一步增強推理和編碼能力;(3) 通過在長上下文語料庫上訓練,將上下文長度擴展到128k。每個階段都實施量身定制的數(shù)據(jù)策略,并輔以嚴格的去污染程序,以防止測試集泄漏。

超參數(shù)傳遞

LongCat-Flash采用基于寬度縮放的超參數(shù)傳遞策略,以高效訓練大規(guī)模模型。該方法包括:(1) 在較小的代理模型上識別最優(yōu)超參數(shù),(2) 通過理論驅(qū)動的縮放規(guī)則將這些配置傳遞給目標模型。

傳遞機制以寬度縮放因子s = ntarget/nproxy為中心,其中n是模型的隱藏維度。我們特別采用"Adam LR Full Align"規(guī)則進行標準參數(shù)化。這些規(guī)則指定了如何調(diào)整代理模型的最優(yōu)初始化方差(σ2)和學習率(η)以適應目標架構。實際傳遞規(guī)則總結如下表:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

表1:實用超參數(shù)傳遞規(guī)則及其基礎縮放指數(shù)

模型增長初始化

LongCat-Flash采用模型增長作為其初始化策略,從在數(shù)百億token上預訓練的半規(guī)模模型開始。在現(xiàn)有的模型增長方法中,我們采用層堆疊技術來擴展參數(shù)并提高性能。暫時忽略嵌入和反嵌入過程,整個過程可以表述為:

Lsmall = l1 ? l2 ? · · · ? ln
Ltarget = Lsmall ? Lsmall ? · · · ? Lsmall (r次)

其中l(wèi)i表示模型中第i層的變換,r表示擴展率,Lsmall表示小模型從token嵌入到最終隱藏狀態(tài)的變換,Ltarget表示通過堆疊r個小模型副本構建的目標(大)模型的變換。我們的架構使用r = 2。

通過大量實驗,我們一致觀察到通過模型增長初始化的模型表現(xiàn)出特征損失軌跡:初始增加后加速收斂,最終優(yōu)于隨機初始化的基線。圖5b展示了我們6B激活模型實驗中的代表性案例,證明了模型增長初始化的優(yōu)勢。

訓練穩(wěn)定性

我們從三個角度增強了LongCat-Flash的訓練穩(wěn)定性:路由器穩(wěn)定性、激活穩(wěn)定性和優(yōu)化器穩(wěn)定性。

路由器穩(wěn)定性

訓練MoE模型的一個基本挑戰(zhàn)是路由器穩(wěn)定性,這源于兩個競爭梯度之間的張力:

  • 語言建模(LM)損失,驅(qū)動專家專業(yè)化(將token分配給最合適的專家)
  • 輔助負載平衡(LB)損失,強制路由均勻性(在專家之間均勻分配token)

當LB梯度占主導地位時,所有專家的路由器參數(shù)收斂到相似性,導致無論輸入token如何都做出均勻的路由決策。這消除了條件計算的好處,嚴重降低了模型性能。

為了診斷和控制這種行為,我們提出了一個具有兩個關鍵指標的監(jiān)控框架:

  • 路由器權重相似性:測量專家權重向量{wi}之間的平均成對余弦相似性。高相似性是負載平衡損失過度主導的直接指標。
  • 梯度范數(shù)比(Rg):量化兩個損失對批量平均專家概率向量P?的相對影響:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中,LLB是不帶系數(shù)α計算的負載平衡損失。

通過隱藏z-loss實現(xiàn)激活穩(wěn)定性

受路由器z-loss的啟發(fā),我們設計了隱藏z-loss來避免LLM訓練期間大規(guī)模激活的普遍發(fā)生。通過經(jīng)驗觀察,我們發(fā)現(xiàn)這種大規(guī)模激活與訓練期間的嚴重損失峰值相關,這些峰值與優(yōu)化不穩(wěn)定性和潛在的性能下降相關。隱藏z-loss主要用于抑制具有極大大小的元素:

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

其中,λ是加權此損失的系數(shù),|xt|是隱藏大小,abs(*)表示絕對值函數(shù)。如圖6所示,我們發(fā)現(xiàn)非常小的損失系數(shù)可以顯著抑制大規(guī)模激活現(xiàn)象,而不會損害訓練損失,從而降低BF16訓練期間數(shù)值錯誤的風險。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

圖6:帶有次優(yōu)超參數(shù)的小模型的最后一層隱藏狀態(tài)的L2范數(shù)和訓練損失

Adam的Epsilon的實際配置

隨著模型規(guī)模的增加,Adam優(yōu)化器中的epsilon(ε)參數(shù)(傳統(tǒng)上被視為數(shù)值穩(wěn)定性的次要常數(shù))成為一個關鍵超參數(shù)。OLMo等人證明,將其設置為1e-8比默認值1e-5產(chǎn)生更優(yōu)結果。這種增強的敏感性主要源于兩個因素:(1) 大規(guī)模模型通常采用較小的參數(shù)初始化,(2) 它們在訓練期間使用更大的批量大小。

如圖7所示,我們跟蹤梯度均方根(RMS)范數(shù)的經(jīng)驗分析揭示了兩個關鍵發(fā)現(xiàn):(1) 閾值效應:當ε接近觀察到的梯度RMS范數(shù)時,發(fā)生顯著的性能退化;(2) 下限穩(wěn)定性:一旦ε降低到這個臨界閾值以下,進一步減少對模型性能的影響可以忽略不計。因此,我們建議將ε設置為一個小的值(比預期的梯度RMS范數(shù)小幾個數(shù)量級)。在LongCat-Flash中,我們采用ε=1e-16,這種配置確保了數(shù)值穩(wěn)定性,同時保留了優(yōu)化器的自適應特性。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

探索不同模型大小的梯度均方根(RMS)范數(shù)和epsilon對損失的影響

預訓練數(shù)據(jù)策略

通用預訓練

我們首先進行通用預訓練階段,以確保整體模型能力。設計了多階段流水線以確保數(shù)據(jù)質(zhì)量和多樣性。主要階段包括:

  • 內(nèi)容提取:我們使用定制版本的trafilatura進行通用網(wǎng)絡內(nèi)容,并為STEM材料使用專用流程,以正確解析公式、代碼和表格等復雜元素。
  • 質(zhì)量過濾:應用兩步過濾方法。初始分類器清除明顯低質(zhì)量的文檔,然后基于流暢性和內(nèi)容完整性等指標進行更細粒度的篩選。
  • 去重:我們應用高效的MinHash實現(xiàn)進行大規(guī)模去重,輔以識別和處理重復網(wǎng)絡模板的策略,以實現(xiàn)更準確的文檔級去重。

最終的數(shù)據(jù)混合過程采用兩階段計劃,逐步增加高質(zhì)量推理數(shù)據(jù)(例如STEM和代碼)的比例。

  • 階段1:對于通用數(shù)據(jù),我們采用實例級數(shù)據(jù)混合策略,平衡SampleMix中描述的數(shù)據(jù)質(zhì)量和多樣性,其中我們使用質(zhì)量和多樣性分數(shù)計算初始采樣分布,并根據(jù)細粒度領域和寫作風格標簽進一步調(diào)整分布傾向。冗余的低價值領域(例如廣告、體育、招聘)被下采樣,而推理豐富的領域(例如科學)被上采樣。
  • 階段2:我們在此階段優(yōu)先考慮推理密集型領域,STEM和代碼占最終混合的70%。初步實驗表明,通用領域數(shù)據(jù)的突然減少會暫時降低模型能力。因此,我們實施漸進式代碼比例增加,通過外部驗證集上的持續(xù)困惑度監(jiān)測指導,以確保平穩(wěn)過渡而不影響一般性能。

推理和編碼增強

為了進一步增強模型的推理和編碼能力,并建立具有后續(xù)訓練后潛力的強大基礎模型,我們利用通過預訓練數(shù)據(jù)檢索和數(shù)據(jù)合成相結合生成的高質(zhì)量相關數(shù)據(jù)進行中期訓練階段。

系統(tǒng)性的合成數(shù)據(jù)工作流通過三個關鍵機制優(yōu)化數(shù)據(jù)質(zhì)量和多樣性:(1) 知識圖譜遍歷和節(jié)點組合,以確保概念復雜性和領域覆蓋;(2) 多階段迭代細化,逐步提高難度水平和思維鏈(CoT)推理質(zhì)量;(3) 雙模態(tài)生成和驗證(文本和計算),以保證數(shù)學準確性和解決方案有效性。結合基于規(guī)則和基于模型的過濾器進行仔細的質(zhì)量控制,最終數(shù)據(jù)集包含數(shù)千億個token。

長上下文擴展

我們實施了兩階段上下文長度擴展策略,以滿足后續(xù)長上下文推理和智能體訓練的要求。在第一階段,使用800億訓練token將上下文窗口從8k擴展到32k,RoPE的基頻從1,000,000提高到5,000,000。在第二階段,我們通過額外的200億token進一步將其擴展到128k,將基頻提高到10,000,000。

訓練語料庫建立在自然發(fā)生的長文本數(shù)據(jù)之上,例如高質(zhì)量的書籍和小說。此外,我們開發(fā)了一種系統(tǒng)性的方法來組織存儲庫級別的源代碼,以提高模型的長上下文能力。我們仔細選擇了高質(zhì)量的存儲庫,并應用多階段過濾過程來刪除非文本內(nèi)容、構建工件和自動生成的代碼,從而為長上下文預訓練策劃了200億token的數(shù)據(jù)集。

為了確保模型在長度擴展期間的一般能力保持穩(wěn)定,我們采用與主要預訓練階段相同的數(shù)據(jù)混合策略,并用額外的25%的長上下文數(shù)據(jù)增強此混合,以提高模型的長上下文性能。

去污染

我們對所有訓練數(shù)據(jù)進行嚴格的去污染,以防止常見基準測試集的數(shù)據(jù)泄漏。對于網(wǎng)絡和代碼數(shù)據(jù),我們刪除包含與預定義測試集的任何13-gram重疊的文檔。對于合成數(shù)據(jù)和問答對,我們采用基于BGE-m3嵌入的語義相似性的更嚴格策略。如果文檔滿足以下任一條件,則丟棄:(1) 與任何測試用例的語義相似性得分>0.9;(2) 詞匯重疊(通過稀疏嵌入測量)與0.7-0.9之間的相似性得分相結合。

實驗結果與性能評估

基準測試評估

本節(jié)介紹了LongCat-Flash基礎模型的全面評估,包括方法和結果。

評估基準和配置

模型評估涵蓋四個核心能力:通用任務、通用推理、數(shù)學推理和編碼。用于評估的基準包括:

  • 通用任務:MMLU、MMLU-Pro、C-Eval和CMMLU。
  • 推理任務:GPQA、SuperGPQA、BBH、PIQA、DROP、CLUEWSC和WinoGrande。
  • 數(shù)學任務:GSM8K、MATH。
  • 編碼任務:MBPP+、HumanEval+、MultiPL-E和CRUXEval。

我們將LongCat-Flash基礎模型與最先進的開源基礎MoE模型進行比較,包括DeepSeek-V3.1 Base、Llama-4-Maverick Base和Kimi-K2 Base。

為確保公平性,所有模型都在相同的流水線和配置下進行評估。對于無法重現(xiàn)的少數(shù)結果,我們直接采用公開報告中的指標,并在表2中明確標注。

評估結果

表2展示了不同基準測試的評估結果。盡管其緊湊的活動/總參數(shù)大小,LongCat-Flash基礎模型實現(xiàn)了與最先進基礎模型相當?shù)男阅堋km然Llama-4-Maverick具有更少的激活和總參數(shù),但LongCat-Flash在大多數(shù)基準測試中表現(xiàn)更好或相當,特別是在智能體任務方面。

Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命-AI.x社區(qū)

表2:LongCat-Flash與其他模型在不同基準測試上的性能比較

推理性能

LongCat-Flash在推理效率方面表現(xiàn)出色,實現(xiàn)了每秒超過100個token(TPS)的推理速度,每百萬輸出token成本為0.70美元。這一性能顯著優(yōu)于類似規(guī)模的模型,主要得益于其創(chuàng)新的架構設計和系統(tǒng)優(yōu)化。

具體來說,ScMoE架構實現(xiàn)了單批次重疊流水線,將理論每個輸出令牌時間(TPOT)減少了近50%。此外,它允許并發(fā)執(zhí)行不同的通信模式:密集FFN上的節(jié)點內(nèi)張量并行通信(通過NVLink)可以與節(jié)點間專家并行通信(通過RDMA)完全重疊,從而最大化總網(wǎng)絡利用率。

訓練效率

得益于可擴展的架構設計、訓練策略和基礎設施工作的協(xié)同作用,LongCat-Flash實現(xiàn)了高訓練吞吐量和低推理延遲。值得注意的是,我們在30天內(nèi)完成了5600億模型在超過20萬億token上的預訓練,并且在沒有手動干預進行故障解決的情況下實現(xiàn)了98.48%的時間可用性。

結論與意義

LongCat-Flash代表了大型語言模型在計算效率和智能體能力方面的重大突破。通過創(chuàng)新的架構設計,包括Zero-computation Experts和Shortcut-connected MoE,LongCat-Flash實現(xiàn)了根據(jù)token重要性動態(tài)分配計算資源的能力,同時顯著擴大了計算-通信重疊窗口,提高了訓練和推理效率。

在訓練策略方面,LongCat-Flash采用了超參數(shù)傳遞、模型增長初始化、多管齊下的穩(wěn)定性套件和確定性計算等創(chuàng)新方法,確保了大規(guī)模模型訓練的穩(wěn)定性和可擴展性。這些創(chuàng)新使得LongCat-Flash能夠在30天內(nèi)完成超過20萬億token的訓練,同時實現(xiàn)超過100 TPS的推理速度和每百萬輸出token僅0.70美元的成本。

在性能方面,LongCat-Flash作為非思維基礎模型,在多個基準測試中表現(xiàn)出與最先進的非思維模型相當?shù)男阅埽―eepSeek-V3.1和Kimi-K2,同時使用更少的參數(shù)并提供更快的推理速度。特別是在智能體任務方面,LongCat-Flash表現(xiàn)出色,在ArenaHard-V2上得分86.5,在TerminalBench上得分39.5,在τ2-Bench上得分67.7,展示了在通用領域、編碼和智能體工具使用方面的強大能力。

LongCat-Flash的成功不僅在于其技術創(chuàng)新,更在于它證明了算法設計、底層系統(tǒng)優(yōu)化和數(shù)據(jù)策略在推動可擴展智能前沿方面同樣關鍵。這一發(fā)現(xiàn)為未來大型語言模型的發(fā)展指明了方向,即通過多方面的協(xié)同創(chuàng)新,實現(xiàn)模型性能和計算效率的雙重突破。

  • LongCat Chat: https://longcat.ai
  • Hugging Face: https://huggingface.co/meituan-longcat
  • Github: https://github.com/meituan-longcat

本文轉載自??????AIGC深一度??,作者:一度


收藏 1
回復
舉報
回復
相關推薦
国产精品一区二区美女视频免费看| 熟妇高潮一区二区三区| 久久精品免费一区二区三区| 日韩欧美国产综合| 日韩欧美国产免费| 欧美边添边摸边做边爱免费| 国产mv日韩mv欧美| 国产精品999| 激情小说中文字幕| 欧美色女视频| 精品国产1区2区3区| 噼里啪啦国语在线观看免费版高清版| a天堂中文在线官网在线| 9色porny自拍视频一区二区| 国产欧美婷婷中文| 制服.丝袜.亚洲.中文.综合懂色| 日韩亚洲一区在线| 国产视频综合在线| 国产xxx在线观看| 九七影院97影院理论片久久 | 黑人中文字幕一区二区三区| 中文字幕网址在线| 母乳一区在线观看| 欧美极品少妇xxxxⅹ免费视频 | 亚洲精品97| 日韩精品在线观看视频| 91精品人妻一区二区三区四区| 欧美三级精品| 欧美日韩国产一区在线| 青青在线免费视频| 欧美jizz18性欧美| 国产日产欧美精品一区二区三区| 精品国产一区二区三区免费| 国产特黄一级片| 久久99精品国产麻豆婷婷洗澡| 欧美中文字幕在线播放| 日韩av男人天堂| 伊人久久成人| 欧美激情精品久久久| a一级免费视频| 日韩在线高清| 色噜噜久久综合伊人一本| 天堂久久精品忘忧草| 国产精东传媒成人av电影| 日韩亚洲欧美成人一区| 中文字幕在线视频一区二区三区 | 国产精品地址| 欧美成人性色生活仑片| 蜜臀av午夜精品久久| 91偷拍一区二区三区精品| 在线午夜精品自拍| 99久久99久久精品免费看小说.| 综合亚洲色图| 亚洲欧美国内爽妇网| 深爱五月激情网| 国产videos久久| 一区二区欧美日韩视频| 夫妇露脸对白88av| 99国产精品免费视频观看| 深夜成人在线观看| 熟女少妇a性色生活片毛片| 97精品一区| 久久国产色av| 国产在线观看成人| av不卡免费看| 日韩美女在线播放| 亚洲av综合一区| 久久69国产一区二区蜜臀| 91免费在线视频| www黄色网址| 99久久精品免费看| 欧美成人一区二区在线| 成人不用播放器| 中文字幕在线免费不卡| 日本女人高潮视频| av中文在线资源| 色激情天天射综合网| 五月天av在线播放| 一区中文字幕| 亚洲精品视频免费| 日本爱爱小视频| 影音先锋国产精品| 国产99久久久欧美黑人 | 蜜桃视频第一区免费观看| 成人亲热视频网站| 人妻视频一区二区三区| 国产欧美综合在线| 中国女人做爰视频| 不卡福利视频| 91精品国产综合久久小美女| 成人区人妻精品一区二| 国产欧美日韩影院| 欧美另类高清videos| 欧美一级片免费在线观看| 美女爽到高潮91| 国产在线精品一区二区中文 | 成人h动漫免费观看网站| 日韩禁在线播放| 国产中文av在线| 欧美电影《轻佻寡妇》| 久久艹在线视频| 亚洲免费黄色网址| 国产精品一区一区| 日韩中文字幕av在线| 秋霞在线视频| 欧美三级一区二区| 亚洲黄色免费在线观看| 五月开心六月丁香综合色啪 | 久久天天久久| 亚洲福利视频久久| 日本高清不卡免费| 日韩国产欧美在线观看| 超碰在线97av| 久久bbxx| 欧美艳星brazzers| 少妇按摩一区二区三区| 好看不卡的中文字幕| 国产精品午夜视频| 精品乱码一区二区三四区视频| 一区二区三区四区五区视频在线观看| 精品久久久噜噜噜噜久久图片 | 精品国产91亚洲一区二区三区婷婷 | 中文字幕亚洲综合久久| 国产精品777777| 粉嫩13p一区二区三区| 免费看啪啪网站| 日本国产欧美| 国产亚洲精品综合一区91| 天天插天天操天天干| 国产乱对白刺激视频不卡| 亚洲激情一区二区三区| 性欧美hd调教| 亚洲美女视频网| 欧美一区二区激情视频| 成人黄页在线观看| 免费特级黄色片| 亚洲午夜免费| 久久99久国产精品黄毛片入口| 亚洲熟妇无码久久精品| 欧美高清一级片在线观看| 黑鬼大战白妞高潮喷白浆| 欧美电影免费网站| 91高清视频在线免费观看| 丰满熟女一区二区三区| 亚洲综合激情网| 成人一区二区三区仙踪林| 欧美jizzhd精品欧美巨大免费| 91久久精品美女高潮| 免费在线毛片网站| 欧美疯狂做受xxxx富婆| 永久av免费网站| 国产精品原创巨作av| 穿情趣内衣被c到高潮视频| 日韩欧美中文字幕在线视频| 欧美床上激情在线观看| 好吊色一区二区三区| 亚洲一区二区精品视频| 亚洲国产第一区| 久久一区二区三区四区五区| 日韩av免费电影| 粉嫩av一区二区三区四区五区| 最近2019年好看中文字幕视频 | 日韩视频在线播放| 成人一区视频| 理论片在线不卡免费观看| 国产suv精品一区二区69| 一卡二卡欧美日韩| 久久午夜夜伦鲁鲁片| 日韩国产欧美在线观看| 中文字幕中文字幕99| 欧美大片91| 97色在线视频观看| 国产系列电影在线播放网址| 欧美日韩一区中文字幕| 超碰手机在线观看| av亚洲精华国产精华精华| 日本成人中文字幕在线| 天天做综合网| 国产乱码精品一区二区三区卡| 午夜影视一区二区三区| 中文字幕日韩综合av| 精品人妻伦一区二区三区久久 | 亚洲天堂国产精品| 洋洋成人永久网站入口| 3d动漫精品啪啪一区二区下载| 美女脱光内衣内裤视频久久网站 | 亚洲午夜精品一区二区 | 日韩一二三区视频| 国产日产精品一区二区三区| 国产精品理论片| 国产ts在线观看| 天堂精品中文字幕在线| 天堂а√在线中文在线| 九九视频免费观看视频精品| 成人免费淫片aa视频免费| 欧美办公室脚交xxxx| 最近2019中文免费高清视频观看www99| a天堂视频在线| 在线免费观看日本一区| 国产真人真事毛片| 国产精品无人区| 91av在线免费| 国产精品123| 中文字幕视频在线免费观看| 国产精品草草| 日韩视频在线免费播放| 亚洲丝袜美腿一区| 国产精品国产三级国产专区53| 欧美va视频| 45www国产精品网站| 麻豆视频在线观看免费网站| 亚洲欧美另类自拍| 后入内射欧美99二区视频| 欧美日韩日日夜夜| 视频一区二区三区四区五区| 亚洲国产精品综合小说图片区| 五月婷婷婷婷婷| 久久久青草青青国产亚洲免观| 免费观看一区二区三区| 狠狠色综合播放一区二区| 黑鬼大战白妞高潮喷白浆| 99精品热6080yy久久| 国产 欧美 日本| 亚洲高清影视| 亚洲欧洲三级| 成人情趣视频| 日韩视频专区| 国产aⅴ精品一区二区三区久久| 国产一区喷水| 成人资源在线播放| 91精品国产一区二区三区动漫 | 在线观看亚洲大片短视频| 99精品视频在线播放观看| 无码人妻一区二区三区精品视频| 久久成人羞羞网站| 五月婷婷六月丁香激情| 日韩中文字幕不卡| 97在线播放视频| 亚洲一区国产一区| 国产精品入口芒果| 亚洲国产专区| 91成人在线观看喷潮教学| 亚洲激情网站| 日韩欧美一区二| 亚洲影院一区| 激情六月丁香婷婷| 视频一区欧美精品| 国产区二区三区| 久久99九九99精品| 中文字幕12页| 国产成人精品亚洲午夜麻豆| ass极品水嫩小美女ass| 福利一区二区在线| 在线xxxxx| 91在线看国产| 法国空姐电影在线观看| 国产精品无遮挡| 国产大片免费看| 亚洲国产一区二区视频| 日本va欧美va国产激情| 91国偷自产一区二区使用方法| 蜜臀99久久精品久久久久小说| 欧美体内she精视频| 国产精品久久久久久69| 欧美一级xxx| 天堂中文在线官网| 亚洲人成网站免费播放| 欧美69xxxx| 久久免费福利视频| 自拍偷拍亚洲视频| 国产精品一区专区欧美日韩| 成人动漫视频在线观看| 国产一区二区无遮挡| 自拍视频一区| 2025韩国大尺度电影| 在线观看一区视频| www.日日操| 国产精品一级二级三级| 日韩精品视频一区二区| 国产日韩av一区| 麻豆视频在线观看| 色悠悠亚洲一区二区| 国产片在线播放| 亚洲黄一区二区| 免费在线观看av片| 国产综合在线视频| 搡女人真爽免费午夜网站| 影音先锋国产精品| 亚洲色图久久久| 丁香激情综合国产| 伊人久久99| 亚洲精品三级| 中文字幕资源在线观看| 99re8在线精品视频免费播放| 91麻豆制片厂| 午夜视频在线观看一区二区| 中文字幕av网站| 亚洲第一综合天堂另类专| 国产黄色在线| 国内免费久久久久久久久久久| 成人一区视频| 麻豆av一区二区三区| 亚洲精品网址| 午夜视频你懂的| 91一区二区在线| 我家有个日本女人| 欧美性xxxxxx少妇| 视频在线观看你懂的| 欧美成人一区在线| 四虎国产精品永久在线国在线| 久久亚洲精品欧美| 精品成人一区| 欧美日韩久久婷婷| 日本一区二区高清| 在线观看黄网站| 精品久久久久久综合日本欧美 | 国产精品久久久久av蜜臀| 中文字幕一区二区三区四区五区| 美女精品在线| 国产精品探花一区二区在线观看| 一区二区三区四区激情| 一区二区三区免费在线| 国产一区二区三区毛片| 午夜激情电影在线播放| 国产美女99p| 欧美视频导航| 日本网站在线看| 中文字幕亚洲视频| 中国女人一级一次看片| 亚洲图片制服诱惑| 成人爱爱网址| 欧美精品亚洲精品| 亚洲精品美女91| 国产成人精品无码片区在线| 一区二区三区**美女毛片| 99久久久国产精品无码网爆| 精品国内自产拍在线观看| 99re久久| 影音先锋欧美在线| 久久精品免费观看| 三级黄色在线观看| 69精品人人人人| 97影院秋霞午夜在线观看| 92看片淫黄大片欧美看国产片| 欧美国产小视频| 超碰在线资源站| 亚洲精品乱码久久久久久久久| 91丨九色丨丰满| 久久成人国产精品| 日韩精品成人| 一级性生活视频| www.欧美色图| 国产亚洲欧美在线精品| 亚洲性av网站| 日本国产亚洲| 成人短视频在线观看免费| 岛国一区二区在线观看| 国产午夜福利片| 亚洲精品天天看| 99久久伊人| 熟女熟妇伦久久影院毛片一区二区| 精品一区中文字幕| 国产亚洲精品成人| 亚洲精品国偷自产在线99热| 成人欧美magnet| 先锋在线资源一区二区三区| 九九国产精品视频| 麻豆changesxxx国产| 亚洲乱亚洲乱妇无码| 三上悠亚一区二区| 自拍偷拍视频在线| gogogo免费视频观看亚洲一| 亚洲国产成人无码av在线| 中文字幕亚洲二区| 亚洲综合色婷婷在线观看| 黄色一级片播放| 中文字幕一区二区三区在线不卡| www.黄色片| 浅井舞香一区二区| 91精品1区| 久久精品综合视频| 欧美日韩国产综合一区二区三区| 成人黄色网址| 免费亚洲一区二区| 国产毛片精品国产一区二区三区| 国产一二三四在线| 中文字幕av一区中文字幕天堂 | 99热只有这里有精品| 在线精品91av| 福利欧美精品在线| 午夜两性免费视频| 亚洲电影一区二区三区| 成人一区二区不卡免费| 国产二区不卡| 精品在线一区二区三区| 日韩三级视频在线播放| 精品国产区一区二区三区在线观看| 国产另类在线| 久久久精品视频国产| 色视频欧美一区二区三区|