Agentic新SOTA誕生!美團開源5600億參數(shù)MoE大模型的效率革命 精華
DeepSeek-V3、Qwen 3和Kimi-K2等模型已經(jīng)證明,擴大模型規(guī)模和計算資源是提升性能的有效途徑。然而,隨著模型規(guī)模的不斷增長,計算效率和資源利用成為了亟待解決的關鍵問題。今天,我們將深入解析美團LongCat團隊最新發(fā)布的LongCat-Flash模型,這個擁有5600億參數(shù)的Mixture-of-Experts (MoE)語言模型如何在保證強大性能的同時,實現(xiàn)計算效率的突破性提升。
技術背景:大型語言模型的效率挑戰(zhàn)
近年來,大型語言模型的發(fā)展呈現(xiàn)出"越大越好"的趨勢,但隨之而來的是巨大的計算資源消耗和推理成本問題。傳統(tǒng)的大型模型在處理每個token時都會激活全部參數(shù),這導致了嚴重的計算資源浪費。研究表明,并非所有token都需要相同的計算資源——簡單的token可能只需要少量計算就能準確預測,而復雜的token則需要更多資源。
此外,隨著模型規(guī)模的擴大,通信開銷成為了MoE模型擴展的主要瓶頸。在傳統(tǒng)的執(zhí)行范式中,專家并行性強制執(zhí)行順序工作流:必須先將token路由到指定的專家,然后才能開始計算。這種通信延遲成為瓶頸,導致設備利用率低下和整體系統(tǒng)吞吐量受限。
面對這些挑戰(zhàn),美團LongCat團隊提出了LongCat-Flash模型,通過創(chuàng)新的架構設計和訓練策略,實現(xiàn)了計算效率和模型性能的雙重突破。
LongCat-Flash模型架構詳解
LongCat-Flash采用了創(chuàng)新的MoE架構,包含兩大核心創(chuàng)新:Zero-computation Experts(零計算專家)和Shortcut-connected MoE(快捷連接MoE)。
Zero-computation Experts:動態(tài)計算資源分配
Zero-computation Experts是LongCat-Flash的核心創(chuàng)新之一,它實現(xiàn)了根據(jù)token的重要性動態(tài)分配計算資源的機制。具體來說,LongCat-Flash在N個標準FFN專家的基礎上,額外增加了Z個零計算專家。這些零計算專家簡單地返回輸入xt作為輸出,不引入額外的計算成本。

LongCat-Flash采用的架構圖
如圖2所示,每個層采用Shortcut-connected Mixture of Experts (ScMoE)與零計算專家。ScMoE顯著擴展了計算-通信窗口,提高了訓練和推理效率。零計算專家實現(xiàn)了基于上下文重要性的動態(tài)計算,提高了計算資源利用效率。
MoE模塊的數(shù)學表達如下:

其中,R表示softmax路由器,bi是第i個專家對應的專家偏置,K表示每個token選擇的專家數(shù)量。
通過這種自適應分配機制,模型學會為具有更高上下文重要性的token動態(tài)分配更多計算資源,從而在相同計算容量下實現(xiàn)更優(yōu)的性能。如圖3a所示,在匹配計算預算下,帶零計算專家的模型(橙色)相比不帶零計算專家的模型(藍色)實現(xiàn)了持續(xù)的損失降低。

圖3:(a)驗證損失曲線比較 (b)訓練期間激活的FFN專家平均數(shù)量 (c)激活的FFN專家的標準差
計算預算控制
為了激勵模型學習上下文相關的計算分配,LongCat-Flash采用了專家偏置機制,通過PID控制器動態(tài)調(diào)整路由分數(shù)。具體更新規(guī)則如下:

其中,μ表示偏置適應率,Tall表示全局批次中的token數(shù)量,Ti表示路由到第i個專家的token數(shù)量,Ke表示激活的FFN專家的期望數(shù)量,小于K。
這種機制確保了第i個專家的token分配收斂到其目標比例。如圖3b所示,經(jīng)過約200億token的調(diào)整后,所有層中的平均專家數(shù)量收斂到期望值,波動小于1%。然而,如圖3c所示,標準差保持在相對較高水平,表明模型在不同token之間分配了顯著不同的計算資源。
負載平衡控制
為了確保FFN專家之間的負載平衡,LongCat-Flash引入了設備級負載平衡損失:

在損失中,我們將所有零計算專家分配到一個額外的組,并平均每組中的頻率。通過調(diào)整fj的系數(shù),我們確保當損失收斂時,F(xiàn)FN專家與零計算專家的比例接近Ke/(K-Ke)。
Shortcut-connected MoE:擴大計算-通信重疊窗口
Shortcut-connected MoE (ScMoE) 是LongCat-Flash的另一個核心創(chuàng)新,它解決了MoE模型擴展中的通信瓶頸問題。ScMoE引入了跨層快捷連接,重新排序了執(zhí)行流水線。這一關鍵創(chuàng)新允許前一個塊的密集FFN與當前MoE層的dispatch/combine通信并行執(zhí)行,創(chuàng)造了比共享專家設計更 substantial的重疊窗口。
ScMoE架構的優(yōu)勢已在多個實驗中得到驗證。如圖4所示,在四種不同的模型配置下,包括(a) 2.4B-16B與MLA,(b) 3B-20B與MHA,和(c) 15B-193B與GQA,我們的架構與不帶ScMoE的基線的訓練損失曲線幾乎相同,確認這種重新排序的執(zhí)行不會損害模型性能。

圖4:四種不同模型配置下,基線模型(不帶ScMoE)與其ScMoE增強對應物的訓練損失曲線比較
ScMoE架構為大規(guī)模訓練和高效推理都帶來了實質(zhì)性的系統(tǒng)級效率提升:
- 大規(guī)模訓練:擴展的重疊窗口允許前一個塊的計算與MoE層中的dispatch和combine通信階段完全并行,通過沿token維度將操作劃分為細粒度的塊來實現(xiàn)。
- 高效推理:ScMoE實現(xiàn)了單批次重疊流水線,與DeepSeek-V3等領先模型相比,將理論每個輸出令牌時間(TPOT)減少了近50%。此外,它允許并發(fā)執(zhí)行不同的通信模式:密集FFN上的節(jié)點內(nèi)張量并行通信(通過NVLink)可以與節(jié)點間專家并行通信(通過RDMA)完全重疊,從而最大化總網(wǎng)絡利用率。
方差對齊設計:提升模型可擴展性
LongCat-Flash采用了方差對齊技術來解決模型擴展中的不穩(wěn)定性問題。具體包括兩個方面:
MLA的尺度校正
LongCat-Flash采用了改進的多頭潛在注意力(MLA)機制,整合了尺度校正因子αq和αkv來解決非對稱低秩分解中固有的方差不平衡問題。完整的數(shù)學表達式如下:

其中,ht ∈ Rdmodel是輸入隱藏狀態(tài),每個頭部i的最終查詢和鍵通過連接內(nèi)容部分(C)和旋轉部分(R)形成。
αq和αkv的引入解決了查詢/鍵向量分量之間的基本方差不匹配問題。在初始化時,它們的方差與其源維度成正比:σ2(qCt), σ2(qRt) ∝ dq和σ2(kCt) ∝ dkv。相比之下,旋轉鍵分量kRt的方差與完整模型維度成正比:σ2(kRt) ∝ dmodel。當dq、dkv和dmodel變化時,這種維度差異導致初始化時的注意力分數(shù)不穩(wěn)定,從而導致模型擴展時性能下降和不可預測。
解決方案是將低秩路徑分量重新縮放,使其最終方差與參考尺度對齊,我們使用完整模型維度作為參考。這是通過將縮放因子定義為:

MLA的縮放因子
這種尺度不變的校正中和了方差不匹配,確保它們?yōu)樽⒁饬τ嬎闾峁┝肆己脳l件。如圖5a所示,我們的實驗表明這種方法提高了模型性能。

圖5:(a)在MLA上加入尺度校正因子顯示在1B激活MOE模型上改進的收斂性(更低損失)(b)模型增長實驗中6B激活MoE模型的驗證損失曲線
專家初始化的方差補償
LongCat-Flash采用了DeepSeek-MoE中的細粒度專家策略,將每個專家分割為m個更細粒度的專家,以增強組合靈活性和知識專業(yè)化。然而,我們觀察到這種設計的性能對其他架構選擇(例如,專家數(shù)量、top-k、m)敏感。
為了解決這個問題,我們提出了方差補償機制,以抵消專家分割導致的初始化方差減少。該機制對專家的聚合輸出應用縮放因子γ,公式如下:

其中,gi是mN個細粒度專家上的路由器輸出,N表示分割前的專家總數(shù)。
公式(8)中的縮放因子γ通過量化兩個主要的方差減少來源得出:
- 門控稀釋:將每個原始N個專家分解為m個更細粒度的專家,使專家總數(shù)擴展到mN。這種擴展迫使softmax門控在更大的專家池中分配其概率質(zhì)量,按比例降低單個門控值gi的大小。因此,輸出方差大約減少了m倍。
- 維度減少:每個細粒度專家的中間隱藏維度(dexpert_inter)減少了m倍。假設均勻的參數(shù)初始化,單個專家的輸出方差也減少了m倍。
為了在初始化時保持MoE層的輸出方差(與分割前基線匹配),γ必須補償這兩種效應。因此,組合的方差補償因子為γ = m。
模型信息
LongCat-Flash的詳細配置如下:
- 分詞器:采用字節(jié)對編碼(BPE),詞匯量優(yōu)化為131,072個token,在計算效率和語言覆蓋之間取得了有效平衡。
- 多令牌預測:集成了多令牌預測(MTP)作為輔助訓練目標,以提高推理效率。MTP頭在評估中實現(xiàn)了>90%的接受率。
- 模型配置:LongCat-Flash包含28層(不包括MTP層),隱藏狀態(tài)維度為6144。每個MLA塊使用64個注意力頭,每個頭部維度為128。密集路徑中的FFN采用12288個中間維度,而每個FFN專家使用2048個維度。每層包含512個FFN專家和256個零計算專家,每個token精確激活12個專家(從兩種類型中選擇)。LongCat-Flash總共有5600億參數(shù),根據(jù)上下文不同,每個token激活186億到313億參數(shù),平均激活約270億參數(shù)。
訓練策略與優(yōu)化
LongCat-Flash的訓練遵循三階段課程:(1) 在約20萬億個token上訓練模型,序列長度為8192,建立強大的基礎模型;(2) 使用數(shù)萬億數(shù)據(jù)進一步增強推理和編碼能力;(3) 通過在長上下文語料庫上訓練,將上下文長度擴展到128k。每個階段都實施量身定制的數(shù)據(jù)策略,并輔以嚴格的去污染程序,以防止測試集泄漏。
超參數(shù)傳遞
LongCat-Flash采用基于寬度縮放的超參數(shù)傳遞策略,以高效訓練大規(guī)模模型。該方法包括:(1) 在較小的代理模型上識別最優(yōu)超參數(shù),(2) 通過理論驅(qū)動的縮放規(guī)則將這些配置傳遞給目標模型。
傳遞機制以寬度縮放因子s = ntarget/nproxy為中心,其中n是模型的隱藏維度。我們特別采用"Adam LR Full Align"規(guī)則進行標準參數(shù)化。這些規(guī)則指定了如何調(diào)整代理模型的最優(yōu)初始化方差(σ2)和學習率(η)以適應目標架構。實際傳遞規(guī)則總結如下表:

表1:實用超參數(shù)傳遞規(guī)則及其基礎縮放指數(shù)
模型增長初始化
LongCat-Flash采用模型增長作為其初始化策略,從在數(shù)百億token上預訓練的半規(guī)模模型開始。在現(xiàn)有的模型增長方法中,我們采用層堆疊技術來擴展參數(shù)并提高性能。暫時忽略嵌入和反嵌入過程,整個過程可以表述為:
Lsmall = l1 ? l2 ? · · · ? ln
Ltarget = Lsmall ? Lsmall ? · · · ? Lsmall (r次)其中l(wèi)i表示模型中第i層的變換,r表示擴展率,Lsmall表示小模型從token嵌入到最終隱藏狀態(tài)的變換,Ltarget表示通過堆疊r個小模型副本構建的目標(大)模型的變換。我們的架構使用r = 2。
通過大量實驗,我們一致觀察到通過模型增長初始化的模型表現(xiàn)出特征損失軌跡:初始增加后加速收斂,最終優(yōu)于隨機初始化的基線。圖5b展示了我們6B激活模型實驗中的代表性案例,證明了模型增長初始化的優(yōu)勢。
訓練穩(wěn)定性
我們從三個角度增強了LongCat-Flash的訓練穩(wěn)定性:路由器穩(wěn)定性、激活穩(wěn)定性和優(yōu)化器穩(wěn)定性。
路由器穩(wěn)定性
訓練MoE模型的一個基本挑戰(zhàn)是路由器穩(wěn)定性,這源于兩個競爭梯度之間的張力:
- 語言建模(LM)損失,驅(qū)動專家專業(yè)化(將token分配給最合適的專家)
- 輔助負載平衡(LB)損失,強制路由均勻性(在專家之間均勻分配token)
當LB梯度占主導地位時,所有專家的路由器參數(shù)收斂到相似性,導致無論輸入token如何都做出均勻的路由決策。這消除了條件計算的好處,嚴重降低了模型性能。
為了診斷和控制這種行為,我們提出了一個具有兩個關鍵指標的監(jiān)控框架:
- 路由器權重相似性:測量專家權重向量{wi}之間的平均成對余弦相似性。高相似性是負載平衡損失過度主導的直接指標。
- 梯度范數(shù)比(Rg):量化兩個損失對批量平均專家概率向量P?的相對影響:

其中,LLB是不帶系數(shù)α計算的負載平衡損失。
通過隱藏z-loss實現(xiàn)激活穩(wěn)定性
受路由器z-loss的啟發(fā),我們設計了隱藏z-loss來避免LLM訓練期間大規(guī)模激活的普遍發(fā)生。通過經(jīng)驗觀察,我們發(fā)現(xiàn)這種大規(guī)模激活與訓練期間的嚴重損失峰值相關,這些峰值與優(yōu)化不穩(wěn)定性和潛在的性能下降相關。隱藏z-loss主要用于抑制具有極大大小的元素:

其中,λ是加權此損失的系數(shù),|xt|是隱藏大小,abs(*)表示絕對值函數(shù)。如圖6所示,我們發(fā)現(xiàn)非常小的損失系數(shù)可以顯著抑制大規(guī)模激活現(xiàn)象,而不會損害訓練損失,從而降低BF16訓練期間數(shù)值錯誤的風險。

圖6:帶有次優(yōu)超參數(shù)的小模型的最后一層隱藏狀態(tài)的L2范數(shù)和訓練損失
Adam的Epsilon的實際配置
隨著模型規(guī)模的增加,Adam優(yōu)化器中的epsilon(ε)參數(shù)(傳統(tǒng)上被視為數(shù)值穩(wěn)定性的次要常數(shù))成為一個關鍵超參數(shù)。OLMo等人證明,將其設置為1e-8比默認值1e-5產(chǎn)生更優(yōu)結果。這種增強的敏感性主要源于兩個因素:(1) 大規(guī)模模型通常采用較小的參數(shù)初始化,(2) 它們在訓練期間使用更大的批量大小。
如圖7所示,我們跟蹤梯度均方根(RMS)范數(shù)的經(jīng)驗分析揭示了兩個關鍵發(fā)現(xiàn):(1) 閾值效應:當ε接近觀察到的梯度RMS范數(shù)時,發(fā)生顯著的性能退化;(2) 下限穩(wěn)定性:一旦ε降低到這個臨界閾值以下,進一步減少對模型性能的影響可以忽略不計。因此,我們建議將ε設置為一個小的值(比預期的梯度RMS范數(shù)小幾個數(shù)量級)。在LongCat-Flash中,我們采用ε=1e-16,這種配置確保了數(shù)值穩(wěn)定性,同時保留了優(yōu)化器的自適應特性。

探索不同模型大小的梯度均方根(RMS)范數(shù)和epsilon對損失的影響
預訓練數(shù)據(jù)策略
通用預訓練
我們首先進行通用預訓練階段,以確保整體模型能力。設計了多階段流水線以確保數(shù)據(jù)質(zhì)量和多樣性。主要階段包括:
- 內(nèi)容提取:我們使用定制版本的trafilatura進行通用網(wǎng)絡內(nèi)容,并為STEM材料使用專用流程,以正確解析公式、代碼和表格等復雜元素。
- 質(zhì)量過濾:應用兩步過濾方法。初始分類器清除明顯低質(zhì)量的文檔,然后基于流暢性和內(nèi)容完整性等指標進行更細粒度的篩選。
- 去重:我們應用高效的MinHash實現(xiàn)進行大規(guī)模去重,輔以識別和處理重復網(wǎng)絡模板的策略,以實現(xiàn)更準確的文檔級去重。
最終的數(shù)據(jù)混合過程采用兩階段計劃,逐步增加高質(zhì)量推理數(shù)據(jù)(例如STEM和代碼)的比例。
- 階段1:對于通用數(shù)據(jù),我們采用實例級數(shù)據(jù)混合策略,平衡SampleMix中描述的數(shù)據(jù)質(zhì)量和多樣性,其中我們使用質(zhì)量和多樣性分數(shù)計算初始采樣分布,并根據(jù)細粒度領域和寫作風格標簽進一步調(diào)整分布傾向。冗余的低價值領域(例如廣告、體育、招聘)被下采樣,而推理豐富的領域(例如科學)被上采樣。
- 階段2:我們在此階段優(yōu)先考慮推理密集型領域,STEM和代碼占最終混合的70%。初步實驗表明,通用領域數(shù)據(jù)的突然減少會暫時降低模型能力。因此,我們實施漸進式代碼比例增加,通過外部驗證集上的持續(xù)困惑度監(jiān)測指導,以確保平穩(wěn)過渡而不影響一般性能。
推理和編碼增強
為了進一步增強模型的推理和編碼能力,并建立具有后續(xù)訓練后潛力的強大基礎模型,我們利用通過預訓練數(shù)據(jù)檢索和數(shù)據(jù)合成相結合生成的高質(zhì)量相關數(shù)據(jù)進行中期訓練階段。
系統(tǒng)性的合成數(shù)據(jù)工作流通過三個關鍵機制優(yōu)化數(shù)據(jù)質(zhì)量和多樣性:(1) 知識圖譜遍歷和節(jié)點組合,以確保概念復雜性和領域覆蓋;(2) 多階段迭代細化,逐步提高難度水平和思維鏈(CoT)推理質(zhì)量;(3) 雙模態(tài)生成和驗證(文本和計算),以保證數(shù)學準確性和解決方案有效性。結合基于規(guī)則和基于模型的過濾器進行仔細的質(zhì)量控制,最終數(shù)據(jù)集包含數(shù)千億個token。
長上下文擴展
我們實施了兩階段上下文長度擴展策略,以滿足后續(xù)長上下文推理和智能體訓練的要求。在第一階段,使用800億訓練token將上下文窗口從8k擴展到32k,RoPE的基頻從1,000,000提高到5,000,000。在第二階段,我們通過額外的200億token進一步將其擴展到128k,將基頻提高到10,000,000。
訓練語料庫建立在自然發(fā)生的長文本數(shù)據(jù)之上,例如高質(zhì)量的書籍和小說。此外,我們開發(fā)了一種系統(tǒng)性的方法來組織存儲庫級別的源代碼,以提高模型的長上下文能力。我們仔細選擇了高質(zhì)量的存儲庫,并應用多階段過濾過程來刪除非文本內(nèi)容、構建工件和自動生成的代碼,從而為長上下文預訓練策劃了200億token的數(shù)據(jù)集。
為了確保模型在長度擴展期間的一般能力保持穩(wěn)定,我們采用與主要預訓練階段相同的數(shù)據(jù)混合策略,并用額外的25%的長上下文數(shù)據(jù)增強此混合,以提高模型的長上下文性能。
去污染
我們對所有訓練數(shù)據(jù)進行嚴格的去污染,以防止常見基準測試集的數(shù)據(jù)泄漏。對于網(wǎng)絡和代碼數(shù)據(jù),我們刪除包含與預定義測試集的任何13-gram重疊的文檔。對于合成數(shù)據(jù)和問答對,我們采用基于BGE-m3嵌入的語義相似性的更嚴格策略。如果文檔滿足以下任一條件,則丟棄:(1) 與任何測試用例的語義相似性得分>0.9;(2) 詞匯重疊(通過稀疏嵌入測量)與0.7-0.9之間的相似性得分相結合。
實驗結果與性能評估
基準測試評估
本節(jié)介紹了LongCat-Flash基礎模型的全面評估,包括方法和結果。
評估基準和配置
模型評估涵蓋四個核心能力:通用任務、通用推理、數(shù)學推理和編碼。用于評估的基準包括:
- 通用任務:MMLU、MMLU-Pro、C-Eval和CMMLU。
- 推理任務:GPQA、SuperGPQA、BBH、PIQA、DROP、CLUEWSC和WinoGrande。
- 數(shù)學任務:GSM8K、MATH。
- 編碼任務:MBPP+、HumanEval+、MultiPL-E和CRUXEval。
我們將LongCat-Flash基礎模型與最先進的開源基礎MoE模型進行比較,包括DeepSeek-V3.1 Base、Llama-4-Maverick Base和Kimi-K2 Base。
為確保公平性,所有模型都在相同的流水線和配置下進行評估。對于無法重現(xiàn)的少數(shù)結果,我們直接采用公開報告中的指標,并在表2中明確標注。
評估結果
表2展示了不同基準測試的評估結果。盡管其緊湊的活動/總參數(shù)大小,LongCat-Flash基礎模型實現(xiàn)了與最先進基礎模型相當?shù)男阅堋km然Llama-4-Maverick具有更少的激活和總參數(shù),但LongCat-Flash在大多數(shù)基準測試中表現(xiàn)更好或相當,特別是在智能體任務方面。

表2:LongCat-Flash與其他模型在不同基準測試上的性能比較
推理性能
LongCat-Flash在推理效率方面表現(xiàn)出色,實現(xiàn)了每秒超過100個token(TPS)的推理速度,每百萬輸出token成本為0.70美元。這一性能顯著優(yōu)于類似規(guī)模的模型,主要得益于其創(chuàng)新的架構設計和系統(tǒng)優(yōu)化。
具體來說,ScMoE架構實現(xiàn)了單批次重疊流水線,將理論每個輸出令牌時間(TPOT)減少了近50%。此外,它允許并發(fā)執(zhí)行不同的通信模式:密集FFN上的節(jié)點內(nèi)張量并行通信(通過NVLink)可以與節(jié)點間專家并行通信(通過RDMA)完全重疊,從而最大化總網(wǎng)絡利用率。
訓練效率
得益于可擴展的架構設計、訓練策略和基礎設施工作的協(xié)同作用,LongCat-Flash實現(xiàn)了高訓練吞吐量和低推理延遲。值得注意的是,我們在30天內(nèi)完成了5600億模型在超過20萬億token上的預訓練,并且在沒有手動干預進行故障解決的情況下實現(xiàn)了98.48%的時間可用性。
結論與意義
LongCat-Flash代表了大型語言模型在計算效率和智能體能力方面的重大突破。通過創(chuàng)新的架構設計,包括Zero-computation Experts和Shortcut-connected MoE,LongCat-Flash實現(xiàn)了根據(jù)token重要性動態(tài)分配計算資源的能力,同時顯著擴大了計算-通信重疊窗口,提高了訓練和推理效率。
在訓練策略方面,LongCat-Flash采用了超參數(shù)傳遞、模型增長初始化、多管齊下的穩(wěn)定性套件和確定性計算等創(chuàng)新方法,確保了大規(guī)模模型訓練的穩(wěn)定性和可擴展性。這些創(chuàng)新使得LongCat-Flash能夠在30天內(nèi)完成超過20萬億token的訓練,同時實現(xiàn)超過100 TPS的推理速度和每百萬輸出token僅0.70美元的成本。
在性能方面,LongCat-Flash作為非思維基礎模型,在多個基準測試中表現(xiàn)出與最先進的非思維模型相當?shù)男阅埽―eepSeek-V3.1和Kimi-K2,同時使用更少的參數(shù)并提供更快的推理速度。特別是在智能體任務方面,LongCat-Flash表現(xiàn)出色,在ArenaHard-V2上得分86.5,在TerminalBench上得分39.5,在τ2-Bench上得分67.7,展示了在通用領域、編碼和智能體工具使用方面的強大能力。
LongCat-Flash的成功不僅在于其技術創(chuàng)新,更在于它證明了算法設計、底層系統(tǒng)優(yōu)化和數(shù)據(jù)策略在推動可擴展智能前沿方面同樣關鍵。這一發(fā)現(xiàn)為未來大型語言模型的發(fā)展指明了方向,即通過多方面的協(xié)同創(chuàng)新,實現(xiàn)模型性能和計算效率的雙重突破。
- LongCat Chat: https://longcat.ai
- Hugging Face: https://huggingface.co/meituan-longcat
- Github: https://github.com/meituan-longcat
本文轉載自??????AIGC深一度??,作者:一度

















