美團首個開源大模型正式發布!LongCat-Flash-Chat能否撼動AI格局?
美團正式發布并開源了自己的首個大語言模型——LongCat-Flash-Chat。
說實話,這個消息讓我挺意外的。美團,這個我們天天用來點外賣、叫車的平臺,突然宣布要在AI大模型領域正面挑戰OpenAI、Anthropic這些巨頭。更讓人意外的是,他們不僅發布了,還直接開源了。
9月1日,美團技術團隊正式發布并開源了LongCat-Flash-Chat模型,這標志著美團從AI應用場景的使用者,正式轉身成為AI基礎技術的貢獻者。
圖片
技術亮點
LongCat-Flash-Chat最大的技術亮點在于在架構層面引入 “零計算專家(Zero-Computation Experts)” 機制,總參數量 560 B,每個 token 依據上下文需求僅激活 18.6B~31.3 B 參數,實現算力按需分配和高效利用。
為控制總算力消耗,訓練過程采用 PID 控制器實時微調專家偏置,將單 token 平均激活量穩定在約 27 B。
此外,LongCat-Flash 在層間鋪設跨層通道,使 MoE 的通信和計算能很大程度上并行,極大提高了訓練和推理效率。
配合定制化的底層優化,LongCat-Flash 在 30 天內完成高效訓練,并在 H800 上實現單用戶 100+ tokens/s 的推理速度。LongCat-Flash 還對常用大模型組件和訓練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓練,并結合了多項策略保證訓練穩定性,使得訓練全程高效且順利。
美團的AI野心:從外賣到通用智能
其實,美團涉足AI大模型并不突然。早在幾年前,美團就在內部大量應用AI技術來優化配送路徑、提升搜索推薦效果、智能客服等業務場景。
我翻了翻美團技術團隊的歷年論文,發現他們在機器學習、深度學習領域已經積累了不少技術成果。從搜索推薦算法到配送系統的運籌優化,從計算機視覺到自然語言處理,美團技術團隊的研究覆蓋面相當廣泛。
特別值得注意的是,美團在2022年就開始探索粗排優化的深度學習方法,通過知識蒸餾和對比學習來聯動精排與粗排,這些技術積累為今天的大模型研發打下了堅實基礎。
不過,從垂直領域的AI應用跨越到通用大語言模型,這中間的技術鴻溝還是很大的。美團選擇在這個時點發力,我覺得有幾個原因:
? 業務需求驅動 - 美團需要更智能的對話系統來處理復雜的用戶咨詢
? 技術積累到位 - 多年的AI應用經驗讓團隊具備了做大模型的能力
? 開源生態布局 - 通過開源獲得更大的技術影響力和開發者社區
開源策略的深層考量
美團選擇開源這個模型,我覺得背后的考量挺有意思的。
首先,開源能夠快速建立技術影響力。在AI大模型這個賽道,技術實力的展示比什么宣傳都有效。通過開源,美團能夠讓更多開發者接觸和使用他們的技術,形成技術品牌效應。
其次,開源有助于技術迭代。大模型的訓練和優化需要海量的反饋數據,開源社區能夠提供這樣的數據來源。這對美團來說,是一個低成本獲得大規模測試的好方法。
最后,也是最現實的一點,美團可能認為在大模型的商業化路徑上,API服務比模型本身更有價值。開源模型能夠吸引更多開發者,進而為美團的AI基礎設施服務導流。
總的來說,美團這次發布LongCat-Flash-Chat,展現了一種務實的技術路線。他們沒有盲目追求參數規模或者性能跑分,而是專注于解決實際應用中的效率問題。這種思路在當前的AI發展階段,可能比追求極致性能更有實用價值。
至于這個模型能否在激烈的競爭中站穩腳跟,我覺得關鍵還是看后續的迭代速度和生態建設。畢竟在AI這個賽道,技術領先只是第一步,能不能形成可持續的競爭優勢,還需要更多時間來驗證。






























