混元A13B實測出爐,騰訊補上開源MoE模型的“尺寸斷檔”
騰訊前兩天開源了混元A13B模型,A13B模型是一個MoE模型,總參數80B,激活參數13B,同時支持快慢思考兩種模式切換。
Paper:https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf
HF:https://huggingface.co/collections/tencent/hunyuan-a13b-685ec38e5b46321e3ea7c4be騰訊之前開源3D生成模型關注度很高,文本大模型上一次開源已經是5個月前的HunYuan-7B和HunYuan-Large模型了。
由于Qwen3的系列模型沒有開源72B級別模型,市面上80B級別的模型還沒有太好的模型,而混元這次的A13B模型80B,算是彌補了目前該尺寸的空缺。
并且量化的情況下,單卡H100可以推理,對于企業側想要探索本地模型應用,是一個不錯的備選項。
今天給大家分享一下,HunYuan-A13B模型的相關細節,再實測看看效果到底如何,最后用vllm進行部署。
模型細節
直奔主題,主看一下paper中model architechture、pre-training、post-training的細節。
模型結構
模型為MoE結構,32層,詞表大小128K,上下文長度256K,采用GQA注意力,激活函數采用SWiGLU,一個共享專家,64個非共享專家,每次會激活8個非共享專家,具體如下所示。

其中,共享專家數量是經過實驗得出,發現沒有任何共享專家的情況下表現不如至少有一個共享專家的情況,而共享專家數量超過一個后,收益會逐漸減少,僅有微小提升,甚至可能出現波動。
Pre-training
預訓練依舊分為三個階段,
- 基礎階段:共計使用20T Tokens訓練,上下文長度4096,學習率三個階段,預熱從0線性升值3e-4,余弦衰減從3e-4到3e-5,共計13.5T Tokens,再使用3e-5恒定訓練余下數據。
- 退火階段:共計300B Tokens,上下文長度增至8092,學習率余弦衰減從3e-5到8e-6。
- 上下文擴展階段:采用NTK 感知位置編碼,擴充上下文長度,先擴充至32K(α 值為50),再擴展至256K(α 值為100)。
在預訓練過程的數據,與之前的Hunyuan-TurboS一致,涉及成數據去重、低質量過濾、數據去噪和數據主題標記、提取純文本、語義級去重等。主要是STEM 數據進行了重點清洗,額外提取250B Tokens高質量的 STEM 預訓練數據。
Post-training
后訓練主要涉及四個步驟,推理導向的SFT和RL,通用場景的SFT和RL,如下圖所示,

推理導向的SFT數據量未知,數據集含了明確的推理過程和詳細的思維鏈解決方案,數據來源:
- 數學推理:從教科書、標準化測試和數學競賽等資源中收集數學問題,經過嚴格驗證的數學推理對才會被保留在最終數據集中。
- 代碼推理:原始數據來自于Github代碼庫,采用代碼生成管道將代碼片段轉換為涵蓋各種任務、編程語言和問題類型的結構化指令推理對,通過多階段驗證,確保最終推理示例的數據質量。
- 邏輯推理:各種謎題集合,同時采用自動化數據合成方法,實現數據集的可擴展增強。
- 科學推理:物理、化學和生物學科從中學生水平到高級研究生難度的數據,最后只有通過嚴格拒絕采樣驗證的樣本才會被納入最終數據集。
而推理導向的RL,采用GRPO策略,在上一階段訓練得到的模型基礎上進行訓練,共設計兩種類型的獎勵模型,
- 結果獎勵模型:語言模型評估器,對比最終答案和參考答案中之間的一致性,主要比較格式規范化(例如格式、單位等)、數學、邏輯上的差異,一致為1,否則為0.
- 沙盒反饋:開發了一個支持 36 種編程語言的多語言代碼沙盒(部署在CPU分布式集群上,支持超過 1000 個并發執行),判斷生成的代碼內容是否準確、有效。
RL的數據150K,其中,數學、編碼、邏輯、科學的比例為 2:2:1:1,其中 10% 與 SFT 訓練數據重疊,90% 為新數據,同時RL 經過兩個上下文長度的訓練,第一階段使用 24K 的上下文,第二階段擴展到 32K。
同時使用了在線策略學習策略、更大的Batch Size、增加的 rollout 次數、以及較低的采樣溫度(0.6–0.8)。
通用場景的SFT的數據量未知,主要是擴展模型的適應性,增加模型的泛化能力,增加以下類型數據:語言理解任務、創意寫作任務、多語言任務、復雜指令場景任務、基于角色的互動任務、知識問答任務、Agent任務。
通用場景的RL的數據量未知,采用生成式獎勵模型(GRM),在不同任務上,采用不同的評分規則,將靈活的 GRM 與 16 個子主題和 30 多個評分服務的領域特定管道統一起來。使模型能夠在確定性、創意性和專業性場景中進行多樣的推理。
同時,支持雙模式CoT,根據任務復雜性和用戶需求動態調整推理深度,
快思考,提供簡潔、高效的輸出,適用于需要速度且計算開銷最小的簡單任務。
慢思考,提供更深入、更全面的推理步驟,在處理復雜推理任務時顯著提高了準確性和穩健性。
模型推理時,“/no think” 為快思考模式,、“/think” 為慢思考模式,未設置時默認為慢思考。
最后,模型榜單效果如下:


HunYuan-A13B實測
先說一下實測感受:
- 常識類問題效果還不錯,跟Qwen、DeepSeek等相差不大
- think的整體效果要優于no_think,符合常理
- 代碼上,大體ok,但在小細節上會出問題
- 工具調用上不錯,額外在自己的一些任務上做了測試,基本上可以理解的意圖準確調用工具,不過工具太多時,會出現不穩地情況,不過畢竟A13B,可以理解。
常見問題
將“I love Hunyuan-A13B”這句話的所有內容反過來寫
結果:正確。

依舊弱智吧
生蠔煮熟了叫什么?
結果:正確,沒有熟蠔被誤導,哈哈哈哈。

用水來兌水,得到的是濃水還是稀水
結果:正確,就是水。

文本推理
小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹
結果:正確,推理步驟很詳細。

未來的某天,李同學在實驗室制作超導磁懸浮材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為其原因是
結果:不對,老鷹依舊不會飛,但這道題確實存在誤導,基本上所有模型都會跟著題干進行推理,沒有辯證世界知識。

高考題感覺對于現在大模型來說基本上沒啥挑戰了,畢竟2025年數學卷,各大模型都是130+,甚至很多都140+,這里測過都差不多。
其他推理
在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A - CP - B的余弦值的最小值。
結果:R1滿血驗證題,正確,這個還是不錯的。

大數計算
178939247893 * 299281748617等于多少?
結果:錯誤,正常,市面上的模型都對不了,還是得調用工具,不過這樣說明了僅僅LLM得局限性,也是為啥Agent是必然得原因。

史詩級難題
有一天,一個女孩參加數學考試只得了 38 分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了 88 分。她的父親看到試卷后,怒發沖冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎么一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什么過一會崩潰了?
結果:不對,循環重復了,一直沒返回結果。

但用API測試就沒問題(雖然都沒對),不知道是不是官方頁面上模型的問題。

代碼
寫一個打工人時鐘、
結果:頁面做出來了,也不錯,還給我加了個工作時間計時器,難到怕我干不滿8小時嗎,哈哈哈哈!

寫一個貪吃蛇得游戲。
結果:做出了,風格還可以,但是蛇走的路徑細節有點問題,會一直在原地轉圈圈。

內容可視化,生成HTLM解釋內容。
結果:整體不錯,我個人覺得蠻好看的。

Tool調用
上面的大數計算,直接寫個計算器工具,完美解決,
正確答案:53553251005627872913981

寫個BMI計算器,看一下身體的健康情況,以及推薦飲食。

我為了圖方便,就用的硅基流動的接口。當然可以在騰訊云官方上申請個API使用。
??https://hunyuan.tencent.com/modelSquare/home/list??
模型部署
有卡的同學也可以本地部署一個,官方給的部署教程也挺清晰的,
??https://huggingface.co/tencent/Hunyuan-A13B-Instruct/blob/main/README_CN.md??
這里用vllm部署,官方已經給了鏡像,直接docker pull先把鏡像拉下來,
docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm注意:模型啟動需要cuda 12.8,要不然啟動會報錯
然后把模型下載下來,直接魔搭下載,昨天我也說了,下載飛快,保持到固定的目錄下,我直接存在/home下了
nohup modelscope download --model 'Tencent-Hunyuan/Hunyuan-A13B-Instruct' --local_dir '/home/Hunyuan-A13B-Instruct' &最后用docker 命令啟動,
docker run --privileged --user root --net=host --ipc=host -v /home:/home --gpus=all -it --entrypoint python docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 8 --port 18121 --model /home/Hunyuan-A13B-Instruct/ --trust_remote_code由于我是8卡4090,所以tensor-parallel-size設置8,port就是服務啟動的端口號,--model為模型路徑。
本文轉載自??????NLP工作站??????,作者:NLP工作站

















