騰訊HunYuan跟阿里Qwen在開源上干起來了?
騰訊HunYuan又開源了4個端側小模型0.5B、1.8B、4B、7B,共4個尺寸,主打輕量端側。
Hunyuan-0.5B:https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
Hunyuan-1.8B:https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
Hunyuan-4B:https://huggingface.co/tencent/Hunyuan-4B-Instruct
Hunyuan-7B:https://huggingface.co/tencent/Hunyuan-7B-InstructHunYuan也開始走全系列開源的路子了,是不是跟Qwen干上了呀!

我是真沒想到,騰訊也開始大規模開源了,一直以為會堅持僅開源超大參數模型,現在也下次卷端側了,開源社區熱鬧起來了呀!
說回來,
本次開源的模型是有Base和Instruct,Instruct為混合推理模型,通過/no_think 和 /think 可以強制控制輸出是否思考,上下文窗口長度256K,注意力采用GQA。
專門在tool use 和 agent 上做了優化,可以做深度搜索、excel 操作、旅行攻略規劃等任務。
然后還跟Qwen拼上了服務,都知道每次Qwen開源,都是配套一系列東西,比如vllm、sglang、模型訓練、量化等等。
我一看HunYuan這次的Github和HF里面,README啥都有,訓練、推理、量化、docker部署,應有盡有,讓我有點不認識了~

可能是因為太急了,混元提交的代碼transformers還在審核,所以使用時,需要按照對應的transformers包。
pip install git+https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca最后榜單效果,榜單上7B跟Qwen3持平,4B、1.8B效果要更好,agent榜單BFCL-v3、τ-Bench、C3-Bench上看起來都不錯。
不知道實測怎么樣,要試一試啦!


本文轉載自???????NLP工作站???????,作者:NLP工作站
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















