沉寂一個月,openPangu性能飆升8%!華為1B開源模型來了
在端側(cè) AI 這個熱門賽道,華為盤古大模型扔下了一顆 “重磅炸彈” 。
如今,云端大模型已經(jīng)能侃侃而談、答疑解惑。但如果這些 AI 大腦能被裝進手機、攝像頭甚至無人機,會帶來怎樣的變化?邊緣設(shè)備上部署強大的 AI 模型已成為產(chǎn)業(yè)智能升級的關(guān)鍵路徑。
然而,端側(cè)設(shè)備在算力、內(nèi)存和功耗方面的嚴格限制,與傳統(tǒng)超大模型的巨大計算需求形成了顯著矛盾。現(xiàn)有方案往往陷入兩難:要么采用性能羸弱的小模型,無法處理復(fù)雜任務(wù);要么試圖將云端大模型壓縮后硬塞進端側(cè),結(jié)果精度嚴重下降或響應(yīng)緩慢,難以滿足實際應(yīng)用需求。
為了破解這一痛點,華為近日發(fā)布了專為昇騰端側(cè)硬件打造的高性能語言模型 ——openPangu Embedded-1B。該模型雖然只有 10 億參數(shù),卻通過軟硬件協(xié)同設(shè)計顯著降低推理延遲、提升資源利用率,并采用多階段訓(xùn)練策略(包括從零預(yù)訓(xùn)練、課程學(xué)習(xí)式微調(diào)、離線 On-Policy 蒸餾、多源獎勵強化學(xué)習(xí))大幅增強各類任務(wù)表現(xiàn)。
得益于多階段訓(xùn)練與優(yōu)化,openPangu Embedded-1B 在十億參數(shù)的體量下實現(xiàn)了性能與效率的高度協(xié)同,成功將強大的大模型能力帶到了端側(cè)設(shè)備上,樹立了「小模型大能力」的新標(biāo)桿。
評測成績說明了一切,openPangu Embedded-1B 在多個權(quán)威基準(zhǔn)上表現(xiàn)亮眼,創(chuàng)下了 10 億參數(shù)級別模型的全新 SOTA 紀(jì)錄。
模型的整體平均分達到 63.90,不僅全面領(lǐng)先同類模型,甚至持平更大規(guī)模的 Qwen3-1.7B(63.69),充分體現(xiàn)了出色的參數(shù)效率。這表明,先進的訓(xùn)練與對齊方法可以比單純擴大模型規(guī)模更具成效。
在數(shù)學(xué)推理方面,openPangu Embedded-1B 經(jīng)過強化學(xué)習(xí)對齊后取得了高分,其中在 GSM8K 數(shù)學(xué)基準(zhǔn)上達到 82.76%,在 MATH 數(shù)學(xué)題集上達到 81.83%,均大幅領(lǐng)先同類模型。

圖:openPangu Embedded-1B 與其他模型在各項任務(wù)上的 0-shot 表現(xiàn)對比。可以看到,該模型在語言理解、數(shù)學(xué)、推理和編程等任務(wù)上均展現(xiàn)出明顯優(yōu)勢,并顯著縮小了與更大模型之間的差距。
尤其值得關(guān)注的是,相比上個月開源的 openPangu Embedded-1B V1,V1.1 的平均分實現(xiàn)了 8% 以上的大幅躍升,這意味著開源盤古系列正在加速迭代升級。openPangu Embedded-1B 為資源受限的邊緣設(shè)備帶來了前所未有的智能水平,開辟了大模型端側(cè)應(yīng)用的新可能。
- 開源模型地址:https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1
- 技術(shù)報告:https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1/blob/main/docs/openPangu-Embedded-1B-report.pdf
接下來,我們就一起揭曉這款模型背后的技術(shù) “秘密”。
軟硬件協(xié)同設(shè)計:讓 10 億參數(shù)模型在端側(cè)高效奔跑
openPangu Embedded-1B 是一款擁有 10 億參數(shù)的自回歸 Transformer 模型,專為昇騰 AI 處理器的端側(cè)硬件平臺優(yōu)化設(shè)計。
團隊通過精心的軟硬件協(xié)同,將模型架構(gòu)與芯片特性深度結(jié)合:針對目標(biāo)硬件的計算和內(nèi)存特點,定制了合適的網(wǎng)絡(luò)寬度和深度等超參數(shù)。換言之,模型的隱藏層規(guī)模、前饋網(wǎng)絡(luò)維度等都與昇騰 Atlas 硬件的高效吞吐配置相匹配,確保每個計算單元都得到充分利用。
在資源受限的設(shè)備上,這種 “軟硬件協(xié)同” 的架構(gòu)設(shè)計在模型深度和推理效率間找到了理想平衡點。

圖:在昇騰 Atlas 200I A2 硬件上,openPangu Embedded-1B 的推理延遲低于同級別的大模型。上表對比了不同 1B 量級模型的首 token 生成延遲(TTFT)和每 token 生成延遲(TPOT)。
為了驗證軟硬件協(xié)同設(shè)計的效果,團隊將 openPangu Embedded-1B 與其他相近規(guī)模模型進行了推理延遲基準(zhǔn)測試。結(jié)果顯示,在 Atlas 200I A2 硬件上,openPangu Embedded-1B 首字輸出延遲僅約 1.8 秒,后續(xù)每詞生成約 0.156 秒,而且 openPangu 精度相當(dāng)。
這一顯著的速度優(yōu)勢充分證明了軟硬件協(xié)同優(yōu)化在端側(cè)部署中的價值。
兩階段課程學(xué)習(xí):具備理性的快速響應(yīng)
為了讓小模型也具備 “理性思維”,openPangu Embedded-1B 在微調(diào)階段采用了課程學(xué)習(xí)式的 “兩段式” 訓(xùn)練,模擬人類專家先深思后速答的學(xué)習(xí)路徑。
團隊精心設(shè)計了難度遞進的雙階段訓(xùn)練課程,循序漸進地塑造模型的推理能力:
- 構(gòu)建堅實的 “推理地基”:第一階段,模型不追求響應(yīng)速度,只專注于理性推理能力。它學(xué)習(xí)了海量包含詳細推理過程的復(fù)雜問題解答示例,就像學(xué)生跟隨導(dǎo)師一步步學(xué)習(xí)解題思路,理解背后的原理邏輯,打下扎實的邏輯推理基礎(chǔ)。
- 激發(fā)內(nèi)化的 “快速直覺”:第二階段,在模型具備強大的推理 “內(nèi)核” 后,訓(xùn)練策略切換為提供大量簡短的問答對,省略中間推理步驟。這好比學(xué)生掌握原理后開始練習(xí)快速作答,學(xué)會將深層思考內(nèi)化于心,外化于行,以盡可能直接、迅速地得出答案。
經(jīng)過這兩個階段循序漸進的微調(diào),模型深層次的推理能力被成功激活,openPangu Embedded-1B 在通用任務(wù)上的表現(xiàn)也全面提升。
離線 On-Policy 知識蒸餾:師生協(xié)作的新范式
openPangu Embedded-1B 還進一步引入了一種 “學(xué)生主導(dǎo),教師點撥” 的離線 On-Policy 知識蒸餾方法。不同于傳統(tǒng)由教師單向灌輸知識,這種方法更像智能輔導(dǎo):先讓 “小學(xué)生” 模型自主作答,再由 “大老師” 模型針對學(xué)生答案進行有的放矢的指導(dǎo)。
蒸餾過程包括以下兩個核心步驟:
- 學(xué)生主導(dǎo)的自主探索:學(xué)生模型(1B)首先對訓(xùn)練問題自行生成答案,教師暫不介入,就像導(dǎo)師輔導(dǎo)前先讓學(xué)生獨立嘗試解題,以了解其思路。
- 教師約束下的精準(zhǔn)點撥:隨后更大的教師模型登場,但它并非直接給出正確答案,而是基于學(xué)生輸出進行預(yù)測,在學(xué)生能力范圍內(nèi)提供針對性的提示,極大縮小了師生認知差距。
通過這種離線 On-Policy 蒸餾,教師指導(dǎo)數(shù)據(jù)的生成與學(xué)生模型的訓(xùn)練實現(xiàn)了解耦,流程高度靈活;同時方法實現(xiàn)上改動極少(僅需增加一個蒸餾損失項),卻令學(xué)生模型的準(zhǔn)確率和泛化能力大幅提升。
多源獎勵強化學(xué)習(xí):用反饋強化模型智慧
在大規(guī)模 RL 訓(xùn)練階段,團隊開發(fā)了針對昇騰 NPU 集群的高效并行方案:通過容錯同步調(diào)度和優(yōu)先級數(shù)據(jù)隊列最大限度利用上千加速卡資源,減少約 30% 的設(shè)備空閑;設(shè)計主機 - 設(shè)備權(quán)重共享和 NPU 端推理優(yōu)化,使大規(guī)模強化學(xué)習(xí)在昇騰硬件上能夠高效穩(wěn)定運行。
同時在算法上,團隊對訓(xùn)練樣本進行了難度篩選,過濾過易或過難的數(shù)據(jù),引入 “零優(yōu)勢” 掩碼忽略無效懲罰項,進一步保障了訓(xùn)練過程的穩(wěn)定高效。
為了指導(dǎo)模型自我提升,openPangu Embedded-1B 采用了多源獎勵機制:針對數(shù)學(xué)、代碼等可自動驗證的任務(wù)使用基于規(guī)則的獎勵,針對復(fù)雜開放任務(wù)則采用輕量級 LLM 模型來評估答案質(zhì)量。
獎勵策略兼顧回答的正確性和格式規(guī)范,例如回答格式錯誤會受到嚴厲懲罰,答案錯誤但格式正確則扣減較小分值,而只有答案完全正確才能獲得正獎勵。這套精心設(shè)計的獎勵信號確保模型在強化學(xué)習(xí)階段獲得全面而準(zhǔn)確的反饋,不斷優(yōu)化自身能力。

圖:強化學(xué)習(xí)訓(xùn)練中,openPangu Embedded-1B 的平均獎勵值和數(shù)學(xué)能力隨訓(xùn)練迭代穩(wěn)步提升。通過強化學(xué)習(xí)微調(diào),模型的數(shù)學(xué)推理能力實現(xiàn)了飛躍式增強,而其他領(lǐng)域的性能也保持了穩(wěn)定。
展望:快慢思考融合的未來
在極致挖掘小模型端側(cè)潛能的同時,openPangu 研發(fā)團隊也在探索讓大模型的 “快思考” 和 “慢思考” 融為一體的新方向。目前,快慢思考模型往往面臨兩難:快速思考模式在復(fù)雜任務(wù)上力不從心,而慢思考模式應(yīng)對簡單問題又效率低下,難以兼顧速度與精度。
對此,團隊提出了一種自適應(yīng)的快慢融合方案:在單一模型中同時提供快思考、慢思考和自動切換三種模式。模型可根據(jù)問題難度自動選擇:簡單問題快速作答,復(fù)雜問題深入推理后再作答,在保持接近慢思考模型精度的同時,大幅提高了易答問題的推理效率。
據(jù)悉,openPangu-Embedded-7B 模型已應(yīng)用自適應(yīng)快慢融合策略,并在 7B 量級模型中取得了領(lǐng)先水平,其升級版本也將很快開源。
可以預(yù)見,隨著快思考 / 慢思考自適應(yīng)融合等技術(shù)的引入,更大規(guī)模的端側(cè)模型將同時實現(xiàn)高推理質(zhì)量和高響應(yīng)速度,為行業(yè)應(yīng)用帶來 “雙優(yōu)” 的 AI 能力。未來,隨著端側(cè) AI 加速向?qū)嵱没c普惠化邁進,算力受限設(shè)備也能享受云端級別的智能體驗。


























