百元級硬件流暢運行百億參數大模型！上交&本智激活開源端側原生大模型

2025-07-28 09:06:00

人工智能新聞

今天，上海交通大學IPADS研究所、上海交通大學人工智能學院聯合初創公司本智激活（Zenergize AI），在HuggingFace開源了端側原生大模型SmallThinker。

AI的下一個戰場，不在云端，而在你的口袋里。

iPhone、華為、三星、小米、OPPO等各大手機廠商幾乎都在將大模型塞進手機，端側AI已然成為兵家必爭之地。

背后的邏輯清晰而堅定：最懂你的AI，必須能安全地訪問你的個人數據——郵件、照片、日程，而這一切的前提，就是將計算留在本地，將隱私還給用戶。

然而，想讓AI在本地流暢運行，遠比想象的要難得多。最好的證據，莫過于財力雄厚、軟硬一體的蘋果，其雄心勃勃的Apple Intelligence計劃也未能如期而至，核心AI功能不得不推遲到明年。

這無疑向整個行業釋放了一個清晰的信號：端側AI，是一塊難啃的硬骨頭。

正當全球科技巨頭在端側AI的道路上艱難探索時，一股產學研深度融合的新興力量，給出了獨有的解決路線。

今天，上海交通大學IPADS研究所、上海交通大學人工智能學院聯合初創公司本智激活（Zenergize AI），在HuggingFace開源了端側原生大模型SmallThinker。

該系列模型采用為端側算力、內存、存儲特性而原生設計的模型架構，并從零開始預訓練，具體包含兩個尺寸的稀疏模型，分別是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B，模型也已開源，鏈接如下。

https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct
https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct

其顯著特征，就是用端側CPU即可快速推理，不再依賴高端GPU。其中，4B模型在1GB峰值內存下的推理速度達到驚人的19.41 tokens/s。

而更令人矚目的是，21B旗艦稀疏模型，在一塊百元級的國產RK3588開發板上，實現了相較于同等能力的主流模型（Qwen-14B）高達21倍的推理加速，將同類解決方案遠遠甩在身后。

SmallThinker：端側原生大模型

主流大模型，從出生起就是為云端成千上萬TOPS算力、TB級顯存的GPU集群“量身定制”的。想把它們塞進算力、內存等都不到云端5%的端側設備，傳統方法只有“壓縮”。

這就好比讓一個“博士生”模型，通過蒸餾、量化等手段，強行“降智”，最終變成一個只會簡單問答的“小學生”，犧牲了太多智能。

是否存在一種不做“模型降智”，而是一步到位的選擇？

為了實現這一目標，SmallThinker系列針對端側的弱算力、小內存、慢存儲，設計了創新的大模型架構，并從零開始預訓練，實現了與端側硬件的“精巧匹配”。

具體來說，這一端側原生的大模型架構主要擁有三大核心技術特性：

第一，端側算力原生的雙層稀疏架構，稀疏度提升5倍。

傳統的MoE（混合專家模型）只在專家層面是稀疏的。而SmallThinker在此基礎上，增加了專家內部的神經元稀疏。

這就好比，模型不僅能精準調用最相關的專家知識，還能只激活專家知識庫里最核心的部分，避免“復述全部所學”，對端側算力的要求大大降低。

第二，端側存儲原生的專家路由前置，顯著隱藏IO開銷。

在內存資源受限的端側，通常模型權重不能完全放置在內存里，需要在推理過程中動態從慢速存儲（比如SSD、UFS等）加載模型專家權重，而在這個過程中，端側的慢速I/O會嚴重影響推理速度。

傳統方案是算完注意力，再計算路由，最后排隊等待加載專家。

而SmallThinker在模型架構中就原生提供了機制，幫助預判需要哪個專家，在進行注意力計算的同時，就去異步加載專家。

做到了“邊檢查邊傳喚”，將I/O等待時間隱藏在注意力計算的過程中。

第三，端側內存原生的混合稀疏注意力，KV緩存占用下降76%。

針對長文本場景，SmallThinker設計了“略讀”+“精讀”的混合注意力機制。它使用滑動窗口注意力（Sliding Window）進行高效的“略讀”，同時保留全局注意力的能力進行“精讀”。

兩種方式組合，在處理16K文本時，相比傳統GQA機制，KV緩存占用降低76%，讓端側設備也能輕松處理長文檔

生態兼容性與極致性能：SmallThinker與PowerInfer的完美結合

一個真正優秀的開源模型，不僅自身要強大，更要擁抱廣闊的開放生態。SmallThinker模型系列在設計上充分考慮了開發者的使用習慣，能夠無縫兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架。

在硬件適配上，它實現了對英特爾、英偉達、高通等主流芯片，甚至已經可以在國產鴻蒙操作系統上進行推理。這種開箱即用的靈活性，極大地降低了開發者的使用門檻。

而要體驗SmallThinker最極致的端側加速與內存優化效果，則需要使用團隊為其量身打造的端側原生Infra——PowerInfer（https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md）。

PowerInfer是團隊于2023年12月開源的業界首個稀疏大模型端側推理框架，發布后迅速獲得全球開發者的高度關注，目前GitHub星標已達8.2K，并曾連續兩天蟬聯GitHub全球項目趨勢榜第一。

它能夠深度激活SmallThinker原創的雙層稀疏架構，在推理時只調用必要的專家及神經元，并能在不影響推理速度的情況下降低內存占用。

它就像是為SmallThinker這臺“F1賽車”專門打造的引擎，為開發者提供了一套從模型到部署、真正完整的全棧優化解決方案。

SmallThinker模型智力與推理性能兼具

理論再好，也要看療效。SmallThinker團隊交出的，是一份模型能力與端側推理性能兼備的答卷。

為了真正實現“端側原生”，團隊從零開始預訓練，基于高質量數據語料，訓練了兩種規模的模型：

SmallThinker-4B-A0.6B：基于2.5T Tokens數據預訓練，擁有40億參數，激活6億參數，主打極速響應。
SmallThinker-21B-A3B：基于7.5T Tokens數據預訓練，擁有210億參數，激活30億參數，主打旗艦性能。它能夠在百元級RK3588上流暢部署，全內存情況下的CPU推理速度也能達到10.84 tokens/s。

口說無憑，評測見真章。

在MMLU、GPQA等多個權威評測基準上，SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的開源模型，充分證明了其“原生”架構設計的優越性。

而在更關鍵的實際運行性能上，當SmallThinker與PowerInfer結合時，其在內存約束場景下的優勢盡顯。團隊在旗艦移動平臺和個人電腦PC上，對業界主流模型進行了正面硬剛。

場景一：手機極限內存瓶頸（1GB RAM）

在主流手機上，SmallThinker-4B-A0.6B模型的Q4量化版本，在僅調用4個CPU核心的情況下，推理速度便高達79 tokens/s。

而在對模型架構與推理框架構成終極考驗的極限內存瓶頸（1GB）場景下，SmallThinker的優勢則體現得淋漓盡致；4B模型依然跑出了19.91 tokens/s的流暢速度。

作為對比，Qwen3-1.7B模型速度僅為1.07 tokens/s，幾乎無法正常使用。

近19倍的性能差距，充分證明了SmallThinker在極端資源受限環境下的卓越運行能力。這不僅是一次技術的勝利，更是將高端AI平民化的關鍵一步。

場景二：主流PC配置（8GB RAM）

當內存放寬到旗艦PC的8GB時，SmallThinker的架構優勢依然顯著。

SmallThinker-21B-A3B的4核CPU（Intel i9 14990K）推理速度達到20.30 tokens/s，而Qwen3-30B-A3B的4核CPU速度為 10.11 tokens/s，加速比達到2倍。

未來展望：不止于此，通往端側原生智能

在這訓練過程中，團隊發現；即使在如此龐大的數據投喂之后，模型的loss曲線仍在穩步下降，仍未達到飽和。

未來，團隊會圍繞兩條路線演進。

第一條路線，繼續Scaling：更大更強。

既然模型尚未“吃飽”，那么最直接的路徑就是——繼續投喂。

團隊的下一步計劃，將繼續遵循被驗證有效的Scaling Law，利用更多的高質量Tokens進行進一步訓練。進一步壓榨模型潛力，在知識儲備、邏輯推理和代碼生成等核心能力上，將SmallThinker推向新的高度，打造出更強大的端側基礎模型。

第二條路線，打造“個人賈維斯”：從模型到可信賴的智能體。

如果說Scaling Law是讓模型變得更“博學”，那么團隊的終極野心，則是打造一個真正屬于每個人的“賈維斯式”智能體。

這個智能體的獨特之處在于，它完全運行在你的個人設備上，能夠安全、完整地理解你的全部數字生命——從郵件、日程，到聊天記錄和相冊。正是在這片獨一無二的私有數據土壤之上，才能生長出“千人千面”、真正懂你的可信賴AI。

相信未來，隨著端側原生AI能力的不斷進步，未來的AI能力就會像今天的水和空氣一樣，主動融入我們每個人的日常工作和生活，提供安全私密、成本低廉、充滿智慧的AI體驗。

責任編輯：張燕妮來源：量子位

AI 大模型開源