成本不到8千美元!新浪微博1.5B小模型超越近萬億參數模型
一個僅有15億參數、訓練成本不足8000美元的小模型,在頂級數學競賽基準上擊敗了參數量是其數百倍的,近萬億參數的DeepSeek-R1(6710億參數)。甚至媲美Gemini 2.5 flash和claude Opus 4。


令人意想不到的是,這是新浪微博剛剛發布并開源的VibeThinker-1.5B模型。

這個僅有15億參數的小家伙,證明了智慧的算法設計,或許比單純的參數堆砌更具力量。
核心是一種先發散再收斂的智慧
VibeThinker-1.5B的強大,并非源于模型架構的革新,而是其背后一套名為頻譜到信號原則(Spectrum-to-Signal Principle, SSP)的訓練哲學。

傳統的模型訓練,尤其是在微調階段,目標非常直接:讓模型在一次嘗試中給出正確答案的概率(即Pass@1)最大化。監督微調(SFT)和強化學習(RL)兩個階段,都圍繞著這個單一目標進行優化。
SSP原則認為這種做法存在根本性的局限。
它就像一個嚴厲的老師,只獎勵那個唯一正確的標準答案,從而扼殺了學生探索其他可能解法的創造力。這種訓練方式,讓模型變得思維僵化,過早地收斂到一個狹窄的解題路徑上,從而限制了其推理能力的上限。
VibeThinker-1.5B反其道而行之。它將SFT和RL兩個階段的目標徹底解耦,賦予它們截然不同又相輔相成的使命。
第一階段,監督微調(SFT),被定義為頻譜階段。
它的目標不再是追求單次回答的準確率,而是生成一個豐富多樣的、包含各種合理解題思路的解決方案頻譜。通俗地說,就是鼓勵模型腦洞大開,針對一個問題,想出盡可能多的、看起來都有道理的解法。
這個階段的評價指標不再是Pass@1,而是Pass@K。這個指標衡量的是,在模型獨立生成的K個答案中,只要有一個是正確的,就算通過。高Pass@K意味著模型擁有廣闊的思維空間和豐富的解題路徑儲備,為后續的優化提供了肥沃的土壤。
這就像一個頂級的創意團隊在進行頭腦風暴,第一步不是評判哪個點子最好,而是鼓勵所有人盡可能多地提出各種想法,無論多么天馬行空。想法的數量和多樣性(頻譜),決定了最終能產出偉大創意的上限。
第二階段,強化學習(RL),被定義為信號階段。
當模型通過SFT階段學會了發散思維后,RL階段的任務就變成了收斂聚焦。它像一個經驗豐富的編輯或決策者,從SFT生成的廣闊頻譜中,識別出最正確、最高效的那個信號,并加以放大。
通過獎勵機制,RL引導模型學會在眾多可能性中,提高生成最佳答案的概率。由于SFT階段已經提供了足夠豐富的候選方案,RL階段的優化就變得事半功倍,它不再需要從零開始探索,而是在一個高質量的候選池中進行選擇和強化。
SSP原則的精髓在于,它認識到,先優化多樣性(Pass@K),再優化準確性(Pass@1),比從頭到尾只優化準確性,能達到更高的性能天花板。一個思維開闊、能舉一反三的模型,最終找到正確答案的能力,遠勝于一個只會走華容道的死板模型。
輸出多樣性是模型魯棒性和創造力的核心。
當模型能從多個角度、多種路徑思考問題時,它就不容易陷入局部最優解,也更有可能在面對新穎、復雜的問題時,找到突破性的解決方案。SSP框架,正是將這一認知系統性地融入了模型訓練的全過程。
模型的訓練過程堪稱藝術
理論的優雅需要精妙的實踐來落地。VibeThinker-1.5B將SSP原則貫徹到訓練的每一個細節中,其具體方法分為多樣性探索蒸餾和最大熵引導策略優化兩個核心步驟。
第一步:用蒸餾法萃取多樣性精華
為了在SFT(監督微調)階段打造出最廣闊的解決方案頻譜,團隊設計了一套巧妙的兩階段多樣性探索蒸餾流程。
首先是領域感知多樣性探測。
他們沒有將所有知識一鍋燉,而是認識到不同領域需要不同的多樣性思維。例如,在數學領域,他們將其細分為代數、幾何、微積分、統計等N個子領域。
然后,他們利用一個能力強大的大語言模型,為每個子領域自動構建專門的測試題集。在SFT的訓練過程中,模型每隔一段時間(比如每k步)就會被保存一個檢查點(checkpoint)。這些檢查點會被帶到各個子領域的考場上,用Pass@K指標進行評估。
最終,在每個子領域中,那個Pass@K分數最高的檢查點,就被加冕為該領域的多樣性專家模型。比如,M*代數 是最擅長用多種方法解決代數問題的模型,而 M*幾何 則是幾何領域的發散思維冠軍。
這個過程,就像是從成千上萬的實習生中,為每個部門挑選出最具創新潛力的那一個。
接下來是專家模型融合。
選出了各個領域的專家后,需要將它們的才華集于一身,打造一個全能的、多樣性最大化的SFT模型。這里使用了一種名為模型合并(Model Merging)的技術。
簡單來說,就是將這些專家模型的參數進行加權平均。公式可以表示為:

權重wi的總和為1,保證了融合后的模型參數規模不變。在VibeThinker-1.5B的實現中,團隊采用了最簡單的等權重方案(wi = 1/N),意味著每個領域的多樣性能力都被平等地注入到最終的SFT模型中。
這個融合了所有專家之長的模型 MSFT Merge,不僅在多樣性指標Pass@K上達到了頂尖水平,其單次準確率Pass@1也同樣出色。
這說明,追求思維的廣度,并不會削弱其深度。
恰恰相反,一個更廣闊的認知頻譜,似乎反而強化了通往最正確答案的那條路徑。這個強大的SFT模型,為下一階段的RL優化,奠定了無與倫比的堅實基礎。
第二步:用熵來引導模型在學習甜點區探索
進入RL(強化學習)信號階段后,團隊面臨一個新的問題:如何最高效地利用訓練數據?
傳統的RLHF(人類反饋強化學習)通常使用靜態數據集,這對于一個能力不斷進化的模型來說,效率很低。模型已經完全掌握的問題,再反復練習是浪費時間;而遠超其當前能力的問題,則會讓模型感到挫敗,難以學習。
這里,VibeThinker-1.5B引入了最大熵引導策略優化(MaxEnt-Guided Policy Optimization, MGPO)框架。
這個名字聽起來復雜,但其核心思想非常符合直覺,源于信息論。它認為,一個問題對模型訓練的價值最大化,是在模型對這個問題最不確定的時候。
想象一下一個學生。對于1+1=2,他每次都答對,再練一百遍也學不到新東西。對于黎曼猜想,他完全不懂,再看一百遍也只是徒勞。他學得最快的地方,是那些他感覺自己好像會,但又沒完全會,做起來時對時錯的題目。
這個時對時錯的狀態,在信息論中,就是熵最大的狀態。
對于一個問題,模型的回答只有正確與不正確兩種結果。當模型在多次嘗試后,答對的概率pc(q)恰好是50%時,其不確定性達到頂峰,熵最大。這個點,就是模型的學習甜點區(learning sweet spot),或者說關鍵的學習前沿。
MGPO框架的核心,就是動態地識別出這些讓模型最糾結的問題,并引導模型將學習資源優先投入其中。
它通過一個熵偏差正則化的加權方案來實現。這個方案會計算模型當前表現(答對概率pc(q))與理想的最大熵狀態(p0 = 0.5)之間的距離(使用KL散度衡量)。
距離越遠(即模型對問題要么掌握得太好,要么完全不會),分配的權重就越低;距離越近(模型表現接近50%的搖擺狀態),分配的權重就越高。
模型會自動地將注意力集中在那些它最有可能取得突破的模糊地帶。
通過這種方式,MGPO確保了每一份計算資源都花在了刀刃上,極大地提升了學習效率,讓模型能夠以最快的速度,從SFT階段提供的廣闊頻譜中,鎖定并放大那個最強的信號。
性能表現足以挑戰行業共識
VibeThinker-1.5B在一系列涵蓋數學、編碼和知識領域的權威基準測試中,交出了一份顛覆性的答卷。
評估的考場包括:
- 數學:MATH-500、極具挑戰性的哈佛麻省理工數學競賽HMMT 2025、美國數學邀請賽AIME 2024和AIME 2025。
- 編碼:LiveCodeBench V5和V6,評估通用編程能力。
- 知識:GPQA-Diamond,一個包含生物、物理、化學博士級別問題的研究生水平測試。
VibeThinker-1.5B與參數量在30億以下的同級別選手進行比較。

表格中的數據清晰地展示了VibeThinker-1.5B與其基礎模型(Qwen2.5-Math-1.5B)相比,實現了脫胎換骨的進化。
在AIME25上,分數從4.3飆升至74.4;HMMT25從0.6提升到50.4;LiveCodeBench V5更是從0分突破至55.9。
更重要的是,VibeThinker-1.5B不僅超越了同參數級的對手,甚至碾壓了更大一些的模型。
它在AIME25上的分數(74.4)是30億參數SmolLM(36.7)的兩倍多。在HMMT25(50.4 vs 26.0)和LiveCodeBench V5(55.9 vs 27.6)上,優勢同樣巨大。這毫無疑問地確立了它在30億參數以下級別中的王者地位。
與大型推理模型,甚至是行業巨頭的專有模型正面交鋒。這些對手的參數規模是VibeThinker-1.5B的10倍到數百倍。

結果令人震驚。
在AIME25這個極具挑戰性的數學基準上,15億參數的VibeThinker-1.5B(74.4分)擊敗了6710億參數的DeepSeek R1(70.0分),并且與OpenAI的o3-mini-Medium(74.8分)、MiniMax-M1(74.6分)幾乎打平。
在HMMT25上,它的表現(50.4分)同樣超越了DeepSeek R1(41.7分)。
這一結果直接撼動了推理能力與參數規模強相關的行業基石。
它雄辯地證明,通過精巧的算法設計和訓練策略,一個小規模模型完全有潛力在復雜的邏輯推理任務上,達到甚至超越那些體量龐大數百倍的巨型模型。
在編碼任務上,VibeThinker-1.5B與頂級大模型的差距略大一些,這主要歸因于其基礎模型更側重于數學數據。
而在GPQA這樣的廣域知識問答上,差距則更為明顯。這表明,小參數模型在存儲和處理海量、百科全書式的通用知識方面,可能確實存在固有的物理限制。
為了進一步凸顯其在推理領域的專注與強大,VibeThinker-1.5B還與一些頂級通用大模型進行了比較,如Kimi K2、Deepseek V3、GPT-4.1等。
這些模型參數規模動輒數千億乃至萬億,雖然也經過了數學和編碼數據的訓練,但其設計目標是通用對話,而非專門的鏈式思維(CoT)推理。

在數學基準上,它以巨大的優勢超過了所有這些萬億參數級別的通用模型。這有力地說明,對于需要深度邏輯推理的任務,專門優化的小而美模型,其效能遠非通用大而全模型能比。
成本與可信度是最后的拼圖
VibeThinker-1.5B的成就不僅在于性能,更在于其極致的成本效益。
整個后訓練過程(包括SFT和RL階段),在NVIDIA H800 GPU上總共只花費了約3900個GPU小時。按照當時的市場租賃價格,總計算成本不到8000美元。

用不到8000美元的成本,達到了需要花費30萬甚至50萬美元才能企及的性能水平,成本效益比達到了驚人的30到60倍。
這種成本上的巨大優勢,意味著強大的AI推理能力不再是少數巨頭的專利。它讓更多的中小型公司、研究機構和大學,都有可能參與到前沿AI的開發中來,極大地促進了AI研究的民主化。
同時,在推理部署成本上,15億參數的模型可以輕松運行在手機、汽車等邊緣設備上,其服務成本相較于巨型模型降低了20到70倍,為AI應用的廣泛落地鋪平了道路。
當然,對于任何一個表現驚艷的模型,都必須回答一個關鍵問題:數據是否被污染?模型是否只是背題,而非真正學會了解題?
VibeThinker-1.5B團隊對此采取了嚴格的數據去污染措施,通過10-gram匹配等方法,確保訓練數據與評估測試集之間不存在語義重疊。
更有力的證據來自時間線。
VibeThinker-1.5B的基礎模型發布于2024年9月。而它表現出色的AIME25和HMMT25基準測試,直到2025年才公開發布。這意味著,這些測試題根本不可能出現在其基礎模型的訓練數據中。
此外,其基礎模型在編碼任務上得分均為0,而VibeThinker-1.5B通過后訓練將分數提升至50分以上。這些從無到有的能力躍升,也強有力地證明了其性能的提升源于創新的訓練方法,而非數據泄露。
VibeThinker-1.5B證明了在邏輯推理這一核心認知領域,精巧的算法設計可以超越蠻力的參數堆砌。



































