英偉達數學推理新突破:監督學習+強化學習的"1+1>2"效應 精華
還記得OpenAI發布o1模型時,那種"AI終于會思考了"的震撼嗎?現在,英偉達團隊帶來了更深入的研究成果,揭示了如何讓7B參數的小模型在數學和編程推理上達到頂尖水平。他們的AceReason-Nemotron-1.1模型在AIME25數學競賽中取得了63.2%的準確率,在編程基準測試中也屢創新高。
這背后的秘密不是簡單的堆算力,而是監督學習(SFT)和強化學習(RL)的巧妙配合。這項研究不僅給出了具體的訓練配方,更重要的是回答了一個關鍵問題:為什么兩種訓練方法結合使用會產生如此強大的效果?
圖片
數據規模化:不只是"多多益善"這么簡單
傳統觀念認為,AI訓練就是數據越多越好。但英偉達團隊的研究發現,擴展數據的方式比數據量本身更關鍵。
他們設計了兩種數據擴展策略:一是增加不同類型題目的數量,二是為每個題目生成更多解答方案。通過對比實驗發現,增加題目多樣性的效果明顯優于增加每題的解答數量。用數學公式表達就是:題目多樣性的影響系數是4.831,而解答數量的影響系數僅為2.635。
這個發現頗為反直覺。按常理,同一道題的多種解法應該能讓AI學到更豐富的推理路徑。但實際情況是,接觸更多不同類型的問題,比深入鉆研少數幾道題的效果更好。這就像學數學,做100道不同類型的題比把同一道題用10種方法反復練習更有效。
更有趣的是訓練輪數的發現。研究團隊發現,即使在第5-6輪訓練時模型已經開始"過擬合"(在訓練集上表現很好但可能泛化能力下降),但測試準確率依然在提升。這說明對于長鏈推理任務,適度的過擬合實際上是有益的,這挑戰了傳統機器學習的常識。
強化學習的"接力棒"效應:弱者也能逆襲
最令人驚訝的發現是強化學習階段的表現。研究團隊用不同質量的監督學習模型作為起點進行強化學習訓練,結果發現:即使起始模型存在顯著性能差距,經過強化學習后這些差距會大幅縮小。
具體來說,兩個在AIME24數學競賽上相差6.6%的模型,經過強化學習后差距縮小到僅1.6%。這個現象就像賽跑中的"接力棒效應"——前半程落后的選手在后半程完全有機會追上甚至超越領先者。
這個發現的實際意義重大:即使你的初始模型不夠強,也不要放棄強化學習這個提升的機會。同時也說明,強化學習具有某種"均衡化"的作用,能夠挖掘出不同模型的共同潛力。
圖片
溫度調節的藝術:探索與利用的微妙平衡
在強化學習過程中,有一個關鍵參數叫"溫度",它控制著AI在生成答案時的隨機性程度。溫度高,AI更愿意嘗試新奇的解法(探索);溫度低,AI傾向于使用已知的可靠方法(利用)。
英偉達團隊經過大量實驗總結出了一個"黃金法則":調整溫度使得溫度調整熵保持在0.3左右,這樣能在探索和利用之間達到最佳平衡。
這就像調節水溫洗澡——太熱會燙傷,太冷沒效果,只有恰到好處才最舒適。溫度設置過低(0.6),AI過于保守,不敢嘗試新方法;設置過高(1.0),AI過于激進,經常得到錯誤答案而學習效果差;而中等溫度(0.85)正好讓AI既保持足夠的探索精神,又不至于胡亂嘗試。
圖片
圖片
圖片
深層思考
這項研究的價值不僅在于技術層面的突破,更在于它揭示了AI訓練的一些深層規律。
首先,AI能力提升不是線性的。不同訓練方法的組合會產生協同效應,1+1確實可以大于2。監督學習讓AI學會基礎推理模式,強化學習則讓AI學會在復雜情況下靈活應用這些模式。
其次,質量比數量更重要。研究發現,強化學習階段數據質量的影響遠超數據數量。這提醒我們,AI發展的關鍵不在于盲目擴大數據集,而在于精心設計訓練策略。
最后,這項研究證明了小模型也能達到驚人的性能。AceReason-Nemotron-1.1只有7B參數,卻在多項任務上超越了更大的模型。這給資源有限的研究者和開發者帶來了希望——通過精巧的訓練方法,小模型也能發揮大作用。
從更宏觀的角度看,這項研究為AI推理能力的提升指明了一條清晰的路徑。它不依賴于簡單的模型規模擴張,而是通過深入理解訓練過程的內在機制,找到了一種更高效、更可持續的AI能力提升方案。這種方法論的意義,或許比單純的性能數字更加深遠。
論文標題:AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
論文鏈接:???https://arxiv.org/abs/2506.13284??
本文轉載自???AI帝國???,作者:無影寺

















