超越Claude 3.5和o1!8B模型靠「分層投票+測試時訓練」逆襲
測試時訓練(test-time training)是一種通用的訓練方法。
該方法將單個未標記的測試實例轉化為自監督學習問題,在對測試樣本進行預測之前更新模型參數。
而對于大模型訓練,通常會使用一種稱為情境學習的技術來提高其模型在新任務上的性能。
該方法通過將新任務的幾個示例作為文本提示輸入模型,從而指導模型的輸出。
但情境學習并不總是適用于需要邏輯和推理的問題。 因為邏輯和推理問題是環環相扣的,需要先做好對問題的拆解,才能夠解決對應的問題。
只是給出例子,而不教會大模型推理方法,相當于只是給學生幾道例題和答案,卻不教解題思路,對成績的提升于事無補。

圖1:大模型測試時學習的框架
測試時訓練的第一步,是數據重構,即通過留一法,將K個示例拆分為K個偽任務,每個任務用K-1個樣本作訓練,留1個作測試。
同時修改訓練優化的損失函數,涵蓋所有的示例,讓模型不僅學到訓練集,還能擴展到測試集上。
測試時訓練涉及使用少量特定于當前任務的新數據來更新某些模型參數——即模型用于進行預測的內部變量。

下面的圖2,對應的是在抽象推理數據集(ARC)和BBH兩個基準測試集應用測試時訓練后,成功給出回答的示例。

圖2:使用測試時訓練解決抽象推理問題的示例
測試中使用的模型,其參數量不過是8B的lemma3,而其性能提升相當顯著,對于ARC數據集,準確性翻了近兩倍,從17.5%提高到45%;在BBH數據集上,也從50.5%提升到57.8%。

圖3:在80個隨機選擇的ARC驗證任務子集上和全部BBH任務上的準確性
讓大模型的思考邏輯問題如人類專家
為了擴展測試時給出數據集的大小,研究者還通過略微改變示例中的問題和解決方案來創建新的數據,例如通過水平翻轉一些輸入數據。
他們發現,在新增的數據集上訓練模型可以使得模型獲得最佳性能。
在使用留一法和可逆幾何變換后,可通過測使用分層投票策略,對訓練后的模型預測進行聚合:首先,在每個變換內部進行投票,然后從每個變換中選出的頂級候選者進行全局投票以產生最終的前兩個預測。

圖4:分層投票策略示例
使用分層投票和測試時訓練后,即使是1B參數的模型,其在抽象推理問題上的性能提升也相當顯著,性能與8B模型相近,如圖5所示。

圖5 1B 3B和8B參數量模型面對抽象推理問題的回答準確率對比
經過了微調并使用測試時訓練的8B模型,其在抽象推理任務上的準確率高達62.8,已經超過了人類的均值60.2%,對比主流的Claude3.5,Deepseek R1,openAI o1更是遙遙領先。

相比在提示詞中給出示例,測試時訓練這一策略模仿了人類的思維方式,將大任務分解為數個小目標,每一步都包含可管理的邏輯步驟。
不僅適用于抽象推理問題,對于很多涉及多步驟推理的問題,都會帶來顯著的性能提升。
例如物體計數問題,即跟蹤打亂順序的五個物體, 跟蹤打亂順序后的物體順序,或是電影推薦,即選擇滿足多個條件的電影。
在Big-Bench hard數據集的10類任務中,通過消融分析,也可對比使用了測試訓練及分層投票策略所帶來的性能提升(圖6)。
這意味著測試時訓練解決了大模型應用的一個核心痛點,即它們能生成流暢的文本,但在需要嚴密邏輯鏈條的復雜推理任務中,往往會走捷徑或產生邏輯謬誤。
例如雖然會計公司的大模型可能擅長總結財務報告,但如果要求該模型預測市場趨勢或識別欺詐交易,它可能會意外地失敗。

圖7:在Big-Bench hard數據集上,的特定任務進行消融實驗的完整結果
而測試時訓練的引入,讓大模型的思考方式變得類似人類專家,能夠讓大模型學習如何將一個大問題分解成多個子問題,然后按計劃、有條不紊地解決,并在得出最終答案前對中間步驟進行自我審視和驗證。
其意義不僅在于提升了模型的測試分數,更重要的是,它為構建更值得信賴的AI系統提供了可能。
一個能夠清晰展示其推理步驟并進行自我糾錯的AI,將在科學發現、醫療診斷、法律分析等高風險領域具有更廣闊的應用前景。
這些說明測試時訓練在處理新型推理任務方面的潛力,表明其在推動下一代語言模型的發展方面具有巨大前景。
然而,該研究一作Akyürek指出,即使采取了低秩適配的技術,只更新少量模型參數,從而提升測試時訓練的部署效率,由于使用該策略意味著大模型每回答一個問題,都要重新進行訓練。
這會導致一個通常在不到一分鐘內回答查詢的模型,在測試時訓練下可能需要五到十分鐘來提供答案。
因此Akyürek并不希望對所有用戶查詢都這樣做,但如果您有一個非常困難的任務,希望模型能夠很好地解決,那么測試是就是有用的。
而另一些任務,不需要使用該方法,上下文情境學習就夠用了。
而研究者的長期目標是建立一個能持續學習的大模型,可根據查詢自動判斷是否需要使用測試時訓練來更新參數,或者是否可以使用情境學習來完成任務,然后無需人工干預即可實施最佳測試時訓練策略。



































