精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

16張H100訓26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測試時Scaling

人工智能 新聞
大模型推理性能的提升,真的只能靠堆數據、加算力嗎?李飛飛等用僅1000個樣本微調模型,并提出預算強制(budget forcing)技術,成功讓推理能力隨測試計算量增加而提升。他們的s1-32B模型在多個基準測試中超越閉源模型OpenAI o1-preview,成為目前最具樣本效率的推理模型。

OpenAI o系列模型為何性能如此強大?

OpenAI將他們的方法描述為使用大規模強化學習(RL),暗示使用了大量的數據。

最近大火的DeepSeek-R1模型也通過使用數百萬個樣本和多個訓練階段使用強化學習的方式,成功地達到了o1級別的性能。

然而,至今為止沒有人公開成功復現清晰的測試時擴展行為。

那么問題來了,實現測試時擴展和強推理性能的最簡單方法是什么?

近日,來自斯坦福大學、華盛頓大學、Ai2等機構的研究人員發表了一篇題為「s1: Simple test-time scaling」的論文,回答了上述問題。

論文地址:https://arxiv.org/pdf/2501.19393

團隊證明,僅使用1000個樣本進行下一個token的預測訓練,并在測試時通過一種簡單的預算強制(budget forcing)技術來控制思維持續時間,就能獲得一個強大的推理模型,其性能隨著測試計算量的增加而提升。

預算強制(budget forcing)可以簡單理解為通過強制提前結束模型的思考過程,或通過重復添加「Wait」來延長思考時間,從而影響模型的推理深度和最終答案。

這種方法可以引導模型進行自我檢查,并修正推理過程中的錯誤,從而提高推理性能。

具體來說,他們構建了一個叫做「s1K」的數據集,由1000個精心篩選的問題組成,每個問題都配有推理軌跡(reasoning traces)和從Gemini Thinking Experimental蒸餾而來的答案。

接著團隊在一個預訓練模型上進行監督微調(SFT),僅使用16張H100 GPU訓練26分鐘。

訓練完成后,使用預算強制(budget forcing)方法來控制模型在測試時的計算量:

  1. 若模型生成的推理token超過設定的上限,則強制結束推理過程,并附加思維結束(end-of-thinking)token,促使模型進入答案生成階段。
  2. 若希望模型在問題上投入更多測試時計算資源,則抑制思維結束token的生成,并在推理軌跡中追加 「Wait」,鼓勵模型進行更深入的推理探索。

基于這個簡單的方法,并在1000個樣本上進行SFT訓練 + 測試時的預算強制(budget forcing)后,團隊提出的s1-32B展現出了測試時擴展(test-time scaling)的能力。

此外,s1-32B也是目前最具樣本效率(sample-efficient)的推理模型,在推理能力上超越了OpenAI的o1-preview等閉源模型。

如何創建s1K數據集

s1K數據集是一個包含1000個高質量推理問題的精選數據集。

團隊創建過程主要分為兩個階段。

初始階段,研究人員從16個不同的來源收集了59029個問題,并遵循三個指導原則:質量、難度和多樣性。

這些來源包括現有的數學問題數據集(如 NuminaMATH、AIME、OmniMath 和 AGIEval),以及研究人員自己創建的概率問題集 (s1-prob) 和腦筋急轉彎問題集 (s1-teasers)。

為了確保質量,研究人員檢查了所有樣本,并忽略了格式不佳的數據集。為了增加難度,他們選擇需要大量推理努力的問題。為了確保多樣性,他們涵蓋了不同的領域和推理任務.

第二階段,最終篩選1K樣本。研究人員通過三個階段的過濾,從59K樣本中篩選出1000個樣本,并繼續依賴質量、難度和多樣性這三個原則。

通過這些過程,研究人員創建了s1K數據集,該數據集包含50個不同領域的1000個高質量、多樣化和高難度的問題,并附帶推理過程。

這個數據集對于訓練s1-32B模型至關重要。

測試時擴展方法

其核心思想是通過在測試時增加計算量來提高語言模型的性能。

論文將測試時擴展方法分為兩類:順序(Sequential)和并行(Parallel)。

順序擴展是指后面的計算依賴于前面的計算,例如長的推理過程;并行擴展是指計算是獨立運行的,例如多數投票。

論文主要關注順序擴展,因為作者認為它可以更好地利用中間結果進行更深入的推理和迭代改進。

預算強制(Budget Forcing):通過限制模型在測試時使用的最大和/或最小思考token數量來控制計算量。

論文通過實驗證明了,這種簡單的方法能夠引導模型修正答案。

下圖這個例子中,模型最初在回答一個關于「raspberry」中 「r」的數量的問題時給出了錯誤的答案 「2」。

然而,通過抑制結束思考的token生成,并追加「Wait」來強制模型繼續推理,模型最終意識到自己快速閱讀導致了錯誤,并最終給出了正確的答案「3」。

測試時擴展方法

如下圖所示,s1-32B模型在使用預算強制技術后,其性能會隨著測試時計算量的增加而提高。

具體來說,通過增加模型思考的token數量(例如,通過追加「Wait」),模型在 AIME24 基準測試上的表現得到了提升。

然而,這種提升最終會趨于平緩,過度抑制結束思考的token會導致模型進入重復循環。

結果表明,s1-32B模型是目前樣本效率最高的開源推理模型。盡管只使用了1000個樣本進行微調,s1-32B的性能仍明顯優于其基礎模型Qwen2.5-32B-Instruct。

同時,雖然DeepSeek r1-32B模型性能更強,但其使用了800倍的訓練樣本。

此外,s1-32B模型在AIME24上的表現幾乎與Gemini 2.0 Thinking API持平,表明其蒸餾過程是有效的。

總之,實驗結果證明了s1-32B模型在測試時擴展、樣本效率和推理能力方面的優勢,并驗證了預算強制技術的有效性。

消融實驗

數據消融實驗:研究人員通過以下對比實驗,驗證了高質量、多樣性、和難度這三個數據選擇標準的重要性:

  • 僅質量 (1K-random):隨機選取1000個高質量樣本,性能明顯低于s1K,表明難度和多樣性過濾的重要性。
  • 僅多樣性 (1K-diverse):均勻選取各個領域樣本,性能也遠不如s1K,表明只關注多樣性是不夠的。
  • 僅難度 (1K-longest):選擇推理軌跡最長的1000個樣本,在GPQA上有提升,但整體不如s1K,表明難度只是一個方面。
  • 最大化數據量 (59K-full):使用所有59K樣本訓練,雖然性能略有提升,但訓練資源消耗巨大,且提升幅度有限,說明精心挑選的少量數據比大量數據更高效。

結果表明,將質量、難度和多樣性相結合是實現樣本高效推理訓練的關鍵。

測試時擴展方法消融實驗:研究人員通過比較不同的測試時擴展方法,驗證了預算強制的優越性:

  • Token/步驟/類別 條件控制 (TCC/SCC/CCC):這些方法都無法有效控制計算量或獲得良好的擴展效果,表明僅在提示中告知模型計算量或步驟是不足的。
  • 拒絕采樣 (RS):使用拒絕采樣會導致性能隨著計算量的增加而下降,因為更短的生成往往是模型一開始就走在正確軌道上的結果。
  • 預算強制 (BF):實驗表明,預算強制在控制性、擴展性和性能方面都優于其他方法。
  • 在預算強制中,追加「Wait」能夠鼓勵模型進行額外的思考,從而提高性能。

下圖展示了在AIME24數據集上使用s1-32B模型進行拒絕采樣(rejection sampling)的實驗結果,結果表明,隨著平均思考時間(以token數量衡量)的增加,模型的準確率反而下降,呈現出反向擴展趨勢。

更長的推理過程并不一定意味著更好的性能。 這一結果也反襯了論文提出的預算強制方法(budget forcing)的優越性,因為預算強制可以更有效地控制測試時的計算量,并促使模型進行更有目的性的思考。

實驗結果表明,預算強制是測試時擴展的最佳方法。

總結

盡管很多模型,例如DeepSeek-r1和k1.5,通過強化學習或使用數萬個蒸餾樣本來構建強大的推理模型。

但該研究表明,僅需在1000個樣本上進行監督微調 (SFT) 就足以構建一個具有競爭力的推理模型,該模型可以與 OpenAI的o1-preview相媲美。

李飛飛團隊研究人員認為,預訓練階段模型已經接觸了大量的推理數據,因此微調階段只需少量樣本就能激活模型的推理能力,這與LIMA論文中提出的表面「對齊假說」類似。

論文提出的預算強制 (budget forcing) 是一種簡單有效的順序擴展方法,它通過控制模型思考的token數量來提高性能,并首次復現了OpenAI的測試時擴展曲線。

盡管預算強制有其局限性,例如最終會趨于平緩和受上下文窗口的限制,但它證明了測試時擴展的潛力,并為未來的研究提供了明確的指標:可控性、擴展性和性能。

為了克服順序擴展的局限性,論文還探討了并行擴展方法,如多數投票和基于REBASE的樹搜索(下圖)。實驗結果表明,將順序擴展與并行擴展方法相結合,還可以進一步擴展測試時的計算量。

未來方向

論文強調,未來的研究可以探索如何進一步改進預算強制,例如輪換使用不同的字符串或結合頻率懲罰。

一個有前景的方向是將預算強制應用于通過強化學習訓練的推理模型,并研究新的測試時擴展方法。

此外,可以研究如何進一步擴展測試時的計算量,以克服現有語言模型上下文窗口的限制。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-07 08:33:02

2025-02-06 18:37:46

GPUQwen2.5模型

2024-11-15 09:36:07

2025-02-08 09:30:00

2025-02-06 08:45:22

2018-03-02 08:30:07

Windows 10電腦卡測試版

2024-12-20 14:30:00

2024-09-23 16:00:00

AI模型測評

2024-11-25 12:50:14

2023-06-30 09:53:08

英偉達AI

2025-10-17 09:53:23

2020-03-11 10:52:08

2013-05-27 10:21:39

游戲設計

2024-12-10 07:00:00

2023-06-29 21:30:30

英偉達用戶基礎設施

2025-01-02 09:53:17

2025-11-17 16:22:33

李飛飛AGIAI

2025-05-06 15:39:53

DeepSeek-R英偉達開源

2015-11-23 17:34:33

秒借

2018-03-12 21:31:24

區塊鏈
點贊
收藏

51CTO技術棧公眾號

丰满的少妇愉情hd高清果冻传媒 | 亚洲精品日韩欧美| 欧美精品久久久久久久自慰| 你懂的视频在线观看| 久久精品国产色蜜蜜麻豆| 久久色精品视频| 屁屁影院国产第一页| 丁香婷婷久久| 舔着乳尖日韩一区| 中文字幕一区综合| 日韩a级作爱片一二三区免费观看| 日本最新不卡在线| 久久久之久亚州精品露出| 黄免费在线观看| xvideos.蜜桃一区二区| 欧美视频中文字幕| 男人日女人逼逼| fc2ppv国产精品久久| 国产喂奶挤奶一区二区三区| 亚洲综合精品伊人久久| 黄色大全在线观看| 一本一道久久综合狠狠老精东影业| 中文字幕日韩在线观看| 97人妻精品一区二区三区免| 国产精品亚洲欧美一级在线| 91豆麻精品91久久久久久| 久久艹国产精品| 国产丝袜在线| 国产精品久久久久影院老司| 久草精品电影| 蜜桃视频污在线观看| 国产一区二区三区四区五区美女 | 99999精品视频| 四虎av在线| 中文字幕视频一区二区三区久| 久久99精品久久久久子伦 | 久久精品 人人爱| 一本色道综合亚洲| 欧美不卡在线播放| 黄色成人在线网| 亚洲精品乱码久久久久久久久| 日韩久久不卡| 国产小视频免费在线观看| 99re8在线精品视频免费播放| 99热在线播放| 午夜精品久久久久久久99| 精品系列免费在线观看| 国产噜噜噜噜久久久久久久久| 国产精品一区无码| 午夜影院日韩| 热门国产精品亚洲第一区在线| 中日韩黄色大片| 精品动漫一区| 久久久欧美精品| 男女视频免费看| 日韩视频三区| 欧美有码在线视频| 91video| 免费看的黄色欧美网站| 日本电影亚洲天堂| 波多野结衣不卡| 玖玖视频精品| 国产精品丝袜白浆摸在线| 亚洲综合一区中| 狠狠色狠狠色综合| 97超碰人人看人人| 外国精品视频在线观看| 国产色婷婷亚洲99精品小说| 热舞福利精品大尺度视频| 国产永久免费高清在线观看| 国产视频视频一区| 亚洲一区二区三区乱码| 欧美一区二区三区| 一区二区三区 在线观看视频| 成人黄色大片网站| 欧美大片高清| 欧美日韩二区三区| 在线成人免费av| 超碰精品在线观看| 亚洲人成人99网站| 成人免费黄色小视频| 雨宫琴音一区二区在线| 国产成人在线精品| 国产毛片毛片毛片毛片毛片| 成人综合婷婷国产精品久久蜜臀| 久久综合一区二区三区| 久久bbxx| 婷婷国产v国产偷v亚洲高清| 午夜免费精品视频| 日韩三级不卡| 亚洲欧美日韩爽爽影院| 日韩国产第一页| 伊人久久亚洲影院| 国产精品偷伦免费视频观看的 | 日韩欧美成人一区二区| 亚洲av网址在线| 9999国产精品| 性欧美激情精品| 中文字幕视频在线播放| 东方欧美亚洲色图在线| 四虎一区二区| 538在线观看| 欧美女孩性生活视频| 这里只有精品在线观看视频| 日韩欧美高清| 69久久夜色精品国产69| 国产熟女一区二区丰满| 国产午夜亚洲精品羞羞网站| 青青在线视频免费观看| 国产精品诱惑| 日韩国产激情在线| 青青操视频在线播放| 日韩高清不卡一区二区| 国外成人在线视频网站| 黄色在线免费网站| 欧日韩精品视频| 熟女人妻在线视频| 欧美日韩三级| 成人a视频在线观看| 欧洲毛片在线| 午夜精品一区在线观看| 三级网站免费看| 99久久婷婷| 国产精品精品久久久| 色哟哟在线观看| 亚洲一区视频在线观看视频| 欧美性受xxxxxx黑人xyx性爽| 国产99久久久国产精品成人免费| 久久久噜久噜久久综合| www.日本在线观看| 亚洲男人电影天堂| 超碰成人在线播放| 久久一区二区三区电影| 国产精品久久91| 国产露出视频在线观看| 色婷婷av一区二区| 波多野结衣办公室33分钟| 最新成人av网站| 国产乱人伦精品一区二区| 五月花成人网| 欧美成人aa大片| 青青草手机在线观看| 国产一区三区三区| 8x8x华人在线| 亚洲综合色婷婷在线观看| 欧美猛少妇色xxxxx| 99久久久无码国产精品免费| 国产精品乱码人人做人人爱| 在线观看亚洲色图| 国产精品毛片久久| 91在线观看免费高清| 亚洲区欧洲区| 精品久久久久久亚洲综合网| 国产亚洲第一页| 99在线精品一区二区三区| 国产免费观看高清视频| 日韩有码中文字幕在线| 国产成人免费av| aaa在线观看| 91麻豆精品国产91久久久久久| 日本精品人妻无码77777| 国产精品1区2区| 国产女主播自拍| 亚瑟一区二区三区四区| 国产精品91久久| 欧美三级黄网| 精品国产第一区二区三区观看体验 | 啪啪国产精品| 国产成人高潮免费观看精品| av大片在线观看| 欧美一级理论片| 日韩欧美亚洲视频| 国产亚洲婷婷免费| 中文字幕亚洲影院| 日韩视频免费| 亚洲视频欧美在线| 99国产精品免费网站| 热久久99这里有精品| 男人天堂久久久| 亚洲第一偷拍网| 伊人22222| 亚洲一区二区av在线| 我和岳m愉情xxxⅹ视频| 九色综合国产一区二区三区| 国产妇女馒头高清泬20p多| 久草精品在线| 3d精品h动漫啪啪一区二区| 九九精品调教| 亚洲片av在线| 精品人妻伦一二三区久久| 91久久一区二区| 激情视频在线播放| 亚洲国产高清不卡| 少妇被狂c下部羞羞漫画| 奇米色777欧美一区二区| 日本香蕉视频在线观看| 欧美丝袜一区| 黑人中文字幕一区二区三区| 少妇高潮一区二区三区99| 97香蕉久久超级碰碰高清版| 免费在线看a| 亚洲精品视频免费| 亚洲第一成年人网站| 在线观看日韩一区| 黄色激情视频在线观看| 亚洲欧美综合色| 90岁老太婆乱淫| 成人久久久精品乱码一区二区三区 | 国产在线精品免费av| 18禁免费无码无遮挡不卡网站| 一个色综合网| 亚洲精品白虎| 精品国内自产拍在线观看视频| 99蜜桃在线观看免费视频网站| 99久久久国产精品免费调教网站| 77777少妇光屁股久久一区| av在线免费观看网址| 永久免费看mv网站入口亚洲| 亚洲 欧美 精品| 精品国产一区a| 国产精品无码久久久久成人app| 在线视频亚洲一区| 五月天婷婷久久| 亚洲成人在线免费| 青青操视频在线播放| 亚洲欧美在线视频| 91n在线视频| 欧美国产在线观看| 鲁丝一区二区三区| xnxx国产精品| 国产偷人妻精品一区| 99久久婷婷国产综合精品 | 国产精品毛片一区视频播| 欧美性猛交xxxxxx富婆| 日韩电影在线观看一区二区| 欧美性猛交xxxx乱大交蜜桃| 日本网站免费观看| 亚洲国产精品久久一线不卡| 国内偷拍精品视频| 自拍视频在线观看一区二区| 三上悠亚作品在线观看| 国产精品久久久久久亚洲伦| 国产黄a三级三级| 中文字幕精品—区二区四季| 娇妻被老王脔到高潮失禁视频| 国产三级三级三级精品8ⅰ区| 亚洲第一成人网站| 久久久精品免费观看| 熟女高潮一区二区三区| 久久精品人人做| 成人一级片免费看| 中文字幕一区二区日韩精品绯色| 色偷偷www8888| 一区二区三区蜜桃网| 国产一级二级三级| 亚洲大片免费看| 麻豆成人免费视频| 欧美日韩在线三级| 国产乱淫片视频| 日韩三级在线观看| 性xxxx视频| 在线性视频日韩欧美| 国产盗摄在线观看| 久久久久久久影院| 电影一区二区三| 国产综合色香蕉精品| av毛片精品| 欧洲亚洲一区二区| 先锋资源久久| 久久亚洲中文字幕无码| 三级欧美韩日大片在线看| 污色网站在线观看| 国产成人精品三级麻豆| 丰满少妇一区二区三区| 国产精品视频看| 日本系列第一页| 日本道色综合久久| www久久久com| 亚洲色图欧美制服丝袜另类第一页| 成年网站在线| 欧美极品第一页| 欧美xxxx做受欧美护士| 亚洲va码欧洲m码| 香蕉久久精品| 国产精品12p| 久久大逼视频| 91香蕉视频免费看| 国产亚洲女人久久久久毛片| 69av视频在线| 在线一区二区视频| 欧美 日韩 国产 成人 在线 91 | 国产欧美一区二区三区不卡高清| 亚洲最好看的视频| 91精品国产毛片武则天| 首页综合国产亚洲丝袜| 午夜性福利视频| 中文字幕乱码亚洲精品一区| 日本特黄特色aaa大片免费| 欧美日韩不卡在线| 男女av在线| 欧美激情视频三区| 国产福利一区二区三区在线播放| 国产激情一区二区三区在线观看| 精品av一区二区| 国产av天堂无码一区二区三区| 麻豆国产91在线播放| 欧美高清性xxxx| 亚洲自拍偷拍av| 91亚洲精品国偷拍自产在线观看 | 免费在线亚洲欧美| 亚洲欧美日韩中文字幕在线观看| 日本一区二区免费在线观看视频 | 欧美性视频在线播放| 亚洲在线网站| 国产+高潮+白浆+无码| 亚洲日本中文字幕区| 亚洲影院在线播放| 亚洲精品美女免费| 久草在线视频资源| 亚洲影院污污.| 五月久久久综合一区二区小说| 日韩视频在线免费看| www.66久久| 国产亚洲精品av| 日韩欧美一级片| 在线观看小视频| 91九色精品视频| 99精品网站| 91亚洲精品久久久蜜桃借种| 中文字幕精品一区| 中文字幕久久熟女蜜桃| 国产性猛交xxxx免费看久久| 伊人色综合一区二区三区影院视频| 国产成人免费观看| 欧美日韩亚洲一区在线观看| 天美一区二区三区| 亚洲女人****多毛耸耸8| 国产日韩免费视频| 大胆欧美人体视频| 麻豆国产一区| 男女裸体影院高潮| 国产成人一区二区精品非洲| 久久久精品99| 精品国产露脸精彩对白| 97天天综合网| 免费精品视频一区二区三区| 午夜综合激情| 2019男人天堂| 7777精品伊人久久久大香线蕉完整版| 午夜小视频在线| 91久久偷偷做嫩草影院| 欧美亚洲不卡| 在线观看av中文字幕| 色激情天天射综合网| 天天影视久久综合| 亚洲中国色老太| 亚洲第一精品影视| 久久精品一区二区免费播放| 色狠狠一区二区| 日韩理伦片在线| 成人做爰66片免费看网站| 影音先锋日韩资源| 蜜桃无码一区二区三区| 欧美色视频一区| 午夜伦理在线视频| 免费在线成人av| 久久国内精品自在自线400部| 欧美一区二区三区爽爽爽| 亚洲电影免费观看高清| 大胆人体一区| 400部精品国偷自产在线观看| 成人夜色视频网站在线观看| 国产一级18片视频| 日韩中文字幕精品| 狼人天天伊人久久| 黄色手机在线视频| 亚洲在线免费播放| 国产在线资源| 99re在线观看视频| 玖玖在线精品| 久草免费在线视频观看| 亚洲欧美日韩在线高清直播| 精品国产亚洲一区二区三区在线 | 中文字幕国产精品| 亚洲综合影院| 91av在线免费播放| 亚洲一区二区三区视频在线| 精品亚洲成a人片在线观看| 91中文在线观看| 免费亚洲一区| 久久久一区二区三区四区| 国产亚洲视频在线观看| 4438全国亚洲精品观看视频| 日韩中文字幕组| 亚洲一区二区视频在线观看| 成人高潮成人免费观看| 国产在线一区二区三区播放| 麻豆一区二区在线| 日本熟伦人妇xxxx| 欧美大尺度激情区在线播放|