精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

s1-32B 模型:超越 o1-preview,一起探索其原因

發布于 2025-2-14 13:50
瀏覽
0收藏

原文鏈接:????https://arxiv.org/abs/2501.19393??

??代碼鏈接:??https://github.com/simplescaling/s1???

Test-time scaling是一種語言建模方法,它利用額外的測試時計算資源來提升性能,OpenAI的o1模型近期也證實了這一方法的有效性。本文旨在探尋實現Test-time scaling以及強大推理性能的最簡途徑。

主要貢獻

  • 精心策劃小型數據集s1K:該數據集包含1000個問題,并配有推理過程,其構建基于難度、多樣性和質量這三個標準,且通過消融實驗進行了驗證。
  • 開發預算強制策略:通過強行終止模型的思考過程,或在模型試圖結束時多次添加“Wait”來延長生成過程,以此控制測試時間計算。這一策略能促使模型復查答案,糾正推理過程中的錯誤步驟。

在s1K數據集上對Qwen2.532B-Instruct語言模型進行監督微調,并應用預算強制策略后,我們的模型s1-32B在競賽數學問題(MATH和AIME24)上的表現,比o1-preview高出27%。

推理數據管理以創建s1K

初始收集59K樣本

依據三個指導原則,從16個不同來源收集了最初的59,029個問題:

  • 質量:數據集需保證高質量,通過檢查樣本,剔除格式不佳等有問題的數據集。
  • 難點:數據集應具備挑戰性,解答問題需要大量的推理工作。
  • 多元化:數據集應涵蓋不同領域,以覆蓋各類推理任務。

數據來源包括NuminaMATH、AIME問題、OlympicArena、AGIEval等現有數據集,同時還創建了兩個用于定量推理的新數據集:

  • s1-prob:包含斯坦福大學統計系博士資格考試概率部分的182道題(??https://statistics.stanford.edu??),并附有涵蓋復雜證明過程的手寫答案。
  • s1-teasers:由23個常用于量化交易職位面試的腦筋急轉彎組成。每個樣本包含問題及答案,均取自PuzzledQuant(??https://www.puzzledquant.com/??)。

針對每個問題,利用Google Gemini Flash Thinking API生成推理過程和解決方案,并提取其推理過程和響應,最終得到59K個由問題、生成的推理過程和生成的解決方案組成的三元組。

最終選擇1K樣本

  • 質量:首先剔除在API調用過程中出現錯誤的問題,數據集樣本數量減少至54,116個。接著,通過檢查是否存在格式問題的字符串模式(如ASCII藝術圖、不存在的圖像引用或不一致的問題編號等),過濾掉低質量的示例,數據集進一步縮減至51,581個。從這部分數據中,挑選出384個被認為高質量且無需進一步篩選的樣本作為最終1000個樣本的一部分。
  • 難點:在每個問題上評估Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct兩個模型,由Claude 3.5 Sonnet將模型的每次嘗試與參考解決方案對比,評估正確性。基于更難的問題需要更多思考標記的假設,使用Qwen2.5分詞器測量每個推理軌跡的標記長度來衡量問題難度。剔除Qwen2.5-7B-Instruct或Qwen2.5-32B-Instruct能正確解答的問題,此時樣本數量降至24,496個。
  • 多元化:運用Claude 3.5 Sonnet,依據美國數學學會的數學學科分類(MSC)系統(如幾何、動態系統、實分析等),將每個問題分類到特定領域。從24,496個問題中選擇最終樣本時,先隨機均勻選擇一個領域,然后根據傾向于更長推理軌跡的分布從該領域抽取一個問題。重復此過程,直至收集到1000個樣本。經過這三個階段的篩選,最終得到的數據集涵蓋了50個不同領域。

測試時縮放

測試時縮放方法可分為:

  • 順序計算:后續計算依賴于前面的計算結果(例如較長的推理軌跡)。
  • 并行計算:計算過程相互獨立(例如多數投票)。

本文聚焦于順序擴展,因為作者直觀認為這種方式擴展性更佳,后續計算可基于中間結果進行,有助于更深入的推理和迭代優化。

預算強制

提出一種簡單的解碼時間干預方法,在測試時強制設定最大和/或最小數量的思維標記:

  • 為強制設定最大令牌數,只需附加思維結束標記分隔符和“Final Answer:”,使模型提前退出思考階段,給出當前最佳答案。
  • 為強制設定最小令牌數,禁止生成思維結束標記分隔符,并可選擇在模型當前推理軌跡后附加字符串“Wait”,鼓勵模型對當前生成結果進行反思。

以下圖為例,展示了該方法如何引導模型得出更好的答案。模型原本在“...is 2.”處試圖停止,但我們禁止了思維結束標記分隔符,改為附加“Wait”,促使s1-32B自行糾正答案。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

基線

預算強制的基準對比方法包括:

  • 條件長度控制方法:依靠在提示中告知模型應生成的長度,再按粒度分為:

Token條件控制:在提示中指定思維標記的上限。

步進條件控制:指定思考步驟的上限,每個步驟約100個標記。

類條件控制:編寫兩個通用提示,讓模型進行短期或長期思考。

  • 抑制采樣:不斷采樣,直至生成結果符合預先設定的計算預算。該方法根據生成結果的長度獲取后驗響應。

指標

測量了三個指標:

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

結果

設置

使用s1K數據集對Qwen2.5-32B-Instruct進行監督微調,得到模型s1-32B。

性能

  • 測試時縮放:下圖展示了s1-32B在預算強制策略下,隨著測試時間計算量增加的性能變化。從圖中可以看出,使用預算強制技術和更多測試時間計算,能提升AIME24的性能,但在六倍計算量時性能趨于平緩。通過多數投票在基礎模型上擴展測試時間計算,其性能無法趕上s1-32B,這驗證了順序擴展比并行擴展更有效的觀點。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

  • 樣品效率:下圖和表格將s1-32B與其他模型進行了對比。結果顯示,s1-32B是樣本效率最高的開放數據推理模型。盡管s1-32B僅在額外的1000個樣本上進行訓練,但其性能明顯優于基礎模型Qwen2.5-32B-Instruct。同時發布的r1-32B性能比s1-32B更強,不過它是在多800倍推理樣本上訓練得到的。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

討論

進一步Test-time scaling的限制

結果表明,預算強制策略可通過外推測試時間計算提升性能,如將AIME24的性能從50%提高到57%。然而,在進一步擴展時存在兩個關鍵限制:一是性能最終會趨于平緩;二是底層語言模型的上下文窗口會對其形成約束。盡管存在這些限制,但測試時間擴展在廣泛的精度范圍內仍有效,部分原因是縮減測試時計算的行為具有可預測性,不受這些限制的影響。若要繼續進行Test-time scaling,需要能進一步推斷測試時計算的新方法。

并行擴展作為解決方案

并行擴展為順序擴展的限制提供了一種解決思路。我們通過兩種方法增強順序擴展模型:

  • 多數表決:生成個解決方案后,選擇出現頻率最高的作為最終答案。
  • 通過REBASE進行樹搜索:使用REBASE流程獎勵模型(從LLaMA-34B初始化,并在合成流程獎勵建模數據集上進一步微調),然后通過多數投票匯總REBASE生成的解決方案。

如下圖所示,在這種場景下,使用REBASE增強模型的擴展性優于多數投票,甚至比順序擴展效果更好。不過,REBASE在每個步驟都需要為獎勵模型進行額外的前向傳遞,會增加一定的計算開銷。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

本文轉載自??柏企科技圈??,作者:柏企 ????

收藏
回復
舉報
回復
相關推薦
色婷婷久久一区二区三区麻豆| 欧美日本一区二区高清播放视频| 亚洲国产日韩在线一区模特| 欧美日韩另类在线| 国产成人亚洲综合91| 纪美影视在线观看电视版使用方法| 黄页免费欧美| 亚洲一区二区三区在线| 欧美日韩成人一区二区三区| 亚洲一区中文字幕永久在线| 韩国在线视频一区| 亚洲香蕉伊综合在人在线视看| 最新av免费在线观看| av美女在线观看| 国产欧美精品一区aⅴ影院| 亚洲va久久久噜噜噜| 99久久精品国产亚洲| 国产精品伦理久久久久久| 日韩av一卡二卡| 91亚洲精品久久久蜜桃借种| 欧美aaaaa性bbbbb小妇| 亚洲欧洲日韩在线| 欧美精品免费观看二区| 国产熟女一区二区丰满| 蜜桃久久av| 精品中文字幕在线| 精品一区二区三区蜜桃在线| 久久男人av| 91精品婷婷国产综合久久| 欧妇女乱妇女乱视频| www.成人.com| 91丨九色丨尤物| 99久久无色码| 国产精品一区二区三区在线免费观看| 性高湖久久久久久久久| 欧美国产日韩视频| 亚洲AV成人无码精电影在线| 久草成人资源| 日韩成人网免费视频| 亚洲综合中文网| 色综合视频一区二区三区日韩| 欧美日韩一区二区免费视频| 久无码久无码av无码| 成人ww免费完整版在线观看| 中文在线一区二区| 欧美日韩国产一二| 国产又爽又黄网站亚洲视频123| 国产成人综合精品三级| 亚洲a在线播放| 91久久久久久久久久久久| 免费在线看一区| 国产精品久久久久久久天堂| 免费视频久久久| 国产精品视频| 欧美一级免费视频| 国产成人精品一区二三区| 在线看片一区| 午夜精品福利视频| 欧美三级韩国三级日本三斤在线观看| 欧美大片专区| 欧美精品情趣视频| tube国产麻豆| 欧美三级第一页| 久久久久久久久久久av| 久久精品国产亚洲AV无码麻豆| 欧美成人亚洲| 久久久免费在线观看| 国产乡下妇女做爰| 一本久久综合| 欧洲美女免费图片一区| 销魂美女一区二区| 久久精品国产色蜜蜜麻豆| 国产在线a不卡| 国产免费不卡视频| 国产91高潮流白浆在线麻豆| 国产精品国产精品国产专区蜜臀ah| 亚洲国产福利视频| 成人av网在线| 欧美精品在线一区| 懂色av中文在线| 亚洲欧美综合另类在线卡通| 无颜之月在线看| 丰乳肥臀在线| 福利微拍一区二区| 一区二区三区视频在线观看免费| 视频91a欧美| 日韩免费观看高清完整版| 奇米777第四色| 久久综合欧美| 久久久999精品免费| 精品无码久久久久久久| 久久亚洲不卡| 91精品视频播放| 蜜桃视频久久一区免费观看入口 | 日本一区二区不卡视频| 中文字幕在线亚洲精品| 黑人玩欧美人三根一起进| 欧美午夜精品久久久久久人妖 | 激情六月婷婷久久| 国产精品av一区| 国产特黄在线| 亚洲最新视频在线观看| 99精品视频在线看| 精品国产三级| 亚洲欧美中文日韩在线v日本| 日韩亚洲欧美中文字幕| 伊人精品视频| 成人国产在线激情| 午夜激情在线视频| 中文字幕日韩精品一区| 国产淫片免费看| 国产精品毛片aⅴ一区二区三区| 亚洲国产精品久久久| 老司机精品免费视频| 亚洲日本国产| 91九色视频导航| 欧美福利精品| 中文字幕综合在线| 亚洲h在线观看| 麻豆免费看一区二区三区| 国产成人午夜精品5599 | 在哪里可以看毛片| 欧美福利一区| 国产精品福利观看| 日韩一级片免费观看| 亚洲欧美日韩久久| 日韩福利视频在线| 欧美高清视频看片在线观看| www.亚洲男人天堂| 久久精品五月天| 99久久er热在这里只有精品66| 女同性恋一区二区| 久久久国产精品网站| 亚洲日本aⅴ片在线观看香蕉| 久久久精品视频在线| 蜜桃av一区二区| 欧美另类一区| 黄频免费在线观看| 欧美精品乱码久久久久久按摩 | 亚洲AV无码一区二区三区性| 国产精品久久久久影视| 丁香啪啪综合成人亚洲| 琪琪久久久久日韩精品| 久久久久中文字幕| 亚洲成a人片在线| 亚洲精品高清视频在线观看| 亚洲综合在线一区二区| 99久久99久久精品国产片桃花| 国产成人精品a视频一区www| 天堂av一区二区三区| 亚洲午夜在线电影| 日本wwwwwww| 欧美日韩免费观看一区=区三区| 国产综合在线观看视频| 青青影院在线观看| 欧美猛男超大videosgay| 亚洲女人毛茸茸高潮| 老汉av免费一区二区三区 | 亚洲欧美伊人| 91精品国产一区二区三区动漫| 成人日日夜夜| 日韩欧美综合在线| 欧美三根一起进三p| 国产a视频精品免费观看| 欧美视频在线第一页| 国产另类在线| 欧美亚洲成人精品| 韩国福利在线| 欧美日韩免费观看一区二区三区| 国产在线免费看| 国产成人自拍在线| 日韩网站在线免费观看| 日韩精品免费一区二区三区竹菊| 日本高清视频精品| 91激情在线| 欧美一区二区免费视频| 久久久久99精品| 91论坛在线播放| 欧美一级特黄a| 亚洲情侣在线| 久久精品magnetxturnbtih| 在线看欧美视频| 久久这里只有精品视频首页| 成人爽a毛片一区二区| 欧美午夜xxx| 娇小11一12╳yⅹ╳毛片| 国产乱色国产精品免费视频| 欧美深夜福利视频| 奇米影视亚洲| caoporn国产精品免费公开| 无遮挡在线观看| 精品国产一区二区三区久久狼黑人| 精品久久久无码中文字幕| 午夜精品久久久久久久99水蜜桃| 久久av无码精品人妻系列试探| 精品一区二区三区在线播放视频| 青草视频在线观看视频| 国语产色综合| 国产精品国产三级国产专区53| 亚洲mmav| 久久久久久久一区二区三区| 国产大学生校花援交在线播放| 日韩一区二区三区在线视频| 亚洲欧美一二三区| 一区二区三区精品在线| 久久久久久久久久久久| 国产成人精品三级| 国产aaaaa毛片| 亚洲精品乱码| 最新视频 - x88av| 精品一级毛片| 精品国产乱码久久久久久108| 自拍偷拍亚洲| 国产成人午夜视频网址| a级片免费在线观看| xxxxx91麻豆| 黄色软件在线| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 综合国产在线视频| 欧洲av在线播放| 91精品国产91久久久久久一区二区 | 亚洲精品推荐| 国产精品国产亚洲精品看不卡15 | 亚洲三级网站| 2022中文字幕| 久久激情电影| 日韩av一级大片| 在线看成人短视频| 国语精品免费视频| 日韩欧美综合视频| 中文字幕手机在线视频| 国产99一区视频免费| 另类小说第一页| 一区二区动漫| 日本福利视频在线观看| 91亚洲国产成人久久精品| 欧美成人aa大片| 色播五月综合| 欧美专区一区| 成人信息集中地欧美| 国产一区二区三区朝在线观看| 8050国产精品久久久久久| 激情影院在线| 欧美成人黑人xx视频免费观看| 天天影视久久综合| 日韩在线视频导航| 亚洲图片88| 三级精品视频久久久久| 97人人在线| 日韩视频免费看| 老司机午夜在线| 久久精品99无色码中文字幕| 日本最黄一级片免费在线| 亚洲视频999| 91精品专区| 久久视频这里只有精品| 超碰超碰在线| 欧美精品国产精品日韩精品| 精品精品导航| 91精品国产乱码久久久久久久久| free性欧美| 青青草精品毛片| 成人h在线观看| 国产色综合天天综合网| gogo大尺度成人免费视频| 99久久精品久久久久久ai换脸| 给我免费播放日韩视频| 久久久综合亚洲91久久98| 免费久久精品| 亚洲一区二区三区加勒比 | 中文字幕亚洲欧美日韩| 亚洲黄色免费网站| 欧美一二三区视频| 欧洲中文字幕精品| 国产精品爽爽久久久久久| 日韩欧美国产电影| 亚州av在线播放| 一区二区欧美久久| 国产精品久久麻豆| 97视频在线观看免费| 亚洲成人不卡| 成人久久久久久久| 国产成人在线中文字幕| 欧美日韩国产免费一区二区三区| 三级电影一区| a级黄色小视频| 日日欢夜夜爽一区| 四虎成人在线播放| 99re亚洲国产精品| 国产中文字幕久久| 午夜精品一区二区三区免费视频| 国产免费一区二区三区四区五区 | 97色在线视频观看| 免费视频观看成人| 高清不卡一区二区三区| 国产免费av一区二区三区| 在线观看成人av| 亚洲国产美女| 日本黄色福利视频| 99精品久久99久久久久| 韩国一级黄色录像| 黑丝美女久久久| 国产99视频在线| 亚洲性av在线| 国产粉嫩在线观看| 成人午夜一级二级三级| 国产成人3p视频免费观看| 男人天堂新网址| 老司机免费视频一区二区| 中文字幕在线观看网址| 一区二区三区精品久久久| 超碰在线观看91| 亚洲成人性视频| a级片国产精品自在拍在线播放| 国产成人精品久久久| 9国产精品午夜| 一区二区在线不卡| 久久一区亚洲| 黑丝av在线播放| 亚洲精品欧美激情| 一区二区www| 亚洲图片欧洲图片av| h片在线观看| 俄罗斯精品一区二区三区| 99久久.com| 少妇激情一区二区三区| 91麻豆精品视频| 日韩av一区二区在线播放| 日韩一卡二卡三卡| 国产传媒在线播放| 成人激情视频在线观看| 四季av一区二区凹凸精品| 久久久久久久久久福利| 99re热视频精品| 亚洲精品77777| 精品久久久久久久久久久久久久久久久| 欧美精品电影| 国产精品欧美日韩一区二区| 亚洲人成网亚洲欧洲无码| 黄色一级片在线看| www.99精品| 日本一级淫片免费放| 欧美精品一区二区三区蜜桃 | 亚洲黄色片在线观看| 国产男男gay网站| 久久夜色精品国产亚洲aⅴ| 成人日韩在线观看| 热re99久久精品国产99热| 另类图片国产| 免费看污片的网站| 欧美亚男人的天堂| jizzjizz在线观看| 国产精品视频精品视频| 日韩在线看片| 精品人妻一区二区三| 亚洲卡通欧美制服中文| 亚洲AV无码乱码国产精品牛牛| 欧美激情一区二区三区高清视频 | 日韩欧美一级二级| 日本动漫理论片在线观看网站| 51国产成人精品午夜福中文下载| 中文字幕免费一区二区| av不卡中文字幕| 精品久久久久久久久久久| 亚洲人妻一区二区三区| 国产精品国产福利国产秒拍| 久久综合国产| 超级砰砰砰97免费观看最新一期 | 91在线播放网址| 无码人妻aⅴ一区二区三区有奶水| 一本色道久久88亚洲综合88| 日韩免费在线电影| 黄色成人在线免费观看| 97久久精品人人澡人人爽| 五月婷婷丁香在线| 久久九九全国免费精品观看| www.丝袜精品| 免费在线观看毛片网站| 亚洲人成网站影音先锋播放| 欧美特级特黄aaaaaa在线看| 奇米一区二区三区四区久久| 日韩一区三区| 免费黄色av网址| 色综合久久中文综合久久97| 日本三级视频在线播放| 国产成人一区二区三区免费看| 免费看黄裸体一级大秀欧美| 久久久99999| 亚洲精品有码在线| 永久免费观看精品视频| 欧美成人三级在线视频| 国产精品久久久久影院老司| 四虎永久在线观看| 国产一区深夜福利| 国产精品久久久久久久久久妞妞| 99久久精品久久亚洲精品| 亚洲成人激情在线观看| 欧美综合影院| 日韩免费一级视频| 亚洲欧美电影一区二区|