精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

人工智能 新聞
s1模型,是在一個1000個精挑細選的小樣本數據集上,通過SFT,讓小模型能力在數學等評測集上性能飆升的研究。

成本不到150元,訓練出一個媲美DeepSeek-R1和OpenAI o1的推理模型?!

這不是洋蔥新聞,而是AI教母李飛飛、斯坦福大學、華盛頓大學、艾倫人工智能實驗室等攜手推出的最新杰作:s1

在數學和編程能力的評測集上,s1的表現比肩DeepSeek-R1和o1。

而訓一個這樣性能的模型,團隊僅僅用了16個英偉達H100,訓練耗時26分鐘。

據TechCrunch,這個訓練過程消耗了不到50美元的云計算成本,約合人民幣364.61元;而s1模型作者之一表示,訓練s1所需的計算資源,在當下約花20美元(約145.844元)就能租到

怎么做到的???

s1團隊表示,秘訣只有一個:蒸餾

簡單來說,團隊以阿里通義團隊的Qwen2.5- 32B-Instruct作為基礎模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版,最終得到了s1模型。

為了訓練s1,研究團隊創建了一個包含1000個問題(精心挑選那種)的數據集,且每個問題都附有答案,以及Gemini 2.0 Flash Thinking實驗版的思考過程。

目前,項目論文《s1: Simple test-time scaling》已經掛上arXiv,模型s1也已在GitHub上開源,研究團隊提供了訓練它的數據和代碼。

150元成本,訓練26分鐘

s1團隊搞這個花活,起因是OpenAI o1展現了Test-time Scaling的能力。

即「在推理階段通過增加計算資源或時間,來提升大模型的性能」,這是原本預訓練Scaling Law達到瓶頸后的一種新Scaling。

但OpenAI并未公開是如何實現這一點的。

在復現狂潮之下,s1團隊的目標是尋找到Test-time Scaling的簡單方法

過程中,研究人員先構建了一個1000個樣本的數據集,名為s1K

起初,在遵循質量、難度、多樣性原則的基礎上,這個數據集收集了來自MATH、AGIEval等諸多來源的59029個問題。

經去重、去噪后,通過質量篩選、基于模型性能和推理痕跡長度的難度篩選,以及基于數學學科分類的多樣性篩選,最終留下了一個涵蓋1000個精心挑選過的問題的數據集

且每個問題都附有答案,以及谷歌Gemini 2.0 Flash Thinking實驗版的模型思考過程。

這就是最終的s1K。

研究人員表示,Test-time Scaling有2種。

第1種,順序Scaling,較晚的計算取決于焦躁的計算(如較長的推理軌跡)

第2種,并行Scaling,be like計算獨立運行(如多數投票任務)

s1團隊專注于順序這部分,原因是團隊“從直覺上”認為它可以起到更好的Scaling——因為后面的計算可以以中間結果為基礎,從而允許更深入的推理和迭代細化。

基于此,s1團隊提出了新的順序Scaling方法,以及對應的Benchmark。

研究過程中,團隊提出了一種簡單的解碼時間干預方法budget forcing,在測試時強制設定最大和/或最小的思考token數量。

具體來說,研究者使用了一種很簡單的辦法:

直接添加“end-of-thinking token分隔符”和“Final Answer”,來強制設定思考token數量上限,從而讓模型提前結束思考階段,并促使它提供當前思考過程中的最佳答案。

為了強制設定思考過程的token數量下限,團隊又禁止模型生成“end-of-thinking token分隔符”,并可以選擇在模型當前推理軌跡中添加“wait”這個詞,鼓勵它多想想,反思反思當前的思考結果,引導最佳答案。

以下是budget forcing這個辦法的一個實操示例:

團隊還為budget forcing提供了baseline。

一是條件長度控制方法(Conditional length-control methods),該方法依賴于,在提示中告訴模型它應該花費多長時間來生成輸出。

團隊按顆粒度將它們分為Token-conditional控制、步驟條件控制和類條件控制。

  • Token-conditional控制:在提示詞中,指定Thinking Tokens的上限;
  • 步驟條件控制:指定一個思考步驟的上限。其中每個步驟約100個tokens;
  • 類條件控制:編寫兩個通用提示,告訴模型思考短時間或長時間。

二是拒絕抽樣(rejection sampling)

即在抽樣過程中,若某一生成內容符合預先設定的計算預算,就停止計算。

該算法通過其長度來捕捉響應的后驗分布。

而s1模型的整個訓練過程,只用了不到半個小時——

團隊在論文中表示,他們使用Qwen2.532B-Instruct模型在s1K數據集上進行SFT,使用16個英偉達H100,訓練耗時26分鐘

s1研究團隊的Niklas Muennighoff(斯坦福大學研究員)告訴TechCrunch,訓練s1所需的計算資源,在當下約花20美元就能租到。

研究新發現:頻繁抑制思考會導致死循環

訓出模型后,團隊選用3個推理基準測試,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、昆侖萬維Sky系列、Gemini 2.0 Flash Thinking實驗版等多個模型進行對比。

3個推理基準測試如下:

  • AIME24:2024年美國數學邀請考試中使用的30個問題
  • MATH500:不同難度的競賽數學問題的基準
  • GPQA Diamond:生物、化學和物理領域的198個博士級問題

整體來說,采用了budget forcing的s1-32B擴展了更多的test-time compute。

評測數據顯示,s1-32B在MATH500上拿到了93.0的成績,超過o1-mini,媲美o1和DeepSeek-R1

不過,如下圖所示,團隊發現,雖然可以用budget forcing和更多的test-time compute來提高s1在AIME24上的性能,在AIME24上比 o1-preview最高提升27%。

但曲線最終在性能提升6倍后趨于平緩。

由此,團隊在論文中寫道:

過于頻繁地抑制思考結束標記分隔符,會導致模型進入重復循環,而不是繼續推理。

而如下圖所示,在s1K上訓練Qwen2.5-32B-Instruct來得到s1-32B,并為它配備了簡單的budget forcing后,它采用了不同的scaling范式。

具體來說,通過多數投票在基礎模型上對test-time compute進行Scale的方法,訓出的模型無法趕上s1-32B的性能。

這就驗證了團隊之前的“直覺”,即順序Scaling比并行Scaling更有效

此外,團隊提到,s1-32B僅僅使用了1000個樣本訓練,在AIME24上的成績就能接近Gemini 2.0 Thinking,是“樣本效率最高的開源數據推理模型”。

研究人員還表示,Budget forcing在控制、縮放和性能指標上表現最佳。

而其它方法,如Token-conditional控制、步驟條件控制、類條件控制等,均存在各種問題。

One More Thing

s1模型,是在一個1000個精挑細選的小樣本數據集上,通過SFT,讓小模型能力在數學等評測集上性能飆升的研究。

但結合近期刷爆全網的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窺見模型推理技術的更多值得挖掘之處。

模型蒸餾技術加持下,DeepSeek-R1的訓練成本震撼硅谷。

現在,AI教母李飛飛等,又一次運用「蒸餾」,花費低到令人咋舌的訓練成本,做出了一個能媲美頂尖推理模型的32B推理模型。

一起期待大模型技術更精彩的2025年吧~

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescaling/s1

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-24 11:01:03

2025-02-06 18:37:46

GPUQwen2.5模型

2025-02-06 14:28:16

2025-03-06 10:14:39

2025-02-08 09:30:00

2025-03-06 09:55:49

2025-02-08 14:03:25

2025-02-14 09:20:00

模型數據訓練

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-03-10 08:10:00

AI研究安全

2024-11-25 12:50:14

2025-05-27 15:40:34

模型AI訓練

2025-01-21 10:10:56

2025-06-11 14:28:34

SOTAQwenR1

2025-03-05 10:21:04

DeepSeekLVLM

2025-01-21 11:53:53

2024-12-10 07:00:00

2024-11-07 15:40:00

2025-02-17 09:33:00

AI算法模型

2025-02-25 09:13:16

點贊
收藏

51CTO技術棧公眾號

男女视频网站在线观看| 国产成人精品日本亚洲专区61| 爱爱爱爱免费视频| 2021国产在线| 91在线观看地址| 国产精品69精品一区二区三区| 神马久久精品综合| 久久精品论坛| 欧美乱妇15p| 亚洲国产一二三精品无码| 天堂91在线| 国产综合成人久久大片91| 91精品国产精品| www.99re6| 三级小说欧洲区亚洲区| 欧美精品粉嫩高潮一区二区| 欧美 日本 亚洲| 成年人网站在线| 国产亚洲精品aa午夜观看| 成人av播放| 在线观看免费高清视频| 国产欧美一区二区三区国产幕精品| 色婷婷av一区二区三区久久| 喷水视频在线观看| 国产一二三在线观看| 午夜视频福利在线观看| 日韩和欧美的一区| 国内免费精品永久在线视频| 国产中文av在线| 一呦二呦三呦国产精品| 精品对白一区国产伦| 亚洲娇小娇小娇小| 色豆豆成人网| 欧美日韩精品在线视频| 亚洲国产精品无码观看久久| 成人在线观看亚洲| 国产精品全国免费观看高清| 欧美亚洲另类久久综合| 深爱激情五月婷婷| 成人国产电影网| 国产a一区二区| 99久久国产免费| 久久99国产精品免费| 国产精品va在线播放我和闺蜜| 日本一区二区网站| 在线成人亚洲| 欧美激情图片区| 久久激情免费视频| 欧美激情偷拍| 欧美成人精品三级在线观看| 黑鬼狂亚洲人videos| 手机在线电影一区| 久久精品亚洲热| 久久精品一区二区三区四区五区 | 尤物视频在线看| 亚洲欧洲精品成人久久奇米网| 色爱区成人综合网| av电影在线观看网址| 国产精品无码永久免费888| 日本精品一区二区| xxxxx日韩| 中文字幕在线一区免费| 日韩人妻精品一区二区三区| 国产一二区在线观看| 亚洲欧美成aⅴ人在线观看| 欧美一级免费在线观看| 99久久精品免费观看国产| 亚洲理论在线观看| 人人妻人人澡人人爽欧美一区双| 99爱在线观看| 色综合天天做天天爱| 天天碰免费视频| 97久久精品一区二区三区的观看方式| 777奇米四色成人影色区| 国模大尺度视频| 粉嫩久久久久久久极品| 日韩av中文字幕在线| 人妻丰满熟妇aⅴ无码| 国产欧美日韩影院| 久久在线精品视频| 国产污视频在线看| 日韩中文字幕1| 91啪国产在线| 神宫寺奈绪一区二区三区| 久久久久久免费| 中文字幕中文字幕在线中心一区| 日本一级理论片在线大全| 午夜精品久久久久久久久| 国产裸体舞一区二区三区| gogo亚洲高清大胆美女人体| 3atv在线一区二区三区| 成人免费淫片aa视频免费| 一区二区三区视频在线观看免费| 日本在线中文字幕一区二区三区| 欧美顶级少妇做爰| 人妻丰满熟妇aⅴ无码| 外国成人激情视频| 91av在线播放| 国产剧情精品在线| 91视频免费看| 中文字幕在线乱| 中文字幕在线看片| 制服丝袜成人动漫| 亚欧洲乱码视频| 国产精品精品| 久久久久久久999| 日韩精品在线免费视频| 精品一区二区国语对白| 久久av免费一区| a级片国产精品自在拍在线播放| 欧美性生交xxxxxdddd| 伊人成人免费视频| 日韩成人激情| 88xx成人精品| www.久久久久久| 国产精品沙发午睡系列990531| 亚洲人精品午夜射精日韩| 成人精品视频在线观看| 亚洲人成在线电影| 久久一区二区三区视频| 国产激情一区二区三区| 亚洲一区不卡在线| 国产综合av| 日韩av网站电影| 欧美日韩国产精品一区二区三区| 日本成人在线视频网站| 久久99导航| 毛片在线网址| 日韩三级电影网址| 最新黄色av网址| 日本系列欧美系列| 欧美亚洲国产免费| 成人一区福利| 亚洲精品一区二区三区不| 久久午夜无码鲁丝片| 国产尤物一区二区| 最新国产精品久久| 全球中文成人在线| 最近日韩中文字幕中文| 久久久久久久久久一级| 国产日韩av一区| 成人黄色片视频| 国产精品免费大片| 国产成人涩涩涩视频在线观看| 日本福利片在线| 日韩欧美国产成人| 91视频免费观看网站| 久久精品123| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 亚洲一区二区三区精品动漫| 91成人在线| 色噜噜狠狠色综合网图区| 亚洲天堂一二三| 中文字幕一区二区不卡| 亚洲一区二区三区观看| 性欧美69xoxoxoxo| 亚洲精品女av网站| 亚洲小说区图片区都市| 精品欧美一区二区在线观看| 国产精品18p| 97se狠狠狠综合亚洲狠狠| 日本wwww视频| 国内成人精品| 成人免费看吃奶视频网站| 国产不卡在线| 亚洲第一福利在线观看| 精品国产免费观看| 国产无遮挡一区二区三区毛片日本| 嫩草av久久伊人妇女超级a| 欧美日韩精品在线一区| 91久久国产精品| 黑人精品视频| 亚洲精品综合久久中文字幕| 波多野结衣一区二区三区四区| 国产精品麻豆久久久| 天天爽夜夜爽视频| 亚洲伦理精品| 天天爽天天狠久久久| 国产精品一级在线观看| 2025国产精品视频| 秋霞影院午夜丰满少妇在线视频| 日韩欧美一级精品久久| 九九热在线免费观看| 国产精品久久精品日日| 性活交片大全免费看| 水蜜桃久久夜色精品一区的特点| 中文字幕在线观看一区二区三区| 精品一区二区男人吃奶| 国产精品99久久久久久久久久久久| 精品自拍一区| 国产视频精品va久久久久久| 国产精品自拍电影| 色综合天天综合网天天狠天天| 国产真人真事毛片视频| 成人97人人超碰人人99| 黄色手机在线视频| 日韩视频一区| 中文视频一区视频二区视频三区| 国产精品色在线网站| 国产精品久久久久av免费| 2021天堂中文幕一二区在线观| 国产亚洲精品91在线| 囯产精品久久久久久| 欧美性感一区二区三区| 国产无码精品一区二区| 国产精品国产成人国产三级| 亚洲制服丝袜在线播放| 国产一区亚洲一区| 免费看a级黄色片| 最新国产拍偷乱拍精品 | 五月婷婷综合在线观看| 国产一区二区三区在线观看精品| 99福利在线观看| 黑人一区二区三区四区五区| 性欧美大战久久久久久久免费观看| 国产成人在线中文字幕| 91精品啪aⅴ在线观看国产| 中文字幕乱码中文乱码51精品| 欧美成人全部免费| av资源网在线观看| 亚洲国产女人aaa毛片在线| 国产露脸国语对白在线| 欧美午夜电影一区| 91美女免费看| 亚洲h精品动漫在线观看| 日韩三级久久久| 欧美激情综合在线| 色婷婷在线影院| 9人人澡人人爽人人精品| 国产精品一区二区在线免费观看| 国模娜娜一区二区三区| 色一情一区二区| 美女一区二区三区| 国产v亚洲v天堂无码久久久| 西西人体一区二区| av天堂永久资源网| 国产日韩欧美三级| 国产精品自拍片| 一区二区精品| 3d动漫一区二区三区| 亚洲久久成人| 久久久久久人妻一区二区三区| 欧美日韩hd| 日本wwwcom| 精品成人在线| 欧美成人高潮一二区在线看| 激情成人综合| 国产 日韩 欧美在线| 亚洲激情午夜| 欧美 丝袜 自拍 制服 另类| 亚洲一区激情| 日本成人在线免费视频| 蜜臀久久99精品久久久久宅男 | 国产精品88888| 粗大的内捧猛烈进出视频| 国产精品18久久久久| 特级特黄刘亦菲aaa级| av午夜一区麻豆| 瑟瑟视频在线观看| 国产色综合一区| 成人无码精品1区2区3区免费看| 国产精品全国免费观看高清| 精品国产视频一区二区三区 | 天天干天天干天天干天天| 色综合久久久网| 艳妇乳肉豪妇荡乳av无码福利| 欧美日韩精品一区二区天天拍小说| 国产一区二区在线播放视频| 制服丝袜亚洲色图| 欧美一区二不卡视频| 亚洲欧洲第一视频| 嫩草在线视频| 欧美激情乱人伦| 老司机成人影院| 国产在线精品成人一区二区三区| 欧美高清一级片| 国产日韩欧美综合精品 | 成人小视频在线观看免费| 亚洲另类黄色| 日本免费观看网站| 国产高清精品网站| 亚洲熟妇无码av| 亚洲日本在线看| 好吊妞视频一区二区三区| 欧美日韩国产欧美日美国产精品| www.黄色av| 亚洲丝袜在线视频| 丝袜在线视频| 国产成人精品亚洲精品| 日韩精品三级| 欧美人xxxxx| 国产精品成人一区二区网站软件| 国产精品亚洲αv天堂无码| 激情图区综合网| 能免费看av的网站| 一区二区三区日韩精品视频| 亚洲 欧美 中文字幕| 日韩欧美二区三区| 在线免费看av| 2019中文在线观看| 精品网站999| 天天久久人人| 午夜在线观看免费一区| 女教师高潮黄又色视频| 国产无遮挡一区二区三区毛片日本| 成人免费黄色小视频| 欧美日韩在线视频观看| www.久久综合| 日韩最新av在线| 久久人体大尺度| 国内精品视频免费| 欧美一区精品| 污污的网站18| 26uuu亚洲综合色| 久久免费精彩视频| 91麻豆精品国产91久久久久久 | 老牛影视av一区二区在线观看| 黄色免费高清视频| 日韩专区欧美专区| 新91视频在线观看| 精品国产福利视频| www日本高清视频| 久久精品色欧美aⅴ一区二区| 神马电影网我不卡| 精品视频一区二区| 亚洲第一黄色| 蜜桃色一区二区三区| 一区二区三区四区不卡在线 | av电影一区二区三区| 日本成人在线电影网| 久久精品成人av| 欧美色xxxx| 污污视频在线免费看| 国外成人免费在线播放| 成人h动漫免费观看网站| 乱熟女高潮一区二区在线| 国产在线日韩欧美| 日韩激情小视频| 在线电影国产精品| 黄色av免费在线| 91精品中文在线| 91精品推荐| 中文字幕剧情在线观看| 亚洲欧美日韩国产手机在线| 97人妻精品一区二区三区动漫| 日韩亚洲成人av在线| 日本欧美在线| 中国黄色录像片| 成人小视频在线观看| 久久久久亚洲天堂| 亚洲大胆人体在线| 97成人资源| 亚洲aⅴ天堂av在线电影软件| 热久久免费视频| 三级黄色录像视频| 欧美大片在线观看一区| 俺来也官网欧美久久精品| 精品久久久久久中文字幕动漫| 一本久道久久综合狠狠爱| 无码人妻精品一区二区中文| 在线免费观看视频一区| 男人在线资源站| 国产福利一区二区三区在线观看| 99在线热播精品免费99热| 一区二区黄色片| 欧美日韩精品一区二区天天拍小说| 成人在线观看免费网站| 精品一区二区国产| 日韩专区一卡二卡| 国产精品视频一区二区三 | 在线精品一区| 加勒比一区二区| 欧美日韩国产一二三| 中文字幕中文字幕在线中高清免费版| 国产精品12| 日韩和的一区二区| 清纯粉嫩极品夜夜嗨av| 亚洲精品久久久久久久久久久久久| 综合在线影院| 日韩精品福利片午夜免费观看| 成人激情av网| 中文亚洲av片在线观看| 欧美激情按摩在线| japanese国产精品| 国产精久久久久| 欧美三级韩国三级日本一级| 亚洲按摩av| 亚洲高清123| 丁香婷婷综合五月| 中文字幕乱码视频| 国语对白做受69| 久久福利影院| 亚洲乱码国产乱码精品精大量| 欧美精品第1页| 在线观看v片| 无码人妻精品一区二区蜜桃百度| 久久这里只有精品6| www.黄色片| 国产综合色香蕉精品| 国产欧美日韩综合一区在线播放 |