精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開源全新SOTA推理模型

人工智能 新聞
近日,斯坦福、UC伯克利等多機構聯手發布了開源推理新SOTA——OpenThinker-32B,性能直逼DeepSeek-R1-32B。其成功秘訣在于數據規模化、嚴格驗證和模型擴展。

32B推理模型,僅用1/8數據,與同尺寸DeepSeek-R1打成平手!

就在剛剛,來自斯坦福、UC伯克利、華盛頓大學等機構聯手發布了一款SOTA級推理模型——OpenThinker-32B,并同時開源了高達114k的訓練數據。

項目主頁:https://www.open-thoughts.ai/blog/scale

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B

數據集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

團隊發現:采用經DeepSeek-R1驗證標注(基于R1蒸餾)的大規模優質數據集,便可訓練出SOTA的推理模型。

具體方法,就是通過數據規模化、推理過程驗證以及模型規模擴展。

由此得到的OpenThinker-32B,在數學、代碼和科學等多個基準測試中,OpenThinker-32B性能直接碾壓了李飛飛團隊s1和s1.1模型,直逼R1-Distill-32B。

值得一提的是,相比于使用了800k數據(包含600k個推理樣本)的R1-Distill,OpenThinker-32B僅用了114k數據,就能拿下幾乎同等的優異成績。

結果均通過開源評估框架Evalchemy計算得出

除此之外,OpenThinker-32還把模型權重、數據集、數據生成代碼、訓練代碼上,全部都給公開了!

數據策展

研究人員使用了與之前訓練OpenThinker-7B模型相同的OpenThoughts-114k數據集來訓練OpenThinker-32B。

他們利用DeepSeek-R1模型,收集了精心挑選的17.3萬個問題的推理過程和解答嘗試。然后將這些原始數據作為OpenThoughts-Unverfied-173k數據集公開發布。

整個流程的最后一步是,如果推理過程未能通過驗證,就過濾掉相應的數據樣本。

下圖可視化地展示了整個過程。

研究團隊首先輸入源數據或問題提示,這些內容可以來自不同的領域和平臺,如BAAI/TACO、DeepMind、Python提交等,涉及代碼、謎題、科學和數學等多個方面。

接著這些多元的輸入會進入核心的處理模塊——DeepSeek-R1,在這里對數據進行分析與處理。這些問題會被分成三個方面,分別是:科學類問題、數學與謎題和代碼。

有些結果不需要驗證,可能是簡單的分析或直接輸出。對于一些需要深入驗證的內容,利用大語言模型(LLM)采用與GT(Ground Truth)對比的方式進行評判。如果是代碼,執行代碼并進行單元測試,確保代碼的正確性和有效性。

最后能將不同方向的結果結合起來,生成開放的思考和更為綜合的解決方案。

研究團隊更新了最終的OpenThoughts-114k數據集,加入了一個名為「metadata」的配置,其中包含了一些用于數據集構建的額外列:

  • problem
  • ground_truth_solution
  • test_cases (code only)
  • starter_code (code only)
  • DeepSeek_reasoning
  • DeepSeek_solution
  • domain
  • source

這些額外的元數據將使得這個數據集更容易用于新的場景,例如數據過濾、領域切換、驗證檢查以及更改推理過程的模板。

這些額外的元數據將得使該數據集使用起來更加容易,僅需一行代碼就能完成例如過濾、更換領域、檢查驗證和更改推理跟蹤模板等。

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

研究團隊表示,他們期待看到社區利用這些問題和標準答案,在OpenThinker模型上進行強化學習(RL)的研究。DeepScaleR已經證明,規模較小時,這種方法效果特別好。

驗證

為了得到最終的OpenThoughts-114k數據集,研究團隊對答案進行了驗證,并剔除了不正確的回答。

如下表所示,保留那些未通過驗證的推理過程可能會損害性能,盡管未經驗證的模型與其他32B推理模型相比仍然表現良好。

驗證的作用在于,在擴大訓練提示集的多樣性和規模的同時,保持R1注釋的質量。另一方面,未經驗證的數據可以更容易地擴展,因此也值得進一步探索。

對于代碼問題,我們通過對照已有的測試用例來驗證解答嘗試,從而完成推理過程的驗證。

受到代碼執行過程中所面臨挑戰的啟發,我們在Curator中實現了一個代碼執行框架,使用戶能夠大規模、安全地執行代碼,并對照預期輸出進行驗證。

對于數學問題,研究團隊使用一個LLM(大語言模型)評判器來進行驗證,它會同時接收標準答案和DeepSeek-R1的解答嘗試。

結果發現,在數據生成過程中,使用LLM評判器而不是更嚴格的解析引擎(Math-Verify)進行驗證,可以獲得更高的有效數據率,并能訓練出性能更好的下游模型。

訓練

研究團隊使用LLaMa-Factory對Qwen2.5-32B-Instruct在OpenThoughts-114k數據集上進行了三輪微調,上下文長度為16k。完整訓練配置可在GitHub中找到。

OpenThinker-32B在AWS SageMaker集群上使用四個8xH100 P5節點訓練了90小時,累計使用了2,880個H100小時。

同時,OpenThinker-32B-Unverified在Leonardo超級計算機上使用96個4xA100節點(每個GPU64GB)訓練了30小時,累計使用了11,520個A100小時。

評估

研究團隊使用開源評估庫Evalchemy(煉金術)對所有模型進行評估。

對于AIME24和AIME25,他們通過平均五次運行的結果來計算準確率。評估配置使用0.7的溫度參數,將模型響應限制在32,768個token以內,不添加任何額外的系統或用戶提示詞,也不使用任何特殊的解碼策略(如預算強制)。

當啟動OpenThoughts項目時,他們設定了一個目標,即創建一個性能可以達到DeepSeek-R1-Distill-Qwen-32B的開放數據模型。

現在這個差距已經幾乎消除。

最后,研究團隊為社區在過去幾周在構建開放數據推理模型方面取得的快速進展感到振奮,并期待基于彼此的洞見繼續向前發展。

OpenThinker-32B的開源,證明了數據、驗證和模型規模的協同作用是提升推理能力的關鍵。

這一成果不僅推動了開源推理模型的發展,也為整個AI社區提供了寶貴的資源和啟示。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-13 00:00:00

訓練數據模型

2025-03-06 17:29:21

2025-04-30 09:09:00

2025-04-18 08:42:52

模型推理AI

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-04-10 10:02:43

2023-06-21 13:20:14

系統模型

2025-03-06 10:14:39

2025-03-06 09:55:49

2023-07-01 13:27:55

2023-08-15 14:18:19

智能研究

2025-03-07 08:30:00

2025-01-22 15:21:00

2025-04-14 09:27:00

2025-01-20 13:08:25

2025-02-07 08:33:02

2025-01-21 11:53:53

2023-04-07 09:28:31

模型訓練

2023-12-16 09:49:18

2025-02-10 06:50:00

AIDeepSeek推理模型
點贊
收藏

51CTO技術棧公眾號

极品少妇xxxx精品少妇| 亚洲电影男人天堂| 一区二区三区 在线观看视频| 亚洲一区制服诱惑| 日韩男人的天堂| 精品国产视频| 日韩精品一区二区三区视频播放| 日韩在线视频在线观看| 男人和女人做事情在线视频网站免费观看| 国产真实精品久久二三区| 国产+人+亚洲| 东京热无码av男人的天堂| 最新国产精品精品视频| 欧美性大战xxxxx久久久| 国产91沈先生在线播放| 国产高清在线| 成人激情校园春色| 国产欧美一区二区三区视频| 日韩欧美你懂的| 欧美亚洲精品一区二区| 性开放的欧美大片| eeuss鲁片一区二区三区在线观看| 国产精品成人在线| 日本天堂网在线观看| 99精品在线观看| 日韩精品中文字幕有码专区| 毛片毛片毛片毛片毛| 欧美va在线观看| 亚洲成人午夜影院| 日韩免费电影一区二区| 成人精品在线看| 亚洲男女av一区二区| 天堂在线免费观看视频| 视频精品一区二区三区| 在线观看精品一区| 国产美女在线一区| 国产一二区在线观看| 日本一区二区在线不卡| 精品一区二区三区免费毛片| 国产精品区在线观看| 久热国产精品| 青草成人免费视频| 日本少妇久久久| 欧美日韩久久| 欧美精品少妇videofree| 顶级黑人搡bbw搡bbbb搡| 精品免费在线| 国产亚洲精品综合一区91| 最近日本中文字幕| 精品精品国产三级a∨在线| 日韩欧美色综合网站| 永久av免费在线观看| 精品视频成人| 日韩精品一区二区在线观看| 99免费观看视频| 国产精品chinese在线观看| 精品美女在线播放| 亚洲一区和二区| 极品一区美女高清| 亚洲精品国产电影| 极品白嫩丰满美女无套| 日本精品va在线观看| www.爱色av.com| 2018av在线| 亚洲成av人片在线| 男女激情无遮挡| 自拍视频在线看| 色婷婷激情一区二区三区| 欧美v国产在线一区二区三区| 777久久久精品一区二区三区| 国产网站在线| 欧美日韩中文字幕日韩欧美| 青青草原av在线播放| 国产 日韩 欧美一区| 欧美色精品在线视频| 三区视频在线观看| 亚洲乱码一区| 精品视频在线导航| 538精品视频| 亚洲一级淫片| 91po在线观看91精品国产性色| 草莓视频18免费观看| 精品一区二区精品| 国产精品手机视频| 搞黄视频在线观看| 亚洲欧美日本在线| 日韩少妇内射免费播放| 国产91亚洲精品久久久| 日韩欧美国产成人一区二区| 免费看黄色aaaaaa 片| 日韩欧美不卡| 午夜伦理精品一区| 亚洲一区二区人妻| 成人av电影在线观看| 日本不卡一二三区| av免费在线网站| 欧美性高潮在线| 国产精品中文久久久久久| 日韩mv欧美mv国产网站| 精品国模在线视频| 欧美精品亚洲精品日韩精品| 老鸭窝一区二区久久精品| 粉嫩av一区二区三区免费观看| 国产一级片在线| 亚洲一区在线观看免费| jizz大全欧美jizzcom| 米奇精品关键词| 久久精品成人欧美大片古装| 色一情一乱一伦| 福利视频网站一区二区三区| 亚洲.欧美.日本.国产综合在线| 激情图片在线观看高清国产| 欧美日韩一区二区不卡| 国产又黄又粗又猛又爽的视频| 99精品在线| 国产成人久久精品| 熟妇人妻中文av无码| 亚洲欧美电影院| 国产理论在线播放| 亚洲精品亚洲人成在线| 欧美国产精品日韩| 国产女人18毛片18精品| 国产三级三级三级精品8ⅰ区| 隔壁人妻偷人bd中字| 精品国产不卡一区二区| 中文字幕日韩欧美在线| 欧美一区二区三区久久久| av在线不卡免费看| 欧美精品在欧美一区二区| 日韩有码欧美| 色视频www在线播放国产成人| av毛片在线免费观看| av成人动漫在线观看| 精品无码国产一区二区三区av| 成人污污www网站免费丝瓜| 中文字幕国产日韩| 中文字幕av第一页| 91丨九色porny丨蝌蚪| xxxx18hd亚洲hd捆绑| 爱高潮www亚洲精品| 久久久999精品视频| 怡红院男人天堂| 国产女人aaa级久久久级| 国产性生交xxxxx免费| 亚欧洲精品视频在线观看| 81精品国产乱码久久久久久| 欧美熟妇乱码在线一区| 亚洲一二三专区| 中文字幕视频观看| 伊人久久亚洲美女图片| 国产精品久久精品国产| 91制片在线观看| 亚洲精品电影在线| 中文字幕超碰在线| 久久久99精品免费观看不卡| 国产精品97在线| 国产成人ay| 国产精品一久久香蕉国产线看观看| a黄色在线观看| 欧美日韩高清一区二区| 免费成年人视频在线观看| 国产一区二区三区日韩| 国产肉体ⅹxxx137大胆| 日本亚洲不卡| 国产精品久久9| 欧美被日视频| 精品国产乱码久久久久久牛牛| 日韩精品成人一区| 久久久精品综合| 一道本在线免费视频| 一区二区三区四区在线观看国产日韩| 97se在线视频| 欧美三级网站| 中文字幕久久亚洲| www.久久伊人| 欧美日韩国产丝袜另类| 欧美激情久久久久久久| 国产一区在线观看视频| 国产免费黄色小视频| 国产精品手机在线播放| 亚洲va欧美va国产综合久久| 黄视频免费在线看| 色偷偷9999www| 欧美少妇bbw| 欧美日韩一区二区三区免费看| 欧美日韩在线视频免费播放| 久久一区二区三区国产精品| 国产精品嫩草影院8vv8| 亚洲国产一区二区三区a毛片| 视频在线一区二区三区| 一区三区自拍| 国产999在线观看| 午夜在线激情影院| 亚洲午夜久久久影院| 精品黑人一区二区三区国语馆| 黑人巨大精品欧美一区二区三区| 中文国语毛片高清视频| 成人av网址在线观看| 亚洲36d大奶网| 99精品福利视频| 在线观看免费黄色片| 九九精品在线| 国产日韩精品推荐| www.成人| 国产精品女人网站| 国产精品论坛| 久久福利网址导航| 成人激情电影在线看| 欧美精品一区二区三区蜜桃视频| 亚洲av综合一区| 精品久久久久国产| 青娱乐国产盛宴| 国产精品久久久久久一区二区三区| 88av在线播放| 国产福利一区二区三区在线视频| 国产免费999| 欧美亚洲一区二区三区| 日本中文字幕在线视频观看| 999视频精品| 午夜精品福利一区二区| 日韩精品丝袜美腿| 国产精品日韩欧美一区二区| 成人在线视频区| 国产精品视频成人| 自拍偷拍亚洲视频| 1769国产精品| 涩涩视频在线| 97人洗澡人人免费公开视频碰碰碰| 午夜视频在线观看网站| 一区二区三欧美| 欧美人体大胆444www| 亚洲精品一区中文字幕乱码| 天天干天天草天天射| 欧美zozo另类异族| 国内精品偷拍视频| 欧美一三区三区四区免费在线看| 亚洲一二区视频| 欧美日韩久久久久久| 影音先锋国产资源| 欧美日韩一级大片网址| 真实的国产乱xxxx在线91| 在线观看亚洲a| 一级片在线免费播放| 在线区一区二视频| 国产美女www| 欧美日韩视频专区在线播放| 中文字幕乱伦视频| 欧美午夜电影网| 亚洲一区二区激情| 日韩西西人体444www| 国产视频在线观看视频| 欧美成va人片在线观看| 囯产精品久久久久久| 日韩av在线最新| 欧美女v视频| 在线观看视频99| 精品自拍一区| 久久久女女女女999久久| 国产激情在线播放| 日韩美女写真福利在线观看| 欧美成人app| 亚洲aaa激情| 林ゆな中文字幕一区二区| 欧美国产一区二区在线| 欧美一级精品片在线看| 丰满女人性猛交| 国产精品av久久久久久麻豆网| 大伊香蕉精品视频在线| 亚洲欧美日韩国产| 国产精品久久a| 国产激情一区二区三区桃花岛亚洲| 亚洲av午夜精品一区二区三区| 99re这里只有精品首页| 法国空姐电影在线观看| 国产精品久久午夜| 免费网站看av| 色域天天综合网| 国产三区在线播放| 亚洲精品国产品国语在线| 高清毛片在线看| 久久国产精品久久久| 欧美另类老肥妇| 国产精品专区h在线观看| 911精品国产| 欧美午夜精品理论片a级大开眼界| 久久久久美女| av免费在线播放网站| 国内精品不卡在线| aaaaa级少妇高潮大片免费看| 国产精品成人午夜| 国产精品一区二区6| 欧美日韩综合色| 人人妻人人澡人人爽人人欧美一区| 亚洲视频在线免费观看| 18网站在线观看| 国产成人综合亚洲| 亚洲国产aⅴ精品一区二区| 日韩高清三级| 欧美va天堂在线| 91香蕉视频污版| 成人动漫视频在线| 熟女av一区二区| 日韩欧美999| 精品人妻一区二区三区日产乱码| 国产亚洲精品成人av久久ww| 久久久123| 国产综合色香蕉精品| 亚洲综合小说图片| www.好吊操| 国产一区二三区| 黄色片在线观看免费| 婷婷开心激情综合| 精品女同一区二区三区| 中文字幕日韩欧美在线视频| 成人午夜视屏| 久久99欧美| 好看的av在线不卡观看| 亚欧激情乱码久久久久久久久| 久久综合久久久久88| 久久久精品国产sm调教网站| 91.com在线观看| av在线天堂播放| 日韩69视频在线观看| 欧美18免费视频| 成人免费a级片| 国产美女av一区二区三区| 少妇高潮惨叫久久久久| 欧洲国产伦久久久久久久| 青青草在线免费视频| 26uuu亚洲伊人春色| 黑人久久a级毛片免费观看| 日本天堂免费a| 国产乱码精品一区二区三区av| 性少妇xx生活| 欧美午夜电影网| av网站在线免费观看| 国产精品国模在线| 国产精品视频一区二区三区四蜜臂| 成人av一级片| 久久精品一区四区| 天天干,天天干| 国产亚洲精品va在线观看| 色豆豆成人网| 日韩av一级大片| 男女激情视频一区| 超碰人人人人人人人| 欧美日本在线播放| 老司机av在线免费看| 91欧美激情另类亚洲| 中文字幕午夜精品一区二区三区 | 日本天堂在线观看| 国产精品亚洲片夜色在线| 国产精品97| 日韩高清在线一区二区| 亚洲精品欧美综合四区| 亚洲伦理在线观看| 97视频网站入口| 伊人久久大香线蕉| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 精品久久久视频| 三级做a全过程在线观看| 日韩av高清不卡| 色婷婷色综合| 永久免费看片在线观看| 亚洲va国产va欧美va观看| 日本1级在线| 国产精品久久久久久久久久久新郎| 欧美岛国激情| 国产免费无码一区二区| 黄网站色欧美视频| 国产粉嫩一区二区三区在线观看| 国产日韩在线看片| 黑人一区二区三区四区五区| 中文字幕狠狠干| 91精品国产色综合久久ai换脸 | 亚洲一二三区不卡| 欧美女同网站| 91亚洲永久免费精品| 亚洲日韩视频| 精品一区二区6| 欧美大片免费久久精品三p| 蜜桃视频www网站在线观看| 神马影院我不卡午夜| 国产盗摄精品一区二区三区在线 | 欧美 日韩 国产在线| 精品一区二区三区香蕉蜜桃| 久久精品国产亚洲AV无码麻豆| 亚洲欧美成人网| 国产美女视频一区二区 | 曰本女人与公拘交酡| 亚洲裸体xxxx| 欧美日韩国产一区二区在线观看| av免费观看网| 亚洲女同一区二区| 欧美亚洲日本| 高清视频一区| 蜜臀av在线播放一区二区三区| 日韩伦理在线视频| 久久综合电影一区| 免费av一区|