精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4B小模型數學推理首超Claude 4,700步RL訓練逼近235B性能 | 港大&字節Seed&復旦

人工智能
香港大學NLP團隊聯合字節跳動Seed、復旦大學發布名為Polaris的強化學習訓練配方:通過Scaling RL,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

4B模型的數學推理能力和頂尖商業大模型差在哪里?

香港大學NLP團隊聯合字節跳動Seed、復旦大學發布名為Polaris的強化學習訓練配方:

通過Scaling RL,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的輕量化允許在消費級顯卡上部署。

圖片圖片

詳細的blog、訓練數據、模型和代碼都已全部開源,鏈接可見文末。

圍繞待訓練模型進行參數配置

之前的RL訓練配方,如DeepScaleR,已經展示了Scaling RL在較弱基模型上強大的效果。

但對于目前最前沿的開源模型(如Qwen3),Scaling RL是否也能復現如此顯著的提升呢?

Polaris的研究團隊給出了明確回答:可以!

具體來說,Polaris通過僅僅700步的RL訓練,成功地讓Qwen3-4B在數學推理任務上接近了其235B版本的表現

只要方法得當,RL還存在著巨大的開發潛力。

Polaris的成功的秘籍就是:訓練數據及超參數設置都要圍繞待訓練的模型來進行設置。

訓練數據構造

Polaris團隊發現,對于同一份數據,不同能力的基模型展現出的難度分布呈現出鏡像化的特征。、

對于DeepScaleR-40K訓練集中的每個樣本,研究人員使用R1-Distill-Qwen-1.5B/7B兩個模型回答分別推理了8次,再統計其中正確次數,以此衡量每個樣本的難度水平。

圖片圖片

實驗結果顯示,大多數樣本位于兩端(8/8正確解答或0/8正確解答),意味著該數據集雖然對1.5B模型具有挑戰性,卻不足以有效訓練7B模型。

Polaris提出,構建輕微偏向難題的數據分布,形狀就像鏡像J,過度偏向簡單題或難題的分布都會使得無法產生優勢的樣本在每個batch中占有過大的比例。

Polaris對開源數據DeepScale-40K和AReaL-boba-106k進行了篩選,剔除所有8/8正確的樣本,最終形成了53K的初始化數據集。

圖片圖片

盡管已經得到了一個好的初始化數據,但它并不是訓練數據的“最終版本”。

在強化學習訓練過程中,隨著模型對訓練樣本的“掌握率”提高,難題也會變成簡單題。

為此,研究團隊在訓練中引入了數據動態更新策略。訓練過程中,每個樣本的通過率會隨著reward計算而實時更新。在每個訓練階段結束時,準確率過高的樣本將被刪除。

以多樣性為核心的采樣控制

在RL訓練中,多樣性被視為提升模型表現的重要因素。好的多樣性使模型能探索更廣泛的推理路徑,避免在訓練早期陷入過于確定的策略中。

Rollout階段的多樣性主要通過topp、topk與溫度t來調控。當前大多數工作都采用topp=1.0和topk=-1,這已經達到了最大的多樣性,但采樣溫度t還沒有統一的設置。

目前主流的t的設置方法有兩種:1、采用建議的解碼溫度,如Qwen3 demo中設置的0.6;2、直接設置為一個整數1.0。

但這兩種做法在Polaris的實驗中都不是最優解。

溫度、性能與多樣性的平衡之道

圖片圖片

Polaris團隊通過一系列試驗,分析了采樣溫度與模型準確率及路徑多樣性之間的關系。

為了量化采樣軌跡的多樣性,他們采用Distinct N-gram指標(n=4)用于衡量生成文本中獨特連續詞組的比例:分數越接近1.0,說明生成內容越多樣;反之則重復率較高。

結果顯示,較高的溫度能顯著提升多樣性,但不同模型在相同溫度下的表現也存在較大差異。從上圖來看,對于這兩個模型來說,以0.6作為采樣溫度明顯多樣性是不足的。

圖片圖片

但也并非是把溫度設的越大就越好,也需要考慮性能的變化。

Polaris團隊發現模型性能隨溫度升高呈現“低-高-低”的趨勢。例如,把采樣溫度設置成1.0,對于Deepseek-R1-distill系列模型過高了,而對于Qwen3系列來說又有點低。

說明理想溫度的設計需要針對待模型進行精細校準,沒有一個超參數是適配所有模型的。

溫度區間的定義

圖片圖片

Polaris團隊基于實驗趨勢歸納出模型采樣溫度的三個區域:

1.魯棒生成區(Robust Generation Zone)在該區域內,性能波動較小。測試階段解碼溫度通常就選自魯棒生成區。

2.控制探索區(Controlled Exploration Zone)此區域的溫度雖然會導致模型性能較魯棒生成區略有下降,但降幅在可接受范圍內,同時能顯著提升多樣性,適合作為訓練溫度使用。

3.性能崩塌區(Performance Collapse Zone)當采樣溫度超出一定范圍時,性能急劇下降。

根據上圖規律,Polaris團隊提出以控制探索區的溫度作為初始化溫度。

圖片

實驗顯示,常用的t=0.6或t=1.0的設置溫度過低,限制了模型的探索空間,導致難以挖掘RL潛力。

因此,Polaris把Qwen3-4B的初始訓練溫度設置為1.4。

動態溫度調整

圖片圖片

在性能增長的同時,多樣性同樣也會發生偏移。隨著訓練收斂,各路徑間共享的N-gram比例增加,探索空間也隨之縮小。

在整個訓練過程中始終使用最開始的溫度,會導致訓練后期多樣性不足。

因此,Polaris團隊提出在RL訓練過程中動態更新采樣溫度的策略:在每個階段開始前都進行和溫度初始化時類似的搜索方法,使得后續階段起始的多樣性分數和第一階段的相似。

舉個例子,假如第一階段開始的多樣性分數是60,那此后的每個階段,Polaris團隊都會選擇一個能把多樣性分數拉到60的溫度來進行訓練。

圖片圖片

對比實驗的結果顯示,采用同一溫度訓練到結束,其效果不及多階段溫度調整。

多階段溫度調整不僅帶來了更優的RL訓練效果,還使得回答長度的提升更加穩定。

思維鏈長度外推

在訓練Qwen3-4B的過程中,一個顯著難題在于長上下文訓練,因為模型本身的回答長度就已經非常長了,要繼續訓練的更長需要更高昂的計算代價。

Qwen3-4B的模型預訓練上下文長度僅有32K,而RL階段Polaris將最大訓練長設定為52K。但實際達到最大序列長度的訓練樣本比例不足10%,意味著真正使用長文本進行訓練的樣本非常有限。

圖片圖片

為評估Polaris-4B-Preview的長文生成能力,Polaris究團隊選取了AIME2024/25中的60題,每題進行32次推理,總計1920個樣本,并按照回答長度將其分為三組:

  • 短文本組:回答長度小于16K;
  • 中等文本組:回答長度介于16K到32K;
  • 長文本組:回答長度超過預訓練長度32K。

統計結果表明,長文本組的準確率僅為26%,證明模型在生成超過預訓練長度的長CoT時,性能明顯受限。

既然RL在長上下文長度的時候具備劣勢,那么長CoT性能不佳可能是由于長文本訓練不充分導致。

針對長文本訓練樣本不足的問題,團隊引入了長度外推技術。通過位置編碼RoPE的調整,模型能夠在推理時處理超出訓練時所見的更長序列,進而補償長文本訓練中的不足。

具體實現上,研究團隊采用了YaRN作為外推方法,并設置擴展因子為1.5,如下配置所示:

圖片圖片

實驗結果顯示,通過應用該策略,超過32K長度回答的準確率由26%提升至超過50%

圖片圖片

多階段訓練

圖片圖片

Polaris采用多階段的訓練方式,在早期階段,模型使用較短的上下文窗口;待模型表現收斂后,再逐漸增加上下文窗口的長度以拓寬模型的推理能力。

盡管這一策略在某些模型下有效,但在多階段訓練中,初始階段選擇合適的最大長度至關重要,不同基礎模型token利用效率存在差異。

圖片圖片

實驗發現,對于DeepSeek-R1-Distill-Qwen-1.5B/7B,采用較短的響應長度訓練效果都較好;但對Qwen3-4B來說,即使響應長度只有24K且響應截斷比例低于15%,其性能也會急劇下降,這種下降即使在后期階段也難以恢復。

圖片圖片

通常來說,從一開始就讓模型“思考更長”會更安全:對于Qwen3-4B,實驗觀察到從零開始使用40K響應長度時性能穩步提升,這與從一開始就采用24K和24K→40K的方案形成了鮮明對比。

要點:當計算資源允許時,直接從官方倉庫建議的最大解碼長度開始。

評估結果

圖片圖片

Polaris模型需要使用比Qwen3更高的采樣溫度和更長的響應長度;所有其他設置保持相同。

對于AIME24和AIME25,上表報告了32次運行的平均性能。

可以看到,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,在大多數評測中表現最佳。

notion地址: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

blog 地址: https://hkunlp.github.io/blog/2025/Polaris/

代碼: https://github.com/ChenxinAn-fdu/POLARISHuggingface主頁: https://huggingface.co/POLARIS-Project


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-08-07 09:07:21

2025-06-06 09:10:00

模型開源AI

2024-06-11 14:30:18

2025-05-14 13:22:08

Qwen3訓練小模型

2022-01-04 15:35:51

鴻蒙HarmonyOS應用

2022-06-21 11:02:27

系統移植鴻蒙

2025-10-27 08:35:00

2025-10-28 02:11:00

2025-08-05 09:02:00

2025-06-04 13:56:06

英偉達訓練模型

2025-06-17 08:45:00

模型智能工具

2025-04-29 08:14:14

2025-08-26 15:31:35

英偉達模型架構

2025-05-16 09:10:00

2023-09-23 12:50:39

AI訓練

2021-11-23 15:35:05

鴻蒙HarmonyOS應用

2021-12-09 10:11:04

鴻蒙HarmonyOS應用

2021-12-31 10:00:30

鴻蒙HarmonyOS應用

2023-10-11 12:32:53

AI模型

2025-02-14 11:18:57

點贊
收藏

51CTO技術棧公眾號

国产精品素人视频| 久久久久久久波多野高潮日日| 555www色欧美视频| 人妻激情另类乱人伦人妻| 四虎永久在线精品免费网址| 视频在线观看91| 超在线视频97| 天堂久久精品忘忧草| 电影一区二区三区久久免费观看| 亚洲午夜激情av| 五月婷婷一区| 天堂在线观看av| 久久国产生活片100| 久久久综合av| www.4hu95.com四虎| 牛牛影视一区二区三区免费看| 欧美日韩一区国产| 男人用嘴添女人下身免费视频| 91se在线| 久久久精品国产免大香伊| 亚洲一区二区三区xxx视频| 男人午夜免费视频| 黄色精品网站| 久久精品久久久久| 免费看污片的网站| 噜噜噜狠狠夜夜躁精品仙踪林| 欧美日韩国产高清一区二区 | 视频一区二区在线播放| 国产资源精品在线观看| 国产精品高潮粉嫩av| 五月天综合激情| 欧美天天在线| 欧美成人一二三| 国产一二三四视频| 国产精品一国产精品| 亚洲成人中文字幕| 成人三级做爰av| 亚洲伊人伊成久久人综合网| 欧美在线免费视屏| 国产精品wwwww| 欧美gv在线观看| 疯狂做受xxxx欧美肥白少妇| 免费看日本黄色| 搞黄网站在线观看| 亚洲视频1区2区| 9999在线观看| 黄色网址在线免费| 亚洲欧美激情在线| 99久久久无码国产精品性色戒| 国产大学生校花援交在线播放| 91首页免费视频| 久久综合一区二区三区| 日本高清视频在线| av网站一区二区三区| www日韩av| 神马午夜在线观看| 26uuu亚洲综合色欧美| 久久免费一区| 国产一级片在线| 国产三级三级三级精品8ⅰ区| 日本成人黄色| 里番在线观看网站| 《视频一区视频二区| 400部精品国偷自产在线观看| 男人的天堂在线视频免费观看 | 精品一区二区三区亚洲| 欧美一区二区三区视频在线观看| 在线播放黄色av| 国产视频一区二区在线播放| 日韩一区二区高清| 星空大象在线观看免费播放| 日韩深夜影院| 在线看日韩欧美| 神马久久精品综合| 欧美全黄视频| 68精品国产免费久久久久久婷婷| 香蕉影院在线观看| 久久国产精品色| 国产成人精品日本亚洲11| 色综合久久久久久| 国产午夜亚洲精品理论片色戒| 四虎影院一区二区三区| 黄色动漫在线观看| 精品成人乱色一区二区| 亚州精品一二三区| 91精品国产自产在线丝袜啪| 日韩国产高清视频在线| 国产精品视频在| 韩日欧美一区| 国产精品av电影| japanese国产| 久久久综合激的五月天| 自拍偷拍视频在线| www.精品| 日韩午夜精品电影| 精品无人区无码乱码毛片国产| 91精品一区国产高清在线gif| 97精品久久久| 亚洲在线精品视频| 91在线播放网址| 综合色婷婷一区二区亚洲欧美国产| 欧美videosex性极品hd| 在线亚洲一区二区| 中国男女全黄大片| av一区二区在线观看| 久久久久久久国产精品| 日本视频www色| 成人av片在线观看| 26uuu成人| 色天使综合视频| 精品福利一区二区三区免费视频| 免费在线观看a视频| 国模大胆一区二区三区| 国产欧美日韩免费| 亚洲色图欧美视频| 亚洲最新在线观看| gogogo高清免费观看在线视频| 任你躁在线精品免费| 免费av一区二区| 在线观看日批视频| 久久色.com| 黄色大片在线免费看| 日本一区二区乱| 日韩色av导航| 老熟妇一区二区三区| 99国产精品久久久久| 丰满人妻一区二区三区53号| 欧美黑粗硬大| 色噜噜亚洲精品中文字幕| 日韩中文字幕在线观看视频| 粉嫩av一区二区三区在线播放 | 在线高清一区| 91观看网站| 成人影院在线看| 欧美日本在线一区| 中文字幕欧美激情极品| 亚洲欧美日韩国产综合精品二区| 超碰97在线播放| av中文字幕在线观看| 欧美疯狂性受xxxxx喷水图片| 亚洲自拍偷拍图| 久久精品女人| 欧美男人的天堂| 九九热线视频只有这里最精品| 亚洲精品av在线播放| 日韩精品一区二区三| 成人黄色av电影| 欧美不卡在线播放| 日韩av影院| 欧美最猛性xxxxx亚洲精品| 天天射天天色天天干| 欧美日韩国产页| 国产美女喷水视频| 久久久久网站| 亚洲精品久久区二区三区蜜桃臀| 日韩一级二级| 视频一区视频二区国产精品| 在线免费看av片| 日韩美女精品在线| wwwxxx色| 99综合在线| 日韩一区不卡| 亚洲人体在线| 久久91精品国产91久久久| 成 人片 黄 色 大 片| 亚洲网友自拍偷拍| 国产传媒第一页| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲激情一区二区三区| 亚洲伦理网站| 久久久久久网站| 日本中文字幕一区二区有码在线 | 女人另类性混交zo| 日本一区二区高清不卡| 91九色视频导航| 白浆在线视频| 中文字幕日韩欧美在线| 国产丰满美女做爰| 日韩欧美成人精品| 中文乱码字幕高清一区二区| 国产成人av电影在线| 成人av一级片| 香蕉精品视频在线观看| 国产91亚洲精品一区二区三区| 亚洲私拍视频| 美乳少妇欧美精品| 日本国产在线| 欧美一二三四在线| www.色国产| 亚洲自拍另类综合| 三级网站在线免费观看| 极品少妇一区二区| 日韩久久一级片| 7777久久香蕉成人影院| 蜜桃成人在线| 亚洲91网站| 国产乱肥老妇国产一区二| av福利导福航大全在线| 在线视频欧美日韩| 色婷婷中文字幕| 欧美猛男gaygay网站| 色婷婷av国产精品| 亚洲精品综合在线| 精品一区二区三孕妇视频| 成人免费电影视频| 亚洲精品自拍网| 一区二区三区精品视频在线观看 | 免费污网站在线观看| 国产裸体歌舞团一区二区| www.国产区| 一本久道久久综合婷婷鲸鱼| 黄色网址在线免费看| 国产一区二区三区四区二区| 国产伦精品一区二区三区视频黑人| 素人啪啪色综合| 97国产真实伦对白精彩视频8| 国产视频中文字幕在线观看| 一色桃子一区二区| 欧美在线观看在线观看| 精品久久久久久久久久久久包黑料| av首页在线观看| 狠狠色噜噜狠狠狠狠97| 国产一卡二卡在线播放| √…a在线天堂一区| 亚洲成人av在线| 日韩精品成人一区| 亚洲一区视频在线| 国产精品视频一区二区三| 国产精品视频免费| jizz中文字幕| 国产亚洲欧美中文| av男人的天堂av| 2022国产精品视频| 动漫精品一区二区三区| 99r国产精品| 星空大象在线观看免费播放| 粉嫩aⅴ一区二区三区四区五区| 91蝌蚪视频在线| 国产综合成人久久大片91| 日本不卡一区二区在线观看| 久久精品国产免费看久久精品| 国产福利影院在线观看| 日本在线不卡视频| 国产精品天天av精麻传媒| 麻豆精品网站| 香蕉视频网站入口| 免费在线观看成人| 手机免费看av网站| 国产一区二区三区黄视频 | 欧美伦理视频在线观看| 视频一区视频二区中文| 麻豆一区二区三区视频| 免费精品99久久国产综合精品| 欧美 日韩 国产 激情| 麻豆国产精品官网| 国产三级精品三级在线| 国产精品一区在线观看乱码| 国产乱淫av片| 久久一区二区三区四区| 免费视频91蜜桃| 亚洲欧洲日本在线| 欧美日韩大片在线观看| 亚洲国产cao| 欧产日产国产69| 欧美亚洲一区三区| 国产片高清在线观看| 欧美mv日韩mv国产网站| 手机在线精品视频| 亚洲一区二区久久| 97caopron在线视频| 午夜精品在线观看| 91精品韩国| 91精品在线影院| 少妇久久久久| 自拍偷拍亚洲色图欧美| 亚洲天堂激情| 国产精品入口免费软件| 国产一区二区三区免费观看| 成人在线视频免费播放| 欧美激情中文字幕一区二区| 日本精品人妻无码77777| 黄色一区二区在线观看| 亚洲系列在线观看| 亚洲国产精品999| 国产九色在线| 欧美国产乱视频| av免费在线一区| 国产麻豆乱码精品一区二区三区| 久草精品在线| 久久www视频| 日韩高清一区在线| 成人区人妻精品一区二| 欧美国产日韩亚洲一区| 青娱乐av在线| 欧美日韩精品免费| 天堂中文在线资| 九九久久精品一区| julia一区二区三区中文字幕| 俄罗斯精品一区二区| 欧美中文一区二区| 丁香花在线影院观看在线播放| 日韩av一区二区三区四区| av漫画在线观看| 中文字幕永久在线不卡| www.国产一区二区| 精品日韩成人av| 麻豆网站视频在线观看| 国产aaa精品| 美女一区2区| 男女激烈动态图| 麻豆精品国产91久久久久久| 国产精品探花一区二区在线观看| 亚洲女同女同女同女同女同69| 中文字幕在线日本| 日韩成人在线视频网站| 污视频在线免费观看网站| 国产精品久久久久久久久久99| 黄色成人美女网站| 欧美美女黄色网| 国产一区二三区| 日韩一区二区三区四区视频| 色综合天天综合网天天看片| 人妻视频一区二区三区| 久热精品视频在线观看一区| 精品国产欧美日韩一区二区三区| 欧美日韩高清免费| 国产美女一区| 国产高清自拍视频| 精品二区三区线观看| 欧美天堂在线视频| 久久久久女教师免费一区| 免费精品一区| 18视频在线观看娇喘| 国产麻豆9l精品三级站| 神马久久精品综合| 91精品国产91久久久久久最新毛片 | 岛国av免费在线观看| 国产98在线|日韩| 好看的日韩av电影| 国产伦精品一区二区三区88av| 亚洲免费观看高清完整版在线观看| 一女二男一黄一片| 久久久精品国产| av在线精品| 成人午夜免费在线视频| 国产91精品入口| 久久一区二区三| 亚洲精品www久久久| 日韩精品美女| 日韩尤物视频| 精品一区二区三区视频| 手机在线免费看毛片| 欧美mv和日韩mv国产网站| 成人福利电影| 欧美日韩系列| 免费精品视频最新在线| 久久精品在线观看视频| 91精品国产综合久久久久| 日本精品600av| 激情视频在线观看一区二区三区| 一区二区三区国产盗摄 | 欧美熟女一区二区| 日产精品99久久久久久| 第一社区sis001原创亚洲| 日本r级电影在线观看| 亚洲成人手机在线| 欧美视频综合| 成人av.网址在线网站| 亚洲视频免费| a级大片在线观看| 欧美日韩精品一二三区| 欧美videosex性欧美黑吊| 欧美男人的天堂| 国产一区亚洲一区| 韩国av免费观看| 色综合伊人色综合网| 99精品中文字幕在线不卡| 久久无码高潮喷水| 亚洲欧洲日韩综合一区二区| 国精产品乱码一区一区三区四区| 欧美一级在线亚洲天堂| 国产高清久久| 国产白嫩美女无套久久| 欧美特级限制片免费在线观看| 4438x成人网全国最大| 欧美人与物videos另类| 国产自产2019最新不卡| 日韩精品成人免费观看视频| 日韩性xxxx爱| 亚洲精品aaaaa| 日本成人在线免费| 欧美在线你懂得| 成人国产电影在线观看| 手机福利在线视频| 久久久欧美精品sm网站| 懂色av成人一区二区三区| 国产精品免费电影| 一本色道久久综合| 国产稀缺精品盗摄盗拍| 亚洲片国产一区一级在线观看|