精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek-R1-Zero激發了推理Scaling Law

發布于 2025-2-13 12:20
瀏覽
0收藏

本文將散落在近期多篇文章中筆者圍繞激發推理Scaling Law的思考做了一下整理。

方向

MIT對大模型數理原理的強有力證明中總結:

基于宏大的人類知識提取出來豐富范疇,形成眾多領域的本體知識結構,這是大模型通過預訓練已經構建的內部世界模型;提高推理采樣的機制,通過訓練達成學習推理的scaling law,是大模型下一步努力提升的方向。

相比傳統方法,新的大模型機理,具備更高維度的新穎性、對能力和技術細節的探索,可以通過揭示隱藏的聯系建立更廣泛有用的創新框架。AI 知識圖驅動的跨學科研究可能會成為科學和哲學探索的有力工具。

框架

DeepSeek R1 與 Kimi 1.5 的推理強化學習中梳理了整體框架:

在已訓練的LLM世界模型的基礎上,進行專注推理策略的第二階預訓練,給LLM構建完整的“大腦皮層”,進而皮層指揮LLM推理生成:

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區圖片

1. 積累推理語料:目前人類推理被“語料化”最多的領域,筆者能想到的還是注釋的代碼、LLM自己積累的人類提示的思維鏈、應試答題步驟、科學文獻中的推導、邏輯與哲學的思辨等,歡迎大家補充;

2. 預訓練推理策略生成器:有針對性地基于這些推理語料做預訓練,從中“重整化”提煉出特殊的“推理范疇”,作為整體世界模型采樣變分推理的策略生成器(直接從整體范疇中分離并精調“推理范疇”或許亦可行);

3. 策略驅動世界模型變分推理:依據預訓練的推理策略生成器生成的最佳策略,在LLM內部整體范疇上,也就是內部世界模型上,做范疇內或跨范疇采樣變分推理。

策略

重新思考 MoE 進一步解讀 “MoE 其實 = 推理采樣策略” :

MoE里的“專家”是一種擬人的形象化的說法,如果全文替換成“特定范疇”,讀者會發現MoE其實本質上是基于某種人類先驗“知識”或“策略”的“跨范疇采樣”:

“在外部感官輸入下(被提示置于某種上下文),大模型內部將限定在相應的高維語言概率空間的子空間內推理;推理是在子空間中采樣,類比時跨范疇采樣”。

目前 MoE 可以理解為一種分布式采樣策略,可以GShard硬編碼,或進一步DeepSeekMoE細分,也可以如MoDE基于噪聲更靈活調節策略,亦或引入某種優化器(類似SQL優化器),并最終依賴推理的scaling law涌現出策略。

技術

通往ASI的大模型推理,詳細分析了支撐LLM推理涌現的技術:

測試時計算(Test-time Computing)也被寄予厚望。蘇州大學、新加坡國立大學和螞蟻集團的研究人員探索了測試時計算,追蹤了其從 System-1 到 System-2 模型的演變。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

測試時計算最初應用于 System-1 模型,通過參數更新、輸入修改和輸出校準來解決分布偏移并增強穩健性,現在使用重復采樣、自我校正和樹搜索等策略加強了 System-2 模型中的推理。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

測試時適應(TTA)在推理過程中使用測試樣本信息微調模型。關鍵考慮因素包括學習信號、參數更新和確保效率。測試時訓練 (TTT) 學習信號使用輔助任務,而完全測試時適應 (FTTA) 利用內部反饋(如熵最小化)。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

筆者認為,測試時計算模型更新,等于利用測試樣本信息在推理階段進一步微調了模型參數,使模型能夠適應測試分布。這樣不僅學了更多的內容(測試語料),還反復推敲學習如何采樣變分用于推理,本質是積累了推理的范疇。

測試時計算的訓練方式,如果推廣到更大范圍的語料(甚至重復利用預訓練時期的語料),可以積累更多推理范疇,從而提升推理能力。預訓練的語料中,也有大量類似的推理場景,針對此類場景,采用測試時適應,或類似的測試時計算的策略,在預訓練時就可以同時積累推理的范疇,即推理內化成內部世界模型中的一部分。

突破

DeepSeek R1 與 Kimi 1.5 的推理強化學習, 簡要分析了DeepSeek強化學習變體:

DeepSeek R1沒有使用監督微調(SFT)作為冷啟動,轉而通過大規模強化學習(RL)提升大模型推理能力。DeepSeek-R1-Zero 沒用任何SFT數據,直接將RL應用于基礎模型,DeepSeek-R1則是從經過數千個長鏈式推理(CoT)示例微調的檢查點開始應用RL。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

DeepSeekMath的組相對策略優化(GRPO)是R1成功的關鍵。GRPO是近端策略優化(PPO)的變體,PPO是廣泛用于LLM 微調階段的演員-評論家(actor-critic)強化學習算法。

PPO中使用的價值函數通常是另一個與策略模型規模相當的模型,會帶來巨大的內存和計算負擔,而且在LLM上下文中,通常只有最后一個token會被獎勵模型分配獎勵分數,而在每個token上訓練一個準確的價值函數很困難。


因此,GRPO摒棄了通常與策略模型規模相同的評論家模型,而是使用針對同一問題生成的多個采樣輸出的平均獎勵作為基線。


DeepSeekMath不僅引入GRPO,而且給出極具深度的洞察:監督微調(SFT)、獎勵微調(RFT)、直接偏好優化(DPO)、近端策略優化(PPO)、組相對策略優化(GRPO)在邁向統一的范式。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

監督微調(SFT):在人類篩選的 SFT 數據上對預訓練模型進行微調。


拒絕采樣微調(RFT):RFT 在基于 SFT 問題從 SFT 模型采樣的過濾輸出上進一步微調 SFT 模型。RFT 根據答案的正確性對輸出進行過濾。


直接偏好優化(DPO):DPO 通過使用成對 DPO 損失在從 SFT 模型采樣的增強輸出上微調 SFT 模型,進一步優化模型。


在線拒絕采樣微調(在線 RFT):與 RFT 不同,在線 RFT 使用 SFT 模型初始化策略模型,并通過從實時策略模型采樣的增強輸出進行微調來優化模型。


PPO/GRPO:PPO/GRPO 使用 SFT 模型初始化策略模型,并通過從實時策略模型采樣的輸出進行強化學習來優化模型。


原理

GRPO 是DeepSeek魔法的源泉 闡述了GRPO本質:

組內多采樣與大數定理:

GRPO平均獎勵的有效性可能直接源于大數定理,作為概率基礎理論支撐,大數定理可以確保獎勵基線估計的統計合理性。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

近似實現最優輸運:

GRPO通過采樣同一問題的多個輸出(組內樣本),計算其平均獎勵作為基線,并對獎勵進行歸一化(減去組均值,除以標準差)。這一過程本質上是在對齊組內輸出的經驗分布,使其向高獎勵區域集中。

將組內樣本的原始獎勵分布視為源分布,高獎勵區域視為目標分布。GRPO的歸一化操作類似于OT中的分布歸一化,旨在減少分布間的統計差異。通過優化策略使生成分布向目標分布傳輸,隱式利用了Wasserstein距離的特性。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

GRPO舍棄大規模價值模型,利用組內樣本統計量降低計算復雜度,組內歸一化基線估計與OT中的小批量近似或切片Wasserstein距離思路一致,通過有限樣本近似全局分布特性。優勢函數僅依賴組內相對獎勵,類似OT中局部耦合的構造,減少高維空間的計算負擔。

實踐

DeepSeek-R1與R1-Zero通過創新強化學習技術,突破傳統LLM依賴監督微調(SFT)的局限,成功實踐并開創了推理能力自我進化的新范式。

R1-Zero完全跳過SFT階段,摒棄傳統PPO算法中的價值模型,直接在基礎模型DeepSeek-V3-Base上應用GRPO純強化學習方法訓練。模型自發學會延長思維鏈、重新評估初始答案并修正錯誤,甚至出現類似人類“頓悟時刻”的行為。

模型實際推理能力驚人,在AIME 2024數學競賽中的Pass@1準確率從15.6%躍升至71.0%,多數投票后達86.7%,媲美頂尖閉源模型。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

R1優化改進了R1-Zero可讀性差、語言混合等問題,通過冷啟動SFT、多階段強化學習、拒絕采樣與蒸餾等策略實現訓練效率與推理能力的平衡。

R1系列的突破不僅體現在性能上,更揭示了LLM通過自我迭代不斷增強推理能力的可能,筆者認為其技術路徑的成功實踐,是通往AGI的重要里程碑。

更讓人驚喜的是,R1系列模型具備強大的技術迭代能力,這意味著未來R2、R3不僅會更強大、更完善, 迭代周期也會更短,新模型可能很快就會到來。

擴展

更近一步,斯坦福近期提出了一種名為"s1:簡單測試時擴展"的方法,在語言建模中實現了測試時計算的高效擴展[文獻1] 。

通過僅使用1000個樣本的監督微調,結合預算強制技術,顯著提升了模型的推理能力,尤其在數學競賽任務中超越了OpenAI的閉源模型o1-preview,展現出極高的樣本效率。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

學者們構建了包含1000個問題的小型數據集s1K,問題覆蓋難度、多樣性和質量三個維度,通過消融實驗驗證其有效性。

然后通過預算強制技術控制模型的思維過程,實現測試時計算的動態擴展,包括強制終止并輸出當前最佳答案,多次追加"Wait"指令延長思考,迫使模型回溯推理步驟,修正錯誤路徑等。

基于Qwen2.5-32B-Instruct模型,在s1K數據集監督微調并應用預算強制技術后,數學競賽MATH和AIME24上的表現超過o1-preview最高達27%。進一步擴展測試時計算量后,無干預時AIME24準確率從50%提升至57%。

這是樣本效率的革命,傳統方法需依賴數以萬計的微調示例(如R1使用近百萬樣本強化學習),而s1僅用1000樣本即達到同等水平。

簡單測試時擴展,驗證了模型預訓練階段已具備推理潛力,微調僅需"激活"這一能力。這類似筆者在“框架”部分提到的“直接從整體范疇中分離并精調“推理范疇”。

文獻1,s1: Simple test-time scaling,https://arxiv.org/abs/2501.19393

本文轉載自??清熙??,作者: 王慶法 ????

收藏
回復
舉報
回復
相關推薦
国产精国产精品| 欧美一区二区三区免费观看视频| 久久久久国产精品免费| 国产精九九网站漫画| 高清视频在线观看三级| 国产亚洲一区二区三区| 91亚洲永久免费精品| 国产一级片免费| 人妻中文字幕一区| 日韩在线无毛| av网址在线看| 成人一区二区在线观看| 日本国产欧美一区二区三区| 国产精品69久久久久孕妇欧美| av女优在线| 久久99久久久欧美国产| 97久久精品人搡人人玩| 手机看片国产日韩| 精品三级av| 欧美日韩精品福利| 免费看又黄又无码的网站| 1024免费在线视频| 久久综合99re88久久爱| 亚洲综合中文字幕在线| 91丨九色丨海角社区| 影音先锋在线一区| 久久这里有精品视频| 国产真实乱人偷精品人妻| 大奶一区二区三区| 7777精品久久久大香线蕉| 少妇高潮喷水久久久久久久久久| 亚洲 另类 春色 国产| 精品无人区卡一卡二卡三乱码免费卡| 一区二区三区视频在线 | 日本美女高潮视频| 亚洲wwwww| 国产精品国产三级国产普通话三级 | 91传媒视频在线观看| 国产精品第六页| 国产麻豆综合| 国内伊人久久久久久网站视频 | 久久嫩草精品久久久久| 999精品视频一区二区三区| 中文字幕欧美色图| 免费视频久久| 91av成人在线| 日本在线播放视频| av成人天堂| 韩国美女主播一区| 国产一级片免费| 国产专区一区| 久久久久国产视频| 久久中文字幕无码| 亚洲天堂黄色| 欧美极品美女视频网站在线观看免费 | 中文字幕中文字幕一区三区| 第九色区av在线| 欧美激情资源网| 日韩精品久久久毛片一区二区| 国产又粗又猛又爽| 久久99国内精品| 国产在线精品自拍| 国产片高清在线观看| 国产一区二区精品久久99| 成人免费网站在线| 国产福利视频导航| 不卡区在线中文字幕| 久久精品日韩| 午夜精品久久久久久不卡8050| 亚洲精品欧美在线| 亚洲激情一区二区三区| 国产在线观看免费| 久久精品男人天堂av| 日韩欧美亚洲v片| 国产高清一级毛片在线不卡| 国产欧美精品一区二区色综合朱莉| 成人福利网站在线观看| 国产精品国产av| 国产精品亚洲一区二区三区妖精| 热久久视久久精品18亚洲精品| 波多野结衣喷潮| 91精品国产乱码久久久久久| 久热在线中文字幕色999舞| 欧美黄色一区二区三区| 中文国产一区| 国产精品美乳在线观看| 成人福利小视频| 91网页版在线| 亚洲午夜久久久影院伊人| gogogogo高清视频在线| 亚洲大尺度视频在线观看| 久久国产乱子伦免费精品| 欧美激情三区| 精品国产乱码久久久久久影片| 北条麻妃亚洲一区| 亚洲一区网址| 一夜七次郎国产精品亚洲| 国产探花在线视频| 中文精品视频| 91精品视频大全| 深夜福利在线观看直播| 国产精品国产三级国产专播品爱网| 日本免费高清一区| 国产超级va在线视频| 欧美色播在线播放| 久久99999| 国产suv精品一区二区四区视频| 日韩一级免费观看| 醉酒壮男gay强迫野外xx| 国产精品福利在线观看播放| 91精品国产免费久久久久久 | 欧美激情欧美激情在线五月| 成人免费a视频| 卡一卡二国产精品| 久久av一区二区| 久草资源在线| 色美美综合视频| 人妻 丝袜美腿 中文字幕| 日本久久黄色| 国产91|九色| 亚洲国产www| ...av二区三区久久精品| 少妇性饥渴无码a区免费| 日韩成人18| 中文字幕久久亚洲| 六月丁香婷婷综合| 成人免费视频国产在线观看| 在线无限看免费粉色视频| 色婷婷综合久久久中字幕精品久久 | 日韩美女av在线| 国产性生活网站| 国产一区二区精品久久99| 亚洲精品在线免费看| 婷婷电影在线观看| 欧美精品一区二区三区久久久| 亚洲一区二区在线免费| 欧美高清不卡| 成人免费视频网址| 免费在线观看黄色| 欧美视频一二三区| 三区四区在线观看| 久久国产日本精品| 免费精品视频一区二区三区| 男插女视频久久久| 日韩女优电影在线观看| 2021亚洲天堂| 国产激情一区二区三区四区| 黄频视频在线观看| 中文成人激情娱乐网| 日韩在线视频导航| 91成人国产综合久久精品| 国产精品久久影院| 8x8x成人免费视频| 我不卡影院28| 91原创国产| 电影k8一区二区三区久久| 欧美成人video| 欧美激情一区二区视频| 国产宾馆实践打屁股91| 少妇大叫太大太粗太爽了a片小说| 欧美日韩大片| 国产视频精品免费播放| 日本a级c片免费看三区| 国产日韩高清在线| 亚洲欧美日韩综合网| 91精品国产乱码久久久久久 | 99久久久无码国产精品免费蜜柚| 国产一区亚洲一区| 狠狠干视频网站| 亚洲综合网狠久久| 欧美亚洲另类在线| av在线免费观看网| 91精品国产免费| 日本一本高清视频| 国产三级三级三级精品8ⅰ区| heyzo亚洲| 久久综合亚洲| 成人女保姆的销魂服务| av在线free| 日韩福利视频在线观看| 波多野结衣毛片| 亚洲色图.com| 欧美精品黑人猛交高潮| 青青草国产精品亚洲专区无| 色哺乳xxxxhd奶水米仓惠香| 给我免费播放日韩视频| 国产精品美腿一区在线看| 91国内在线| 亚洲免费视频一区二区| 一级全黄少妇性色生活片| 一区二区久久久久久| 少妇真人直播免费视频| 韩国精品久久久| 国产精品宾馆在线精品酒店| 91精品国偷自产在线电影 | 欧美成人精品激情在线观看| 蜜臀av中文字幕| 欧美视频你懂的| 在线看成人av| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 性感美女一级片| 欧美怡红院视频| 国产无套内射又大又猛又粗又爽| 懂色av一区二区夜夜嗨| 欧美a在线视频| 一区二区三区国产精华| 免费影院在线观看一区| 精品亚洲二区| 国产精品第七十二页| 蜜桃成人365av| 色视频www在线播放国产成人| 中文字幕av久久爽| 亚洲夂夂婷婷色拍ww47| 免费看的黄色录像| 91亚洲精品久久久蜜桃网站 | 日韩成人在线视频| 97caocao| 日本高清不卡视频| 日韩成人在线免费视频| 亚洲欧美国产三级| 欧美图片第一页| www.性欧美| 欧美一级大片免费看| 久久综合综合久久综合| 超碰影院在线观看| 一本色道88久久加勒比精品| 成年人视频网站免费| 国产精品久久久久久麻豆一区软件 | 国产区在线观看视频| 亚洲精品久久久久久国产精华液| 影音先锋资源av| 国产老肥熟一区二区三区| 中文字幕第100页| 日韩精品成人一区二区在线| 黄色一级视频在线播放| 国产精品sm| 欧美美女黄色网| 一区二区三区四区日韩| 亚洲日本一区二区三区在线不卡 | 欧美精品少妇一区二区三区| 香蕉污视频在线观看| 日韩欧美在线视频日韩欧美在线视频| 色欲狠狠躁天天躁无码中文字幕 | 国产一级在线| 日韩精品视频在线免费观看| 成人高潮片免费视频| 日韩欧美一区在线| 国产av一区二区三区| 日韩一区二区精品葵司在线 | 久久久久免费| 少妇高潮喷水久久久久久久久久| 四季av一区二区三区免费观看| 91久久国产精品91久久性色| 成人国产综合| 成人啪啪免费看| 国产精品一区二区三区av| 亚洲aⅴ男人的天堂在线观看| 桃色av一区二区| 91成品人片a无限观看| 免费毛片b在线观看| 日韩av片电影专区| 福利一区视频| 91人成网站www| 国产精品视频一区二区三区| 91久久精品www人人做人人爽| 电影亚洲一区| 国产精品一区av| 国产电影一区二区| www日韩av| 日本久久成人网| 日韩中文字幕一区| 亚洲a在线视频| 精品少妇人欧美激情在线观看| 香蕉综合视频| 肉大捧一出免费观看网站在线播放| 欧美最新另类人妖| 一本一本a久久| 欧美涩涩网站| 国模杨依粉嫩蝴蝶150p| 精品一区二区三区香蕉蜜桃| 一级日本黄色片| 99国产精品99久久久久久| 人人妻人人澡人人爽| 一区二区国产盗摄色噜噜| 久久久久久少妇| 欧美精品一级二级三级| 午夜视频在线播放| 最近2019中文字幕大全第二页| 国产高清一区在线观看| 免费av一区二区| 成人va天堂| 99热99热| 成人系列视频| 黄页免费在线观看视频| 青青草国产精品97视觉盛宴| 黄色激情在线观看| 亚洲国产成人自拍| 国产无遮挡又黄又爽又色| 欧美吻胸吃奶大尺度电影| 国产综合无码一区二区色蜜蜜| 欧美一区二区免费观在线| 亚洲精华国产欧美| 大陆av在线播放| 日韩av在线发布| 一级黄色片在线免费观看| 91尤物视频在线观看| 色偷偷男人天堂| 亚洲www啪成人一区二区麻豆| 91视频免费在线看| 色婷婷久久久久swag精品| aaa级黄色片| 中日韩美女免费视频网址在线观看 | 国产精彩视频在线观看| 欧美日韩免费观看一区三区| 天堂v在线观看| 久热在线中文字幕色999舞| 先锋欧美三级| 精品日产一区2区三区黄免费| 啪啪国产精品| 激情成人开心网| 久久99久久久久| 免费黄在线观看| 色综合视频在线观看| 天天躁日日躁狠狠躁喷水| 九九热视频这里只有精品| 亚洲国产伊人| 亚洲国产午夜伦理片大全在线观看网站| 欧美一区电影| 日本免费黄视频| www.色精品| 69精品久久久| 欧美成人性福生活免费看| 黄色网在线看| 国产日韩中文字幕| 色男人天堂综合再现| 91人人澡人人爽人人精品| 国产偷国产偷亚洲高清人白洁| 熟女少妇a性色生活片毛片| 在线看国产日韩| 国产在线91| 国产精品久久99久久| 少妇精品久久久一区二区三区| 一区二区不卡在线观看| 日本不卡的三区四区五区| 一区二区伦理片| 在线区一区二视频| 福利视频在线看| 国产日韩av在线| 性xxxx欧美老肥妇牲乱| 51自拍视频在线观看| 一区二区欧美国产| 三级小视频在线观看| 97免费中文视频在线观看| 色综合www| 国产精品天天av精麻传媒| 国产女同互慰高潮91漫画| 欧美成人一区二区视频| 视频在线一区二区| 99视频这里有精品| 男人的天堂成人| 国产成人在线电影| 狠狠躁夜夜躁人人爽天天高潮| 欧美二区乱c少妇| 宅男网站在线免费观看| 99porn视频在线| 99亚洲一区二区| 在线观看日本中文字幕| 欧美色图天堂网| 午夜伦理大片视频在线观看| 国产富婆一区二区三区 | 九九热只有这里有精品| 99久久99久久免费精品蜜臀| 狠狠人妻久久久久久| 亚洲最新视频在线| 999精品嫩草久久久久久99| 中文精品无码中文字幕无码专区| 久久草av在线| 欧美精品色哟哟| 日韩精品极品视频| 激情久久一区二区| 日韩视频 中文字幕| 久久伊人蜜桃av一区二区| 中文字幕自拍偷拍| 久久精品综合视频| 国产视频一区二区在线| 91 中文字幕| 国外成人免费在线播放| 蜜桃一区二区| 日本一二三四区视频| 亚洲va在线va天堂| 国产香蕉在线| 99国产盗摄| 日韩精品电影在线| 久久国产在线视频| 一区二区三区四区在线观看视频 | 日韩美女福利视频| 91欧美在线| 亚洲成人日韩在线| 日韩一区二区在线播放| 成人影院入口|