精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

華人研究團隊揭秘:DeepSeek-R1-Zero或許并不存在「頓悟時刻」

人工智能 新聞
自我反思(尤其是膚淺的)有時對模型性能的助益不大。

在過去這半個月里,關于 DeepSeek 的一切都會迅速成為焦點。

一項非常鼓舞人心的發(fā)現(xiàn)是:DeepSeek-R1-Zero 通過純強化學習(RL)實現(xiàn)了「頓悟」。在那個瞬間,模型學會了自我反思等涌現(xiàn)技能,幫助它進行上下文搜索,從而解決復雜的推理問題。

在 R1-Zero 發(fā)布后的短短幾天內,連續(xù)幾個項目都在較小規(guī)模(如 1B 到 7B)上獨立「復制」了類似 R1-Zero 的訓練,并且都觀察到了「頓悟時刻」,這種時刻通常伴隨著響應長度的增加。

原文鏈接:https://oatllm.notion.site/oat-zero

最近,來自新加坡 Sea AI Lab 等機構的研究者再次梳理了類 R1-Zero 的訓練過程,并在一篇博客中分享了三項重要發(fā)現(xiàn):

1. 在類似 R1-Zero 的訓練中,可能并不存在「頓悟時刻」。相反,我們發(fā)現(xiàn)「頓悟時刻」(如自我反思模式)出現(xiàn)在 epoch 0,即基礎模型中。

2. 他們從基礎模型的響應中發(fā)現(xiàn)了膚淺的自我反思(SSR),在這種情況下,自我反思并不一定會導致正確的最終答案。

3. 仔細研究通過 RL 進行的類 R1-Zero 的訓練,發(fā)現(xiàn)響應長度增加的現(xiàn)象并不是因為出現(xiàn)了自我反思,而是 RL 優(yōu)化設計良好的基于規(guī)則的獎勵函數(shù)的結果。

以下是博客的內容:

Epoch 0 的頓悟時刻

實驗設置如下:

基礎模型。我們研究了由不同組織開發(fā)的各種基礎模型系列,包括 Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math 和 Llama-3.x。

提示模板。我們使用 R1-Zero 和 SimpleRL-Zero 中使用的模板直接提示基礎模型:

  • 模板 1(與 R1-Zero 相同)

  • 模板 2(與 SimpleRL-Zero 相同)

數(shù)據(jù)。我們從 MATH 訓練數(shù)據(jù)集中收集了 500 道題,這些題統(tǒng)一涵蓋了五個難度級別和所有科目,用于填充上述模板中的 {Question}。

生成參數(shù)。我們在 0.1 至 1.0 之間對探索參數(shù)(溫度)進行網(wǎng)格搜索,以便對選定的問題進行模型推理。在所有實驗中,Top P 設置為 0.9。我們?yōu)槊總€問題生成 8 個回答。

經(jīng)驗結果

我們首先嘗試了所有模型和提示模板(模板 1 或模板 2)的組合,然后根據(jù)每個模型的指令遵循能力為其選擇了最佳模板,并將其固定用于所有實驗。得出以下結論:

發(fā)現(xiàn):「頓悟時刻」出現(xiàn)在 Epoch 0。我們觀察到,所有模型(除了 Llama-3.x 系列)在沒有任何后期訓練的情況下就已經(jīng)表現(xiàn)出了自我反思模式。

我們在下表中列出了所有觀察到的表明自我反思模式的關鍵詞。請注意,該列表可能并不詳盡。這些關鍵詞都是經(jīng)過人工驗證的,「等待」等詞被過濾掉了,因為它們的出現(xiàn)并不一定意味著自我反思,而可能是幻覺的結果。我們注意到,不同的模型會顯示與自我反思相關的不同關鍵詞,我們假設這是受其預訓練數(shù)據(jù)的影響。

圖 1a 展示了在不同基礎模型中引發(fā)自我反思行為的問題數(shù)量。結果表明,在不同的溫度下都能觀察到自我反思行為,其中一個趨勢是,溫度越高,在 epoch 0 出現(xiàn)「頓悟時刻」的頻率越高。

圖 1b 展示了不同自我反思關鍵詞的出現(xiàn)次數(shù)。我們可以觀察到,Qwen2.5 系列的基礎模型在產(chǎn)生自我反思行為方面最為活躍,這也部分解釋了為什么大多數(shù)開源的 R1-Zero 復現(xiàn)都是基于 Qwen2.5 模型。

圖 1a. 在不同基礎模型中,500 道數(shù)學問題中引發(fā)自我反思行為的問題數(shù)量。圖 1b. 40,000 個回答中出現(xiàn)的關鍵詞數(shù)量(500 個問題 × 每個問題 8 個回答 × 10 個溫度)。

在確認「頓悟時刻」確實是在沒有任何訓練的情況下出現(xiàn)在 epoch 0 后,我們想知道它是否如我們所期望的那樣 —— 通過自我反思來糾正錯誤推理。因此,我們直接在 Qwen2.5-Math-7B 基礎模型上測試了 SimpleRL-Zero 博客中使用的例題。令人驚訝的是,我們發(fā)現(xiàn)基礎模型已經(jīng)表現(xiàn)出了合理的自我糾正行為,如圖 2 所示。

圖 2. 我們直接在 Qwen2.5-Math-7B 基本模型上測試了 SimpleRL-Zero 博客中報告的同一問題,發(fā)現(xiàn)「頓悟時刻」已經(jīng)出現(xiàn)。

膚淺的自我反思

盡管圖 2 中的示例顯示了基礎模型通過自我修正 CoT 直接解決復雜推理問題的巨大潛力,但我們發(fā)現(xiàn)并非所有來自基礎模型的自我反思都有效,也并不總能帶來更好的解決方案。為了便于討論,我們將它們稱為膚淺的自我反思(Superficial Self-Reflection,SSR)。

就其定義而言,膚淺的自我反思(SSR)是指模型響應中缺乏建設性修改或改進的重評估模式。與沒有自我反思的響應相比,SSR 不一定會帶來更好的答案。

案例研究

為了進一步了解 SSR,我們進行了案例研究,并觀察到 Qwen-2.5-Math-7B 基礎模型響應中的四種自我反思模式:

  • 行為 1:自我反思,反復檢查以確認正確答案(圖 3a);
  • 行為 2:自我反思,糾正最初錯誤的想法(圖 3b 和圖 2);
  • 行為 3:自我反思,在原本正確的答案中引入錯誤(圖 3c);
  • 行為 4:反復自我反思,但未能得出有效答案(圖 3d)。

其中, 行為 3 和行為 4 是膚淺的自我反思,導致最終答案不正確。

圖 3a:自我反思再三檢查答案,確保正確性。

圖 3b:自我反思糾正最初錯誤的答案。

圖 3c:自我反思在原本正確的答案(x=12)中引入錯誤(x=4)。

圖 3d:反復自我反思卻無法提供有效的答案(無論正確或不正確)。

基礎模型容易出現(xiàn) SSR

接下來,我們分析了 Qwen2.5-Math-1.5B 正確和錯誤答案中自我反思關鍵詞的出現(xiàn)情況。正如圖 4 所示,在不同的采樣溫度下,大多數(shù)自我反思(以頻率衡量)都沒有得到正確答案。這表明基礎模型容易產(chǎn)生膚淺的自我反思。

圖 4:正確和錯誤答案中的自我反思次數(shù)。藍色條表示正確答案中自我反思關鍵詞的總出現(xiàn)次數(shù),而紅色條表示錯誤答案中自我反思關鍵詞的總出現(xiàn)次數(shù)。

深入探討類 R1-Zero 訓練

雖然模型響應長度的突然增加通常被視為類 R1-Zero 訓練中的頓悟時刻,但正如博客 Section 1 中的研究結果表明:即使沒有 RL 訓練,這種頓悟時刻也可能發(fā)生。因此,這自然引出了一個問題:為什么模型響應長度遵循一種獨特的模式,即在訓練初期減少,然后在某個點激增?

為了研究這一點,我們通過以下兩種方法來研究類 R1-Zero 訓練:

  • 在倒計時(Countdown)任務上復制 R1-Zero 以分析輸出長度動態(tài);
  • 在數(shù)學問題上復制 R1-Zero 以研究輸出長度與自我反思之間的關系。

長度變化是 RL 動態(tài)的一部分

我們使用了支持類 R1-Zero 訓練的 oat(一個研究友好的 LLM 在線對齊框架),以使用 GRPO 算法在倒計時任務(TinyZero 所用)上對 Qwen-2.5-3B 基礎模型進行 RL 調整。

在該任務中,模型被賦予三到四個數(shù)字,并被要求使用算法運算(+、-、x、÷)來生成目標等式。這樣不可避免地需要模型重試不同的方案,因此需要自我反思行為。

圖 5 右顯示了整個 RL 訓練過程中獎勵和響應長度的動態(tài)。與 TinyZero 和 SimpleRL-Zero 類似,我們觀察到獎勵持續(xù)增加,而長度先減少然后激增,現(xiàn)有工作將此歸因于頓悟時刻。然而,我們觀察到重試模式已經(jīng)存在于基礎模型的響應中(Section 1),但其中許多都是膚淺的(Section 2 ),因此獎勵很低。

圖 5(左)為不同響應組的分布和平均長度的詳細分析;(右)為測試獎勵和模型響應長度的 RL 曲線。

在初始學習階段,我們分析了基于規(guī)則的獎勵塑造對 RL 動態(tài)和響應長度變化的影響。圖 5(左)根據(jù)獎勵將模型響應分為了三個不同的組:

這種簡單的分解揭示了一些關于 RL 動態(tài)的見解:

  • 在 88 步之前的訓練以塑造獎勵 (r=0.1) 為主,通過調整模型使其在生成 token 預算內停止并在 <answer> </answer > 塊內格式化答案,從而可以更輕松地進行優(yōu)化。在此期間,冗長的錯誤響應受到抑制,平均響應長度急劇下降。
  • 在第 88 步,模型開始通過輸出更多重試(retries)來「爬上獎勵山」,朝著更高的獎勵(r=1 表示正確性)攀登。因此,我們觀察到正確響應的長度增加。伴隨而來的副作用是,模型輸出更多冗長的膚淺自我反思,導致平均響應長度激增。
  • 整個 RL 過程是將原本膚淺的自我反思轉變?yōu)橛行У淖晕曳此迹宰畲蠡A期獎勵,從而提高推理能力。

輸出長度和自我反思可能并不相關

按照 SimpleRL-Zero 的設置,我們使用 8K MATH 提示訓練 Qwen2.5-Math-1.5B。在訓練開始時,我們觀察到輸出長度減少,直到大約 1700 個梯度步,長度才開始增加(圖 6)。然而,自我反思關鍵詞的總數(shù)并沒有表現(xiàn)出圖 7 所示的與輸出長度的單調關系。這表明單憑輸出長度可能不是模型自我反思能力的可靠指標。

圖 6:使用 8K MATH 提示的 Qwen2.5-Math-1.5B 訓練動態(tài)。我們報告了 MATH500 上的測試準確率和平均響應長度。

圖 7:訓練期間自我反思關鍵詞的總數(shù)。

在我們使用的單節(jié)點服務器上,完整訓練過程大約需要 14 天,目前仍在進行中(進度相當于 SimpleRL-Zero 中的 48 個訓練步)。我們將在完成后提供更詳細的分析。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-11 16:15:09

2024-07-22 08:03:55

2023-09-12 08:02:13

viewport斷點

2025-04-23 15:23:25

AI模型代碼

2025-02-24 09:00:00

微軟模型算法

2025-03-24 10:00:00

2016-12-13 09:05:27

大數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)可視化

2025-05-06 09:09:37

2023-11-07 07:18:45

國產(chǎn)顯卡張建中

2025-01-21 10:10:56

2025-02-08 11:31:17

DeepseekR1模型

2021-03-08 15:28:18

滴滴網(wǎng)約車大數(shù)據(jù)

2024-12-13 08:25:59

DML操作SQL

2025-02-24 08:40:00

開源模型訓練

2024-12-17 10:40:26

2025-04-22 15:32:06

AI模型LLM

2024-05-14 09:22:51

模型技術

2018-07-03 14:20:10

數(shù)據(jù)庫恢復備份

2010-01-05 13:52:02

點贊
收藏

51CTO技術棧公眾號

在线视频中文字幕第一页| 国产一级淫片a视频免费观看| 日韩欧乱色一区二区三区在线 | 国产福利在线观看视频| 香蕉伊大人中文在线观看| 国产欧美一区二区在线观看| 91精品久久久久久久久久| 波多野结衣亚洲色图| 同性恋视频一区| 欧美日本视频在线| 黄色国产一级视频| 成年女人的天堂在线| 国产成人自拍网| 国产99视频精品免视看7| 日韩一卡二卡在线观看| 欧亚精品一区| 日韩一级片在线观看| 农村妇女精品一二区| 美女av在线播放| 久久久精品影视| 69174成人网| 黄色av一级片| 欧美电影免费播放| 欧美mv日韩mv国产网站| 国产第一页视频| 伦理av在线| 国产精品久久久久9999吃药| 国新精品乱码一区二区三区18| 日韩精品成人一区| 99久久精品费精品国产| 亚洲欧美一区二区三区在线| 国产xxx在线观看| 久久91视频| 色婷婷一区二区三区四区| 真人抽搐一进一出视频| 九色porny丨首页在线| 久久精品网站免费观看| 精品国产区在线| 成人av手机在线| 国产一区二区按摩在线观看| 国产女精品视频网站免费| 亚洲成人第一网站| 亚洲一区二区三区免费在线观看| 草民午夜欧美限制a级福利片| 正在播放国产对白害羞| 欧美限制电影| 伊人久久五月天| 精品无码国产污污污免费网站| 精品网站aaa| 欧美不卡视频一区| 午夜免费视频网站| 精品久久国产一区| 欧美一级在线视频| 杨幂一区二区国产精品| 久久国产精品免费一区二区三区| 欧美性极品少妇| 尤蜜粉嫩av国产一区二区三区| 欧美三级网址| 日本高清无吗v一区| 成人黄色一区二区| 日韩一区精品| 欧美精品亚洲一区二区在线播放| 亚洲综合欧美激情| 国产一区二区三区免费观看在线| 7777精品久久久大香线蕉| 在线一区二区不卡| 亚洲日日夜夜| 日本道色综合久久| 中文字幕日本最新乱码视频| 黄色在线网站噜噜噜| 欧美日韩在线免费| 人人爽人人av| 亚洲人体在线| 亚洲成人精品久久久| 久久一区二区电影| 国产日产精品_国产精品毛片| 国产一区二区三区四区福利| 麻豆精品国产免费| 欧美片第1页综合| 国模私拍一区二区三区| 天天操天天摸天天干| 日韩中文字幕区一区有砖一区 | 中文字幕人妻熟女人妻洋洋| 国产在线xxx| 色综合久久久久网| 岛国av免费在线| 黄色免费大全亚洲| 国产香蕉精品视频一区二区三区| www.av免费| 亚洲二区在线| 国产精品老女人精品视频| 国产a级免费视频| 久久综合狠狠综合| dy888午夜| 忘忧草在线日韩www影院| 欧美日免费三级在线| 国产精品熟妇一区二区三区四区| 蜜桃国内精品久久久久软件9| 中文字幕在线亚洲| 日韩欧美大片在线观看| 蜜乳av一区二区三区| 成人在线视频网址| chinese偷拍一区二区三区| 一区二区三区在线视频播放| 国产裸体舞一区二区三区| 亚洲成人1区| 精品视频久久久久久久| 国产一二三四区| 一本色道88久久加勒比精品| 国产精品一区=区| 色一情一乱一乱一区91av| 国产精品看片你懂得| 水蜜桃色314在线观看| 大胆国模一区二区三区| 亚洲欧美一区二区三区在线| 国产亚洲精品久久777777| 免费成人av在线播放| 精品乱子伦一区二区三区| 欧美96在线| 91豆麻精品91久久久久久| 久久性爱视频网站| 91九色精品国产一区二区| 国产97色在线| 午夜小视频在线播放| 亚洲精品成人少妇| 黄色片一级视频| 欧美影院在线| 亚洲一二三在线| 日韩欧美高清在线观看| 国产激情精品久久久第一区二区| 日韩影院一区| 色8久久影院午夜场| 亚洲精品美女在线观看| 国产亚洲欧美精品久久久久久| 激情综合色综合久久| 亚洲视频导航| 国产成人精品一区二区三区在线| 亚洲男子天堂网| 亚洲精品www久久久久久| 成人一二三区视频| 亚洲一区二区三区av无码| **国产精品| 久久久国产精彩视频美女艺术照福利| 欧美一区二区三区网站| 久久视频一区二区| 久久无码高潮喷水| 免费看av成人| 日韩av123| 国产视频网址在线| 91久久香蕉国产日韩欧美9色| 国产精品无码永久免费不卡| 亚洲一区日韩在线| 欧美大陆一区二区| 625成人欧美午夜电影| 亚洲美女性视频| 亚洲国产精品无码久久久| 国产欧美综合色| 久久国产精品国产精品| 国产二区精品| 99热国产免费| heyzo在线欧美播放| 亚洲国产另类 国产精品国产免费| 国产香蕉在线视频| av电影在线观看不卡| 欧美三级午夜理伦三级| 欧美综合视频| 91欧美精品成人综合在线观看| 九义人在线观看完整免费版电视剧| 欧美福利一区二区| 欧美黑人性猛交xxx| 成人深夜视频在线观看| 国产二区视频在线播放| 成人激情诱惑| 51国产成人精品午夜福中文下载| heyzo中文字幕在线| 亚洲视频在线视频| 国产在成人精品线拍偷自揄拍| 亚洲精品免费视频| 中文文字幕文字幕高清| 日本午夜一区二区| 91免费版看片| 亚洲国产合集| 成人国产精品久久久| 福利网站在线观看| 这里精品视频免费| 亚洲欧美另类一区| 色先锋久久av资源部| 免费中文字幕在线| 久久久99精品免费观看不卡| 中文字幕精品一区二区三区在线| 国产精品国码视频| 欧美三级华人主播| 欧美日韩黄网站| 日本中文字幕成人| 色图在线观看| 国产亚洲视频中文字幕视频| 999免费视频| 色哟哟亚洲精品| 亚洲色图综合区| 久久久综合激的五月天| 极品人妻一区二区| 日韩激情一区二区| 欧美这里只有精品| 99久精品视频在线观看视频| 乱色588欧美| 久久伊人影院| 国产精品美女久久久久久免费| 欧美精品videosex| 俺也去精品视频在线观看| 午夜av免费在线观看| 日韩午夜激情免费电影| 丰满人妻一区二区三区四区| 调教+趴+乳夹+国产+精品| 成人免费精品动漫网站| 久久精品亚洲精品国产欧美| 亚洲午夜久久久久久久久| 久久精品国产亚洲aⅴ| a√天堂在线观看| 欧美精品1区| 亚洲一区精彩视频| 国产不卡一区| 加勒比在线一区二区三区观看| www久久久| 国产精品美女www爽爽爽视频| 国产无遮挡裸体视频在线观看| 精品国产一区久久久| 高清在线观看av| 精品亚洲精品福利线在观看| 丰满肉嫩西川结衣av| 欧美一区午夜精品| 国产一区二区三区四区视频 | 久久成人免费观看| 欧美视频网站| 日本道在线视频| 天天综合国产| 特级毛片在线免费观看| 日韩在线观看一区| 日韩尤物视频| 狠狠做深爱婷婷综合一区| 久久久久一区二区| 国产伦理久久久久久妇女| 成人区精品一区二区| 亚洲一区二区免费在线观看| 7777奇米亚洲综合久久| 亚洲午夜剧场| 91欧美日韩一区| 美女国产精品久久久| 91影视免费在线观看| 久久久精品区| 91蜜桃网站免费观看| 亚洲电影一区| 国产精品日韩一区二区三区 | av2020不卡| 久久久久久中文字幕| 男男gaygays亚洲| 久久久久久久色| 女厕盗摄一区二区三区| 欧美中文字幕视频| 日本综合字幕| 国产欧美久久久久久| 成人激情久久| 国产精品av一区| 偷拍视屏一区| 午夜精品视频在线观看一区二区| 青青草原综合久久大伊人精品 | 色哟哟一区二区三区| 精品国产www| 91精品国产品国语在线不卡| 性中国xxx极品hd| 亚洲第一男人av| 成人在线观看一区| 久久久精品视频在线观看| 免费在线中文字幕| 国产不卡一区二区在线播放| 欧美一级二级视频| 亚洲一区二区三区视频| 精品素人av| 一区二区精品国产| 亚洲成人在线| 九色91popny| 夫妻av一区二区| 人妻一区二区视频| 亚洲精品欧美在线| 人妻 日韩精品 中文字幕| 欧美午夜精品久久久久久超碰| 国产哺乳奶水91在线播放| 亚洲国产成人一区| 岛国在线大片| 欧美激情2020午夜免费观看| 天天免费亚洲黑人免费| 亚洲最大激情中文字幕| 妖精视频一区二区三区| 日本女人高潮视频| 久久精品91| 无码人妻少妇色欲av一区二区| 91在线观看高清| 欧美在线|欧美| 性无码专区无码| 欧美另类videos死尸| 日本免费一区视频| 色哟哟网站入口亚洲精品| 丁香高清在线观看完整电影视频| 国产成人精品在线| а√中文在线天堂精品| 亚洲精品国产精品国自产| 亚洲精品日韩久久| 国产欧美精品一二三| 久久一区二区三区四区| 久青草视频在线观看| 777亚洲妇女| 户外极限露出调教在线视频| 欧美国产亚洲视频| 日韩精品第二页| 欧美精品一区二区视频| 亚洲国产专区| 女王人厕视频2ⅴk| 中文字幕在线观看不卡| 波多野结衣mp4| 日韩电影中文字幕在线观看| 日本在线视频网址| 国产一区二区丝袜高跟鞋图片| 日韩在线麻豆| 阿v天堂2018| 国产精品夜夜爽| 糖心vlog免费在线观看| 欧美视频三区在线播放| 男女污视频在线观看| 69久久夜色精品国产69| 国产成人澳门| 日韩欧美视频免费在线观看| 久久99久久久欧美国产| 波多野结衣一二三四区| 色嗨嗨av一区二区三区| 日韩在线免费看| 国产69久久精品成人| 美女一区二区在线观看| 成人网站免费观看入口| 高清在线观看日韩| www.超碰在线观看| 日韩亚洲欧美中文三级| 成人高清免费在线| 亚洲a一级视频| 国产精品成人一区二区不卡| 亚洲综合欧美激情| 中文字幕一区二区三区四区| 97超碰国产在线| 久久人人爽人人爽人人片亚洲| 欧美黄色网络| 中文字幕欧美日韩一区二区| 精品一区二区日韩| 玖玖爱这里只有精品| 日韩精品一区二区三区在线播放| 污污视频在线| 国产精品久久久对白| 好吊一区二区三区| 久久福利小视频| 精品久久久久久久久久久久久久| 外国精品视频在线观看| 欧美在线免费视频| 国产一区二区三区探花| 美女黄色片视频| 亚洲少妇30p| 免费的黄色av| 99草草国产熟女视频在线| 久久精品国产99久久6| 无码人中文字幕| 色综合天天爱| 日韩片电影在线免费观看| 免费人成网站在线观看欧美高清| 日本黄色激情视频| 宅男噜噜噜66一区二区66| 在线视频国产区| 激情一区二区三区| 日本欧美韩国一区三区| 99成人在线观看| 精品国产露脸精彩对白| 青青青免费在线视频| 色婷婷精品国产一区二区三区| 久久99在线观看| 日韩av黄色片| 国产一区二区三区在线观看网站| 日韩黄色三级| 亚洲熟妇无码一区二区三区导航| 久久久久亚洲综合| 91精品视频免费在线观看| 欧美激情一区二区三区成人| 欧美女王vk| 在线视频日韩欧美| 欧美日韩人人澡狠狠躁视频| av电影在线观看一区二区三区| 99久久综合狠狠综合久久止| 久久都是精品| 久久精品黄色片| 亚洲人a成www在线影院| 精品国产三区在线| 成人三级视频在线播放| 亚洲综合色噜噜狠狠| 春暖花开成人亚洲区| 成人三级在线| 久久99精品久久只有精品|