精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI僅憑“自信”學會推理,浙大校友復刻DeepSeek長思維鏈涌現,強化學習無需外部獎勵信號

人工智能 新聞
大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。

復刻DeepSeek-R1的長思維鏈推理,大模型強化學習新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:

大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。

圖片

具體來說,新方法完全不需要外部獎勵信號或標注數據,只需使用模型自身的置信程度作為內在獎勵信號。

與使用外部獎勵信號GRPO相比,新方法在數學任務上不需要標準答案也能提升基礎模型性能,在代碼任務上表現得更好。

圖片

幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。

圖片

作者表示兩者的主要區別在于使用KL散度和最小化熵衡量自信程度。

圖片

Dropbox工程副總裁看后表示:Confidence is all you need

圖片

“自信”驅動的強化學習

長期以來,訓練大模型主要依賴兩種方式:

要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見,后者則局限于數學、編程等有明確答案的領域。

那么當AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產生的內在信號,擺脫對外部監督的依賴?

針對這個問題,UC Berkeley團隊提出新訓練方法Intuitor,計算模型預測分布與均勻分布之間的KL散度作為“自信程度”。

圖片

相當于人類做題時,如果對答案有把握思路也會更清晰,當自信不足的時候往往需要重新思考。

通過優化這個內在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結構化的推理過程。

在實驗中,1.5B和3B的小模型也涌現出與DeepSeek-R1類似的長思維鏈推理行為。

圖片

論文還指出,內在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風險。

傳統外部獎勵信號的強化學習容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數學題中直接背答案而非推理。

在INTUITOR中,團隊發現如果使用離線學習,在訓練約100步的時候模型也學會了作弊:在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題,評估標準隨著模型能力哦一起進化,作弊策略變得無效。

圖片

實驗結果:不僅會做題,還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數據集的預訓練中。

使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數設置為0.005。

在數學推理、代碼生成、指令遵循的基準測試中進行性能評估,結果如圖所示:

圖片

實驗表明,在通過INTUITOR進行微調后,Qwen2.5-1.5B從最初只會輸出重復的無意義內容且對話任務得分均低于10%,轉變為無效輸出大幅減少、響應長度有效增加。

圖片

在結構化推理能力上,團隊還發現INTUITOR早期學習速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優于GRPO(0.758)。

圖片

此外,INTUITOR在多任務泛化上也表現優秀,例如當Qwen2.5-3B在代碼生成任務上,雖然相對滯后但持續增長,最終性能比GRPO高8%,相對提升65%

圖片

同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理 (如“為解決X問題,需先執行Y步驟”),據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段:

  1. 模型學會生成代碼,實現準確率提升和無效響應減少。
  2. 進行代碼前推理以促進自我理解。
  3. 逐步細化生成帶詳細推理的有效代碼。

圖片

為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。

實驗發現離線獎勵會在100步后通過添加無關內容導致準確率崩潰,而在線獎勵與策略協同演化,可有效防止破解。

圖片

為進一步評估自我確定度作為獎勵信號的質量,研究人員還分析了模型在MATH500響應中生成的自我確定度分數分布。

值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區分度明顯低于INTUITOR。

圖片

由于受計算資源限制,實驗只在相對較小的無監督語料庫上進行訓練,未來可在更大規模的基礎模型和更多樣化的真實世界數據集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學的Aosong Feng,以及Sergey Levine和Dawn Song。

圖片

2019年,Xuandong Zhao從浙江大學畢業后,就進入了加州大學圣塔芭芭拉分校攻讀計算機科學博士學位,期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。

圖片

另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。

圖片

論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-03 08:38:00

2025-06-25 09:28:38

2025-05-30 04:00:00

IBMRLVRGRPO

2022-10-26 13:27:12

論文

2025-06-27 04:00:00

RLSC強化學習微調

2025-08-08 09:04:00

2025-10-27 08:54:00

2025-08-11 08:38:00

模型AI數據

2025-05-28 02:25:00

2022-12-01 08:00:00

2025-04-25 09:20:00

數據模型AI

2025-09-15 14:44:59

圖像生成AI模型

2025-03-05 04:00:00

2022-12-21 17:27:30

強化學習AI

2025-05-09 08:40:00

2021-06-11 09:28:04

人工智能機器學習技術

2025-04-15 09:12:00

模型AI強化學習

2025-06-30 09:08:00

2025-09-28 15:35:32

AI模型強化學習
點贊
收藏

51CTO技術棧公眾號

成人春色激情网| 日韩欧美在线字幕| 亚洲一区二区免费在线| 毛片a片免费观看| 噜噜噜狠狠夜夜躁精品仙踪林| 香蕉久久一区二区不卡无毒影院| 欧美日韩在线播放一区二区| 伊人成人在线观看| 欧美人成在线| 亚洲欧洲免费视频| 中文字幕一区二区在线观看视频 | 国产一区二区三区无遮挡| 69成人免费视频| 婷婷丁香综合| 亚洲精品网站在线播放gif| 国产一伦一伦一伦| 成av人片在线观看www| 中文字幕成人av| 国产伦精品一区二区| 中文字幕在线观看精品| 亚洲大胆av| 精品久久国产精品| 国产传媒第一页| 欧美成年网站| 欧美少妇一区二区| 精品av久久707| 色噜噜偷拍精品综合在线| 国产高清一区二区三区| 乱子伦一区二区三区| 九色视频在线观看免费播放| 中文字幕国产免费| av在线免费在线观看| 校园激情久久| 九九久久综合网站| 色欲狠狠躁天天躁无码中文字幕| 91精品日本| 欧美精品欧美精品系列| 九九热精品视频在线播放| 日韩成人av影院| 欧美网站免费| 一本到三区不卡视频| r级无码视频在线观看| 国产在线激情| 国产精品久久久久久久久免费桃花 | 欧美视频在线观看免费| 日韩xxxx视频| heyzo中文字幕在线| 亚洲激情五月婷婷| 大地资源第二页在线观看高清版| 国产1区2区3区在线| 久久综合九色综合97婷婷 | 日韩av网站在线免费观看| 日韩免费在线观看| 人妻少妇偷人精品久久久任期| 欧美成人毛片| 日本天堂影院在线视频| 欧美18—19性高清hd4k| 黄视频免费在线看| 亚洲高清视频在线| 亚洲人成无码网站久久99热国产| 青青青国内视频在线观看软件| 99久久亚洲精品日本无码| 一区二区三区四区五区视频| 日韩人妻无码一区二区三区99| 五月开心六月丁香综合色啪| 中文字幕九色91在线| 人妻精品久久久久中文| 在线日韩一区| 亚洲网在线观看| 波多野吉衣中文字幕| 一本色道久久综合亚洲精品酒店| 亚洲美女性生活视频| 男人操女人动态图| 91视频综合| 欧美尺度大的性做爰视频| 婷婷色中文字幕| 一区二区亚洲| 欧美综合第一页| 人妻aⅴ无码一区二区三区| 久久久久久欧美精品色一二三四| 国产又黄又爽又无遮挡| 久久中文字幕av| 欧美xxxx14xxxxx性爽| 清纯粉嫩极品夜夜嗨av| 亚洲精品九九| 国产精品xxxxx| 日韩一区二区视频在线| 在线人成日本视频| 欧美视频精品一区| 国产男女激情视频| 自拍偷拍亚洲图片| 欧美成人福利视频| 欧美放荡的少妇| 亚洲成年人在线| 熟女少妇精品一区二区| 色8久久久久| 精品免费视频.| 少妇光屁股影院| 欧美电影一区| 欧美激情中文网| 国产精品免费无遮挡无码永久视频| 麻豆视频一区二区| av在线不卡一区| 男人的天堂在线免费视频| 国产精品国产三级国产普通话三级| 青青视频免费在线观看| 欧美xxx网站| 日韩欧美综合一区| 精品成人无码一区二区三区| 欧美人成网站| 国产日韩欧美成人| 五月婷婷久久久| ...xxx性欧美| 北条麻妃在线视频| 6080成人| 中文字幕久久久av一区| 日韩福利片在线观看| 久久99精品国产.久久久久久| 国产午夜精品一区| 1769视频在线播放免费观看| 午夜成人在线视频| 污污视频在线免费| 欧美极品在线观看| 97精品久久久| 精品国自产在线观看| 欧美国产视频在线| 激情六月丁香婷婷| 91精品尤物| 久久国产精品电影| 中文字幕永久免费视频| 91一区二区在线观看| 欧美日韩dvd| 亚洲青青一区| 中文字幕在线观看日韩| 探花视频在线观看| 成人免费三级在线| 日韩video| 国产亚洲欧美日韩精品一区二区三区 | 亚洲av片一区二区三区| 亚洲人精品午夜| 亚洲国产精品三区| 综合综合综合综合综合网| 97国产精品视频| 丰满少妇被猛烈进入| 亚洲精品视频观看| 亚洲图片 自拍偷拍| 日韩一区电影| 国产精品网址在线| www 日韩| 欧美日韩国产免费| 国产三级精品三级观看| 韩国欧美国产1区| 在线观看成人av| 色综合一区二区日本韩国亚洲| 在线成人中文字幕| 中文字幕永久在线视频| 中文字幕一区二区三| 蜜桃免费在线视频| 操欧美老女人| 国产在线高清精品| 男人天堂手机在线| 欧美一区二区三区电影| 黄色在线观看免费| 成人妖精视频yjsp地址| 人妻av中文系列| 欧美国产不卡| 日韩av免费在线观看| 国产精品一级伦理| 欧美日韩精品免费观看视频| 久久高清内射无套| 国产精品888| 国产原创中文在线观看| 日本福利一区| 国产精品va在线播放| 无遮挡的视频在线观看| 日韩一级完整毛片| 日韩av综合在线| 国产视频在线观看一区二区三区| 日日干夜夜操s8| 欧美成人日韩| 久久国产精品亚洲va麻豆| 亚洲一区二区三区四区| 超薄丝袜一区二区| 深爱激情五月婷婷| 欧美在线啊v一区| 青娱乐国产盛宴| 91麻豆精品视频| 免费成人黄色大片| 亚洲激情不卡| 亚洲成人午夜在线| 97精品久久| 国产精品精品久久久| a视频在线播放| 国产视频久久久久| 国产又粗又长视频| 岛国av午夜精品| 亚洲欧美精品久久| 99九九99九九九视频精品| 国产高清视频网站| 韩国亚洲精品| 五月天亚洲综合| 97久久综合区小说区图片区| 国产精品电影在线观看| 色yeye免费人成网站在线观看| 亚洲视频在线播放| 亚洲国产精品久久久久久久| 欧美丝袜丝交足nylons图片| 日韩免费av片| 美女精品视频| 国产福利电影一区二区三区| 91视频最新入口| 亚洲精品国产偷自在线观看| 久久久久久a亚洲欧洲aⅴ| 亚洲最大的免费视频网站| 3344国产精品免费看| 成人在线免费看黄| 亚洲人成77777在线观看网| www.看毛片| 欧美猛男gaygay网站| 97久久久久久久| 亚洲一区视频在线| 国产小视频你懂的| 国产亚洲精品资源在线26u| 日本人妻一区二区三区| 麻豆国产91在线播放| 亚洲熟妇av一区二区三区漫画| 欧美不卡高清| 久久av秘一区二区三区| 精品国产一区二区三区久久久蜜臀| 成人蜜桃视频| 国产精品一区二区美女视频免费看| 欧美在线视频观看| mm视频在线视频| 欧美精品中文字幕一区| 日本三级在线播放完整版| 亚洲欧美中文日韩在线| 日本高清视频网站| 日韩精品在线看片z| 国产日韩欧美一区二区东京热 | 亚洲永久激情精品| 精品一区欧美| 欧美 日韩 国产在线| 日本成人7777| 欧美国产二区| 欧美jizz19性欧美| 国产亚洲自拍偷拍| 久久九九热re6这里有精品 | 久久国产精品首页| 国产丝袜在线| 久久视频在线直播| 大片免费在线观看| 九九热精品视频在线播放| а√天堂资源地址在线下载| 精品中文字幕在线观看| 色婷婷av在线| 97久久伊人激情网| 免费成人在线电影| 日本国产一区二区三区| 欧美一区国产| 国产精品视频网站| 亚洲男女网站| 99影视tv| 偷窥自拍亚洲色图精选| 欧美一区1区三区3区公司| 国产在视频线精品视频www666| 日韩欧美三级电影| 国产精品久久天天影视| 18视频在线观看娇喘| 欧美日韩视频一区二区三区| 成年在线观看视频| 在线日韩视频| 国产麻花豆剧传媒精品mv在线| 久久九九电影| 免费一区二区三区在线观看| 国产一区二区中文字幕| 亚洲少妇一区二区三区| 26uuu国产一区二区三区| 人妻av无码一区二区三区| 国产精品乱子久久久久| 久久久国产精华液| 欧美色视频日本高清在线观看| 波多野结衣大片| 欧美一区二区视频在线观看| 欧美熟女一区二区| 亚洲视频在线播放| 性网站在线观看| 5278欧美一区二区三区| 欧美日韩免费观看视频| 92国产精品久久久久首页| 男人的天堂久久| 亚洲一区二区在线看| 国产精品v一区二区三区| 青青青在线播放| 国产一区二区三区精品视频| 国产精品无码电影| 亚洲视频你懂的| 亚洲天堂视频网站| 91精品国产欧美一区二区成人| 青青草在线播放| 欧美xxxx18国产| 欧美激情喷水| 99porn视频在线| 欧美日韩一二| 国产深夜男女无套内射| 久久99国内精品| 欧洲一级黄色片| 亚洲免费伊人电影| 男人天堂视频网| 精品国产乱码久久久久久浪潮| 69xxxx欧美| 欧美亚洲在线视频| 亚洲视频国产| 一区二区视频在线播放| 香蕉久久夜色精品国产| 好吊操视频这里只有精品| 国产精品久久久久婷婷| 国产无遮挡呻吟娇喘视频| 精品乱人伦小说| 蜜芽在线免费观看| 国产成人拍精品视频午夜网站| 高清日韩中文字幕| 亚洲图片在线观看| 老妇喷水一区二区三区| 伊人久久一区二区三区| 亚洲美女屁股眼交| 一个人看的www日本高清视频| 91官网在线| 日韩天堂在线视频| 欧美magnet| 久久久福利视频| 欧美特黄一区| 日日夜夜精品视频免费观看 | 欧美蜜桃一区二区三区| 超碰免费在线| 日本精品视频在线播放| 精品精品国产三级a∨在线| 久操手机在线视频| 国产伦理精品不卡| 又色又爽的视频| 欧美伊人精品成人久久综合97| 噜噜噜噜噜在线视频| 欧美一区二区.| 欧洲亚洲一区二区三区| www插插插无码视频网站| 国产成人精品1024| 免费在线视频一区二区| 欧美成人aa大片| 午夜伦理大片视频在线观看| 91九色在线免费视频| 亚洲综合专区| 师生出轨h灌满了1v1| 一级精品视频在线观看宜春院| www.激情五月.com| 欧美精品video| 玖玖玖免费嫩草在线影院一区| 成人免费视频91| 91蜜桃网址入口| 老熟妇仑乱一区二区av| 亚洲免费视频一区二区| 国产超碰精品| 亚洲欧洲日韩综合二区| 精品一区二区三区在线观看| 日韩国产第一页| 日韩免费观看高清完整版| 久久青青色综合| 精品九九九九| 日韩中文字幕不卡| 国精产品久拍自产在线网站| 欧美一级高清片| a级大胆欧美人体大胆666| 久久精品国产美女| 日韩激情一区二区| 国产福利视频网站| 精品av久久707| 欧美日韩电影免费看| 亚洲欧美成人一区| 国产精品视频一区视频二区| 国产精品 欧美在线| 日韩一区三区| 国产成人av片| 色婷婷综合久色| 黄色在线论坛| 国产综合动作在线观看| 久久精品主播| 岛国毛片在线观看| 日韩av最新在线| 久久er热在这里只有精品66| 男人日女人的bb| 久久免费看少妇高潮| 国产又粗又大又爽| 91精品国产91久久久久福利| 日韩三级在线| 污污内射在线观看一区二区少妇| 在线一区二区三区四区五区| 综合久久2019| 欧美一区激情视频在线观看| 国产精选一区二区三区| 91久久国产综合久久91| 欧美另类极品videosbestfree| 制服丝袜日韩|