精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

頓悟不是玄學!港科大清華等聯手:撕開推理黑箱,RL讓AI像人思考

人工智能 新聞
DeepSeek的強化學習GRPO為什么能讓大模型「集體頓悟」?港科大、滑鐵盧、清華等團隊最新研究給出統一解釋:在RL中,LLM推理自發分層——先鞏固底層「執行」,再探索高層「規劃」。基于此,還提出了更強HICRA算法。

眾所周知,強化學習(Reinforcement Learning,RL)能提升大語言模型LLM的推理能力。

但沒人說清楚:為什么會這樣?

最近,香港科技大學、滑鐵盧大學、清華大學等機構的研究者在arXiv提交預印本,首次揭示:

大模型正在以類人的方式學會推理——通過將高層策略規劃與底層程序執行相分離。

論文鏈接:https://arxiv.org/abs/2509.03646

DeepSeek究竟如何讓LLM學會推理?

強化學習(RL)雖已成為提升LLM復雜推理能力的顛覆性技術,但其內在機制始終不甚明朗。

年初,DeepSeek-R1一鳴驚人,讓開源AI首次直逼OpenAI的推理模型o1。

在論文中,DeepSeek研究團隊強調了強化學習的重要性:

大模型與強化學習環境交互,自然涌現出反思和重新評估(reflection)之類的行為。

他們給出了兩條重要實驗線索:「長度縮放效應」(length-scaling)和「頓悟時刻」(aha moment)。

在訓練過程中,DeepSeek-R1-Zero的思考時長持續增長,自然而然地學會了用更多的思考時間來解決推理任務,如下圖所示。

在強化學習(RL)過程中,DeepSeek-R1-Zero在訓練集上的平均響應長度

在DeepSeek-R1-Zero的某個中間版本中,AI出乎意料地進入了「頓悟時刻」。他們認為這是強化學習的「力與美」。

DeepSeek-R1-Zero的中間版本展現了一個有趣的「頓悟時刻」:該模型學會了采用擬人化的方式來表達思考過程

這些現象如此奇特,被多家實驗室復現。

為什么呢?為什么強化學習能提升LLM的推理能力?這些問題之前無人明確解釋。

這次的研究突破性地揭示:

像「頓悟時刻」這類令人困惑的現象并不是孤立的事件,而是新興推理層次結構的標志,類似于人類認知中高層次策略規劃與低層次程序執行的分隔。

這一次揭示了強化學習推動推理能力提升的核心機制:模型先固化基礎執行能力,再自主發展出策略規劃能力。

階段1(底層技能鞏固):以執行tokens(execution tokens)的熵值下降為標志,模型專注于鞏固低級技能(如算術計算、格式規范)。

階段2(高層規劃探索):學習重心轉向高級規劃,以規劃tokens(planning tokens)的語義多樣性提升為特征,模型持續增強推理能力并出現長度縮放效應(length scaling)。

圖1:(左圖)大語言模型的推理過程呈現出類人的層次化推理結構:高層策略規劃與底層程序執行。(右圖)在強化學習訓練中,層次化推理通過兩階段動態過程涌現

研究者通過區分兩類token驗證這種轉變:執行token對應具體操作步驟,規劃token則體現為「嘗試其他方法」等策略性表達。

他們發現,當模型掌握執行token后,規劃token的多樣性顯著增加,這與推理能力提升及解決方案鏈條延長直接相關。

基于此,團隊提出分層感知信用分配機制(HICRA)。

與傳統均勻分配學習權重不同,HICRA重點強化規劃token的學習權重,從而加速模型探索和鞏固策略的能力。

實驗表明,HICRA始終優于主流GRPO方法,且在模型已具備扎實執行技能時效果最佳——若執行基礎薄弱,HICRA的優勢則難以發揮。

這項研究的核心啟示在于:推理能力的真正突破源于規劃能力的提升,而非僅僅優化執行細節。

強化學習增強推理的兩階段動力學

實驗分析表明,經強化學習訓練的大語言模型并非整體性提升,而是遵循一種"性能瓶頸"隨時間轉移的兩階段學習動態。

第一階段:鍛造可靠程序引擎

初期,模型專注于掌握基礎能力。它學習可靠地執行低級操作步驟,如格式規范、算術運算和變量替換。

這一階段體現為「執行token」的不確定性(困惑度及token熵)急劇下降。

RL訓練動力學:執行token的熵(圖中灰色線)下降,而規劃token的語義熵(圖中紅色線)上升

研究者追蹤了代表性模型家族的訓練動態曲線。

上圖前兩列顯示,模型初始聚焦于程序鞏固階段,表現為執行token的模型困惑度(更高置信度)和token熵(更確定性)急劇下降。

隨后發生向策略規劃探索的轉變(第三列),規劃策略的多樣性(語義熵)在Qwen模型上持續增長,或在Llama模型上出現拐點后增長,這與準確率持續提升及推理鏈延長(第四列)密切相關。

對于強模型或易學習數據,此階段可能短暫甚至不存在,因為模型已具備可靠的基礎低級技能,通常僅需對格式token進行最小調整。

第二階段:掌握高級策略規劃

當模型在低級技能上奠定堅實基礎后,學習前沿發生轉移。性能提升轉為由探索和掌握高級策略驅動——例如選擇新方法、回溯或識別關鍵定理。

通過測量規劃token的語義熵,這次研究驗證了這一轉變。其中的語義熵用于反映模型高級策略計劃的多樣性。

規劃token的語義熵(紅線,第三列)從開始或拐點處持續上升,這種增長與推理準確率提升和長度縮放效應同步發生。

這表明策略正在主動擴展其策略計劃庫,以實現推理能力的持續提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。

揭秘「神秘的現象」

這次的分層框架為強化學習訓練中一些長期讓人困惑的現象,提供了統一而清晰的解釋:

1、「頓悟時刻」并非偶然靈光。

這類轉折并不是隨機爆發的才思,而是某種行為特征信號:模型在「發現—掌握—強化」某種強力的高層策略(如自我反思)

當策略被納入并穩定執行時,模型的表現會出現突躍式改善。

2、「長度縮放」源于更好的規劃。

隨著模型探索到更豐富、更精細的策略(包括分類討論、預先規劃、回溯等),它自然會生成更長、更有結構的推理鏈條;而這類更長的輸出,往往意味著更高的成功率與更好的表現

換言之,「輸出越長越準」的現象,本質是高層規劃能力增強的外在體現。

3、復雜的「熵」變化,其實并不神秘。

整體的token級熵常見下降,并非模型「變笨」,而是因為數量龐大的執行類詞元(格式、算術、替換等)在訓練中變得高度可預測,把總體曲線往下拉。

真正反映策略探索進展的,是高層規劃詞元的語義熵:它隨訓練逐步上升,準確刻畫出模型在發明與擴充策略譜系方面的探索步伐。

歸結起來:第一階段通過降低執行不確定性「打好基本功」,第二階段通過提升規劃多樣性「把思路打開」。這些看似各自為政的現象,其實都出自同一套分層學習動力學

這一發現揭示了當前RL方法(如GRPO)的核心低效問題:

它們對所有token施加無差別優化壓力,稀釋了學習信號。

既然高級推理的關鍵在于掌握策略,為何還要在已掌握的程序性步驟上浪費精力?

為解決此問題,研究者提出了一種新算法HICRA(Hierarchy-Aware Credit Assignment,分層感知信用分配),其核心設計理念是:

將模型的學習能力聚焦于稀疏但高價值的規劃token。

分層感知信用分配

聚焦關鍵要素

通過放大策略舉措的學習信號,HICRA加速了有效推理模式的發現與強化進程。

實驗結果,效果驚人:定向優化規劃全贏了!

在多個純文本及視覺語言模型中,HICRA不斷超越強大的GRPO基線方法,顯著驗證了定向優化規劃token的有效性。

表1:在多項數學推理基準測試中,HICRA、GRPO與基座模型的性能對比。

表2:在多模態推理基準測試中,HICRA與GRPO的性能對比

為探究強化學習最有效的應用方向,這次分析了失敗推演中錯誤類型的演變規律。

首先通過人工審查失敗案例,歸納出四種不同的錯誤成因。

隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應成因,最后將這些分類解析為兩大范疇:「規劃與策略」(如邏輯缺陷、高層計劃錯誤)和「其他錯誤」(如計算失誤、事實檢索錯誤)。

分析表明,強化學習(RL)的主要優勢在于修正高層策略失誤,而非細微的計算錯誤。

這也激發了HICRA的設計理念,即將學習重點集中在規劃token上。

如下圖5所示,HICRA的成功與其維持比GRPO更高的語義熵水平密切相關。

這種高層策略的更高多樣性,直接與更強且更穩定的驗證準確率相關聯,證實了專注的策略探索是推理能力改進的主要驅動力。

何種指標能有效追蹤策略探索?

準確衡量策略探索,對于診斷策略學習至關重要。

然而,這次發現諸如token級熵值等常用指標可能產生誤導。

1、token級熵值的缺陷:該指標有時會收斂至較低水平,被實踐者誤判為「崩潰」。但這是錯誤的。

大量低層執行token主導了token級熵值,而這些token本身就會趨于可預測化(即低熵狀態)。低層token的熵值下降,會拉低全局平均熵值,但這并不意味探索停止。相反,只要語義熵保持高位,就說明模型正在積極探索新高階策略,且性能持續提升。

2、Pass@K指標的盲點:該通過K次嘗試成功率衡量的指標,有時會飽和(例如所有查詢都可能被解決),導致無法區分方法優劣或追蹤訓練后期的持續學習動態。

語義熵有效規避了這些缺陷。它直接衡量有意義策略方案的多樣性。

如下圖所示,語義熵始終保持強大區分力:當token熵值崩潰且Pass@8飽和時,仍能清晰顯示HICRA持續的策略探索優勢。這使其成為追蹤真正推理發展的可靠指南。

token熵值(最右)崩潰且Pass@8(右二)飽和失效時,語義熵(最左)仍明確顯示HICRA的持續探索優勢,該優勢與最終準確率提升正相關。

現有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標。

鏈接:https://arxiv.org/abs/2506.01939

這類基于熵的token與基于功能定義的規劃token之間,到底什么關系?

研究發現關鍵不對稱性:

雖然大部分規劃token確實呈現高熵特性(符合策略選擇的預期),但反向關系并不成立。

大多數高熵token并非規劃token,它們往往對應表述方式的簡單變異或不影響整體策略的低層計算。

這揭示了僅依靠熵值識別具有精確語義功能token的局限性。

雖然功能定義的規劃token大多具有高熵特性(下圖左),但高熵token并非規劃token的有效代理指標,因其多數承擔其他功能(下圖右)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-09 09:10:00

AI生成模型

2024-11-06 13:03:49

2025-09-15 08:53:00

AI模型推理

2024-12-20 09:30:00

模型訓練數據

2025-08-28 09:09:00

AI強化學習模型

2025-06-03 08:25:00

推理模型框架

2025-10-30 16:04:35

AI模型機器人

2021-04-23 15:13:16

算法模型技術

2024-03-04 13:36:00

模型訓練

2023-08-09 07:04:17

清華微軟LLM

2022-03-28 10:32:28

AI功能手勢

2024-06-11 14:30:18

2025-05-29 09:20:00

模型研究推理

2025-04-27 08:55:00

2025-02-10 14:05:00

訓練模型AI

2022-07-12 14:56:30

AI模型研究

2023-09-21 12:33:31

3DAI

2025-09-26 10:59:55

AI模型數據

2023-08-09 17:10:01

論文獲獎

2025-04-02 09:50:00

機器人訓練數據
點贊
收藏

51CTO技術棧公眾號

东京久久高清| 在线黄色网页| 久久狠狠亚洲综合| 久久久久久国产三级电影| 97香蕉碰碰人妻国产欧美| 蜜桃视频动漫在线播放| 欧美激情一区二区三区| 999在线免费观看视频| www.日本精品| 888久久久| 亚洲精品视频免费| 久久精品国产露脸对白| 无遮挡爽大片在线观看视频 | 欧美日韩中文在线观看| 亚洲欧洲国产精品久久| 偷拍精品一区二区三区| 久久99久久精品| 欧美一区二区三区四区在线| 亚洲 欧美 变态 另类 综合| 成人知道污网站| 欧美日韩中文另类| 女人和拘做爰正片视频| 在线观看电影av| 欧美国产精品一区二区三区| 精品欧美一区二区久久久伦| 91女人18毛片水多国产| 久久一区二区三区四区五区 | 欧美成人一区二区三区高清| 精品久久久久久久久久久aⅴ| 日韩欧美一区中文| 伊人国产在线视频| 色豆豆成人网| 欧美午夜性色大片在线观看| 少妇一晚三次一区二区三区| 888av在线| 久久久电影一区二区三区| 91丨九色丨国产在线| 亚洲中文无码av在线| 亚洲在线电影| 97精品一区二区视频在线观看| 国产免费无码一区二区视频| 天天综合亚洲| 最新的欧美黄色| 国产三级av在线播放| 日韩精品福利一区二区三区| 精品久久人人做人人爽| 91人妻一区二区| 日韩高清在线观看一区二区| 91精品婷婷国产综合久久性色| 日本久久精品一区二区| 成人精品电影在线| 色激情天天射综合网| 成年人免费在线播放| 天堂资源在线| 色老头久久综合| 十八禁视频网站在线观看| 中文字幕影音在线| 色综合激情久久| 男女污污的视频| 全球最大av网站久久| 欧美性受xxxx| 亚洲天堂国产视频| 国产精品免费精品自在线观看| 678五月天丁香亚洲综合网| 亚洲免费黄色网| 国产精品亚洲欧美日韩一区在线 | 手机精品视频在线| 日韩高清一区| 亚洲精品www久久久| 狠狠人妻久久久久久综合蜜桃| 丝袜久久网站| 国产一区二区三区视频免费| 欧美人妻一区二区三区| 欧美电影免费观看高清| 欧美成人免费观看| 日本五十熟hd丰满| 久久久久欧美精品| 成人a视频在线观看| 亚洲产国偷v产偷v自拍涩爱| 不卡一区二区三区四区| 日本不卡一区二区三区视频| 午夜老司机在线观看| 亚洲午夜私人影院| 国产精品亚洲αv天堂无码| 亚洲电影有码| 日韩免费在线观看| 亚洲av片不卡无码久久| 日韩精品中文字幕第1页| 欧美精品日韩三级| 久久精品视频1| 久久99精品久久久久婷婷| 97人人模人人爽人人少妇| 亚洲av成人精品一区二区三区在线播放| 91丝袜国产在线播放| 西游记1978| 国产精品69xx| 欧美影院午夜播放| 久久久久亚洲av无码专区首jn| 日韩中文av| 久久香蕉频线观| 久久一区二区三区视频| 国精产品一区一区三区mba桃花| 成人9ⅰ免费影视网站| 国产在线观看高清视频| 夜夜精品视频一区二区| 亚洲色图久久久| 国产精品极品在线观看| 日韩最新中文字幕电影免费看| 日本免费一二三区| 国产一区日韩二区欧美三区| 青青草国产精品| 青春草视频在线| 欧美日韩精品电影| 黄色av网址在线观看| 影音先锋日韩在线| 国产精品一区二区性色av| 四虎国产精品永远| 一区二区在线看| 亚洲性图一区二区| 深爱激情综合| 97国产精品视频人人做人人爱| 国产精品区在线观看| 久久精品一级爱片| 欧美成人高潮一二区在线看| 日本在线视频一区二区三区| 最近2019年好看中文字幕视频| 999这里只有精品| 懂色av一区二区三区免费看| 日韩动漫一区| 色av成人天堂桃色av| 91超薄肉色丝袜交足高跟凉鞋| 大片网站久久| 日本一欧美一欧美一亚洲视频| 亚洲黄色片视频| 亚洲免费观看在线视频| 无限资源日本好片| 国产精品最新| 日本高清不卡的在线| 天天操天天插天天射| 亚洲综合色视频| 天天干天天曰天天操| 欧美韩日一区| 成人免费激情视频| 欧美三级黄网| 91麻豆精品国产91久久久更新时间 | 蜜臀精品一区二区三区在线观看| 免费h精品视频在线播放| 国产在线看片免费视频在线观看| 亚洲成色777777女色窝| 久久精品国产亚洲AV无码男同| 国产成人在线视频网站| 国产乱子伦精品视频| www国产精品| 久久久爽爽爽美女图片| 日本精品一区二区在线观看| 亚洲成a人v欧美综合天堂下载| 精品人妻二区中文字幕| 尤物精品在线| 久久本道综合色狠狠五月| 国产极品在线观看| 亚洲天堂男人天堂女人天堂| 丰满熟女人妻一区二区三| 国产精品久久一卡二卡| 欧美成人手机在线视频| 欧美区国产区| 久久大香伊蕉在人线观看热2| 亚洲天堂资源| 在线视频日韩精品| 一区二区日韩在线观看| 亚洲精品福利视频网站| 国产伦精品一区三区精东| 国产精品一卡| 亚洲一区二区三区涩| 久久丁香四色| 亚州国产精品久久久| 国产日韩精品在线看| 欧美久久一区二区| 国产精品theporn动漫| 2021久久国产精品不只是精品| 免费黄色特级片| 91精品精品| 国产伦精品一区二区三区高清| 成人av免费电影网站| 日韩中文av在线| 免费看黄色一级视频| 色偷偷一区二区三区| 欧美激情精品久久久久久免费| 成人综合在线观看| 日韩在线xxx| 欧美~级网站不卡| 久久精品日韩精品| 91久久青草| 2019中文字幕在线免费观看| 婷婷激情在线| 日韩精品免费观看| 国产精品视频一二区| 黑人精品xxx一区| 最新一区二区三区| 久久久久久久久伊人| 中文字幕第10页| 久久久久久网| 欧美久久久久久久久久久久久| 精品国产精品久久一区免费式 | 在线日韩一区| 亚洲自拍高清视频网站| 亚洲第一影院| 久久久噜噜噜久久久| 三区四区电影在线观看| 日韩成人网免费视频| 国产日产亚洲系列最新| 色婷婷av一区二区三区gif| 一区视频免费观看| 中文字幕免费在线观看视频一区| 精品熟女一区二区三区| 激情欧美日韩一区二区| 国产福利一区视频| 成人在线视频成人| 国产麻豆视频一区| 久久久久久久久久久99| 天堂美国久久| 色阁综合av| 亚洲人成精品久久久 | 国产欧美日韩高清| 日本蜜桃在线观看视频| 欧美人与性动交| 欧美激情免费| 中文字幕亚洲一区| 国产高清视频在线播放| 国产视频丨精品|在线观看| 亚洲av永久纯肉无码精品动漫| 欧美亚洲国产bt| 好吊色在线视频| 黑人与娇小精品av专区| 日韩成人免费在线观看| 亚洲一区在线观看免费| 加勒比婷婷色综合久久| 国产精品久久久久精k8| 永久免费观看片现看| 国产日产欧美一区二区视频| 亚洲天堂久久新| 91麻豆精品在线观看| 亚洲制服丝袜在线播放| aaa亚洲精品一二三区| 91精品又粗又猛又爽| 成人性视频网站| 深夜视频在线观看| 成人永久看片免费视频天堂| 性生交大片免费看l| 成人精品视频一区二区三区| 欧美丰满熟妇bbb久久久| 成人在线综合网| 国产老熟女伦老熟妇露脸| 99精品欧美一区二区蜜桃免费| 大尺度在线观看| 91丨porny丨在线| 插吧插吧综合网| 国产亚洲欧美日韩在线一区| 波多野结衣一二三四区| 国产精品久久久久久户外露出 | 五月天综合网站| 久久久成人精品一区二区三区| 欧美在线黄色| 成人午夜免费在线| 久久精品一区| 一区二区三区视频网| 狠狠色伊人亚洲综合成人| 97超碰人人看| www.日韩大片| 午夜时刻免费入口| 综合色中文字幕| 久草视频免费在线| 欧美色videos| 在线观看黄色网| 日韩免费性生活视频播放| 水中色av综合| 社区色欧美激情 | 天天色天天射天天综合网| 91精品国产电影| 国产精品.xx视频.xxtv| 99久re热视频这里只有精品6| 欧美电影完整版在线观看| 日韩欧美精品一区二区三区经典| 日韩在线第七页| 国产人妻人伦精品| 久久国产精品久久久久久电车| 亚洲欧美手机在线| 99久久婷婷国产综合精品电影| 性爱在线免费视频| 亚洲高清在线精品| 波多野结衣日韩| 精品福利一二区| av在线电影网| 久久99视频精品| 成人国产网站| 国内视频一区| 亚洲精品小说| 国产淫片av片久久久久久| 国产精品99久久久久久久女警| 人妻熟女aⅴ一区二区三区汇编| 亚洲素人一区二区| 欧美一区二区三区网站| 欧美成人精品福利| 成年网站在线| 91精品国产九九九久久久亚洲| 久久爱.com| 玛丽玛丽电影原版免费观看1977| 牛夜精品久久久久久久99黑人| 激情六月丁香婷婷| 懂色av一区二区三区免费观看| 四虎国产成人精品免费一女五男| 婷婷开心久久网| av中文字幕免费| 中文在线资源观看视频网站免费不卡| free性护士videos欧美| 91手机视频在线观看| 精品无人区麻豆乱码久久久| 黄色大片在线免费看| 国产成人精品午夜视频免费 | 亚洲欧美在线专区| 搡女人真爽免费午夜网站| 97久久久精品综合88久久| 欧美日韩中文字幕在线观看| 欧美日韩日本视频| 国产三级视频在线播放线观看| 555www成人网| 欧美午夜18电影| 日韩精品在线观看av| 国产精品一区久久久久| 精品少妇一区二区三区密爱| 欧美综合一区二区| 日本国产在线| 51ⅴ精品国产91久久久久久| av综合网页| www.激情网| 国产一区二区女| 日韩精品一区二区亚洲av性色| 欧美日韩国产中文| 日本中文在线观看| 国产精品视频色| 成人婷婷网色偷偷亚洲男人的天堂| 欧美亚洲另类色图| 91免费国产视频网站| 在线观看免费国产视频| 亚洲精品aⅴ中文字幕乱码| 蜜桃视频在线网站| 免费电影一区| 久久精品麻豆| 亚洲国产天堂av| 欧美视频在线观看一区二区| av大片在线观看| 成人激情视频在线播放| 我不卡手机影院| 国产成人精品一区二区三区在线观看| 一区二区视频在线| 色婷婷av一区二区三区之e本道| 久久男人的天堂| 亚洲最好看的视频| 另类小说第一页| 亚洲天堂免费在线观看视频| 国产色在线视频| 久久久中文字幕| 日韩大尺度在线观看| 一级黄色香蕉视频| 国产精品久久久久久久久搜平片| jlzzjlzz亚洲女人18| 色综合视频网站| 欧美日韩一区二区三区四区不卡 | 一区二区三区四区久久| 国产精品夜夜爽| 国产污污视频在线观看| 亚洲午夜小视频| 国产色99精品9i| 男人用嘴添女人下身免费视频| 久久久久久久久久看片| 中文字幕你懂的| 欧美日韩国产999| 亚洲丝袜美腿一区| 99国产精品久久久久久| 亚洲国产综合91精品麻豆| 嫩草在线播放| 亚洲最大av网| 国产精品久久777777毛茸茸| 国产精品麻豆一区| 精品美女在线观看| 秋霞国产精品| 国产精品69久久久| 中国色在线观看另类| 亚洲xxxx天美| 国产精品老牛影院在线观看| 亚洲无线一线二线三线区别av| 国产熟妇久久777777| 91精品国产综合久久精品app| 韩国精品一区| 91精品一区二区三区四区| 久久久久久久久久电影| 精品国自产拍在线观看| 国产精品福利观看| 在线电影一区| 老熟妇高潮一区二区三区| 亚洲欧洲视频在线|