精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

性能提升11.74%!騰訊優(yōu)圖提出激勵(lì)推理,專攻復(fù)雜指令

人工智能 新聞
騰訊優(yōu)圖(UTU)研究團(tuán)隊(duì)提出一種系統(tǒng)性方法——激勵(lì)推理(Incentivizing Reasoning ),來提升LLM處理復(fù)雜指令的能力。

現(xiàn)有的語言大模型(LLMs)在復(fù)雜指令下的理解和執(zhí)行能力仍需提升。

騰訊優(yōu)圖(UTU)研究團(tuán)隊(duì)提出一種系統(tǒng)性方法——激勵(lì)推理(Incentivizing Reasoning ),來提升LLM處理復(fù)雜指令的能力。

圖片

結(jié)果顯示,該方法能夠有效提升大多數(shù)LLM進(jìn)行復(fù)雜指令深度處理時(shí)的表現(xiàn),并在1.5B參數(shù)的LLM上實(shí)現(xiàn)了11.74%的性能提升,表現(xiàn)可媲美8B參數(shù)的LLM。

背景:難處理復(fù)雜指令與約束條件

現(xiàn)有的大語言模型(LLMs)在遵循復(fù)雜指令時(shí)面臨挑戰(zhàn),尤其當(dāng)多重約束以并行、鏈?zhǔn)胶头种ЫY(jié)構(gòu)組織時(shí),LLMs難以厘清真正的指令與約束條件。

一個(gè)直觀的解決方案是通過“思維鏈”(CoT)來普遍提升LLMs的指令跟隨能力。

然而研究團(tuán)隊(duì)發(fā)現(xiàn),原始的CoT由于其表層的推理模式,即僅僅是對(duì)指令的簡(jiǎn)單釋義與重復(fù),卻對(duì)性能產(chǎn)生了負(fù)面影響。樸素的CoT未能剖析約束的組成部分,也無法識(shí)別不同層級(jí)類型和維度關(guān)系。

為此,研究團(tuán)隊(duì)提出了一種系統(tǒng)性方法,通過激勵(lì)推理能力來提升LLM處理復(fù)雜指令的能力:首先,基于現(xiàn)有分類法對(duì)復(fù)雜指令進(jìn)行分解,提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法。其次,利用帶有可驗(yàn)證、以規(guī)則為中心的獎(jiǎng)勵(lì)建模,通過強(qiáng)化學(xué)習(xí)(RL)培養(yǎng)模型在遵循指令時(shí)的推理能力。

圖片

方法:從數(shù)據(jù)生產(chǎn)方法到推理能力

復(fù)雜規(guī)則與約束的復(fù)雜指令數(shù)據(jù)生產(chǎn)

針對(duì)復(fù)雜指令集的數(shù)量問題,研究團(tuán)隊(duì)基于現(xiàn)有分類法對(duì)復(fù)雜指令進(jìn)行分解,提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法以及校驗(yàn)準(zhǔn)則的方法。

種子指令挑選:團(tuán)隊(duì)從WildChat和Alpaca等數(shù)據(jù)集中多樣化地篩選種子指令,并通過主題和任務(wù)標(biāo)簽進(jìn)行細(xì)致挑選。

帶規(guī)則約束的指令發(fā)散:團(tuán)隊(duì)在細(xì)粒度規(guī)則和約束下自演化指令,結(jié)合代碼執(zhí)行和LLM判別兩種驗(yàn)證方式,確保生成指令的多樣性和有效性。

回復(fù)生產(chǎn)與質(zhì)量校驗(yàn):團(tuán)隊(duì)利用LLM生成回復(fù)并通過多重驗(yàn)證篩除低質(zhì)量樣本,同時(shí)用LLM判別典型問題以保證指令和回復(fù)的合理性。

圖片

面向復(fù)雜指令任務(wù)下推理的強(qiáng)化學(xué)習(xí)

團(tuán)隊(duì)提出利用強(qiáng)化學(xué)習(xí)(RL)方法(采用GRPO算法),通過規(guī)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)機(jī)制,優(yōu)化大語言模型在復(fù)雜指令下的結(jié)構(gòu)化推理能力,提升最終答案的準(zhǔn)確性。

基于規(guī)則的獎(jiǎng)勵(lì)建模:團(tuán)隊(duì)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),分別對(duì)推理格式和多約束滿足度進(jìn)行評(píng)價(jià),結(jié)合啟發(fā)式與獎(jiǎng)勵(lì)模型,實(shí)現(xiàn)對(duì)復(fù)雜指令響應(yīng)的精細(xì)化引導(dǎo)。

經(jīng)驗(yàn)回放緩沖區(qū)篩選:團(tuán)隊(duì)引入自適應(yīng)經(jīng)驗(yàn)回放機(jī)制,通過對(duì)比有無推理過程的樣本表現(xiàn),篩選并強(qiáng)化能帶來更優(yōu)結(jié)果的推理鏈,提升模型在復(fù)雜任務(wù)下的推理有效性。

策略模型分布偏移控制:采用行為克隆約束策略分布,防止模型在片面追求約束滿足時(shí)犧牲語義或遺忘原有知識(shí),確保推理內(nèi)容與答案的語義一致性和流暢性。

結(jié)果與討論

與基線方法的比較

此方法能有效提升大多數(shù)現(xiàn)有LLM在處理復(fù)雜指令時(shí)的表現(xiàn),體現(xiàn)了深度推理的泛化能力。

相比之下,CoT提示會(huì)導(dǎo)致所有模型性能大幅下降,進(jìn)一步證實(shí)了淺層思考的負(fù)面影響。SDC方法將推理與回答分為兩步,但由于其本質(zhì)上的表面性,仍未能提升推理質(zhì)量。

SFT技術(shù)通過知識(shí)蒸餾讓小模型模仿強(qiáng)模型的推理模式,保證了思考的深度和廣度。但SFT的缺點(diǎn)是對(duì)訓(xùn)練外樣本的泛化能力較差。基于RL的訓(xùn)練方式則教會(huì)LLM如何思考,推動(dòng)多樣化推理的自我發(fā)展,而非簡(jiǎn)單記憶。

圖片

不同模型大小與基座的比較

小模型(1.5B)在訓(xùn)練中獲得的提升遠(yuǎn)大于大模型,顯示了小模型通過測(cè)試時(shí)擴(kuò)展的潛力。

DeepSeek蒸餾的LLM因廣泛模仿任務(wù)而在推理的結(jié)構(gòu)學(xué)習(xí)上有更好的起點(diǎn)。Ministral和LLaMA的能力不如Qwen,且LLaMA3.1-8B在訓(xùn)練中出現(xiàn)模型崩潰。

LLaMA模型在訓(xùn)練中出現(xiàn)響應(yīng)急劇縮短和KL懲罰激增,表明其偏離初始狀態(tài)。這可能與底座模型的預(yù)訓(xùn)練知識(shí)有關(guān),LLaMA傾向于無休止地生成思考,難以輸出一致的語義響應(yīng),最終導(dǎo)致崩潰。

圖片

與SOTA方法的比較

團(tuán)隊(duì)在ComplexBench上實(shí)現(xiàn)了多種SOTA方法,并在最復(fù)雜的Chain和Selection類別上表現(xiàn)出色。這表明深度推理確實(shí)有助于LLM分析并完成真正相關(guān)且有約束的請(qǐng)求。

圖片

推理模式的變化

關(guān)鍵詞如“first”“second”等的變化顯示,所有LLM在CFBench和ComplexBench等高難度基準(zhǔn)上推理詞頻增加,證實(shí)了深度推理的重要性。對(duì)于沒有復(fù)雜結(jié)構(gòu)的指令,慢思考LLM的關(guān)鍵詞頻率隨著響應(yīng)長(zhǎng)度變短而略有下降。

圖片

數(shù)學(xué)數(shù)據(jù)的重要性

DeepScaleR在推理能力培養(yǎng)上起到了積極作用,數(shù)學(xué)題數(shù)量的增加與CoT token增長(zhǎng)和性能提升正相關(guān)。

圖片

篩選機(jī)制的作用

優(yōu)秀CoT樣本比例先降后升,說明訓(xùn)練中淺層到深層推理的轉(zhuǎn)變被促進(jìn),最終帶來更高獎(jiǎng)勵(lì)的響應(yīng)。經(jīng)驗(yàn)回放中篩選優(yōu)秀CoT樣本有助于滿足輸出格式約束,防止劣質(zhì)推理獲得獎(jiǎng)勵(lì),并為模仿專家思維留出時(shí)間。

圖片

團(tuán)隊(duì)發(fā)現(xiàn),直接模仿專家推理不僅鼓勵(lì)模型獲得格式獎(jiǎng)勵(lì),還能穩(wěn)定訓(xùn)練并彌補(bǔ)規(guī)則獎(jiǎng)勵(lì)的不足。

論文地址:https://arxiv.org/pdf/2506.01413
項(xiàng)目地址:https://github.com/yuleiqin/RAIF
數(shù)據(jù):https://huggingface.co/collections/yolay/raif-arxivorg-pdf-250601413-682b16e5c0c2fa9b73811369

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-29 10:40:00

數(shù)據(jù)模型

2024-12-30 08:50:00

AI數(shù)據(jù)訓(xùn)練

2023-06-20 13:44:49

清華推理

2022-03-31 10:51:20

算法訓(xùn)練研究

2025-02-20 09:36:45

2025-10-23 08:50:32

2025-06-04 08:35:00

2024-04-11 08:00:00

人工智能機(jī)器學(xué)習(xí)

2024-08-06 11:30:00

2017-09-22 14:18:07

AI視覺技術(shù)

2022-03-02 09:53:22

計(jì)算Transforme性能

2020-01-14 09:13:48

Tomcat調(diào)優(yōu)配置

2017-04-11 17:11:43

騰訊云騰訊優(yōu)圖

2022-05-11 14:45:48

模型人工智能

2014-04-24 10:11:17

iOS性能調(diào)優(yōu)

2020-03-13 07:40:36

Plato數(shù)據(jù)分析

2025-10-14 08:58:00

2025-02-10 13:00:00

模型訓(xùn)練AI

2024-09-11 14:00:00

3D框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

免费网站免费进入在线| 日韩大片免费在线观看| 日日夜夜一区| 亚洲国产日韩a在线播放| 精品无人区一区二区三区| 99re热视频| 国产精品a级| 国产亚洲激情在线| 91成人在线观看喷潮蘑菇| 亚洲第一影院| 亚洲国产另类精品专区| 亚洲第一在线综合在线| 免费av网站在线播放| 美女在线一区二区| 97免费中文视频在线观看| 成人在线一级片| 136福利精品导航| 欧美日韩亚洲另类| 男人天堂网视频| 欧美韩日亚洲| 国产精品初高中害羞小美女文| 韩国成人av| aaa一区二区| 免费日本视频一区| 欧美自拍视频在线观看| 欧美黑人一级片| 亚洲va在线观看| 老熟妇仑乱一区二区av| 欧美第一精品| 精品亚洲夜色av98在线观看| 奇米视频7777| 91精品xxx在线观看| 亚洲国产欧美一区二区三区丁香婷 | 三级男人添奶爽爽爽视频| 涩涩涩久久久成人精品| 一本久久a久久精品亚洲| 日韩精品一区二区免费| 日本免费在线观看| 国产色产综合产在线视频| 国产综合av一区二区三区| 国内老熟妇对白xxxxhd| 老司机午夜精品| 国产精品日韩在线播放| 国产一级片毛片| 在线国产欧美| 久久久久久国产精品久久| 三级影片在线看| 五月久久久综合一区二区小说| 亚洲天堂av电影| 中文精品在线观看| 欧美高清视频看片在线观看| 日韩精品一区二区三区蜜臀| 免费网站在线观看黄| 精品久久99| 欧美亚洲动漫另类| 色戒在线免费观看| julia一区二区三区中文字幕| 91激情在线视频| 亚洲一区二区蜜桃| 999国产精品亚洲77777| 欧美日韩中字一区| 在线不卡一区二区三区| 亚洲国产综合在线观看| 8x8x8国产精品| 涩涩网站在线看| 国产乱码精品一区二区三区亚洲人 | 久久综合网hezyo| 免费高清在线观看电视| 欧美日本免费| 国语自产精品视频在线看抢先版图片| 国产无套粉嫩白浆内谢| 99精品热6080yy久久| 97精品一区二区三区| 成人免费看片98欧美| 久久久久网站| 国产精品久久久久久久久粉嫩av| 中文字幕久久久久| 国产在线国偷精品产拍免费yy| 91在线中文字幕| 懂色av一区二区三区四区| av在线这里只有精品| 欧美性xxxx69| 午夜在线免费观看视频| 亚洲精品日产精品乱码不卡| 久久av综合网| 国模视频一区| 欧美一区二区三区在| 69xxx免费视频| 久久不见久久见国语| 日韩一区视频在线| 国产无套在线观看| 日韩激情av在线| 成人激情视频小说免费下载| 人妻与黑人一区二区三区| 久久久99久久| 黄色小视频大全| 亚洲精品福利电影| 欧美顶级少妇做爰| 国产精品无码毛片| 精品一区二区三| 欧美日韩高清在线观看| 老熟妇一区二区三区啪啪| 极品少妇一区二区三区精品视频| 国产一区二区不卡视频| 日本天堂在线观看| 精品国产电影一区| 久久精品久久99| 国产不卡av一区二区| 精品中文字幕视频| 中文字幕欧美人妻精品一区蜜臀| 豆国产96在线|亚洲| 日韩欧美99| 激情黄产视频在线免费观看| 欧美精品免费视频| 91精品人妻一区二区三区| 亚洲电影影音先锋| 国产精品久久久久久久久粉嫩av| 天堂网在线资源| 中文字幕一区免费在线观看| 久草热视频在线观看| 国产亚洲久久| 在线看日韩欧美| 在线天堂中文字幕| 成人小视频在线观看| 在线免费一区| 澳门av一区二区三区| 日韩精品一区二区视频| 久久久久久久9999| 国产资源在线一区| 亚洲国产精品久久久久婷婷老年| 三级在线观看视频| 精品国产露脸精彩对白| 欧美激情精品久久久久久免费| 久久一区中文字幕| 久久精品magnetxturnbtih| 午夜在线激情影院| 日韩一区二区精品葵司在线| 欧美性生交大片| 丝袜诱惑亚洲看片| 欧美精品一区二区三区在线看午夜| 色婷婷av在线| 欧美一区二区免费| 永久免费看黄网站| 国内精品不卡在线| 最新黄色av网站| 国产精品一区二区美女视频免费看 | 国产精品麻豆入口| 激情欧美一区| 国产伦精品一区二区三区在线 | 亚洲一区国产视频| 好吊操视频这里只有精品| 中文一区一区三区免费在线观看| 国产啪精品视频| 欧美69xxx| 91精品婷婷国产综合久久性色 | 欧美视频一区| 超碰97国产在线| 欧美xxxx黑人又粗又长| 精品电影一区二区| 亚洲精品www久久久久久| eeuss鲁片一区二区三区在线观看| 欧美大黑帍在线播放| 亚洲国产欧美国产第一区| 久久777国产线看观看精品| 精品人妻av一区二区三区| 亚洲一区精品在线| 一级国产黄色片| 视频一区欧美精品| 亚洲成人午夜在线| 精品国产不卡一区二区| 欧美激情欧美狂野欧美精品 | 日韩一区二区三区四区五区| 久久久精品久久久久| 国产视频福利在线| 欧美性猛交xxxx| av在线网站观看| 青青青伊人色综合久久| 伊人精品久久久久7777| 国产精品美女久久久久| 欧美黑人视频一区| 日本五码在线| 欧美日韩国产系列| 中文字幕一区二区三区手机版 | 18深夜在线观看免费视频| 一区二区亚洲| 日韩免费三级| 51社区在线成人免费视频| 26uuu另类亚洲欧美日本一| 国产高清视频免费最新在线| 91精品国产色综合久久| 西西44rtwww国产精品| 欧美高清在线精品一区| 丰满少妇一区二区三区专区| 国产伦理一区| 国产高潮呻吟久久久| 先锋影音国产精品| 91精品视频播放| 亚洲第一av| 久久av在线看| 国产永久免费高清在线观看| 欧美一区二区高清| 亚洲av无码精品一区二区| 日韩久久一区二区| 性欧美13一14内谢| 国产精品主播直播| 9久久婷婷国产综合精品性色 | 一区二区在线看| 熟女俱乐部一区二区视频在线| 激情综合网激情| 国产免费观看高清视频| 在线电影一区二区| 日韩一区二区三区高清| 欧美午夜寂寞| 亚洲综合中文字幕在线| 素人啪啪色综合| 4444欧美成人kkkk| 午夜av在线播放| 日日骚av一区| 免费看男男www网站入口在线| 欧美高清dvd| 青青草视频在线观看免费| 午夜久久久久久久久| 国产美女福利视频| 国产精品免费aⅴ片在线观看| 久久久老熟女一区二区三区91| 精久久久久久久久久久| 国产九九热视频| 久久婷婷av| 日韩精品视频久久| 在线播放精品| 国产一线二线三线女| 亚洲精品国产成人影院| 一本色道久久综合亚洲精品婷婷 | 国产 国语对白 露脸| 日本久久精品| 日韩精品欧美在线| 国产在视频线精品视频www666| 久久国产精品99久久久久久丝袜 | 亚洲大胆人体av| 精品黑人一区二区三区在线观看 | 日本aaa在线观看| 亚洲国产精品国自产拍av秋霞| 亚洲精品97久久中文字幕无码| 91精品国产综合久久久久久久| 在线播放成人av| 欧美日韩在线三区| 亚洲一区二区激情| 欧美精选在线播放| 国产精品自产拍| 欧美一级黄色大片| 精品人妻一区二区三区换脸明星 | 污视频在线免费| 日韩av综合网| 色欲久久久天天天综合网| 日韩av影片在线观看| 欧美精品a∨在线观看不卡 | 国产精品xxx在线观看www| 亚洲综合影院| 国产麻豆日韩| 综合国产视频| 亚洲一区二区三区加勒比| 小小影院久久| 菠萝蜜视频在线观看入口| 在线观看的日韩av| 日本在线观看a| 蜜桃视频一区二区| 无套白嫩进入乌克兰美女| 国产suv精品一区二区883| 国产av一区二区三区传媒| 99精品欧美一区| 亚洲а∨天堂久久精品2021| 国产精品你懂的| 深夜福利影院在线观看| 午夜天堂影视香蕉久久| 一级黄色大片视频| 欧美乱妇23p| www.亚洲欧美| 亚洲人线精品午夜| 国产精品资源网| 免费毛片网站在线观看| 午夜在线播放视频欧美| 色哟哟精品视频| 国产精品99久久久久久久女警| 白嫩情侣偷拍呻吟刺激| 久久久精品日韩欧美| 天天鲁一鲁摸一摸爽一爽| 亚洲成年人影院| 真实的国产乱xxxx在线91| 91精品国产一区二区三区蜜臀 | 狠狠色综合日日| 91porn在线| 国产人伦精品一区二区| 欧美成人片在线观看| 日本韩国一区二区| 国产99对白在线播放| 亚洲欧美日韩网| av免费网站在线观看| 国产91在线播放精品91| 深夜福利一区二区三区| 欧洲亚洲一区二区三区四区五区| 国产精品7m凸凹视频分类| 国产av国片精品| 精品一区二区免费看| 喷水视频在线观看| 亚洲色图视频网站| 亚洲欧美偷拍一区| 精品久久人人做人人爽| 日韩大片在线永久免费观看网站| 高清一区二区三区日本久| **欧美日韩在线| 区一区二区三区中文字幕| 精品电影一区| 国产aⅴ爽av久久久久| 91女神在线视频| 久草国产在线观看| 欧美精品久久一区二区三区| 无码精品在线观看| 久久99久久99精品中文字幕| 91精品国产66| 免费成人深夜夜行视频| 雨宫琴音一区二区在线| 波多野结衣在线免费观看| 国产精品视频免费| 无码人妻精品一区二| 日韩黄在线观看| 91在线三级| 超碰在线97av| 综合av在线| 波多野结衣在线免费观看| 中文字幕一区二区5566日韩| 成人免费视频国产免费| 亚洲天堂av在线播放| 欧美一级鲁丝片| 精品无码久久久久久久动漫| 一区在线视频观看| 一级全黄裸体片| 亚洲精品国产成人久久av盗摄| 国产又粗又猛视频| 一本色道久久综合亚洲精品小说| 另类激情视频| 精品国产_亚洲人成在线| 亚洲视频观看| 丰满人妻一区二区三区免费视频棣| 亚洲精品乱码久久久久久日本蜜臀| 91精品国自产| 亚洲香蕉av在线一区二区三区| 惠美惠精品网| 日本午夜精品电影| 日韩av二区在线播放| 手机毛片在线观看| 欧美日韩在线精品一区二区三区激情| 黄色在线免费观看大全| 国产激情999| 久久高清精品| 国产黑丝在线视频| 亚洲一区在线视频观看| 天堂网av在线播放| 欧美中文字幕精品| 欧美系列电影免费观看| 伊人影院综合在线| 亚洲欧美日韩国产中文在线| 超碰在线播放97| 国内成人精品视频| 女人丝袜激情亚洲| 天堂社区在线视频| 亚洲视频资源在线| 丰满岳乱妇国产精品一区| 97avcom| 欧美精品一二| 欧洲在线免费视频| 亚洲成va人在线观看| 理论视频在线| 国产又爽又黄的激情精品视频| 最新欧美人z0oozo0| 中国免费黄色片| 欧洲av在线精品| 国产美女av在线| 久久久久se| 极品美女销魂一区二区三区| 日本少妇做爰全过程毛片| 亚洲情综合五月天| 欧州一区二区三区| 男人操女人免费软件| 一区二区中文视频| 午夜小视频在线播放| 国产日韩欧美在线视频观看| 在线播放不卡| 娇小11一12╳yⅹ╳毛片| 精品国产免费久久| 国产成人福利夜色影视| 2018日日夜夜| 国产精品久久久久久久久果冻传媒| www.久久伊人| 国产精品久久久av| 99re国产精品| 日本高清一二三区| 亚洲天堂开心观看| 成人香蕉社区| 热久久久久久久久| 高跟丝袜欧美一区|