精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

國內團隊提出全新RLTF框架,刷新SOTA!大模型生成代碼質量更高bug更少

人工智能 新聞
最近,來自國內的研究團隊提出了一種全新的RLTF技術,可以利用程序的單元測試反饋信號,無需基于人工的人類反饋(RLHF),來自動化提升LLM的代碼生成能力。

「程序合成」或「代碼生成」任務的目標是根據給定的描述生成可執行代碼,最近有越來越多的研究采用強化學習(RL)來提高大語言模型(簡稱大模型)(LLM)在代碼方面的性能。

不過,這些RL方法僅使用離線框架,限制了它們對新樣本空間的探索。此外,當前利用單元測試信號的方法相當簡單,沒有考慮到代碼中特定錯誤位置。

而國內團隊最近發布的新型在線RL框架RLTF(即基于單元測試反饋的強化學習),可以將代碼的多粒度單元測試反饋結果用于優化code LLM,在訓練過程中實時生成數據,并同時利用細粒度反饋信號引導模型生成更高質量的代碼。

有趣的是,小編發現這篇論文的作者,和曾經稱霸王者峽谷的騰訊絕悟AI的作者,有所重疊。

論文地址:https://arxiv.org/pdf/2307.04349.pdf

具體來說,在線框架RLTF通過細粒度的單元測試反饋來增強預訓練的LLM在程序合成任務中的性能,允許模型在訓練過程中實時生成新樣本,并利用單元測試結果作為反饋信號,從而改善整體模型性能。

此方法使模型能夠學習代碼錯誤的具體細節,并相應地提高性能。

大語言模型(LLM)在程序合成任務中表現出色,如Codex、AlphaCode、InCoder等,現有的LLMs在處理更具挑戰性的問題(如程序競賽)方面仍有進展空間且預訓練的代碼模型在生成代碼時可能存在語法和功能上的錯誤。

基于此,研究人員提出了基于強化學習(RL)的算法來改進代碼LLMs的性能,如CodeRL和PPOCoder,但現有的RL方法大多是離線的,而在線RL訓練更穩定,能更好地探索環境并得到更優的策略;

且現有的RL方法對單元測試結果的反饋信號較為簡單和粗粒度,無法捕捉到代碼中具體錯誤的細節。

RLTF方法引入了多粒度的單元測試反饋(Fine-grained Feedback根據代碼的錯誤類型和錯誤具體位置,懲罰代碼中出現錯誤的特定部分,Adaptive Feedback根據通過的測試用例比例分配不同的懲罰),并通過實時生成樣本和提供多樣化的訓練樣本,提高了模型性能。

RLTF在程序合成任務中取得了APPS和MBPP基準測試的最新成果,并通過消融研究證明了方法的有效性。

方法

論文中提出的任務可以形式化為一個條件概率優化問題,即在給定自然語音描述D和模型可優化參數θ的情況下,最大化正確程序W的概率:

圖片

在線RL訓練框架

為了更好地探索樣本空間,研究人員使用在線學習的方式進行RL訓練。

兩個LLM共享權重,一個負責梯度回傳更新模型,另一個負責在線生成訓練樣本。

訓練樣本經過編譯器,分配好標簽,進而更新online buffer中的數據。

Online buffer負責存儲在線訓練所用的數據,它在內部維護一個隊列,會刪除過舊的數據,buffer的更新頻率是50個step。

多粒度反饋的強化學習

RL訓練的loss可以定義為:

其中,R代表獎勵系數,S和E代表代碼的起點和終點。

研究人員將編譯器的反饋分為3類,eg. Error, Failure, Pass,然后根據不同的編譯器反饋,制定了不同粒度的模型獎勵。

粗粒度反饋:該反饋的級別建立在上述3類反饋上,和CodeRL,PPoCoder設置相同;

圖片

細粒度反饋:粗粒度的反饋只告訴模型「錯了」,卻沒有將具體「哪里錯了」告知模型。

而細粒度反饋的目的就是為了解決這一問題,使得模型能更加明確錯誤產生的原因和位置。為此,研究人員將Error中不同的錯誤子類型分為U_global,U_line,U_ignore,具體分類見下表;

根據不同的錯誤子類型,我們有不同的R值和起點終點:

圖片

自適應反饋:針對未能通過全部測試樣例的數據,我們根據其通過的比率設定了自適應的反饋,這一設置是為了模型能夠生成通過盡可能多的測試樣例的程序。

圖片

如下兩個消融實驗也驗證了「在線訓練框架 」和「多粒度反饋」的有效性:

圖片

實驗

研究人員使用了兩個最先進的基于強化學習和code LLMs的方法作為基準,并在相同的基準和設置下進行評估。作者使用了兩個不同的編程問題數據集進行評估,分別是APPS和MBPP。

在APPS數據集上,作者使用了RLTF框架對預訓練的CodeT5模型進行微調,并取得了優于其他方法的結果。在MBPP數據集上,作者展示了RLTF方法在零樣本設置下的性能,取得了新的最優結果。

APPS:使用CodeT5 770M作為基礎模型,在APPS數據集上進行評估。與其他基于CodeT5的方法(CodeRL、PPOCoder),和其他更大的模型(Codex、AlphaCode、GPT2、GPT3、GPT-Neo等進行了比較)。

結果表明,RLTF方法在APPS數據集上取得了優于其他方法的結果。

MBPP:論文在MBPP數據集上評估了CodeT5模型在APPS數據集上使用RLTF方法訓練的零樣本性能,RLTF方法在MBPP數據集上取得了優于不同大小的GPT模型的結果,并達到了新的最優性能。

不同的基座模型:為了展示RLTF方法的魯棒性,除了使用CodeT5外,論文還使用另一個基礎模型CodeGen 2.7B進行實驗。

結果表明,在CodeGen 2.7B上應用RLTF方法也取得了令人印象深刻的性能,使得pass@10的提高接近1%。

值得注意的是,研究人員發現,基礎模型越大,RLTF提供的性能提升越大,表明RLTF方法可以有效地發揮不同基礎模型生成更好代碼的潛力,當基礎模型大小更大時,影響更為明顯。

結論及未來工作

本文提出了RLTF(Reinforcement Learning from unit Test Feedback),一個具有多粒度單元測試反饋的新型在線RL框架,用于優化程序合成任務中的大語言模型。

與現有工作相比,該方法在訓練過程中實時生成數據,并同時利用更細粒度的反饋信號引導模型生成更高質量的代碼。

大量實驗表明,RLTF超越了現有基于RL的方法,并可以應用于各種code LLM,包括CodeT5和CodeGen。此外,它在廣泛使用的benchmark(如APPS和MBPP)上實現了最先進的性能。

在未來,有幾個方向可以進一步改進RLTF:

例如,現有基準測試中的輸入輸出示例可能不夠多樣化,使用隱藏的輸入輸出示例生成的程序可能不是正確的最終代碼版本,這種限制可能會影響RLTF的性能,因此,使用LLM創建更多樣化和準確的輸入輸出示例集是一個值得探討的潛在研究方向。

此外,是否更細粒度的反饋信號(如來自靜態代碼分析器的信號)可以進一步提高RLTF的性能,也是另一個可能的研究方向。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-16 17:17:30

模型訓練

2024-10-12 10:57:39

2024-01-12 21:18:22

負樣本大模型蒸餾

2023-07-17 11:02:36

模型開源

2025-03-03 10:17:00

模型數據生成

2021-08-13 15:07:02

模型人工智能深度學習

2025-09-08 09:02:00

2023-10-29 22:25:23

模型AI

2025-04-03 09:27:44

2024-12-24 10:30:00

2025-07-04 16:45:24

AI模型評測

2024-09-03 14:10:00

模型測試

2025-07-02 09:21:30

2025-04-03 11:16:10

2024-01-12 13:10:06

AI數據

2025-05-27 15:35:02

大模型技術AI

2024-11-01 20:25:28

2012-02-28 09:11:09

開源bug

2025-07-25 15:24:17

WAICDeepSeekSOTA

2025-08-26 08:50:00

AI開源LLM
點贊
收藏

51CTO技術棧公眾號

欧美一区少妇| 精品美女在线视频| 五月天久久网站| 精品久久久久久亚洲精品| 国产一区私人高清影院| 能免费看av的网站| 色综合免费视频| 欧美精品国产一区| 欧美理论片在线| 性欧美精品一区二区三区在线播放| 成年人性生活视频| 日韩手机在线视频| 精品精品国产毛片在线看| 国产精品国产精品国产专区不蜜| 色偷偷噜噜噜亚洲男人| 欧美一级黄色片视频| 蜜臀av在线观看| 欧美日韩国产在线一区| 精品亚洲夜色av98在线观看| 成年女人18级毛片毛片免费| av网站免费大全| 一本一道久久a久久精品蜜桃| 国产精品成人网| 成人动漫视频在线观看完整版| 青青草成人免费视频| 2021中文字幕在线| 国产主播一区| 精品国产乱子伦一区| 日韩极品视频在线观看| 成人午夜福利视频| 国内成人在线| 日韩中文字幕网站| 中文字幕在线观看视频www| 性欧美videohd高精| 国产欧美一区二区在线观看| 国产精品久久久av| 国产一二三四区在线| 四虎视频在线精品免费网址| 亚洲欧美日韩中文播放| 国产精品久久7| 69成人免费视频| 成人激情视频| 欧美一区二区不卡视频| 黄网站欧美内射| 国产精品一区二区三区四区色| 欧美视频网站| 久热精品视频在线观看| 小日子的在线观看免费第8集| 蜜桃视频在线观看www社区 | 免费在线观看精品| 在线观看国产精品淫| 动漫av免费观看| 在线观看av的网站| 国产风韵犹存在线视精品| 欧美大片在线免费观看| 少妇光屁股影院| 色综合久久久| 在线播放一区二区三区| www.好吊操| 波多野结衣在线高清| 久久久精品日韩欧美| 91精品久久久久久| 亚洲一线在线观看| 亚洲精品美女91| 中文字幕亚洲综合久久筱田步美| 动漫av网站免费观看| 国内av一区二区三区| 国产精品一二三四| 91国产中文字幕| 欧洲av一区二区三区| 日韩精品成人在线观看| 欧洲av在线精品| 久久99久久99精品| 国产福利在线免费观看| 婷婷久久综合九色综合绿巨人 | 国产精品美女免费看| www.av免费| 美女亚洲一区| 亚洲精品一区二区三区福利| 91丨porny丨对白| 午夜不卡一区| 精品日韩在线观看| 五月婷婷六月丁香激情| 都市激情国产精品| 亚洲欧美区自拍先锋| 日韩久久久久久久| 亚洲av成人精品一区二区三区在线播放 | 黄色网在线免费看| 99久久精品免费看国产| 亚洲18私人小影院| 美国黄色片视频| 国产影视精品一区二区三区| 日韩精品一区二区三区视频 | 国产美女av在线| 一区二区三区精品在线| 欧洲精品在线一区| 免费网站成人| 天天综合网 天天综合色| 日韩中文字幕组| 视频二区欧美| 国产一区二区三区在线播放免费观看| 国产精彩免费视频| 91精品国产自产观看在线| 一本大道久久a久久精二百| 国产免费内射又粗又爽密桃视频| 蜜桃av噜噜一区二区三区麻豆| 男女视频一区二区| 国产精品初高中精品久久| 国产深喉视频一区二区| 久久99久久99小草精品免视看| 在线看欧美日韩| 久久r这里只有精品| 亚洲欧美色图| 日韩美女主播视频| 日韩三级一区二区| 日韩和的一区二区| 国产精品一区二区三区久久久| 性色av无码久久一区二区三区| 国产成人aa在线观看网站站| 精品国精品自拍自在线| 少妇无套高潮一二三区| 久久中文字幕av| 精品国产一区久久久| 四虎地址8848| 欧美96在线丨欧| 欧美精品videosex极品1| 日本三级2019| 久久久久免费| 成人福利在线观看| 精品人妻一区二区三区蜜桃| 成人一级片在线观看| 久久福利电影| av在线播放av| 亚洲美女一区二区三区| 污视频免费在线观看网站| 国产一区二区| 亚洲国产成人在线视频| 成人网站免费观看| 在线播放精品| 国产精品视频白浆免费视频| 日本在线视频1区| 国产精品对白交换视频 | 欧美三区不卡| 亚洲va久久久噜噜噜久久天堂| 国产精品午夜影院| 日日摸夜夜添夜夜添国产精品 | 国产精品天天操| 国产一区不卡视频| 国产精品一区二区不卡视频| 欧美人体视频xxxxx| 色偷偷久久一区二区三区| 99精品一区二区三区无码吞精| 免费观看久久av| 97成人在线视频| 青青草视频在线免费观看| 欧美日韩亚洲天堂| 一区二区久久精品| 四虎5151久久欧美毛片| y97精品国产97久久久久久| 在线观看视频中文字幕| 中文字幕一区av| 韩国三级丰满少妇高潮| 韩国精品一区二区三区| 精品国产乱码久久久久久108| 国产露脸91国语对白| 亚洲天堂福利av| ass极品水嫩小美女ass| 红桃视频国产一区| 欧美二区在线| 久久不射影院| 亚洲精品一线二线三线无人区| 夫妇交换中文字幕| 九九国产精品视频| av在线免费观看国产| 国产美女撒尿一区二区| 欧洲精品在线视频| 人妻丰满熟妇av无码区hd| 岛国av一区二区| 91精品久久久久久久久久久久| 日韩一级不卡| 91亚洲国产精品| 国产中文字幕在线观看| 色呦呦日韩精品| 黄色录像二级片| av日韩在线网站| 无限资源日本好片| 亚洲一级一区| 亚洲国产一区二区三区在线| 免费福利视频一区二区三区| 亚洲白拍色综合图区| 99久久久无码国产精品免费蜜柚 | 国产一级二级三级精品| 91福利在线视频| 日韩欧美久久一区| 国产成人精品777777| 亚洲视频每日更新| 国产成人精品无码免费看夜聊软件| 狠狠噜噜久久| 日韩精品久久久| 亚洲高清在线一区| 国产精品久久久久久久久久尿| 日本大片在线观看| 欧美一区二区三区在| 精品久久久久久久久久久国产字幕| 99精品国产99久久久久久白柏| 欧美 国产 精品| 国产美女一区视频| 在线观看国产精品91| 天天操天天干天天爽| 欧美老人xxxx18| 波多野结衣绝顶大高潮| 久久久久国产精品厨房| 国产精品嫩草影视| 国产精品mm| 亚欧精品在线| 黄色不卡一区| 激情小说网站亚洲综合网| 国产一区二区| 国产在线精品一区免费香蕉| 九九热线视频只有这里最精品| 欧美一区二区私人影院日本| 无码一区二区三区| 午夜精品久久久久久久久久久| 一区二区三区免费播放| 亚洲经典三级| 人妻无码一区二区三区四区| 日韩欧美高清在线播放| 亚洲www在线| 精品久久福利| 欧美黄色免费网站| 黄在线免费观看| 日韩中文在线中文网三级| 国产香蕉视频在线看| 亚洲精品资源美女情侣酒店 | 4438成人网| 这里只有精品999| 亚洲日本中文字幕区| 少妇视频在线播放| 亚洲国产精品传媒在线观看| 在线能看的av网站| 国产精品mv在线观看| 亚洲免费视频播放| 全国精品免费看| 91精品美女在线| 欧美高清免费| 成人免费网站在线看| www.久久草.com| 91亚洲精品在线| 久久国产精品美女| 欧美一区在线直播| 精精国产xxxx视频在线| 久久久精品免费| av电影高清在线观看| 日韩成人在线播放| 97在线视频人妻无码| 欧美裸体一区二区三区| 国产精品久久久久久久免费| 欧美人牲a欧美精品| 欧美日韩乱国产| 一本久道中文字幕精品亚洲嫩| 久艹在线观看视频| 亚洲日本va在线观看| 欧美成人免费看| 亚洲愉拍自拍另类高清精品| 久久丫精品久久丫| 国产精品久久久久久久久搜平片| 在线观看亚洲免费视频| 9i在线看片成人免费| 国产免费无遮挡吸奶头视频| 国产亚洲一二三区| 精品人妻伦一二三区久| 99久久久精品免费观看国产蜜| 激情图片中文字幕| 国产成人在线视频免费播放| avtt香蕉久久| 福利91精品一区二区三区| 亚洲一级免费在线观看| 国产一区二区三区在线观看免费 | 日本在线视频www色| 在线免费观看日本欧美爱情大片| 日韩免费中文专区| 一本一道久久a久久精品蜜桃 | 99国精产品一二二线| 久久视频在线观看| 亚洲色图自拍| 欧美**字幕| 国产又粗又爽又黄的视频| 伊人成人在线视频| 制服丝袜综合网| aa级大片欧美| 懂色av懂色av粉嫩av| 亚洲国产精品一区二区www在线| 亚洲av无码成人精品国产 | 天天插天天射天天干| 欧美激情中文不卡| 久青草免费视频| 精品1区2区3区| 波多野结衣网站| 精品女同一区二区| av在线播放免费| 国产亚洲欧美日韩精品| 在线中文字幕第一页| 国产97在线播放| 超碰一区二区三区| 国产区欧美区日韩区| 久久成人综合| www.com毛片| 国产高清久久久久| 日本人亚洲人jjzzjjz| 黑人与娇小精品av专区| 国产99视频在线| www亚洲欧美| 国产 日韩 欧美一区| 精品国产一区二区三区日日嗨| 久久悠悠精品综合网| 在线观看18视频网站| 另类激情亚洲| 久久久久9999| 午夜久久久久久久久久一区二区| 日本一级一片免费视频| 精品久久久视频| 午夜精品小视频| 久久视频免费观看| 日韩欧美一区二区三区免费观看| 国产精品99一区| 全球最大av网站久久| 国产伦精品免费视频| 亚洲综合小说图片| 亚洲精品中文字幕乱码三区不卡| 久久免费大视频| 国产一线二线三线在线观看| 美国三级日本三级久久99| 亚洲一级片网站| 久久久国产精品午夜一区ai换脸| 黄色三级生活片| 欧美综合一区二区三区| 韩国福利在线| 国产精品成人播放| 红桃成人av在线播放| 黄色a级片免费| 麻豆国产精品官网| 国产日韩精品中文字无码| 一区二区三区中文字幕电影 | 日韩av片专区| 国产精品天干天干在线综合| 中文字幕在线一| 精品电影一区二区| 久久香蕉一区| 国产伦精品一区二区三区视频孕妇| 欧美色图五月天| 欧美 日韩 国产 高清| 蜜臀a∨国产成人精品| 美女100%无挡| 欧美性感一类影片在线播放| 性一交一乱一乱一视频| 亚洲午夜性刺激影院| 免费欧美电影| 亚洲精品白虎| 国产乱码精品一区二区三| 精品一区在线视频| 亚洲精品乱码久久久久久金桔影视 | 依依成人在线视频| 色av吧综合网| 一区二区精彩视频| 欧美精品久久久| 久久婷婷丁香| 挪威xxxx性hd极品| 精品久久久久久久久久| 国产小视频在线| 国产免费一区二区三区香蕉精| 国产精品白丝av嫩草影院| 欧美丰满熟妇bbbbbb百度| 久久精品无码一区二区三区| 中文字幕在线观看第二页| 乱亲女秽乱长久久久| 久久久久高潮毛片免费全部播放| 亚洲欧美日韩不卡| 日韩精品电影一区亚洲| 免费一级做a爰片久久毛片潮| 亚洲国产一区二区a毛片| 国产精品欧美亚洲| 欧美精品国产精品日韩精品| 天天躁日日躁狠狠躁欧美巨大小说 | 亚洲人视频在线| 亚洲国产一区二区在线播放| 视频一区二区三区在线看免费看| 精品一区二区三区四区| 97人人做人人爽香蕉精品| 免费中文日韩| 一区二区三区四区五区精品视频| 超碰人人草人人| 亚洲第一在线综合网站| 国产福利免费在线观看| 97netav| 久久久久久久久国产一区| 日韩大片一区二区| 亚洲影院理伦片| melody高清在线观看| 国产精品国色综合久久| 免费观看日韩电影|