精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北交開(kāi)源o1代碼版!強(qiáng)化學(xué)習(xí)+蒙特卡洛樹(shù)搜索,源代碼、精選數(shù)據(jù)集以及衍生模型通通開(kāi)源

開(kāi)發(fā) 前端
過(guò)程獎(jiǎng)勵(lì)模型(PRM)開(kāi)始發(fā)揮作用,評(píng)估每一步推理對(duì)最終答案的貢獻(xiàn)。在測(cè)試用例生成器(TCG)提供的結(jié)果獎(jiǎng)勵(lì)和PRM提供的過(guò)程獎(jiǎng)勵(lì)的雙重引導(dǎo)下,策略模型通過(guò)強(qiáng)化學(xué)習(xí)不斷改進(jìn)。

北京交通大學(xué)研究團(tuán)隊(duì)悄默聲推出了一版o1,而且所有源代碼、精選數(shù)據(jù)集以及衍生模型都開(kāi)源!

名為O1-CODER,專注于編碼任務(wù)。

圖片圖片

團(tuán)隊(duì)認(rèn)為編碼是一個(gè)需要System-2思維方式的典型任務(wù),涉及謹(jǐn)慎、邏輯、一步步的問(wèn)題解決過(guò)程。

而他們的策略是將強(qiáng)化學(xué)習(xí)(RL)與蒙特卡洛樹(shù)搜索(MCTS)相結(jié)合,讓模型能夠不斷生成推理數(shù)據(jù),提升其System-2能力。

實(shí)驗(yàn)中,團(tuán)隊(duì)有以下幾點(diǎn)關(guān)鍵發(fā)現(xiàn):

  • 當(dāng)推理正確時(shí),基于偽代碼的推理顯著提升了代碼生成質(zhì)量
  • 將監(jiān)督微調(diào)(SFT)與直接偏好優(yōu)化(DPO)相結(jié)合能夠提升測(cè)試用例生成效果
  • 自我對(duì)弈強(qiáng)化學(xué)習(xí)為推理和代碼生成創(chuàng)造了持續(xù)改進(jìn)的循環(huán)機(jī)制

具體來(lái)說(shuō),團(tuán)隊(duì)采用了測(cè)試用例生成器,在經(jīng)過(guò)DPO后達(dá)到89.2%的通過(guò)率,相比初始微調(diào)后的80.8%有顯著提升;Qwen2.5-Coder-7B采用偽代碼方法實(shí)現(xiàn)了74.9%的平均采樣通過(guò)率,提升了25.6%。

網(wǎng)友直呼很需要這樣的模型。

圖片圖片

O1-CODER,究竟長(zhǎng)啥樣?

圖片圖片

六步,逐步優(yōu)化o1

應(yīng)用于代碼生成的自我對(duì)弈強(qiáng)化學(xué)習(xí)面臨兩大挑戰(zhàn):

  • 結(jié)果評(píng)估,即如何評(píng)判生成代碼的質(zhì)量。與圍棋等任務(wù)不同,評(píng)估代碼需要在測(cè)試環(huán)境中運(yùn)行并驗(yàn)證。
  • 定義思考和搜索行為,即確定過(guò)程獎(jiǎng)勵(lì)的對(duì)象和粒度。

對(duì)于第一個(gè)挑戰(zhàn),團(tuán)隊(duì)提出訓(xùn)練一個(gè)測(cè)試用例生成器(TCG),根據(jù)問(wèn)題和標(biāo)準(zhǔn)代碼自動(dòng)生成測(cè)試用例,為強(qiáng)化學(xué)習(xí)提供標(biāo)準(zhǔn)化的代碼測(cè)試環(huán)境和結(jié)果獎(jiǎng)勵(lì)。

對(duì)于第二個(gè)挑戰(zhàn),他們采取”先思考后行動(dòng)“的方式:先通過(guò)詳細(xì)的偽代碼思考問(wèn)題,再基于偽代碼生成最終的可執(zhí)行代碼。

這種方式的優(yōu)勢(shì)在于適應(yīng)性(同一偽代碼可對(duì)應(yīng)不同的具體實(shí)現(xiàn))可控粒度(通過(guò)調(diào)整偽代碼的細(xì)節(jié)程度控制推理/搜索行為的粒度)

具體來(lái)說(shuō),研究團(tuán)隊(duì)提出了一個(gè)包含六個(gè)步驟的框架:

  • 訓(xùn)練測(cè)試用例生成器(TCG),為代碼測(cè)試提供標(biāo)準(zhǔn)化的環(huán)境
  • 利用MCTS生成包含推理過(guò)程的代碼數(shù)據(jù)
  • 迭代微調(diào)策略模型,先生成偽代碼,再生成完整代碼
  • 基于推理過(guò)程數(shù)據(jù)初始化過(guò)程獎(jiǎng)勵(lì)模型(PRM)
  • 在TCG提供的結(jié)果獎(jiǎng)勵(lì)和PRM提供的過(guò)程獎(jiǎng)勵(lì)的雙重引導(dǎo)下,通過(guò)強(qiáng)化學(xué)習(xí)和MCTS更新策略模型
  • 利用優(yōu)化后的策略模型生成新的推理數(shù)據(jù),返回第4步迭代訓(xùn)練

圖片圖片

兩階段訓(xùn)練測(cè)試用例生成器

在實(shí)驗(yàn)部分,研究人員詳細(xì)介紹了測(cè)試用例生成器的訓(xùn)練過(guò)程。

分為兩個(gè)階段:監(jiān)督微調(diào)(SFT)直接偏好優(yōu)化(DPO)

SFT階段的主要目標(biāo)是確保生成器的輸出符合預(yù)定義格式,以便準(zhǔn)確解析和提取生成的測(cè)試用例。訓(xùn)練數(shù)據(jù)來(lái)自TACO數(shù)據(jù)集。

圖片圖片

DPO階段的目標(biāo)是引導(dǎo)模型生成符合特定偏好的測(cè)試用例,進(jìn)一步提高生成器的性能和可靠性。

這里采用了帶有人工構(gòu)建樣本對(duì)的DPO方法,構(gòu)建了一個(gè)偏好數(shù)據(jù)集。

實(shí)驗(yàn)表明,SFT階段過(guò)后,TCG在標(biāo)準(zhǔn)代碼上生成的測(cè)試用例通過(guò)率達(dá)到80.8%,DPO階段進(jìn)一步提升至89.2%,大幅改善了生成器產(chǎn)出可靠測(cè)試用例的能力。

偽代碼推理,引導(dǎo)模型進(jìn)行深度推理

特別值得一提的是,研究者引入了基于偽代碼的提示方法,將其作為引導(dǎo)模型進(jìn)行深度推理的“認(rèn)知工具”。

圖片圖片

他們?yōu)榇硕x了三個(gè)關(guān)鍵行為:

  • 使用偽代碼定義算法結(jié)構(gòu):勾勒主要函數(shù)的結(jié)構(gòu)和接口,把握任務(wù)的整體框架
  • 細(xì)化偽代碼:逐步明確每個(gè)函數(shù)的具體步驟、邏輯和操作
  • 從偽代碼生成代碼:將偽代碼的結(jié)構(gòu)和邏輯精準(zhǔn)翻譯為可執(zhí)行代碼

圖片圖片

在MBPP數(shù)據(jù)集上進(jìn)行的初步實(shí)驗(yàn)表明,盡管整體通過(guò)率(Pass@1)有所下降,但Average Sampling Pass Rate(ASPR)顯著提高。

圖片圖片

表明結(jié)合偽代碼顯著改善了推理過(guò)程的質(zhì)量,特別是在細(xì)化通向正確輸出的路徑方面。這為后續(xù)的自監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)提供了良好的起點(diǎn)。

自我對(duì)弈+強(qiáng)化學(xué)習(xí)

研究人員詳細(xì)描述了如何使用蒙特卡洛樹(shù)搜索(MCTS)來(lái)構(gòu)建步驟級(jí)別的過(guò)程獎(jiǎng)勵(lì)數(shù)據(jù)。

這個(gè)過(guò)程涉及到為每個(gè)問(wèn)題形成一個(gè)推理路徑,該路徑由一系列推理步驟組成,并最終產(chǎn)生一個(gè)可執(zhí)行的代碼。在MCTS的路徑探索中,使用偽代碼提示策略來(lái)引導(dǎo)推理過(guò)程。當(dāng)達(dá)到終端節(jié)點(diǎn)時(shí),就形成了一個(gè)完整的偽代碼推理路徑。

終端節(jié)點(diǎn)的獎(jiǎng)勵(lì)值是基于兩個(gè)關(guān)鍵指標(biāo)計(jì)算的:編譯成功率(compile)測(cè)試用例通過(guò)率(pass)。

圖片圖片

這些指標(biāo)被用來(lái)評(píng)估生成的代碼的質(zhì)量和正確性。

獎(jiǎng)勵(lì)值被反向傳播到路徑上的所有前序節(jié)點(diǎn),為每個(gè)步驟分配一個(gè)獎(jiǎng)勵(lì)值。通過(guò)這種方式,構(gòu)建了推理過(guò)程數(shù)據(jù)集,為策略模型的初始化和訓(xùn)練提供了基礎(chǔ)。

圖片圖片

過(guò)程獎(jiǎng)勵(lì)模型(PRM)的任務(wù)是為當(dāng)前步驟分配一個(gè)獎(jiǎng)勵(lì)值,以估計(jì)其對(duì)最終答案的貢獻(xiàn)。

在數(shù)據(jù)合成過(guò)程中使用的樹(shù)搜索方法可以組織成點(diǎn)式(point-wise)和成對(duì)式(pair-wise)兩種數(shù)據(jù)格式。

圖片圖片

基于這些經(jīng)過(guò)驗(yàn)證的正確推理解,策略模型得到初始化。

接下來(lái),過(guò)程獎(jiǎng)勵(lì)模型(PRM)開(kāi)始發(fā)揮作用,評(píng)估每一步推理對(duì)最終答案的貢獻(xiàn)。在測(cè)試用例生成器(TCG)提供的結(jié)果獎(jiǎng)勵(lì)和PRM提供的過(guò)程獎(jiǎng)勵(lì)的雙重引導(dǎo)下,策略模型通過(guò)強(qiáng)化學(xué)習(xí)不斷改進(jìn)。

更新后的策略模型被用來(lái)生成新的推理數(shù)據(jù),補(bǔ)充到現(xiàn)有數(shù)據(jù)集中,形成自我對(duì)弈的閉環(huán)。這個(gè)數(shù)據(jù)生成-獎(jiǎng)勵(lì)建模-策略優(yōu)化的迭代循環(huán),確保了系統(tǒng)推理能力的持續(xù)提升。

論文鏈接:https://arxiv.org/pdf/2412.00154
參考鏈接:https://x.com/rohanpaul_ai/status/1864488583744377271?s=46&t=iTysI4vQLQqCNJjSmBODPw


責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-02-13 09:10:00

2024-08-19 08:45:00

開(kāi)源模型

2025-05-26 08:52:00

2024-11-05 14:20:00

AI模型

2025-02-24 10:15:00

2025-11-18 08:50:00

2025-02-13 09:34:13

2024-09-13 06:32:25

2025-08-04 08:34:00

2025-01-10 11:42:40

2018-06-27 19:32:59

人工智能深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2020-10-23 09:07:17

開(kāi)源代碼開(kāi)發(fā)

2025-04-26 09:25:00

模型推理AI

2024-05-09 08:33:33

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2019-10-08 10:44:42

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-09-14 14:00:00

AI模型

2025-02-03 14:17:27

2025-01-21 09:00:00

2024-09-18 09:17:00

OpenAI模型開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

偷拍欧美精品| 日韩a**中文字幕| 成人性色生活片免费看爆迷你毛片| 欧美激情视频在线观看| 久久偷拍免费视频| 久久免费资源| 亚洲国产精品一区二区久久恐怖片 | 免费成人av在线| 欧美另类精品xxxx孕妇| 97人妻精品一区二区免费| 电影一区中文字幕| 精品国产福利在线| 中文字幕在线亚洲三区| 亚洲 欧美 激情 另类| 日本伊人午夜精品| 97国产精品视频| 婷婷国产成人精品视频| 欧美五码在线| 日韩小视频在线观看专区| 日本一区二区黄色| 亚洲奶水xxxx哺乳期| 久久亚洲一级片| 99久久精品免费看国产一区二区三区| 4438国产精品一区二区| 欧美人与禽猛交乱配视频| 一区二区三区高清国产| 强迫凌虐淫辱の牝奴在线观看| 亚洲ww精品| 色老头久久综合| 黄色www网站| 性欧美高清come| 亚洲欧美中日韩| 欧美日韩精品久久| 国产 欧美 精品| 黄页视频在线91| 国产精品久久一区| 国产无套丰满白嫩对白| 日韩一级精品| 久久久久久久久久久网站| 天海翼在线视频| 日韩久久电影| 亚洲精品国产综合久久| 无码人妻一区二区三区在线| 国产精品一站二站| 亚洲人metart人体| 我不卡影院28| 亚洲天堂成人在线| 国产人妻人伦精品1国产丝袜| 国产精品日韩精品在线播放| 欧美日韩一区二区电影| 中国黄色片免费看| 日韩精品免费观看视频| 亚洲一区在线观看免费| 欧美人成在线观看| 高潮在线视频| 黑人巨大精品欧美一区二区一视频| 欧美综合在线播放| 日韩脚交footjobhd| 欧美日韩国产一区二区| 逼特逼视频在线| 校园春色亚洲色图| 欧美在线观看视频一区二区三区| 天堂在线资源视频| 欧美高清影院| 欧美一区二区黄色| 97中文字幕在线观看| 爱高潮www亚洲精品| 亚洲国产精品999| 六月婷婷七月丁香| 清纯唯美综合亚洲| 久久九九热免费视频| 日韩三级在线观看视频| 欧美先锋影音| 91av在线精品| 销魂美女一区二区| 久久精品国产99久久6| 91精品久久久久久久久久另类 | a在线视频播放观看免费观看| 亚洲精品极品少妇16p| 欧美丰满片xxx777| 无码人妻丰满熟妇区五十路| 久久国内精品视频| 国产99午夜精品一区二区三区 | 在线精品自拍| 亚洲人成电影在线播放| 九九热视频在线免费观看| 欧美日韩中文| 国产精品扒开腿做爽爽爽视频 | 亚洲国产精品一区二区第四页av| 老司机精品影院| 舔着乳尖日韩一区| 91国产精品视频在线观看| 日韩高清在线观看一区二区| 日韩经典第一页| chinese全程对白| 亚洲黄色三级| 国产日韩中文字幕在线| 色婷婷av一区二区三区之e本道| 国产性做久久久久久| 亚洲天堂第一区| 成人免费直播| 欧美成va人片在线观看| 欧美性猛交xxxx乱| 国产一区二区三区四区老人| 日韩免费在线看| 亚洲av无码一区二区乱子伦| 国产人伦精品一区二区| 97免费视频观看| 欧美伊人亚洲伊人色综合动图| 亚洲国产成人久久| 欧美做爰爽爽爽爽爽爽| 玖玖视频精品| 国产综合色一区二区三区| 免费黄网站在线播放| 欧美丝袜第一区| 亚洲少妇一区二区| 不卡中文字幕| 国产97在线视频| 视频一区二区免费| 樱花影视一区二区| 黄色小视频免费网站| 国产探花在线精品| 91精品国产高清| 亚洲第一黄色片| ㊣最新国产の精品bt伙计久久| 18禁男女爽爽爽午夜网站免费| 中文一区二区三区四区| 日韩视频在线观看免费| 免费在线不卡av| 久久精品夜色噜噜亚洲a∨| 国产 日韩 亚洲 欧美| 日韩中文字幕一区二区高清99| 最好看的2019年中文视频| 午夜婷婷在线观看| 91免费看视频| 欧美 日韩 国产在线观看| 一区中文字幕电影| 欧美情侣性视频| 国产成人精品白浆久久69| 亚洲日本丝袜连裤袜办公室| 亚洲精品第三页| 水蜜桃精品av一区二区| 国产裸体写真av一区二区| 成人在线免费看| 欧亚一区二区三区| 特级西西人体高清大胆| 秋霞国产午夜精品免费视频| 三区精品视频观看| 国产韩日精品| 在线亚洲午夜片av大片| 免费看av在线| 中文字幕一区av| 亚洲精品免费一区亚洲精品免费精品一区 | 激情六月婷婷久久| 亚洲精品少妇一区二区| 日本少妇精品亚洲第一区| 色综合91久久精品中文字幕| 亚洲福利在线观看视频| 亚洲成人午夜影院| 在线免费观看黄色小视频| 丝袜诱惑亚洲看片| 亚洲va韩国va欧美va精四季| 日韩专区视频| 欧美日韩国产va另类| 欧美一级特黄aaaaaa大片在线观看 | 亚洲一区二区三区四区中文| 伊人久久精品| 欧美大片免费观看在线观看网站推荐 | 2020国产在线| 亚洲人成在线一二| 91中文字幕在线视频| 亚洲精品综合在线| 亚洲综合自拍网| 蜜臀久久99精品久久久画质超高清 | 天堂网www中文在线| 欧美视频三区在线播放| 欧美精品久久久久久久久46p| 国产成人免费视频| 精品人妻一区二区三区四区在线| 欧美呦呦网站| 成人国产1314www色视频| 爱啪啪综合导航| 在线电影av不卡网址| 国产99视频在线| 色婷婷久久99综合精品jk白丝| 呻吟揉丰满对白91乃国产区| 国产成人8x视频一区二区 | 狠狠网亚洲精品| 国产无限制自拍| 精品亚洲成人| 不卡日韩av| 91九色综合| 午夜精品一区二区三区av| 国产一二三区在线视频| 欧美成人女星排名| 国产一区二区视频网站| 亚洲一区av在线| 日本精品久久久久中文| 成人av在线播放网站| www午夜视频| 泷泽萝拉在线播放| 欧美日韩1区2区3区| 日本一区二区不卡高清更新| 视频免费一区二区| 国产精品欧美激情| 91吃瓜在线观看| 久久久国产影院| 国际av在线| 精品国产免费久久| 91麻豆国产在线| 一本色道久久综合亚洲91| 青草草在线视频| 国产精品久久久久久久第一福利 | 婷婷综合成人| 99久久99久久精品国产片| 99热播精品免费| 9.1国产丝袜在线观看| 在线看一级片| 日韩一二三在线视频播| 久久天堂电影| 亚洲精选中文字幕| 四虎在线视频免费观看| 欧美丰满美乳xxx高潮www| 久久久久久无码精品大片| 天涯成人国产亚洲精品一区av| 欧美做爰啪啪xxxⅹ性| 日本一区二区高清| 熟女俱乐部一区二区视频在线| 成人97人人超碰人人99| www.欧美com| 国产精品一区在线| 手机在线视频一区| 麻豆精品一区二区av白丝在线| 欧美牲交a欧美牲交aⅴ免费真| 亚洲激情自拍| 五十路熟女丰满大屁股| 一区久久精品| 91黄色在线看| 在线国产精品一区| 日韩精品一区二区在线视频 | 欧美丰满少妇xxxxx做受| 国产在线更新| 麻豆乱码国产一区二区三区| 国产理论在线观看| 久久久精品国产网站| 国内精品久久久久国产| 久久久精品国产一区二区| 毛片免费不卡| 欧美成人激情视频| 欧美大片黄色| 97激碰免费视频| 午夜伦理福利在线| 奇米四色中文综合久久| 国产不卡一区二区视频| 国产精品99久久精品| 在线观看免费91| 99久久精品费精品国产| 国产日本欧美在线| 国产字幕视频一区二区| 2018国产在线| 久久亚洲精品中文字幕| 亚洲18女电影在线观看| 欧美人妻精品一区二区免费看| 一区二区三区在线观看视频| 免费在线观看日韩| 午夜精品福利视频网站| 国产精品免费精品一区| 欧美亚洲综合色| 国产精品久久久久久免费播放| 欧美一区2区视频在线观看| 亚洲第一天堂影院| 亚洲乱亚洲乱妇无码| 一区二区三区视频网站| 久久91精品国产| 色黄视频在线观看| 国产精品久久不能| 精品中文字幕一区二区三区四区 | 国产色视频在线| 亚洲福利视频久久| 在线观看完整版免费| 精品中文字幕在线观看| 在线视频超级| 国产日韩欧美日韩| 激情小说亚洲色图| 亚洲午夜精品久久| 精品av久久久久电影| 真实国产乱子伦对白视频| 美女诱惑一区| 91丝袜超薄交口足| 久久午夜色播影院免费高清| 日韩在线视频网址| 动漫精品一区二区| 国产三级第一页| 亚洲欧美日韩第一区| 性欧美videos高清hd4k| 国产成人在线播放| 电影一区二区在线观看| 亚洲第一综合| 夜久久久久久| 男插女视频网站| 久久精品人人爽人人爽| 国产一级一片免费播放放a| 一区二区三区四区在线看| 国产免费观看久久黄| 高潮久久久久久久久久久久久久| 日韩免费三级| 99国产精品视频免费观看一公开 | 日本免费成人| 欧美高清一区二区| 国产精品国码视频| 中文字幕亚洲影院| 久久精品人人做人人爽人人| 日韩av在线播放观看| 欧美一区二区视频观看视频| 成年人免费在线视频| 777精品视频| 综合激情久久| 天天操天天干天天玩| 日韩va亚洲va欧美va久久| 老鸭窝一区二区| 亚洲一区二区在线视频| 国产视频在线免费观看| 这里只有精品久久| 最近在线中文字幕| 国产亚洲第一区| 自由日本语亚洲人高潮| 一个色综合久久| 国产精品网曝门| 中文资源在线播放| 一本久久综合亚洲鲁鲁| 人人草在线视频| 精品国产一区二区三区麻豆免费观看完整版 | 国产精品视频精品视频| 九九热精品视频在线观看| 鲁一鲁一鲁一鲁一澡| caoporm超碰国产精品| 精品视频在线观看免费| 日韩精品一区二区三区蜜臀| 成人福利网站| 999国产视频| 亚洲国产三级| 精品中文字幕在线播放| 婷婷综合久久一区二区三区| 无码精品人妻一区二区| 91精品国产91久久久久久| 精品国产影院| 成年人视频观看| 久久综合给合久久狠狠狠97色69| 可以免费看的av毛片| 亚洲嫩模很污视频| 日本少妇一区| 亚洲欧美日产图| 九色综合国产一区二区三区| 在线免费观看亚洲视频| 日韩精品专区在线影院观看| 白白色在线观看| 久久久久久久有限公司| 久久一本综合频道| 欧美巨胸大乳hitomi| 717成人午夜免费福利电影| 日本高清成人vr专区| 国产精品一区二区免费| 免播放器亚洲| 国产传媒视频在线| 欧美一区二区在线视频| 日本h片在线| 麻豆成人小视频| 秋霞午夜av一区二区三区| 国产波霸爆乳一区二区| 亚洲精品不卡在线| 快播电影网址老女人久久| 在线视频欧美一区| 国产91精品在线观看| 国产 欧美 日韩 在线| 亚洲性无码av在线| 精品成人18| 男人天堂1024| 国产精品亲子伦对白| 亚洲国产精品久久久久久久| 秋霞午夜一区二区| 久久久久久久久久久9不雅视频| 国产综合内射日韩久| 色婷婷久久一区二区三区麻豆| 粗大黑人巨茎大战欧美成人| 极品尤物一区二区三区| 麻豆一区二区三区| 日本特黄一级片| 一个人www欧美| 成人18夜夜网深夜福利网| 已婚少妇美妙人妻系列| 亚洲黄色性网站| 国产最新视频在线| 国产精品一区二区免费| 久久精品国产精品亚洲红杏| 亚洲欧美在线视频免费| 日韩日本欧美亚洲| 丝袜美腿一区二区三区动态图| 91高清国产视频| 色综合色综合色综合色综合色综合| 超碰在线观看免费|