精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習的“GPT-3 時刻”即將到來 原創

發布于 2025-8-29 09:27
瀏覽
0收藏

編者按: 強化學習能否像?GPT-3?改變自然語言處理那樣,通過大規模擴展實現質的飛躍?為什么強化學習至今仍困在“先預訓練,再微調”的傳統模式中?為什么即使是最先進的?RL?模型,一旦脫離訓練環境就變得如此脆弱?

無論是自動駕駛、機器人控制,還是復雜系統優化,我們都需要能夠快速適應新任務、具備真正泛化能力的智能體。然而當前的 RL 模型就像是“高分低能”的應試選手 —— 在熟悉的測試環境中表現優異,但面對真實世界的復雜性時卻束手無策。

本文提出了 replication training 范式,為強化學習的規模化擴展指明了全新方向。作者不再拘泥于傳統的游戲環境或仿真場景,而是大膽提議讓 AI 復制現有的軟件產品。它利用了互聯網上豐富的軟件資源,提供了客觀明確的評估標準,同時訓練了 AI 在長周期項目中保持穩定輸出的能力。

作者 | Matthew Barnett, Tamay Besiroglu, Ege Erdil

編譯 | 岳揚

GPT-3 證明了,僅僅通過擴大語言模型的規模,就能帶來強大的、task-agnostic(譯者注:模型不依賴特定任務的設計或微調,就能處理多種不同類型的任務。)、few-shot(譯者注:模型僅需極少量示例,就能快速理解并執行新任務。)的性能,其表現通常優于經過精心微調的模型。在 GPT-3 出現之前,要達到最先進的性能,首先需要在大型通用文本語料庫上對模型進行預訓練,然后再針對特定任務進行微調。

如今的強化學習同樣困在類似 GPT-3 之前的范式里。我們首先是對大模型進行預訓練,然后在高度專業化的環境中,對特定任務進行精細的微調。但這種方法的根本局限在于:由此獲得的能力難以泛化,導致性能“脆弱”(brittle performance) ——?模型一旦脫離訓練期間接觸的精確語境,性能便會迅速退化。

強化學習的“GPT-3 時刻”即將到來-AI.x社區

我們認為強化學習(RL)即將迎來其“GPT-3 時刻”。相比在有限數量的訓練場景或任務設置上微調模型,我們預計該領域將轉向在數千個多樣化環境上進行大規模訓練。有效實施這一做法將催生出具有 few-shot、task-agnostic 能力的 RL 模型,能夠快速適應全新的任務。但實現這一點需要訓練環境在規模和多樣性上遠超當前任何的可用資源。

01 究竟需要多少 RL 資源?

當前的 RL 數據集相對較小。例如,DeepSeek-R1 在大約 60 萬個數學問題上進行了訓練,這相當于人類連續努力六年的工作量(假設每個任務耗時五分鐘完成)。相比之下,重建 GPT-3 那包含 3000 億 token 的訓練語料庫,若按人類平均書寫速度計算,需要大約數萬年的寫作時間。

需要說明的是,要達到與當前前沿模型預訓練預算相當的 RL 計算支出,按人類完成相同任務所需時長來衡量,可能需要大約上萬年。 DeepSeek-R1 在 RL 階段使用了約 6e23 FLOP 的計算量[1],按人類效率折算,對應約 6 年的時長。假設未來的訓練任務使用與 DeepSeek-R1 相似的訓練輪次(epochs)和組大小(group sizes),將此擴展至約 6e26 FLOP 意味著需要人類約 6000 年的工作時長。

尚不確定未來的強化學習訓練會需要更大的還是更小的組規模(group sizes)、抑或是更多的訓練輪次(epochs),尤其是隨著任務分布多樣性的增加。我們在這方面缺乏足夠的數據,因此精確估算等效的人類工作時間仍很困難,盡管 1 萬年左右似乎是一個較為合理的數量級。

這一過程要求模型完成的工作量,其規模可與 Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型項目相當 —— 每個項目估計都需要約 1 萬年的累計人類工作量。

將強化學習(RL)擴展到這一規模在經濟上是高效的。由于算力成本在總訓練成本中占據主導地位,將強化學習的規模提升到與預訓練預算相當的水平,能在不明顯增加總成本的情況下帶來大幅的性能提升。 然而,要實現這一目標,就必須大規模擴展強化學習環境(RL environments)的體量,同時確保任務能夠實現自動化評估。這很可能需要開發新的構建強化學習環境的方法。

02 Replication training

想象一下,每次當你想要通過下一個詞預測方法(next-token prediction)預訓練語言模型時,都必須親手創建整個訓練語料庫。顯然,這極其不切實際。因此,我們轉而利用海量的現有內容 —— 如書籍、學術論文、博客帖子和 Reddit 討論內容來構建訓練語料庫。

同樣,我們推測,RL(強化學習)領域的“GPT-3 時刻”將主要依托于一種稱為 replication training 的新范式來實現。 該范式要求 AI 復制現有的軟件產品或其內部特定功能。實現復雜的哈希與加密算法的簡單命令行工具是較為理想的初期目標,這種方案可以輕松擴展到更復雜的軟件,例如網站、專業軟件和游戲。

每項復制任務(replication tasks)均包含詳細的說明規范和用于參考的實現方案。其核心思想是,AI 模型經過訓練后能夠生成與用于參考的實現方案完全一致的方案。這種清晰直接的方法極大地簡化了評估過程,因為評分標準客觀且明確:生成的實現方案的行為要么與用于參考的實現方案完全一致,要么就是不一致。

盡管這些復制任務(replication tasks)可能與日常的軟件工程活動有所不同,但它們專門針對當前 AI 系統難以掌握的關鍵能力。例如,復制一個復雜的算法(如依據詳細規范進行開發的、包含萬行量級代碼的加密/解密 CLI 工具),要求模型必須做到:

  • 準確閱讀并深度理解詳細指令。
  • 一絲不茍且精確無誤地執行指令。
  • 能夠發現早期錯誤并可靠地恢復。
  • 在長時間周期(相當于人類數月時間的開發工作量)內保持穩定輸出 —— 在此過程中,質量優劣完全由功能正確性直接判定。
  • 在遇到困難時展現出韌性,而非草率止步于看起來“差不多能用”的方案。

我們預測,replication training 將成為 AI 領域的下一個范式,因為它順延了我們在 AI 發展過程中已觀察到的趨勢 —— 利用海量的現有人類生成數據來創建新任務。就像自然語言一樣,軟件在互聯網上同樣資源豐富。因此,replication training 提供了一種可擴展的途徑,能高效生成復雜任務,推動我們實現可端到端完成完整軟件項目的 AI。

然而,這種方法也面臨著幾項挑戰。編寫有效且全面的測試仍然是一項非同小可的任務,需要大量的工程投入。此外,復制任務(replication tasks)本身具有一定的人造性,因為精確復制現有軟件并非日常軟件工程的典型工作(盡管在軟件移植、遺留系統重構、凈室重新實現【譯者注:clean-room reimplementations,指在嚴格隔離原始代碼知識的前提下,僅通過分析功能規范或外部行為,重新實現與原有軟件功能相同的程序。該過程需確保開發團隊從未接觸過原始源代碼,以避免法律上的版權/專利侵權風險。】)等場景中確有其例。

盡管存在這些挑戰,但我們認為 replication training 為將強化學習環境(RL environments)擴展到實現有意義泛化所需的龐大規模提供了一條清晰明確的路徑。它很可能將成為解鎖強化學習“GPT-3 時刻”的關鍵,為達成穩健的、task-agnostic 的性能提供所需的數萬年量級的經驗積累。

replication training 會是解鎖 full automation of labor(譯者注:通過 AI / 機器人系統實現人類所有勞動形式的自動化替代,達到無需人類直接參與即可完成經濟生產活動的終極狀態。)的終極范式嗎?對此我們持懷疑態度。雖然它能催生可在精確設計規范下自主完成高復雜度軟件項目的系統,但我們推測,這些能力仍將遜色于人類所具備的開放式能力。即便 AI 成為高級編程專家,它們在狹窄的軟件領域之外的高層管理(譯者注:high-level management,指組織架構中涉及戰略決策、資源分配和跨部門協調的頂層管理職能。)與自主規劃(agentic planning)方面也未必能勝任。

然而,正如我們需要先發明預訓練,才能邁向 replication training,replication training 仍可作為通往下一范式的橋梁。我們對這一新范式的未來潛力充滿期待。

END

本期互動內容 ??

?您預測 RL 領域的“GPT-3時刻”會在什么時間節點出現?3 年內、5-10 年,還是更久?請分享您的判斷依據。

本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。

原文鏈接:

https://www.mechanize.work/blog/the-upcoming-gpt-3-moment-for-rl/

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
久久久国产影院| 色综合av在线| 国产欧美日本在线| 无码人妻精品一区二区三区9厂 | 日本美女一区二区三区视频| 久久亚洲精品一区| 中出视频在线观看| 欧美成人福利| 红桃av永久久久| 亚洲一区三区视频在线观看| 日韩在线观看视频一区| 老司机免费视频一区二区| 久久久久久尹人网香蕉| 成人免费视频入口| 天天看片中文字幕| 国色天香久久精品国产一区| 午夜精品一区二区三区三上悠亚 | 免费看三级黄色片| 欧美va在线观看| 亚洲午夜视频在线| 亚洲一二区在线| 日韩午夜影院| 福利一区二区在线| 成人免费网站在线观看| 五月天婷婷导航| 亚洲高清激情| 欧美老少配视频| 日本爱爱小视频| 国产精品欧美日韩一区| 日韩av网站电影| 在线xxxxx| 永久免费精品视频| 69堂国产成人免费视频| 日本人视频jizz页码69| 性欧美freesex顶级少妇| 亚洲一区在线观看网站| 一级日韩一区在线观看| av女优在线| 久久久久久**毛片大全| 九九九九久久久久| 人人妻人人澡人人爽欧美一区双 | 亚洲一区在线免费观看| 一本一道久久久a久久久精品91| 日本啊v在线| 99精品一区二区| 成人xxxxx色| а√天堂资源在线| 国产一区 二区 三区一级| 国产欧美日韩最新| 亚洲特级黄色片| 蜜桃久久久久久| 国产精品亚洲第一区| 中文字幕人妻互换av久久| 日韩 欧美一区二区三区| 国产成人在线亚洲欧美| www.欧美色| 日本午夜精品视频在线观看| 国产精品成av人在线视午夜片| 久久久黄色大片| 久久亚洲欧美| 国产精品久久久久影院日本| 亚洲中文一区二区三区| 麻豆91在线观看| 亚洲va欧美va国产综合剧情| 国产情侣激情自拍| 国产福利不卡视频| 国产日韩在线一区二区三区| 午夜黄色小视频| 久久先锋影音av鲁色资源网| 日韩性感在线| 国产在线观看91| 亚洲一区二区精品视频| 少妇高潮毛片色欲ava片| 亚洲欧洲美洲av| 日本韩国一区二区三区视频| 无码人妻丰满熟妇区毛片| 日本精品不卡| 欧美人狂配大交3d怪物一区| 丰满饥渴老女人hd| 九九热播视频在线精品6| 亚洲精品有码在线| 狂野欧美性猛交| 欧美日本免费| 青草成人免费视频| 国产精品毛片一区视频播| 福利一区二区在线| 免费在线成人av| 国产不卡在线| 欧美性猛交xxxx| 日日躁夜夜躁aaaabbbb| 视频精品二区| 亚洲偷熟乱区亚洲香蕉av| 亚洲色图100p| 亚洲美女网站| 国产欧美精品在线播放| 亚洲av综合色区无码一区爱av| 91女人视频在线观看| 亚洲高清乱码| 国产第一页在线| 欧美影院精品一区| 极品白嫩少妇无套内谢| 精品日韩一区| 国内外成人免费激情在线视频网站| 亚洲国产精品无码久久久| 国产一区二区三区免费在线观看| 精品免费视频123区| 日韩毛片久久久| 欧美日韩人人澡狠狠躁视频| 欧洲美女亚洲激情| 久久av综合| 久久久久久亚洲精品中文字幕| 瑟瑟视频在线免费观看| 成人动漫一区二区在线| 一本一本a久久| 成人av观看| 欧美成人综合网站| 男人的午夜天堂| 亚洲影音先锋| 国产98在线|日韩| 免费网站免费进入在线| 色哦色哦哦色天天综合| 国产又粗又长又爽| 国产精品v亚洲精品v日韩精品| 国产精品美女主播| 亚洲欧美自偷自拍| 亚洲一区二区三区四区中文字幕| 99sesese| 日韩av大片| 国产福利成人在线| 日韩一二三四| 欧美日韩在线视频一区| 乱码一区二区三区| 亚洲一区二区日韩| 国产日韩欧美在线看| 国产福利小视频在线| 精品久久久久久久久国产字幕| 久久久久亚洲av无码网站| 亚洲国产精品日韩专区av有中文| 国产日韩av在线| 69视频在线| 欧美日韩一二三| 欧美日韩中文字幕视频| 日本91福利区| 亚洲一区综合| 欧美高清你懂的| 色天天综合狠狠色| 亚洲综合精品视频| 中文字幕一区二区不卡| 欧美一级特黄a| 日韩欧美高清| 成人黄色免费网站在线观看| 欧美另类极品| 欧美一区二区三区四区五区| 欧美黑人猛猛猛| 国产精品资源在线观看| 久久久久久av无码免费网站下载| 欧美丝袜丝交足nylons| 91在线免费观看网站| av在线免费一区| 一本色道a无线码一区v| 久久久亚洲av波多野结衣| 亚洲人成久久| 欧美韩国日本精品一区二区三区| 中文字幕一二三区| 国产欧美日韩在线一区二区| 国产成人精品久久二区二区91 | 韩国av一区二区三区在线观看| 一区二区免费在线观看| 国产精品亚洲四区在线观看| 欧美丰满老妇厨房牲生活| 黄色av小说在线观看| 欧美日韩国产一区在线| 爱爱免费小视频| 久久精品72免费观看| 日本福利视频网站| 牛牛视频精品一区二区不卡| 日韩av电影手机在线| 老司机精品视频在线观看6| 日韩精品一区二区三区视频播放 | 樱空桃在线播放| 99精品国产高清一区二区麻豆| 久久青草福利网站| 狠狠色伊人亚洲综合网站l| 欧美色精品在线视频| 四虎影院中文字幕| 99精品偷自拍| www.欧美激情.com| 亚洲美女少妇无套啪啪呻吟| 亚洲国产日韩综合一区| 综合伊人久久| 国产精品视频导航| 91九色国产在线播放| 亚洲无限av看| 亚洲成人精品女人久久久| 天天av天天翘天天综合网| 免费成人深夜蜜桃视频| 成av人片一区二区| 亚洲精品视频三区| 一区二区动漫| 2021国产视频| 精品美女久久| 国产一区二区久久久| 久久99国产精品二区高清软件| 国外成人性视频| 精品美女在线观看视频在线观看| 日韩av在线不卡| 精品人妻久久久久一区二区三区| 欧美视频在线免费| 久久久久成人片免费观看蜜芽| 中文字幕av不卡| 亚洲精品视频大全| 国产福利91精品一区二区三区| 久草综合在线观看| 亚洲精品黄色| 9191国产视频| 91九色精品| 午夜精品视频在线观看一区二区| 精品久久ai| 久久www人成免费看片中文| 欧美性生活久久| 国产在线观看成人| |精品福利一区二区三区| 中文字幕一区二区人妻在线不卡 | 精品人伦一区二区三区蜜桃网站 | 国产日韩欧美电影在线观看| 一个人www视频在线免费观看| 欧美成人高清视频| 免费不卡视频| 最近日韩中文字幕中文| 国产一二三区在线| 国产婷婷成人久久av免费高清| 亚洲精品无amm毛片| 欧美一级黄色大片| 国产精品一品二区三区的使用体验| 在线视频国内一区二区| 国产成人无码专区| 色一区在线观看| 日韩精品成人免费观看视频| 欧美性猛交xxxx免费看久久久| 日韩乱码人妻无码中文字幕| 亚洲国产美女搞黄色| 精品亚洲永久免费| 亚洲高清免费视频| 国产精品99无码一区二区| 夜夜嗨av一区二区三区网页| 欧美成人黄色网| 一个色综合av| 黄色片视频网站| 五月婷婷激情综合| 一级aaa毛片| 欧美日韩国产黄| 亚洲国产精品无码久久久| 在线免费一区三区| 影音先锋国产资源| 538在线一区二区精品国产| 国产露脸无套对白在线播放| 日韩欧美一二三| 蜜桃久久一区二区三区| 亚洲精品成人久久久| 日韩一区av| 中文字幕日韩在线观看| 欧美性天天影视| 欧美夫妻性生活xx| segui88久久综合9999| 97不卡在线视频| 精品成人免费一区二区在线播放| 国产精品一二三视频| 国产精品18| 国产另类第一区| 精品国产精品国产偷麻豆| 影音先锋欧美资源| 黄色亚洲大片免费在线观看| 久色视频在线播放| 蜜桃av噜噜一区| 亚洲熟女乱综合一区二区| 99视频在线精品| 国产大屁股喷水视频在线观看| 一区二区三区日本| 黄色一级视频免费看| 69成人精品免费视频| 少妇一区二区三区四区| 国产亚洲精品va在线观看| 黄色一级大片在线免费看产| 久久青草精品视频免费观看| 国产精品成人国产| 国产不卡一区二区在线观看| av永久不卡| 欧美视频在线观看视频| 日本成人在线一区| 91精品国产高清91久久久久久 | 亚洲午夜精品久久久久久久久久久久| 亚洲视频tv| 8090成年在线看片午夜| 欧美黄色网络| 玖玖玖精品中文字幕| 亚洲草久电影| 免费大片在线观看| 国产精品一二一区| 中文字幕免费在线看线人动作大片| 亚洲黄网站在线观看| 91视频在线视频| 亚洲的天堂在线中文字幕| 日本亚洲精品| 国产91|九色| 亚洲无线观看| 亚洲免费久久| 老司机精品福利视频| 日本少妇xxxx软件| 亚洲欧洲精品一区二区三区| 国产精品777777| 精品播放一区二区| 激情成人四房播| 国产精品国产三级国产aⅴ9色| 99a精品视频在线观看| 中文字幕av导航| 日韩经典一区二区| 性久久久久久久久久久| 亚洲精品日韩专区silk| 亚洲网站在线免费观看| 亚洲精品视频中文字幕| 欧美精品videossex少妇| 91精品国产自产在线老师啪| 国产一区99| 无码aⅴ精品一区二区三区浪潮| 国产高清不卡二三区| 亚洲 欧美 变态 另类 综合| 欧美日韩三级在线| 黄色免费在线播放| 国产v综合v亚洲欧美久久| 日韩三级av| 91视频 -- 69xx| 99久久久精品| 欧美另类一区二区| 亚洲精品久久久久久久久久久久久 | 中文字幕超碰在线| 日韩av在线高清| 在线观看福利电影| 久久精品二区| 欧美亚洲网站| 亚洲AV无码国产成人久久| 黑人巨大精品欧美一区免费视频| 天天干天天草天天射| 国产最新精品视频| 激情小说一区| www在线观看免费| 99久久99久久综合| 久久国产黄色片| 亚洲视频专区在线| 日本精品另类| 亚洲一区美女| 国产乱人伦偷精品视频不卡 | 福利视频一区二区| 欧美日韩国产中文字幕在线| 日韩av手机在线看| 成人黄色av| 伊人免费视频二| 亚洲一区二区三区四区在线 | 伊人伊成久久人综合网小说| 电影一区电影二区| 中文字幕一区二区三区最新| 国产精品夜夜嗨| 日韩美女视频网站| 亚洲视频网站在线观看| 久久国产三级| 真实国产乱子伦对白视频| 成人激情文学综合网| 成人公开免费视频| 日韩在线观看高清| 超碰精品在线| 亚洲乱码国产一区三区| 亚洲视频一区在线| 天堂网在线播放| 国产精品免费小视频| 一区二区在线影院| 国产又爽又黄无码无遮挡在线观看| 色系网站成人免费| www.欧美日本韩国| 激情五月综合色婷婷一区二区 | 五月天视频一区| 东热在线免费视频| 99久久久精品免费观看国产| 国产日韩欧美三区| 黄色片网站在线播放| 精品动漫一区二区三区在线观看| 成人美女大片| 日本丰满少妇黄大片在线观看| 99这里只有精品| 亚洲图片欧美在线| 久久欧美在线电影| 欧美岛国激情| 日韩 中文字幕| 欧美放荡的少妇| 一区二区精品伦理...| 美国av在线播放| 久久精品在线免费观看| 国产肥老妇视频| 国产精品美女主播| av成人毛片| 清纯粉嫩极品夜夜嗨av| 中文字幕在线精品|