精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LeCun八年前神預言,大模型路線再顛覆?OpenAI宣告:強化學習取得穩定性突破

人工智能 新聞
只需幾十個樣本即可訓練專家模型,強化微調RLF能掀起強化學習熱潮嗎?具體技術實現尚不清楚,AI2此前開源的RLVR或許在技術思路上存在相似之處。

在2016年的NeurIPS會議上,圖靈獎得主Yann LeCun首次提出著名的「蛋糕比喻」:

如果智能是一塊蛋糕,那么蛋糕中的大部分都是無監督學習,蛋糕上的糖霜(錦上添花)是有監督學習,蛋糕上的櫻桃則是強化學習。

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

圖片

從大型語言模型的發展路線來看,這種比喻實在是完美預測:從計算量FLOP上的開銷來看,對互聯網上的海量數據進行自監督學習占據了大部分訓練時間;之后是用指令監督微調(SFT)數據進行后訓練,開銷相比自監督訓練來說大大降低;最后的強化學習則是讓大模型走向終端用戶的必備階段,可以提高模型的安全性,但模型只是從部分訓練樣本中學習少量信息。

在OpenAI的第二天直播中,宣布即將開放「強化微調」(RFT)的API,開發者只需提供最低「幾十個」高質量樣本,就能實現領域專家模型的定制,還能根據提供的參考答案對模型的回復進行評分,再次印證了強化學習的重要性!

強化微調的重點是「匹配答案」(matching answer),給定查詢和正確答案,RFT可以幫助模型「學習」如何獲得正確答案。

相比標準的指令調優(instruction tuning)只是對數據進行1-2個epoch的損失計算,并更新模型權重,強化微調則是通過對相同的幾個數據點進行成百上千個epochs來讓模型有時間學習新行為。

重復數據在基礎模型訓練的時候作用不大,但卻可以提升RFT的穩定性。

強化學習的發展可能已經超過了Yann LeCun的預測,不再只是一顆蛋糕上的櫻桃,未來或許「有監督微調」不再那么重要,只需要在互聯網數據上進行自監督,然后進行自我強化學習,而不需要明確的人工設計。

大模型技術路線再次顛覆

「強化微調」的出世,也標志著語言模型和強化學習的發展路線再次發生變化:

1. 強化學習的穩定性是可以解決的

開發人員在考慮是否采用強化學習時,其穩定性一直是核心因素,主要體現在兩方面:強化學習本身可能會發生劇烈變化,不一定穩定有效;其次,強化學習的訓練本身比標準語言模型訓練更脆弱,更容易出現損失峰值、崩潰等情況。

如今OpenAI能發布強化學習的API,雖然目前仍然處于測試階段,但也代表著他們對這項技術的穩定性有了突破,不管用戶的數據是什么樣,都能穩定、有效地訓練。

以往,研究人員要運行強化學習算法時,通常都會一次性運行多個隨機種子,然后選擇那些沒有崩潰的模型繼續運行;而現在就可以依賴強化學習模型的穩定運行,并在模型檢查點上與初始策略計算KL距離,以確保效果不會下降。

2. 開源版本或許已經「存在」

強化微調與AI2最近發布的「具有可驗證獎勵的強化學習(RLVR)」工作非常相似,核心組件,如數據格式和優化器類型是相同的,只要開源社區繼續合作來增加強化學習數據,對不同的模型、不同類型的數據等進行實驗。

3. 高級推理模型的潛在數據飛輪

之前有猜測認為,OpenAI的o1模型使用了某種搜索策略,主要通過大規模RL數據進行訓練,并具有可驗證的輸出,和這個API很類似。

按照預期來說,用戶通過API上傳數據,OpenAI就可以積累海量數據集來繼續訓練o1模型的下一個版本,o1目前的主要限制仍然是適用領域缺乏多樣性,如果有用戶的飛輪數據參與進來,o1勢必會更加強大。

4. 強化學習語言模型訓練的范圍不斷擴大

在基礎科學層面上,o1的最大的貢獻是,讓我們有了更多的方法來訓練語言模型,以實現潛在的高價值行為;向研究人員和工程師開放的大門越多,我們對人工智能的總體發展軌跡就應該越樂觀。

大概一年前,OpenAI的一位研究人員就曾提到過,他們對RLHF及相關方法非常有信心,因為損失函數比自回歸預測更通用,最近的發展也正如大部分人期待的,強化學習中的人類反饋(human feedback)也并不是特別必要。

強化微調實現的猜測

由于OpenAI沒有公布任何技術細節,所以對具體的實現仍然只能靠猜。

分類模型/配置(Grader models/configs act as reward shaping for generalized answer checking)

強化學習能成功實現的核心是「正確界定環境范圍」,其中環境由轉移函數(transition function)和獎勵函數組成;

語言模型的轉移函數是人為設計的,也就是語言模型策略本身;獎勵函數是從狀態和動作(即提示和模型回復)到獎勵標量值的映射。

對語言模型的輸出答案進行評分并不新鮮,比如Llama 3.1同時使用「Python代碼」和「其他大模型」作為判斷器來檢查數學答案是否正確;答案的錯誤或正確對應0或1的二進制分數。

12月7日,OpenAI微調團隊的John Allard此前發布過一份關于評分器背后思路的說明,以及相關配置的屏幕截圖,基本思路是把待評分的回復分解成一個結構化的對象,然后對每一項的數值進行比較,得到精確率、召回率等指標。

比如想訓練一個信息抽取器模型,評分器會根據預定義的結構,比如就讀的大學、已知的編程語言、當前居住城市等項分別進行評分,最后獲得一個匯總評分。

{
  "university": "University of California Berkeley",
  "programming_languages": ["python", "c++", "java"],
  "city": "Los Angeles",
  "state": "California"
}

圖片

推文鏈接:https://x.com/john__allard/status/1865520756559614090?s=46

數據效率優化

在直播中,OpenAI提到用戶只需要「幾十個」RFT樣本就可以在新領域進行學習;對于每個提示,強化學習(RL)可以根據超參數設置在一批中生成多個評分回復,在學習步驟和數據的多次迭代中「重復訓練」,因此模型能夠嘗試不同的「策略」來找到正確的答案。

比如用幾千個提示在數據集上運行數十萬條強化學習訓練數據,模型可以多次看到相同的提示而不會過度擬合。

圖片

穩定的基礎語言模型

事實證明,強化學習更適合微調而不是從頭開始訓練,基礎強化學習工作已經在控制和決策方面證明了這個結論;憑借非常穩定的基礎,強化學習微調可以溫和地搜索更好的行為表達,而不會顯著改變模型性能。

比如某個RFT領域對于模型來說是非常新的,可能只需要10個樣本即可獲得總體性能提升。

對于OpenAI來說,o1模型經過大規模訓練,應該已經極其穩定了,可以作為強化學習微調的基礎, 其微調平臺團隊成員John Allard就曾表示:任何人都可以利用相同的訓練算法和基礎設施在新領域微調出一個專家o1模型。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-01-23 15:33:07

AI 數據人工智能

2022-06-25 21:38:36

AI模型

2025-01-17 13:41:24

2024-09-13 06:32:25

2022-09-04 14:38:00

世界模型建模IRIS

2020-07-31 16:54:52

戴爾

2017-08-17 09:15:23

強化學習KerasOpenAI

2023-04-26 18:36:13

2025-06-09 09:32:35

2025-08-07 09:16:41

2023-08-28 06:52:29

2023-02-27 09:24:05

模型技術

2017-02-27 11:36:31

阿里

2022-09-15 08:33:27

安全生產系統Review

2023-06-30 08:43:36

2025-09-29 02:11:00

接口SpringController

2023-05-25 21:35:00

穩定性建設前端

2011-12-21 09:46:46

程序員

2009-07-27 10:08:14

2017-08-22 15:56:49

神經網絡強化學習DQN
點贊
收藏

51CTO技術棧公眾號

一级女性全黄久久生活片免费| 国产麻豆午夜三级精品| 亚洲午夜av久久乱码| 亚洲 欧美 另类人妖| а√中文在线8| 成人白浆超碰人人人人| 国产精品久久久久久久久久三级| 777777国产7777777| 国语一区二区三区| 欧美日韩精品专区| 免费无码国产v片在线观看| 18视频免费网址在线观看| zzijzzij亚洲日本少妇熟睡| 国产精品专区第二| 亚洲黄色一区二区| 91精品推荐| 亚洲欧美在线免费| 亚洲精品乱码久久久久久9色| 欧洲av一区二区| 亚洲电影中文字幕在线观看| 亚洲国产精品一区二区第四页av| 国产 日韩 欧美 精品| 免费成人美女在线观看.| 亚洲2020天天堂在线观看| 来吧亚洲综合网| 精品av一区二区| 亚洲黄色有码视频| 91丨porny丨九色| 欧美综合社区国产| 91久久精品一区二区| 青青草成人免费在线视频| 国产婷婷视频在线| 国产精品素人视频| 欧美日产一区二区三区在线观看| 亚洲精品中文字幕成人片| 久久成人久久爱| 国产福利精品av综合导导航| 亚洲免费黄色网址| 亚洲一区日韩| 性欧美长视频免费观看不卡| 久久免费黄色网址| 欧美激情综合色综合啪啪| 久久综合久中文字幕青草| 久久一级免费视频| 加勒比久久综合| 亚洲欧洲日产国产网站| 国产激情在线免费观看| 亚洲春色h网| 国产婷婷成人久久av免费高清| 免费看91视频| silk一区二区三区精品视频| 日韩免费高清av| 特种兵之深入敌后| 一区二区中文字幕在线观看| 日韩一区二区电影在线| 性感美女一区二区三区| ccyy激情综合| 亚洲国产欧美一区二区丝袜黑人| 成人在线电影网站| 日韩大尺度在线观看| 日韩成人中文字幕| 全黄一级裸体片| 凹凸成人精品亚洲精品密奴| 日韩网站在线观看| 中文字幕av免费在线观看| 欧美.www| 78色国产精品| 无码人妻精品一区二| 久久亚洲电影| 国产欧美va欧美va香蕉在| 91一区二区视频| 国产成人综合亚洲网站| 国新精品乱码一区二区三区18| 婷婷视频在线观看| 91免费在线视频观看| 日韩欧美亚洲精品| 国产精品一卡二卡三卡| 亚洲午夜激情av| 精品免费国产一区二区| 日韩电影免费观看高清完整版在线观看| 777xxx欧美| 欧美极品jizzhd欧美仙踪林| 一呦二呦三呦国产精品| 久久精品电影网站| 日产精品久久久久| 日本不卡一区二区三区高清视频| 国产日产欧美精品| 国产成人无码www免费视频播放| 99久久精品国产一区二区三区| 亚洲丰满在线| 国产探花在线观看| 欧美性色aⅴ视频一区日韩精品| 天天操夜夜操很很操| 欧美高清视频看片在线观看| 日韩中文字幕视频| 男人的天堂一区| 激情综合五月婷婷| 精品在线视频一区二区三区| 婷婷激情在线| 天天亚洲美女在线视频| 黄色一级片免费的| 欧美尿孔扩张虐视频| 日韩视频在线一区| 秋霞av一区二区三区| 国产传媒一区在线| 亚洲欧美国产精品桃花| hd国产人妖ts另类视频| 欧美日韩在线播| avtt香蕉久久| 欧美激情五月| 国产日韩在线免费| 男女污视频在线观看| 一区二区三区色| 伊人影院综合在线| 亚洲人成亚洲精品| 久久久久久久久久av| 92久久精品一区二区| 久久久高清一区二区三区| 久久久久福利视频| 天天综合91| 国产小视频国产精品| 日韩精品视频播放| 国产成人免费视频精品含羞草妖精| 日韩片电影在线免费观看| 51精品视频| 日韩精品自拍偷拍| 永久免费看片直接| 免费在线一区观看| 欧美一区国产一区| 91精品论坛| 亚洲精品xxxx| 国产成人免费观看视频| 国产成人自拍在线| 中文字幕在线中文| japansex久久高清精品| 日韩在线激情视频| 在线观看色网站| 中文字幕免费观看一区| 精品www久久久久奶水| 亚洲精品**不卡在线播he| 午夜精品久久久久久久99热浪潮| 丰满少妇在线观看bd| 一区二区在线观看不卡| 在线观看日本www| 国产精品国产一区| 91精品视频观看| 免费黄网在线观看| 6080亚洲精品一区二区| 糖心vlog免费在线观看| 国内精品视频一区二区三区八戒| 制服诱惑一区| 视频精品一区二区三区| 欧美激情aaaa| 人妻一区二区三区| 精品高清美女精品国产区| 黄色性生活一级片| 久久精品盗摄| 日韩尤物视频| 天天综合91| 久久99久久99精品免观看粉嫩 | 亚洲一级二级| 国产精品日韩一区二区| 色吧亚洲日本| 亚洲天堂av在线免费观看| 中文字幕网址在线| 亚洲免费在线看| 成人欧美精品一区二区| 亚洲视频成人| 日韩欧美亚洲在线| 视频一区中文字幕精品| 久久人人爽国产| 经典三级在线| 91精品在线免费| 日韩三级视频在线| 国产欧美一区二区精品忘忧草| 在线观看免费污视频| 欧美日韩中文| 欧美精品一区在线发布| 日韩成人精品一区二区三区| 欧美精品福利视频| 久久经典视频| 日韩一区二区精品在线观看| 日韩成人免费在线观看| 国产欧美一区二区三区在线看蜜臀| 污视频网址在线观看| 国产综合自拍| 午夜精品视频在线观看一区二区| 日本成人精品| 国产精品久久久久久久久久三级| 午夜av在线免费观看| 亚洲免费福利视频| av一区二区三| 日本久久一区二区| 久久免费播放视频| 国产精品网友自拍| 黄色性生活一级片| 国产一区二区成人久久免费影院| 久久久999视频| 外国成人激情视频| 欧美日韩一区二区三区在线视频 | 劲爆欧美第一页| 久久久亚洲欧洲日产国码αv| 999久久久精品视频| 国产精品一二| 久久香蕉视频网站| 水蜜桃精品av一区二区| 欧美美乳视频网站在线观看| 秋霞午夜一区二区三区视频| 国产精品久久久久久影视| av电影院在线看| 欧美精品免费看| av福利在线播放| 亚洲精品少妇网址| 懂色av蜜臀av粉嫩av分享吧| 欧美精品视频www在线观看| 日韩xxxxxxxxx| 一二三四区精品视频| 美女网站视频色| 国产欧美一区二区在线| av在线网站观看| 不卡欧美aaaaa| 无套白嫩进入乌克兰美女| 奇米四色…亚洲| 十八禁视频网站在线观看| 亚洲福利免费| 久久久久久久久久伊人| 日韩欧美不卡| 五月天丁香综合久久国产| 天天做夜夜做人人爱精品 | 欧美拍拍视频| 日韩电影免费观看在线观看| 亚洲成人中文字幕在线| 日韩三级精品电影久久久| 国产理论片在线观看| 色94色欧美sute亚洲线路一久| 久久精品这里只有精品| 伊人色综合久久天天人手人婷| 亚洲一级生活片| 亚洲人123区| 亚洲成人生活片| 亚洲视频一区二区在线| 中文字幕人妻一区二| 亚洲图片欧美激情| 麻豆明星ai换脸视频| 国产精品成人一区二区艾草| 成年人视频软件| 国产精品超碰97尤物18| 美女av免费看| 中文字幕在线一区| 91成人福利视频| 亚洲自拍另类综合| 亚洲国产精品成人无久久精品| 亚洲国产精品久久久久秋霞影院 | 91黄色免费观看| 国产99久久久久久免费看| 欧美性受xxxx| 国产又大又长又粗| 日韩精品一区二区三区在线播放| 亚洲国产中文字幕在线| 亚洲国产成人在线视频| 青青草免费在线视频| 国产午夜一区二区| 国产日产一区二区| 久久久久久久一| 亚洲黄色免费看| 国产精品视频xxxx| 激情视频亚洲| 国内一区在线| 成人羞羞网站入口| 亚洲五码在线观看视频| 国产一区二区你懂的| 美女黄色片视频| 国模无码大尺度一区二区三区| 逼特逼视频在线观看| 91蝌蚪国产九色| 午夜精品久久久久99蜜桃最新版 | 久久久噜噜噜久噜久久综合| 丁香花五月婷婷| 亚洲精品亚洲人成人网在线播放| 日本系列第一页| 欧美在线免费观看亚洲| 国产成人精品亚洲精品色欲| 亚洲激情视频网| 免费av毛片在线看| 久久免费观看视频| jizz免费一区二区三区| 91久久国产自产拍夜夜嗨| 日韩最新在线| 91社在线播放| 性欧美xxxx大乳国产app| 国产一级片自拍| 99久久婷婷国产综合精品电影| 国产黄色片在线| 亚洲h动漫在线| 国产美女www爽爽爽视频| 亚洲男人第一av网站| 婷婷丁香在线| 国产精品久久久久久亚洲影视| 韩国精品福利一区二区三区| 亚洲成色www久久网站| 在线不卡视频| 在线观看免费视频污| 久久久久久久性| 九九热国产在线| 欧美日韩国产中文| 涩涩视频在线观看免费| 欧美高清一级大片| 视频欧美精品| 日本最新一区二区三区视频观看| 你懂的国产精品| 日本激情综合网| 久久综合久久综合九色| 久久久精品国产sm调教| 91.成人天堂一区| 国产福利在线看| 91精品国产免费久久久久久| 欧美精品三级在线| 91免费网站视频| 麻豆极品一区二区三区| 午夜在线观看一区| 精品国产91久久久久久老师| 午夜精品久久久久久久99热黄桃| 日日骚久久av| 91精品国产经典在线观看| 久久国产精品高清| 亚洲国产美女| 在线观看亚洲免费视频| 一区二区三区日韩精品视频| 国产男女裸体做爰爽爽| 中文字幕在线观看日韩| 国产一区二区主播在线| 品久久久久久久久久96高清| 久久成人一区| 精品少妇人妻一区二区黑料社区| 欧美日韩综合视频| 日韩有码电影| 国内精品在线一区| 精品久久ai电影| 欧美变态另类刺激| 91影院在线观看| 六月丁香婷婷综合| 亚洲免费视频网站| 88xx成人永久免费观看| 日本在线播放不卡| 免费成人美女在线观看.| 呻吟揉丰满对白91乃国产区| 欧美日韩国产另类不卡| 日本在线天堂| 92看片淫黄大片欧美看国产片| 亚洲草久电影| 亚洲精品乱码久久久久久9色| 亚洲一区二区五区| 姝姝窝人体www聚色窝| 91高潮在线观看| 国产欧美日韩视频在线| 亚洲精品怡红院| 日韩美女啊v在线免费观看| 国产伦精品一区二区三区视频痴汉 | 国产精品福利导航| 色综合久久久久综合体| 欧美套图亚洲一区| 国产精品美女久久久久久免费 | 国产精品2023| 日韩 欧美 高清| 国产精品久久99| 国产高潮流白浆喷水视频| 高清欧美一区二区三区 | 无码毛片aaa在线| 成人爱爱电影网址| 国产成人麻豆免费观看| 久热精品视频在线| 精品久久对白| 亚洲最大综合网| 一区二区在线看| 九九热视频在线观看| 91精品啪在线观看麻豆免费| 在线免费高清一区二区三区| 国产aⅴ激情无码久久久无码| 欧美精品成人一区二区三区四区| bl在线肉h视频大尺度| 日韩精品一区二区三区色偷偷| 激情成人综合网| 久草视频在线观| 久久精品国产一区二区电影| 国产欧美一区二区三区米奇| 亚洲第一狼人区| 精品高清美女精品国产区| 麻豆传媒在线观看| 久久久久久国产精品mv| 狠狠色丁香九九婷婷综合五月| 日韩污视频在线观看| 精品国产一区二区在线| 日韩美脚连裤袜丝袜在线| 男女污污视频网站| 色美美综合视频| 2020av在线| 超级碰在线观看| 国产日韩亚洲欧美综合| 蜜桃在线一区二区| 成人性生交大片免费看视频直播|