精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對

人工智能 新聞
RLHF 與 RL 到底能不能歸屬為一類,看來大家還是有不一樣的看法。

AI 大牛 Karpathy 又來科普人工智能概念了。

昨日,他發推表示,「基于人類反饋的強化學習(RLHF)只是勉強算得上是強化學習(RL)。」

Karpathy 的全文解釋如下:

RLHF 是訓練大語言模型(LLM)的第三個(也是最后一個)主要階段,前兩個階段分別是預訓練和監督微調(SFT)。我認為 RLHF 只是勉強算得上 RL,它沒有得到廣泛的認可。RL 很強大,但 RLHF 卻不然。

讓我們看看 AlphaGo 的例子,它是使用真正的 RL 訓練的。計算機玩圍棋(Go)游戲,并在實現獎勵函數最大化的回合(贏得比賽)中訓練,最終超越了最厲害的人類棋手。AlphaGo 沒有使用 RLHF 進行訓練,如果它用了,效果就不會那么好。

用 RLHF 訓練 AlphaGo 會是什么樣子呢?首先,你要給人類標注員兩個圍棋棋盤的狀態,然后問他們更喜歡哪一種:

圖片

然后你會收集到 10 萬個類似的比較,并訓練一個「獎勵模型」(RM)神經網絡來模擬人類對棋盤狀態的氛圍檢查(vibe check)。你要訓練它同意人類判斷的平均水平。一旦我們有了獎勵模型氛圍檢查,你就可以針對此運行 RL,學習如何下出帶來良好氛圍的棋步。顯然,這不會在圍棋中產生任何太有趣的結果。

這主要有以下兩個根本的、獨立的原因:

1) 氛圍可能會產生誤導,這不是實際獎勵(贏得比賽)。這是一個糟糕的智能體目標。更糟糕的是,2) 你會發現你的 RL 優化偏離了軌道,因為它很快發現棋盤狀態與獎勵模型相反。請記住,獎勵模型是一個龐大的神經網絡,使用數十億參數來模擬氛圍。有些棋盤狀態超出了自身訓練數據的分布范圍,實際上并不是良好狀態,但卻從獎勵模型中獲得了非常高的獎勵。

出于同樣的原因,我有時感到驚訝的一點是 RLHF 工作竟然適用于 LLM。我們為 LLM 訓練的獎勵模型只是以完全相同的方式進行氛圍檢查,它會對人類評分者在統計學上看起來喜歡的助手響應給出高分。這不是正確解決問題的實際目標,而是人類認為好的智能體目標。

其次,你甚至無法長時間地運行 RLHF,因為你的模型很快學會以游戲獎勵模型的方式來做出響應。這些預測看起來真的非常奇怪,你會看到你的 LLM 助手開始對很多 prompt 做出無意義的響應,比如「The the the the the the」。這在你看來是荒謬的,但隨后你查看獎勵模型氛圍檢查,卻發現出于某種原因,獎勵模型會認為這些看起來很棒。

你的 LLM 發現了一個對抗性示例,它超出了獎勵模型訓練數據的范圍,處于未定義的范圍。你可以通過反復講這些特定示例添加到訓練集來緩解這一情況,但下次仍會找到其他對抗性示例。你甚至無法運行 RLHF 進行很多優化步驟。你執行了幾百或幾千步之后必須調用它,因為你的優化將開始與獎勵模型博弈。這并不是 AlphaGo 那樣的 RL。

不過,RLHF 是構建 LLM 助手的一個非常有用的步驟。我認為這有幾個微妙的原因,其中我最喜歡的一點是通過 RLHF,LLM 助手會從生成器 - 判別器的 gap 中受益。也就是說,對于很多問題類型,人類標注員從幾個候選答案中選出最佳答案要比從頭寫出理想答案容易得多。一個很好的例子是像「生成一首回形針詩」這樣的 prompt。一個普通的人類標注員很難從頭寫出一首好詩來作為監督微調示例,但可以在給定幾個候選答案(詩)的情況下選出一首較好的。因此 RLHF 是一種從人類監督的「容易度」差距中獲益的方式。

還有一些其他原因,比如 RLHF 有助于緩解幻覺。如果獎勵模型是一個足夠強大的模型,能夠在訓練期間發現 LLM 編造的東西,則可以學會用低獎勵來懲罰這種行為,教會模型在不確定時避免冒險獲取事實性知識。但令人滿意的幻覺緩解和處理是另外的事情,這里不做延伸。總之,RLHF 確實有用,但它不是 RL。

到目前為止,還沒有一個針對 LLM 的生產級 RL 在開放域得到令人信服的實現和大規模展示。直觀地說,這是因為在開放式問題解決任務中獲得實際獎勵(即贏得比賽)非常困難。在圍棋這類封閉、類博弈的環境中,一切都很有趣。其中動態受到限制,獎勵函數評估成本很低,不可能進行博弈。

但是,你如何為總結一篇文章提供客觀的獎勵?或者回答關于某個 pip 安裝的模棱兩可的問題?或者講個笑話?或者將一些 Java 代碼重寫為 Python?實現這些在原則上并非不可能, 但也非易事,需要一些創造性思維。無論誰能令人信服地解決這個問題,都將能夠運行真正的 RL,使得 AlphaGo 在圍棋中擊敗了人類。有了 RL,LLM 在解決開放域問題中才有可能真正擊敗人類。

Karpathy 的觀點得到一些人的附議,并指出 RLHF 與 RL 的更多差異。比如 RLHF 沒有進行適當的搜索,主要學習利用預訓練軌跡的子集。相比之下,在進行適當的 RL 時,離散動作分布通常會通過在損失函數中添加熵項來增噪。Kaypathy 認為,原則上你可以輕松地為 RLHF 目標添加熵獎勵,這在 RL 中也經常這樣做。但實際上似乎并不多見。

圖片

谷歌研究科學家 Kevin Patrick Murphy 也完全同意 Karpathy 的觀點。他認為 RLHF 更像是一個具有字符串值操作的上下文「強盜」,其中 prompt 是上下文,所以不能稱為完整的 RL。此外將日常任務的獎勵形式化是困難的部分(他認為或許可以叫做對齊)。

圖片

圖源:https://x.com/sirbayes/status/1821421936045597022

不過,另一位谷歌高級研究科學家 Natasha Jaques 認為 Karpathy 的觀點是錯誤的。她認為智能體在與人互動時,給出人類喜歡的答案才是真正的目標。

超出分布范圍并不是 RLHF 獨有的問題。如果僅僅因為人類反饋比運行無限的圍棋模擬更受限,并不意味著這不是一個不值得解決的問題,只會讓它成為一個更具挑戰性的問題。她希望這成為一個更有影響力的問題,畢竟在 LLM 中減少偏見比在圍棋中擊敗人類更有意義。使用貶義的話術,比如 Karpathy 說獎勵模型是一種氛圍檢查,這是愚蠢的。你可以用同樣的論點來反對價值估計。

她覺得 Karpathy 的觀點只會阻止人們從事 RLHF 工作,而它是目前唯一可行的減輕 LLM 偏見和幻覺可能造成嚴重傷害的方法。

圖片

圖源:https://x.com/natashajaques/status/1821631137590259979

Meta 研究者 Pierluca D'Oro 不同意 Karpathy 的主要觀點,但同意「RLHF is just barely RL」這一標題。他認為通常用于微調 LLM 的 RLHF 幾乎不能算是 RL。

主要觀點如下:在強化學習中,追求一個「完美的獎勵」概念是不現實的,因為大多數復雜任務中,除了目標的重要性,執行方式同樣重要。盡管在圍棋等明確規則的任務中,RL 表現出色。但在涉及復雜行為時,傳統 RL 的獎勵機制可能無法滿足需求。他主張研究如何在不完美的獎勵模型下提高 RL 的性能,并強調了反饋循環、魯棒 RL 機制以及人機協作的重要性。 

圖片

圖源:https://x.com/proceduralia/status/1821560990091128943

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-09 12:46:04

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-02-27 09:24:05

模型技術

2025-04-18 10:01:41

2018-08-29 08:13:22

Google 學習框架技術

2013-03-07 10:26:21

編程程序員編程觀點

2025-10-14 08:59:00

2025-10-20 01:00:00

強化學習AI人工智能

2025-08-29 17:09:30

KarpathyAGILLM

2020-12-17 19:43:36

編程代碼程序員

2025-05-28 02:25:00

2025-10-10 09:02:16

2009-04-03 08:26:54

華為末位淘汰制裁員

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2021-10-11 09:51:38

谷歌人工智能強化學習

2025-06-23 09:07:00

2024-11-18 13:30:00

2025-08-29 09:01:40

AI模型訓練

2020-11-12 19:31:41

強化學習人工智能機器學習
點贊
收藏

51CTO技術棧公眾號

久久久久久视频| 欧美一区二区三区爽大粗免费| 国产精品国产一区二区三区四区 | 日韩视频在线观看一区| 国产欧美日韩精品一区二区免费| 欧美男男青年gay1069videost| 国产在线视频在线| yiren22综合网成人| 国产福利不卡视频| 国产精彩精品视频| 精品无码黑人又粗又大又长| 国产精品免费99久久久| 欧美不卡123| 欧美午夜aaaaaa免费视频| 91白丝在线| 成人免费在线观看入口| 欧美视频观看一区| 亚洲精品国产av| 久久国产精品99精品国产| 性欧美xxxx视频在线观看| 永久免费看mv网站入口| 国产99精品一区| 亚洲国产精品中文| 无码人妻丰满熟妇区毛片蜜桃精品| 欧美日韩国产网站| 欧美日韩免费在线观看| 日韩精品免费一区| 国产福利在线| 91网站黄www| 国产精品久久久久av福利动漫| 伊人网视频在线| 久久久久久久欧美精品| 久久久免费观看| 国产精品老熟女一区二区| 欧美色婷婷久久99精品红桃| 精品呦交小u女在线| 国产亚洲精品高潮| 丝袜制服一区二区三区| 美女扒开腿让男人桶爽久久软| 尤物在线观看一区| 中文字幕色一区二区| 91啦中文在线| 欧美激情一区二区三区四区| 欧美激情第一页在线观看| 欧美一级淫片免费视频魅影视频| 国产精品一区免费视频| 成人福利视频在线观看| 一区二区美女视频| 黑人巨大精品欧美一区| 成人福利视频网| 国产又粗又猛又爽又黄的视频一| ccyy激情综合| 欧美自拍偷拍| 精品视频一区二区三区免费| 91九色视频在线观看| 91地址最新发布| 中文字幕在线视频一区二区| 都市激情久久综合| 亚洲国产婷婷综合在线精品| 污污污污污污www网站免费| 国产区在线观看| 亚洲欧美激情小说另类| 在线一区亚洲| 国产福利视频在线观看| 1024成人网| 日本福利视频在线观看| 色婷婷视频在线观看| 一区二区在线电影| 男人插女人视频在线观看| 波多野结衣久久| 精品日本高清在线播放 | 午夜在线观看一区| 精品久久久亚洲| 色婷婷成人综合| 唐朝av高清盛宴| 亚洲青色在线| 日韩av色综合| 国产精品伦一区二区三区| 国产精品一区二区果冻传媒| 粉嫩精品一区二区三区在线观看| 天堂在线视频免费观看| 国产日韩欧美一区二区三区综合| 亚洲一区尤物| 丰满的护士2在线观看高清| 精品国产91久久久久久| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 中文字幕乱码人妻无码久久| 狠狠色丁香久久婷婷综| 精品国产乱码久久久久久蜜柚 | 久久精品视频一区二区三区| 一级日韩一区在线观看| 欧美韩日亚洲| 91久久精品国产91性色tv| 91小视频在线播放| 香蕉久久99| 精品国产美女在线| 国产 欧美 日韩 在线| 蜜桃精品视频在线观看| 国产精品免费一区二区三区在线观看| 欧美孕妇性xxxⅹ精品hd| 亚洲欧美另类久久久精品| 欧美国产亚洲一区| 国产亚洲久久| 亚洲网站视频福利| 久久精品国产av一区二区三区| 日韩精品色哟哟| 91嫩草在线| 国产三级在线免费观看| 樱桃国产成人精品视频| 手机看片福利日韩| 粉嫩的18在线观看极品精品| 在线视频欧美日韩精品| 日韩男人的天堂| 国产一区二区三区四| 看欧美日韩国产| 天堂av中文在线| 欧美日韩国产成人在线免费| 中文字幕日韩三级片| 欧美freesex交免费视频| 国产经典一区二区| 三级在线电影| 亚洲国产精品精华液网站| 午夜一区二区视频| 欧美日韩水蜜桃| 婷婷久久综合九色综合绿巨人 | 日本精品久久久久久久久久| 男女啪啪999亚洲精品| 日韩禁在线播放| 日韩xxxxxxxxx| 国产精品一区在线观看乱码| 亚洲综合视频一区| 免费观看成人性生生活片| 亚洲高清久久网| 中文字幕在线观看成人| 久久99九九99精品| 亚洲狠狠婷婷综合久久久| 亚洲精品福利电影| 精品一区二区三区三区| 日本va欧美va国产激情| av日韩在线网站| 久无码久无码av无码| 国内不卡的一区二区三区中文字幕| 亚洲性日韩精品一区二区| 精品不卡一区二区| 91久色porny| 可以在线看的黄色网址| 九九热爱视频精品视频| 国产成人精品视频在线观看| 牛牛热在线视频| 欧洲生活片亚洲生活在线观看| 色无极影院亚洲| 玖玖玖国产精品| 日产精品一线二线三线芒果| 欧美日韩精品一区二区三区视频| 国产一区二区三区视频免费| 波多野结衣在线观看一区| 国产日产亚洲精品系列| 牛夜精品久久久久久久| 亚洲成av人电影| www.成人av.com| 草草在线观看| 日韩精品在线免费播放| 最好看的日本字幕mv视频大全| 国产日本欧美一区二区| 欧美在线aaa| 91精品国产成人观看| 999精品视频一区二区三区| 久久大胆人体| 亚洲男人天堂久| 正在播放亚洲精品| 亚洲欧美一区二区不卡| a级片在线观看视频| 超清av在线| 国产精品护士白丝一区av| 一区二区久久精品| 激情久久久久久| 欧洲亚洲一区二区| 久久久久毛片| 久久久免费高清电视剧观看| 欧美新色视频| 制服丝袜av成人在线看| 日本视频www| 国产喷白浆一区二区三区| 中文字幕人妻无码系列第三区| 亚洲高清成人| 亚洲v国产v在线观看| 日韩高清在线观看一区二区| 91av在线精品| 国产网友自拍视频导航网站在线观看| 精品国产sm最大网站免费看| 五月天婷婷导航| 亚洲综合区在线| 69视频在线观看免费| 国产福利91精品一区| 日本a级片免费观看| 亚洲国产精品成人| 免费不卡亚洲欧美| 亚洲日本一区二区三区在线| 日韩免费不卡av| 欧美xxxxhdvideosex| 亚洲美女精品久久| www.av黄色| 欧美日韩一级黄| 国产一级av毛片| 中文字幕一区二区三区蜜月| 波多野结衣影院| 国产一区二区三区国产| 超碰影院在线观看| 亚洲精品孕妇| 国内外成人激情免费视频| 在线看成人短视频| 不卡日韩av| 国产精品777777在线播放| 日产日韩在线亚洲欧美| 久久免费电影| 欧美精品在线播放| 欧洲美女少妇精品| 在线观看欧美成人| 亚洲av成人精品日韩在线播放| 欧美一级精品在线| 一级片一区二区三区| 欧美性xxxx极品hd欧美风情| 久久视频免费看| 亚洲欧美激情小说另类| 91视频最新网址| 国产亚洲精久久久久久| 97视频在线观看亚洲| 精品无码人妻一区二区三| 日本一区二区三区在线不卡| 人妻无码一区二区三区| 成人精品高清在线| 91福利视频免费观看| 国产自产2019最新不卡| 国产日韩欧美久久| 日本一不卡视频| 日韩视频在线免费看| 亚洲欧美日韩一区在线观看| www.av中文字幕| 亚洲国产一区二区三区高清| 日韩精品综合在线| 黄色成人av网站| 国产成人一区二区三区别| 欧美日韩网站| a天堂资源在线观看| 韩国av一区| 五月丁香综合缴情六月小说| 亚洲国产第一| 精品久久久久久久久久中文字幕| 亚洲天堂成人| 日本免费a视频| 激情综合激情| 国产 福利 在线| 日日噜噜夜夜狠狠视频欧美人 | 极品美女销魂一区二区三区| 不卡的av中文字幕| 国产精品99久久久久久久女警 | 欧美一区二区黄片| 日韩成人激情视频| 国产中文字幕在线| 中文字幕一区二区三区电影| 日本www在线| 久久99视频免费| 美女av在线免费看| 国产精品96久久久久久| 99精品在线免费观看| 97在线资源站| 中文精品一区二区| 伊人情人网综合| 欧美日韩精品免费观看视频完整| 18禁裸男晨勃露j毛免费观看| 在线日韩中文| 日本老熟妇毛茸茸| 国产综合色产在线精品| 超碰人人cao| 91网页版在线| 国产在线免费看| 午夜精品免费在线观看| 6080午夜伦理| 91精品国产麻豆| 涩爱av在线播放一区二区| 最近中文字幕日韩精品 | 性欧美13一14内谢| 国产精品久久久久久一区二区三区| 中国一级片在线观看| 亚洲电影一区二区三区| 成年人视频免费| 日韩三级在线观看| 男同在线观看| 久久五月天综合| 碰碰在线视频| 成人精品网站在线观看| 国产欧美一区二区三区米奇| 日韩理论片在线观看| 欧美午夜视频| 国产主播在线看| 国产一区二区精品在线观看| 国产精品一区二区入口九绯色| ...xxx性欧美| 男人天堂av在线播放| 日韩一区二区中文字幕| 国产玉足榨精视频在线观看| 欧美精品一二区| 国产亚洲欧美日韩精品一区二区三区| 国产精品成人观看视频免费| 日产精品一区二区| 国产精品50p| 国产盗摄女厕一区二区三区| 日韩女同一区二区三区 | 国产亚洲短视频| 国产在线观看你懂的| 91精品国产综合久久婷婷香蕉| 毛片网站在线观看| 欧美极品欧美精品欧美视频| 欧美一区二区三区婷婷| 欧美日韩一区二区三区在线视频 | 3d动漫啪啪精品一区二区免费| 激情五月综合| 国产综合av在线| 国产91精品精华液一区二区三区| 2019男人天堂| 色偷偷一区二区三区| 日韩中文字幕免费观看| 欧美日韩电影在线观看| 91精品国产自产观看在线| 日韩免费电影一区二区| 免费欧美日韩| 好吊色视频一区二区三区| 一片黄亚洲嫩模| 国产精品毛片久久久久久久av| 色偷偷亚洲男人天堂| 成人激情综合| 蜜桃麻豆www久久国产精品| 亚洲美女一区| 国产十八熟妇av成人一区| 亚洲自拍偷拍麻豆| 精品人妻无码一区二区| 免费高清视频精品| 亚洲天堂小视频| 亚洲美女一区二区三区| 国产绿帽刺激高潮对白| 日韩视频免费大全中文字幕| 国产精品亲子伦av一区二区三区 | 国产精品久久久久久久久久10秀| 99热手机在线| 国产精品久久久久一区二区三区共 | 电影av在线| 国产精品成人播放| 日韩欧美一区二区三区在线视频| 91看片在线免费观看| 国产精品美女久久福利网站| 中文字幕在线视频第一页| 色噜噜狠狠狠综合曰曰曰| 婷婷成人av| 欧美日韩dvd| gogogo免费视频观看亚洲一| 国产精品7777777| 亚洲欧美三级伦理| 日韩免费小视频| 欧美少妇一级片| 成人性生交大片免费| 特一级黄色大片| 伊人精品在线观看| 视频欧美精品| 成人免费看片'免费看| 9久草视频在线视频精品| 免费的毛片视频| 久久精品视频在线观看| www.亚洲一二| 92看片淫黄大片一级| 国产精品久久久久久久午夜片| 国产模特av私拍大尺度| 国语自产精品视频在免费| 亚洲人成伊人成综合图片| 国产成人黄色网址| 亚洲自拍偷拍网站| 每日更新在线观看av| 91老司机在线| 夜夜精品视频| www.xx日本| 亚洲成人久久网| 日韩久久一区二区三区| 中文字幕一区二区三区四区五区人 | 欧美午夜电影在线观看| 熟女少妇一区二区三区| 4438x成人网最大色成网站| 19禁羞羞电影院在线观看| 欧美日韩综合网| 国产一区二区三区在线观看免费| 五月天综合在线| 日韩一级裸体免费视频| 欧美一级一片| 国产高清999| 色视频欧美一区二区三区| a天堂中文在线官网在线| 久久综合九色综合久99| 国产河南妇女毛片精品久久久| 毛片毛片女人毛片毛片| 俺去啦;欧美日韩| 亚洲瘦老头同性70tv| 特黄特色免费视频|