精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌DeepMind:大模型也很任性,知道最優路徑偏要撞南墻

人工智能 新聞
該研究對 LLM 常見的失敗模式貪婪性、頻率偏差和知 - 行差距,進行了深入研究。

大語言模型(LLMs)的成功激發了人們對各種智能體的興趣。將 LLM 用于智能體的一個關鍵假設是,LLMs 利用常識和思維鏈(Chain-of-Thought, CoT)進行推理,從而智能體可以有效地探索并高效地解決復雜領域的問題。

然而,LLM 智能體存在次優探索和知 - 行差距(knowing-doing gap)的問題,即無法有效地將模型中的知識轉化為行動。

本文,來自谷歌 DeepMind 的研究者系統地研究了為什么 LLM 在決策場景中表現次優的原因。特別是,本文深入研究了三種常見的失敗模式:貪婪性、頻率偏差和知 - 行差距。

在此基礎上,本文提出通過強化學習對自動生成的 CoT 推理過程進行微調,以緩解這些不足。實驗表明 RL 微調能有效提升 LLMs 的決策能力 —— 既增強了智能體探索性行為,又縮小了知 - 行差距。

圖片

  • 論文標題: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities 
  • 論文地址:https://www.alphaxiv.org/abs/2504.16078

方法介紹

本文系統性地分析了中小規模 LLMs 存在的三種典型缺陷:貪婪性策略、頻率偏差以及知行差距。分析表明,由于 LLMs 過早陷入貪婪動作選擇策略,導致動作覆蓋率停滯(最高達 55% 未探索),最終性能持續低于最優水平。

具體而言,本文發現小規模 LLMs(2B)傾向于機械復制上下文中的高頻動作(無視其獎勵差異),這種現象被定義為頻率偏差。

相比之下,大規模 LLMs(27B)雖能顯著減弱頻率偏差,但依舊維持貪婪行為。

同樣值得注意的是,本文通過量化知 - 行差距發現:LLMs 雖能正確理解任務要求,卻因執著于貪婪動作而無法有效執行所知方案。

為克服這些缺陷,本文提出在自動生成思維鏈(CoT)推理的基礎上進行強化學習微調方法(RLFT)。

RLFT 方法依賴于從環境交互中獲得的獎勵,對自生成的 CoT 原理進行微調。在 RLFT 過程中,模型會學習迭代地優化其推理過程,從而傾向于選擇能夠帶來更高獎勵的 CoT 模式和動作(參見圖 1)。本文方法更專注于決策場景。

圖片

上下文表示:在步驟 t 時,輸入 Token 包括輸入指令圖片,輸出指令圖片和最近的交互歷史圖片。歷史表示包含最近 C 個狀態、動作和獎勵的軌跡圖片

微調目標:本文使用 Schulman 等人引入的裁剪目標進行微調,并對參考策略圖片進行額外的 KL 約束:

圖片

實驗結果

比較模型:實驗比較了 Gemma2 模型的三種尺寸大小:2B、9B 和 27B 。

環境:多臂老虎機(MAB,Multi-Armed Bandit)以及井字棋游戲。

圖片

為什么 LLM 在決策方面表現不佳?

先前的研究發現,LLM 智能體在交互環境中表現欠佳,且探索不足。因此,本文首先研究模型表現欠佳的原因,并確定了三種常見的故障模式:(1) 貪婪,(2) 頻率偏差,以及 (3) 知 - 行差距。發現三種故障模式在各個模型尺寸上均持續存在。

貪婪是第一個也是最普遍的故障模式,其特征是 LLM 過度偏向于迄今為止看到的一小部分操作中表現最佳的操作。為了說明這種故障模式,本文展示了 Gemma2 2B/9B/27B 在啟用和禁用 CoT 的情況下,在 64 個 MAB(包含 10 個和 20 個分支)上,并且在 50 個交互步驟中實現的平均操作覆蓋率(見圖 3 a 和 b)。

圖片

結果顯示模型過早地采用貪婪策略,導致動作覆蓋率在 10 步之后停滯不前。增加分支數量會使貪婪更加明顯,最大的模型僅覆蓋了所有動作的 45%。因此,盡管這些模型比隨機智能體有顯著改進(參見圖 3c),但與 UCB ( Upper-confidence Bound )相比,遺憾值仍然很高。

本文探索的下一個常見故障模式是頻率偏差,其特點是模型重復選擇上下文中出現頻率最高的動作,即使該動作的獎勵很低。

結果顯示,Gemma2 2B 嚴重受到重復動作的影響,隨著重復次數的增加,熵值不斷降低(見圖 4a)。相反,27B 模型擺脫了頻率偏差(見圖 4c)。事實上,對于 2B 來說,頻率偏差隨著重復次數的增加而不斷增加。雖然 27B 擺脫了頻率偏差,但它嚴重受到貪婪的影響。

圖片

知 - 行差距。智能體清楚地知道如何解決任務,所有推理中有 87% 是正確的(見圖 5)。然而,即使對于正確計算的推理,模型也經常會選擇貪婪動作(58%)而不是最優動作(21%)。這種差異凸顯了 LLM 在了解算法的情況下采取行動不一的缺陷。

圖片

RL 微調的有效性

接下來,本文研究 RLFT 對累積遺憾的影響(相對于最優策略),以及它是否能緩解這些故障模式。

結果顯示 RLFT 降低了遺憾值。在各種環境中,LLM 的表現明顯優于隨機基線,并且 RLFT 降低了 2B 和 9B 的遺憾值。

圖片

此外,RLFT 可緩解貪婪性,通過 RLFT,智能體學會了探索,從而緩解了貪婪性。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-27 09:48:30

谷歌模型

2024-04-07 14:48:00

模型訓練

2025-03-13 10:28:07

2022-08-22 15:47:48

谷歌模型

2024-06-14 08:36:57

2015-04-28 07:47:12

2024-04-22 12:22:15

2024-06-03 06:49:53

2015-11-24 09:45:00

谷歌重返中國

2023-09-21 10:29:01

AI模型

2023-10-17 12:34:04

2018-01-14 23:07:36

戴爾

2023-06-27 13:37:17

谷歌AI

2015-09-21 09:51:26

2022-06-06 10:58:52

訓練DeepMind研究

2013-07-22 15:36:48

谷歌秘密項目

2024-02-27 14:55:00

AI數據

2015-06-10 22:26:26

WPSHTML5

2025-01-07 08:40:00

視頻生成AI

2025-07-21 09:21:00

谷歌DeepMind模型
點贊
收藏

51CTO技術棧公眾號

男女私大尺度视频| 91综合免费在线| 人妻体内射精一区二区| 国产日韩电影| 亚洲免费高清视频在线| 精品国产免费一区二区三区| 亚洲av综合一区| 亚洲五月综合| 亚洲女人天堂av| 91欧美一区二区三区| 91在线超碰| 中文欧美字幕免费| 国产精品白丝jk白祙| 久久久久精彩视频| 在线国产日韩| 日韩一区二区三区国产| 星空大象在线观看免费播放| 免费成人高清在线视频| 欧美午夜片在线免费观看| 亚洲精品视频一区二区三区| 黄频网站在线观看| 精品一区二区三区久久| 国产91精品青草社区| 中文字幕资源站| 色狼人综合干| 日韩一级黄色大片| 天天综合网日韩| 欧亚av在线| 一区二区三区在线观看动漫| 色一情一乱一伦一区二区三区| 丰满人妻熟女aⅴ一区| 蜜桃av一区二区| 日本精品视频在线播放| 久久久久99精品成人片毛片| 久久婷婷蜜乳一本欲蜜臀| 亚洲欧美日韩中文在线| 2一3sex性hd| 亚洲日本va| 欧美一区二区三区的| 亚洲精品久久久中文字幕| 黑人巨大亚洲一区二区久| 亚洲一区二区三区精品在线| 五月天男人天堂| 国产福利电影在线| 久久综合一区二区| 国产在线一区二区三区四区| 亚洲av色香蕉一区二区三区| 99re6在线精品视频免费播放| 日韩免费电影| 亚洲老妇xxxxxx| 中文字幕在线亚洲精品| 色网站免费在线观看| 欧美激情资源网| 日韩精品久久久毛片一区二区| 色综合888| 久久综合久色欧美综合狠狠| 精品欧美日韩在线| 偷拍精品一区二区三区| 99九九99九九九视频精品| 国产区日韩欧美| 天堂v在线观看| av亚洲精华国产精华| 久久大片网站| 欧美孕妇孕交| 国产视频一区在线观看| 色女人综合av| 欧美猛烈性xbxbxbxb| 中文字幕欧美一| 国产精品久久久影院| 成人影院在线看| 亚洲一区二区三区不卡国产欧美| 欧美中文字幕在线观看视频 | 中文欧美日本在线资源| 国产真人真事毛片视频| 天天av综合| 欧美大片在线看| 色播视频在线播放| 久久一区精品| 成人网页在线免费观看| 亚洲精品喷潮一区二区三区| 91在线国产福利| 色99中文字幕| 91麻豆免费在线视频| 亚洲大尺度视频在线观看| 成人在线免费在线观看| 国产精品99| 日韩一区二区在线观看| 久久人妻一区二区| 国产精品手机在线播放 | 久久精品综合一区| 色网站在线看| 婷婷激情综合网| 国产原创精品在线| 国产精品白丝一区二区三区| 国产亚洲一级高清| 黄色一级片在线| 首页国产欧美日韩丝袜| 亚洲直播在线一区| 嫩草在线播放| 一区二区三区四区激情 | 人人视频精品| 91精品国产91久久久久久最新毛片| 稀缺小u女呦精品呦| 久久综合欧美| 久久久久亚洲精品国产| 艳妇乳肉豪妇荡乳av无码福利 | 91在线播放视频| 欧美婷婷久久五月精品三区| 亚洲欧洲99久久| 无码人妻丰满熟妇区96| 老司机亚洲精品一区二区| 亚洲久久久久久久久久| 色欲人妻综合网| 日本在线观看不卡视频| 国产一区二区三区四区五区加勒比 | 亚洲7777| 日本在线影院| 日韩精品一区二区三区四区视频| 加勒比一区二区| 亚洲激情成人| 亚洲曰本av电影| 亚洲s色大片| 色屁屁一区二区| 女同性恋一区二区三区| 欧美啪啪一区| 成人免费在线视频网站| av网站大全在线观看| 欧美色xxxx| 日本五十肥熟交尾| 欧美成人日韩| 91视频国产高清| eeuss影院在线观看| 狠狠躁天天躁日日躁欧美| 亚洲视频天天射| 中文字幕一区二区三区久久网站 | 又粗又黑又大的吊av| 在线精品自拍| 欧美日韩不卡合集视频| 91精品国产乱码久久| 国产婷婷色一区二区三区在线| 国产精品裸体瑜伽视频| 国内精品偷拍| 午夜精品一区二区三区在线| 亚洲精品国偷拍自产在线观看蜜桃| 欧美国产精品一区二区| 国产麻花豆剧传媒精品mv在线| 人人香蕉久久| 91sa在线看| 无码精品在线观看| 福利视频一区二区| 三级黄色片网站| 午夜宅男久久久| 久久国产精品-国产精品| av在线私库| 日韩av在线免播放器| 美日韩一二三区| 久久久久久免费| 91热这里只有精品| 99视频精品全国免费| 91免费国产网站| 女人黄色免费在线观看| 亚洲精品国产美女| 欧美一区免费看| 中文在线资源观看网站视频免费不卡 | 51久久夜色精品国产麻豆| 无码人妻精品一区二区三区夜夜嗨| 精品一区二区三区香蕉蜜桃| 日韩中文在线字幕| 精品国产午夜肉伦伦影院| 欧美在线视频导航| 888av在线| 欧美tk丨vk视频| 国产三级av片| 国产精品免费网站在线观看| 免费欧美一级片| 国产精品毛片在线看| 日本三级中国三级99人妇网站| 欧美aaa级| 久久免费精品视频| 激情小说 在线视频| 欧美另类高清zo欧美| 国产精品成人av久久| 国产日韩精品一区| 国产精品99精品无码视亚| 香蕉亚洲视频| 中文字幕久久综合| 日本一道高清一区二区三区| 国产精品视频男人的天堂| 蜜臀av在线| 亚洲欧洲日韩国产| 国产色视频在线| 色综合视频在线观看| 污污的视频在线免费观看| 91在线免费播放| 91蝌蚪视频在线| 蜜桃视频一区| 国产在线视频综合| 精品国产乱码| 国产一区精品视频| 欧美网站免费| 国产91精品久久久| av免费网站在线观看| 亚洲欧洲偷拍精品| 亚洲精品综合久久| 欧美午夜理伦三级在线观看| 久久午夜鲁丝片午夜精品| 欧美极品少妇xxxxⅹ高跟鞋| 亚洲一区和二区| 韩国毛片一区二区三区| 无码人妻丰满熟妇区毛片| 欧美区国产区| 亚洲精品乱码视频| 九九视频精品全部免费播放| av成人综合网| 91精品一区| 国产精品吊钟奶在线| 蜜桃视频在线观看免费视频| 欧美精品免费在线| 色多多视频在线观看| 亚洲欧美制服另类日韩| 黄色片一区二区三区| 欧美一区二区三区在线电影| 啪啪小视频网站| 日韩欧美在线视频| 亚洲欧美在线视频免费| 一区二区三区中文在线观看| 免费成人深夜蜜桃视频| 久久久久亚洲综合| av网页在线观看| 不卡av电影在线播放| 韩国三级在线看| 国产成人精品一区二区三区四区| 国内国产精品天干天干| 免费的国产精品| 欧美激情精品久久久久久小说| 国产视频久久| 欧美成人免费在线观看视频| 影音先锋中文字幕一区| av日韩在线看| 一区福利视频| 久久99中文字幕| 黄色国产精品| 欧美成人免费在线观看视频| 亚洲午夜一级| 欧美精品一区二区三区三州| 在线视频观看日韩| www.99热这里只有精品| 国产一区二区三区成人欧美日韩在线观看| 久久黄色片视频| 国产欧美日韩亚洲一区二区三区| 日韩国产一级片| 日韩一区二区久久| 爱福利视频一区二区| 香蕉久久夜色精品| 天天影视综合色| 久久精品国产亚洲一区二区三区| 九九久久久久久| 国产乱对白刺激视频不卡| 亚洲成人福利视频| 99精品国产99久久久久久白柏| av在线播放网址| 久久精品一区二区三区四区| 无码少妇精品一区二区免费动态| 国产欧美日韩精品一区| 国产又粗又硬又长又爽| 亚洲午夜电影网| 国产成人愉拍精品久久| 一本大道av一区二区在线播放 | 精品久久久久99| 午夜性色福利视频| 国产一区二区成人| 国内外激情在线| 久久久久久中文字幕| 妞干网免费在线视频| 国产精品va在线播放我和闺蜜| 亚洲青青一区| 国产亚洲欧美一区二区| 你微笑时很美电视剧整集高清不卡| 亚洲电影一二三区| 欧美三级第一页| 久久久久久久久久久久久国产精品 | 亚洲人成亚洲精品| 在线丝袜欧美日韩制服| 激情视频一区| 午夜免费福利在线| 高清视频一区二区| 久久久久久久毛片| 亚洲一区二区3| 日韩综合在线观看| 日韩欧美的一区| 黄色影院在线播放| 欧美另类在线播放| 成人日韩在线| 国产成人精品一区二区三区福利| 国产精品嫩草影院在线看| 国产高清不卡无码视频| 久久久成人网| 性xxxxxxxxx| 中文字幕欧美三区| 日本中文在线播放| 日韩欧美在线一区二区三区| 精品999视频| 海角国产乱辈乱精品视频| 另类中文字幕国产精品| 国产精品国产三级欧美二区 | 我的公把我弄高潮了视频| 美女视频免费一区| 欧美老熟妇乱大交xxxxx| 夜夜揉揉日日人人青青一国产精品 | 大又大又粗又硬又爽少妇毛片 | 日本一本中文字幕| 久久精品国产精品青草| 成人午夜剧场视频网站| 亚洲国产裸拍裸体视频在线观看乱了| 中文字幕人妻精品一区| 精品夜色国产国偷在线| 伊人福利在线| 91精品久久久久久久久不口人| 亚欧洲精品视频在线观看| av 日韩 人妻 黑人 综合 无码| 奇米色777欧美一区二区| 3d动漫精品啪啪一区二区下载| 亚洲午夜在线视频| 国产高清免费av| xxxxx91麻豆| 岛国一区二区| 午夜视频久久久| 日韩制服丝袜先锋影音| 野花社区视频在线观看| 亚洲成a人v欧美综合天堂下载| www.com在线观看| 久久中文精品视频| av一级久久| 亚洲天堂av免费在线观看| 麻豆精品国产91久久久久久| 午夜精产品一区二区在线观看的| 黄色一区二区在线| 天天干天天爽天天操| 欧美福利视频在线| 成人高潮a毛片免费观看网站| 亚洲一区高清| 久久成人免费网| 精品无码久久久久成人漫画 | 亚洲网中文字幕| 中文字幕亚洲在| 国产精品怡红院| 久久久99久久精品女同性| 亚洲欧洲一二区| 91精品国产毛片武则天| 国产一区二区三区不卡在线观看| 国产黄色小视频网站| 欧美一区二区在线视频| 婷婷色在线播放| 国产精品三区www17con| 99国产精品视频免费观看一公开 | 成年人小视频网站| 国产欧美精品一区二区色综合朱莉| 337p粉嫩色噜噜噜大肥臀| 一本色道久久综合亚洲精品小说| 成人mm视频在线观看| 欧美性视频在线播放| 国产成人亚洲精品青草天美| 日本网站在线免费观看| 日韩精品在线观看网站| 精品三区视频| 日韩不卡一二区| 成人中文字幕在线| 69视频免费在线观看| 最近2019年日本中文免费字幕| 在线欧美激情| 成人性生活视频免费看| wwwwww.欧美系列| 国产精品sm调教免费专区| 久久亚洲影音av资源网| 国产精品x8x8一区二区| 欧美国产日韩在线播放| 国产精品理论在线观看| 亚洲国产成人精品一区二区三区| 97精品久久久| 日韩欧美一区免费| 91人人澡人人爽| 日本久久精品电影| 成人国产免费电影| 久久人人97超碰人人澡爱香蕉| 免费看欧美女人艹b| 欧美成人黄色网| 亚洲欧洲日产国码av系列天堂| 成人噜噜噜噜| www.com毛片| 亚洲色图.com| 青青色在线视频| 91久久久久久| 亚洲综合三区| 国内偷拍精品视频| 亚洲美女激情视频| 天堂精品在线视频| 国产免费999| 天天av天天翘天天综合网色鬼国产 | www.99久久热国产日韩欧美.com | 一级日韩一区在线观看|