精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了

發布于 2024-5-6 08:41
瀏覽
0收藏

隨著 Llama 3 發布,未來大模型的參數量已飆升至驚人的 4000 億。盡管每周幾乎都有一個聲稱性能超強的大模型出來炸場,但 AI 應用還在等待屬于它們的「ChatGPT 時刻」。其中,AI 智能體無疑是最被看好的賽道。


就連吳恩達都說,GPT-4 加上 AI 智能體,可能提前達到 GPT-5 的效果。


不過,我們熟知的智能體往往有點「偏科」。例如,第一個 AI 軟件工程師 Devin,專精于代碼。會打游戲的智能體往往也只能在某一個游戲里秀操作。尋找一個能夠同時擅長多個領域,并能在其中無縫切換的通用模型仍是機器學習研究中的一個關鍵目標。


為了解決這個問題,研究者們對于智能體如何結合計算機視覺(CV)和自然語言處理(NLP)任務進行了廣泛探索,但將強化學習(RL)任務整合進來的研究相對較少。這是由于 RL 任務本質上是異質的,這使得將 RL 任務與對話和圖像識別等其他任務結合起來更加困難。這要求智能體能融會貫通不同領域任務中的不同模態、任務復雜性和數據類型。要達到全能型智能體,主要需要解決以下問題:(1)如何設計一個能夠處理多種數據類型和模態的統一模型結構?(2)如何有效地平衡不同任務的學習進度和優先級?(3)如何確保智能體制定合適的學習目標,以避免不同任務之間的干擾和負向遷移?


來自 Hugging Face、法國國家信息與自動化研究所(INRIA)和波爾多大學的四位研究者提出了智能體中的「六邊形戰士」——Jack of All Trades (JAT)。JAT 是一個基于 Transformer 的多模態通用強化學習智能體框架。在此框架下,智能體能夠通過同一套參數應對不同復雜度的多種任務,化身既會打游戲,又能控制機器人的全能高手。論文同時發布了大量 RL 智能體與 JAT 數據集。這是首個用于通用智能體訓練的數據集 JAT 數據集,包含了由專家智能體收集的數十萬條軌跡。

告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區


  • 論文名稱:《Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent》
  • 論文鏈接:https://huggingface.co/papers/2402.09844
  • 代碼鏈接:https://github.com/huggingface/jat
  • 項目鏈接:https://huggingface.co/jat-project/jat
  • 數據集:https://huggingface.co/datasets/jat-project/jat-dataset

告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區

模型架構


JAT 的核心結構基于 Transformer,使用了 EleutherAI 的 GPT-Neo 實現。JAT 最大的創新點在于其嵌入機制,從本質上解決了數據類型不同的問題。JAT 模型將觀察嵌入與其對應的獎勵值和動作嵌入交錯排列,形成一個序列。


告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區

圖 1.JAT 網絡架構。對于序列中的決策任務,一方面輸入觀察嵌入與獎勵值,另一方面行動嵌入被編碼并被交錯放置。模型使用因果掩碼自回歸地生成下一個嵌入,并根據預期的模態進行解碼。


因此,每個嵌入要么對應一個與獎勵相關聯的觀察嵌入,要么對應一個動作嵌入。JAT 如何進一步對這些信息進行編碼呢?這要取決于數據的類型。如果觀察嵌入或動作嵌入的數據類型是圖像,那么 JAT 將使用 CNN。如果是連續向量,則使用線性層。如果是離散值,則使用線性投影層。模型的輸出也遵循相同的邏輯,具體取決于預測目標的數據類型。預測基于因果推理進行,將觀察嵌入向后移動一個時間步,確保智能體可以根據所有先前的觀察和動作嵌入來預測下一個動作嵌入。


這種嵌入設計讓研究團隊在訓練智能體執行 NLP 和 CV 任務時興致盎然。對于和文本相關的任務,作者讓 JAT 模型采用 GPT-2 的分詞策略,將文本轉換為一個整數序列,然后通過一個查找表映射到一個嵌入向量序列。對于和圖像有關的任務,JAT 模型將選擇 ViT 方法,將圖像切割成小塊后,通過線性層轉換為嵌入向量序列。JAT 模型再將圖像和文本的向量序列拼接在一起,形成一個統一的序列,輸入到 Transformer 中。


考慮到數據的模態變來變去,JAT 如何計算損失函數呢?它將針對每種模態分別計算 loss。對于圖像和連續值,它使用均方誤差(MSE)損失。對于離散值,它使用交叉熵損失。最終的損失是序列中每種元素損失的平均值。那么,這是否意味著 JAT 在預測動作嵌入和觀察嵌入時的權重是相同的呢?實際上不是,在此后的章節中將一步探討這個問題。


實驗結果


研究團隊共采用了 157 個訓練任務來 JAT 評估。他們將這些任務分為 10 類,并記錄了 JAT 的總獎勵值。


告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區

JAT 模型在最終的檢查點上達到了 65.8% 的專家得分,說明 JAT 能夠在非常廣泛的任務上達到專家水平。以下具體列出了 JAT 在四個常見的智能體訓練環境中的得分:


  • 對于 Atari 57,應用 JAT 模型的智能體實現了專家分數的 14.1%,這相當于人類表現的 37.6%。Atari 視頻游戲廣泛被用作評估和開發強化學習算法的基準環境,其中《吃豆人》是一款標志性游戲。在這一系列的 21 款游戲中,JAT 智能體的表現已經超越了人類玩家。值得注意的是, JAT 只用了單一網絡就在所有 Atari 視頻游戲中達到了這種水平;
  • 對于 BabyAI,應用 JAT 模型的智能體達到了專家分數的 99.0%,只有一個任務的表現未能超過專家水平的 50%;
  • 對于 Meta-World,應用 JAT 模型的智能體達到了專家分數的 65.5%;
  • 對于 MuJoCo,應用 JAT 模型的智能體達到了專家分數的 84.8%。


告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區

JAT 智能體在 Atari 57 基線上和人類表現的對比


這些 JAT 智能體都可以通過項目主頁下載,進一步測試和體驗。更多細節請參閱論文原文。


專家智能體和 JAT 數據集


專家策略


傳統的強化學習往往在單一環境中尋找專家策略,即在一個特定任務中尋找讓模型表現最優的方法。構建跨領域的多功能智能體,也離不開這種方法。論文作者選擇了 Atari、BabyAI、Meta-World 和 MuJoCo 一系列性質不同,難度各異的訓練環境,直到訓練出表現最好的智能體。這一系列采用 JAT 框架的專家智能體已經在項目主頁上發布。


JAT 數據集


論文作者隨論文同步發布了 JAT 數據集,這是首個針對通用智能體訓練的專項數據集。其中包含了數十萬條由上述專家智能體收集的軌跡數據。使用起來也很方便,可以像加載 Hugging Face 平臺上的其他數據集一樣簡單。以下是調用代碼示例:


告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區

JAT 數據集不僅包含強化學習的數據,還整合了來自維基百科等文本數據集,以及 Oscar、OK-VQA、Conceptual Captions 等針對視覺任務的數據集,提供了更豐富的數據類型選擇。


增加模型預測觀察嵌入的能力

智能體學得更好更快了


在訓練強化學習智能體時,主要目標是使其在未曾遇到的任務中實現獎勵最大化。然而,如果要求智能體預測未來可能遇到的情境,這一額外任務會促進還是阻礙其學習過程呢?


關于這個問題存在兩種相反的觀點。一方面,學會預判可能會讓智能體對環境有更深入的理解,從而學得更好更快。另一方面,這可能會分散智能體對其主要目標的注意力,導致在預測觀察嵌入和行動嵌入時都表現平庸。


為了得到問題的答案,論文作者進行了一個實驗,使用了一個結合了觀察損失和行動損失的損失函數,并通過權重參數 k 來平衡這兩種損失。


告別偏科,能玩轉多模態、多任務、多領域的強化智能體終于來了-AI.x社區

研究團隊在 95% 的置信區間內,針對選定任務,測量了預判將如何影響模型學習。每項任務進行了 100 次評估,基于這些評估得到了 k 值的范圍。結果表明,適當選擇 k 值可以顯著提升智能體的表現。


當 k 值過高(高于 0.5)時,預測觀察嵌入的額外任務阻礙了學習過程。但當 k 值較低時,對學習的影響可以忽略不計,且智能體的表現與沒有額外預判任務時的表現相似。


研究團隊發現,當 k=0.005 時,存在一個最佳臨界點。這意味著,只要平衡得當,為智能體增加預測觀察嵌入的任務,實際上可以提高智能體的學習效率。這一發現對于設計類似的智能體具有重要意義,突顯了輔助目標在提升智能體學習效率方面的潛在價值。


未來展望


JAT 項目為通用智能體研究領域開辟了全新的方向。研究團隊表示目前只是初步探索,以下幾點思路可供未來研究者深入挖掘:


改進數據的質量:盡管填補了之前少有通用智能體訓練數據集的空缺,JAT 數據集仍處于初級階段。其中的專家軌跡僅來自每個環境中的一名專家智能體,這可能導致一些誤差。雖然研究團隊已盡力讓智能體達到最優表現,但某些環境仍具挑戰性。在這些環境中,智能體仍有很大進步空間。收集到更多數據,訓練更多的專家智能體,將在很大程度上解決這些問題。


使用離線強化學習:JAT 智能體是仿照基線一比一地訓練出來的。這意味著,其一,智能體無法利用次優的軌跡;其二,JAT 智能體無法超越專家。論文選擇了這種方法是因為它比較簡單,但研究團隊相信,使用離線強化學習可以提高智能體的性能,同時,實現起來也不會過于復雜。


發揮更智能的多任務采樣策略的全部潛力:目前,JAT 智能體均勻地從所有任務中采樣數據,但這種方法可能限制了它的全部潛力。通過動態調整采樣率,專注于最具挑戰性的任務,或許也可以加速智能體的學習過程,并解鎖顯著的性能提升。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/2GBB-w7hBf6equtqD8V0Lg??

收藏
回復
舉報
回復
相關推薦
成人高潮视频| 日韩a在线观看| 欧美久久久久| 亚洲国产天堂网精品网站| www.com毛片| 成人午夜在线观看视频| 国产一区二区三区精品视频| 高清在线视频日韩欧美| 五月婷婷欧美激情| 中文字幕一区二区三区日韩精品| 精品久久中文字幕| 天天爱天天做天天操| 午夜av免费观看| 久久激情五月激情| 欧美在线精品免播放器视频| 亚洲最大的黄色网址| 日本中文字幕在线一区| 69堂国产成人免费视频| 久久久精品在线视频| 成人福利网站| 中日韩免费视频中文字幕| 国产精品亚洲综合| 97视频免费在线| 麻豆91精品| 色综合久久久久久中文网| 丰腴饱满的极品熟妇| 国产精品99久久免费观看| 欧美欧美欧美欧美| 免费大片在线观看| 7777kkk亚洲综合欧美网站| 亚洲天堂2016| 先锋在线资源一区二区三区| 性插视频在线观看| 国产成人精品影视| 91九色国产在线| 在线观看国产一区二区三区| 香蕉av777xxx色综合一区| 欧美精品xxx| 欧美国产日韩在线观看成人| 日韩欧美精品综合| 国产一区二区三区在线播放免费观看| 人妻无码中文久久久久专区| 91综合精品国产丝袜长腿久久| 欧美人动与zoxxxx乱| 超碰av在线免费观看| 欧美成人资源| 欧美特级www| 日韩精品 欧美| 17videosex性欧美| 亚洲国产精品欧美一二99| 免费的av在线| 麻豆影院在线观看| 国产精品久久久久久久蜜臀 | 亚洲日韩第一页| 美女又爽又黄免费| 国产精品宾馆| 亚洲第一页在线| 波多野结衣三级视频| 九九99久久精品在免费线bt| 91麻豆精品国产91久久久| 国产毛片久久久久久| 国产aⅴ精品一区二区四区| 在线播放欧美女士性生活| 成人亚洲免费视频| 亚洲男男av| 欧美一区二区三区视频免费播放 | 中文字幕日韩欧美| 欧美激情亚洲色图| 欧美成人激情| 欧美另类在线播放| 欧美一级高潮片| 亚洲女同同性videoxma| 国产97在线亚洲| 在线视频播放大全| 国产一区二区三区观看| **亚洲第一综合导航网站| 欧美在线 | 亚洲| www.成人网.com| 日本欧美精品久久久| 91精品国产91久久久久游泳池| 国产精品传媒在线| 精品国产一区二区三区无码| 悠悠资源网亚洲青| 欧美日韩日日骚| www.偷拍.com| 日本亚洲不卡| 色婷婷综合成人| 久草视频在线资源| 美女91精品| 91麻豆国产精品| 少妇高潮一区二区三区69| 久久久久国产一区二区三区四区 | 国产综合视频| 国产97在线视频| 精品人妻av一区二区三区| 91热门视频在线观看| 伊人久久大香线蕉午夜av| 蜜臀av在线| 在线中文字幕一区| 野战少妇38p| 日本大胆欧美| 97成人在线视频| 91tv国产成人福利| 91在线porny国产在线看| 一区二区三区在线观看www| f2c人成在线观看免费视频| 欧美色国产精品| 日本三级日本三级日本三级极| 日韩欧美精品| 欧美一区二区三区免费观看| 国产色综合视频| 久久久久国产精品人| 女人被男人躁得好爽免费视频 | 国产在线观看一区二区| 欧美成人精品3d动漫h| 人妻熟女aⅴ一区二区三区汇编| 青青一区二区三区| 欧美激情在线狂野欧美精品| 欧美日韩黄色一级片| 丝袜诱惑一区二区| 欧美一区日韩一区| 蜜桃传媒一区二区亚洲| 黄色精品免费| 91色精品视频在线| 国产高清视频在线| 亚洲成av人片在线观看无码| 一级日本黄色片| 热久久天天拍国产| 国产精品www| 青青草在线播放| 亚洲a一区二区| 国产sm在线观看| 中文无码久久精品| 国产精品一区二区电影| 噜噜噜噜噜在线视频| 亚洲高清三级视频| 国产精品二区视频| 91精品国产视频| 国产在线视频不卡| 一区二区高清不卡| 欧美性xxxxx极品少妇| 中文字幕5566| 亚洲制服少妇| 欧美日韩大片一区二区三区 | 国产三级久久久| 国产精品欧美激情在线观看| 狼人精品一区二区三区在线| 久久久亚洲成人| 人人妻人人玩人人澡人人爽| 亚洲在线中文字幕| 中国特级黄色片| 尹人成人综合网| 国产一级二级三级精品| 9765激情中文在线| 亚洲黄色免费三级| 欧美成人精品欧美一级乱黄| 波多野结衣中文字幕一区二区三区| 日韩一级特黄毛片| 成人春色在线观看免费网站| 国产+人+亚洲| 免费看黄色一级视频| 亚洲国产精品精华液网站| 国产在线不卡av| 国产一区二区三区久久久久久久久| 国产伦精品一区二区三区高清版| 白浆视频在线观看| 亚洲毛片在线观看.| 91久久国产综合久久91| 日本一区二区三区视频视频| 日本中文字幕二区| 欧美91大片| 国产精品视频中文字幕| 风流少妇一区二区三区91| 亚洲激情图片小说视频| 天天躁日日躁狠狠躁av麻豆男男| 亚洲人体大胆视频| 你懂的网址一区二区三区| 成人午夜亚洲| 欧美成人亚洲成人日韩成人| 老熟妇高潮一区二区高清视频| 婷婷久久综合九色国产成人 | 精品一区二区三区人妻| 国产一区二区三区免费观看| 拔插拔插海外华人免费| 国产不卡一二三区| 91视频免费在线| 国产不卡人人| 亚洲最新中文字幕| 国产成人三级在线播放| 福利微拍一区二区| 5566中文字幕| 99麻豆久久久国产精品免费| 黄色三级视频在线| 欧美日韩精品一本二本三本| 欧美日韩亚洲综合一区二区三区激情在线| 素人一区二区三区| 久久久噜噜噜久久中文字免| 国产高清视频在线观看| 精品国产一区二区三区忘忧草| 久久久久久久久久成人| 亚洲一级二级三级在线免费观看| 色无极影院亚洲| 国产美女精品一区二区三区| 99精品人妻少妇一区二区| 天天精品视频| 日本一区二区高清视频| julia中文字幕一区二区99在线| 国产精品久久久久9999| 成人ssswww在线播放| www.日韩.com| 邻居大乳一区二区三区| 亚洲国产精品久久| a级片免费视频| 欧美亚洲高清一区二区三区不卡| 久久精品国产亚洲AV无码男同 | 69av视频在线| 亚洲国产精品v| 成人网站免费观看| 国产a区久久久| 免费成人黄色大片| 日本成人超碰在线观看| 岳毛多又紧做起爽| 亚洲精华国产欧美| 色哟哟免费网站| 99国内精品久久久久久久| 欧美裸体网站| 亚洲第一论坛sis| 国产免费一区二区三区| 亚洲福利影视| 国产一区二区丝袜高跟鞋图片| www.精品| 欧美在线观看视频| а√天堂中文资源在线bt| 欧美黑人狂野猛交老妇| 国产成人无吗| 久久在精品线影院精品国产| 日本最黄一级片免费在线| 国产午夜精品视频免费不卡69堂| 日本亚洲欧美| 亚洲欧美在线看| 男同在线观看| 国产亚洲精品一区二区| 国产二区在线播放| 伊人伊人伊人久久| 国产51人人成人人人人爽色哟哟| 亚洲人成电影网站色…| 撸视在线观看免费视频| 亚洲一区二区精品| 成人高清在线| 色av吧综合网| 黄色片免费在线观看| 欧美成人免费在线观看| 色呦呦呦在线观看| 久久久噜噜噜久久| 国产在线天堂www网在线观看| 91精品国产色综合| 综合日韩av| 国产精品成人免费视频| 成人在线视频免费| 91精品国产自产在线老师啪| 国产一区二区三区免费观看在线 | 国产熟人av一二三区| 日韩av不卡一区二区| 性猛交ⅹ×××乱大交| 激情综合亚洲精品| 老司机av网站| 26uuu亚洲综合色欧美| 亚洲图片另类小说| 中文字幕在线不卡视频| 妺妺窝人体色www在线下载| 亚洲成av人影院在线观看网| 无码人妻丰满熟妇区五十路| 欧美日韩一级片在线观看| 国产精品伦理一区| 精品久久久久久无| 欧美18xxxxx| 日韩在线观看成人| 国内高清免费在线视频| 欧洲成人在线观看| 日韩毛片免费视频一级特黄| 999视频在线观看| 亚洲v天堂v手机在线| 亚洲一区二区三区欧美| 亚洲国产高清视频| 999精品视频在线| 国产成人亚洲综合a∨婷婷图片| 成人免费无码大片a毛片| 国产精品人人做人人爽人人添| 欧美黄色免费看| 色欧美乱欧美15图片| jizz国产视频| 亚洲深夜福利网站| 欧美人与动牲性行为| 欧美一二三视频| 国产成人免费视频网站视频社区 | 国产成人精品电影| 久久丁香四色| 日韩中文一区二区三区| 国产精品sm| 色乱码一区二区三区在线| 99精品视频中文字幕| 国产美女高潮视频| 懂色aⅴ精品一区二区三区蜜月| 91福利在线观看视频| 亚洲精品乱码久久久久久按摩观| 黄视频在线观看网站| 日韩免费观看av| 久久九九热re6这里有精品| 亚洲精品久久区二区三区蜜桃臀 | 天天操天天爱天天爽| a在线播放不卡| 国产麻豆视频在线观看| 色综合久久88色综合天天6| jlzzjlzzjlzz亚洲人| 亚洲视频在线观看网站| av免费不卡| 91免费版网站在线观看| 久久人人99| 成人午夜激情av| 91小视频免费看| 日韩欧美三级在线观看| 欧美一区二区视频网站| 午夜视频在线免费观看| 国产精品成人免费电影| 丝袜连裤袜欧美激情日韩| 久久久久久av无码免费网站下载| 久久99国产精品免费网站| 国产探花视频在线播放| 欧美三级xxx| 亚洲av电影一区| 韩国精品久久久999| 亚洲2区在线| 天天综合五月天| 久88久久88久久久| 一本色道久久88| 欧美午夜精品理论片a级按摩| 久久精品国产亚洲a∨麻豆| 51色欧美片视频在线观看| 国产精品三p一区二区| 成人在线播放网址| 国产91综合网| 国产精品第72页| 亚洲国产成人在线播放| √天堂8资源中文在线| 成人免费看片网站| 国内精品久久久久久久影视麻豆 | 一区二区在线免费播放| 久久久天堂国产精品| 国产乱对白刺激视频不卡| 精品国产欧美日韩不卡在线观看 | 天天操天天操天天操| 国内精品久久久久久中文字幕 | 美女网站在线看| 极品日韩久久| 老司机精品福利视频| 亚洲欧美va天堂人熟伦| 欧美日韩在线播放三区| 精品欧美色视频网站在线观看| 亚洲精品日韩激情在线电影| 亚洲综合中文| 国产激情视频网站| 欧美性猛交xxxx乱大交3| 成人好色电影| 91亚洲精品久久久| 亚洲国产91| 国精产品一区二区三区| 欧美二区三区91| 九色91在线| 欧美视频小说| 捆绑调教一区二区三区| 欧美三级小视频| 亚洲黄色有码视频| 国产精品亚洲一区二区三区在线观看| 亚洲激情一区二区| 国产电影精品久久禁18| av中文在线播放| 日韩在线免费视频| 成午夜精品一区二区三区软件| 鲁一鲁一鲁一鲁一色| 日本一区二区三区久久久久久久久不| 国产精品毛片一区二区在线看舒淇 | 欧美在线观看一区二区| 亚洲淫性视频| 欧美精品一区二区三区四区五区| 六月婷婷色综合| 久久精品美女视频| 国产一区二区三区在线看| 久久在线观看| 国产男女激情视频| 一区二区三区在线免费视频| 四虎电影院在线观看| 91精品免费看| 香蕉久久夜色精品| 97在线观看免费高| 亚洲免费成人av电影| 久久一级大片| 国产三级国产精品国产专区50| 亚洲国产精品一区二区久久 | 亚洲av无码专区在线| 日韩免费不卡av|