精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)模型學(xué)會打撲克:表現(xiàn)超越GPT-4v,全新強化學(xué)習(xí)框架是關(guān)鍵

人工智能
智能體在執(zhí)行玩21點的任務(wù)時,系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài),在輸出思維鏈之后選擇“停牌” (stand)或者“拿牌”(hit),然后直接將對應(yīng)的動作輸入到環(huán)境中,得到獎勵函數(shù)值以及下一個狀態(tài)。

只用強化學(xué)習(xí)來微調(diào),無需人類反饋,就能讓多模態(tài)大模型學(xué)會做決策!

這種方法得到的模型,已經(jīng)學(xué)會了看圖玩撲克、算“12點”等任務(wù),表現(xiàn)甚至超越了GPT-4v。

圖片圖片

這是來自UC伯克利等高校最新提出的微調(diào)方法,研究陣容也是相當豪華:

  • 圖靈獎三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCun
  • UC伯克利大牛、ALOHA團隊成員Sergry Levine
  • ResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧
  • 香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長、UC伯克利教授馬毅

圖片圖片

該方法名為RL4VLM,論文預(yù)印本已經(jīng)上線,相關(guān)代碼也已在GitHub中開源。

RL4VLM提出了一種新的算法框架,直接使用強化學(xué)習(xí)方法對多模態(tài)大模型進行微調(diào)。

其中獎勵信息直接來源于環(huán)境當中,擺脫了RLHF中對于人類反饋的需要,從而直接賦予了多模態(tài)模型決策能力。

圖片圖片

對于RL4VLM的意義,參與了這項工作的馬毅教授這樣說:

一方面希望大家對模型真實性能有更客觀清醒的認識;
另一方面,也希望能建立一個平臺,支持探索如何進一步提升模型性能。

圖片圖片

那么,用這種方法微調(diào)出來的多模態(tài)大模型,都能讓智能體學(xué)會哪些能力呢?

多模態(tài)決策能力超GPT-4v

為了評估訓(xùn)練出的多模態(tài)大模型給智能體帶來的能力,作者一共使用了兩類物種評測任務(wù):

  • 第一類任務(wù)(a-d) 主要考驗?zāi)P屠脠D像中的細粒度視覺信息做決策的能力,包括對于數(shù)字的識別能力和利用識別的數(shù)字進行邏輯推理的能力
  • 第二類任務(wù)(e)主要考察多模態(tài)大模型在具身智能環(huán)境中的視覺語義推理能力。

具體來說,這五個任務(wù)分別是:

  • a.數(shù)軸(Numberline):模型需要通過輸出“+” 或者 “-”,將當前數(shù)字移動到目標數(shù)字
  • b.簡易12點(EZPoint):模型需要識別兩張牌,并用加號和乘號運算“12點”

c.24點(Point24): 模型需要識別四張牌,并用加減乘除和括號運算“24點”

  • d.21點(Blackjack):模型需要通過牌面上的信息來決定“要牌”或者“停牌”
  • e.ALFWorld:一個標準具身智能環(huán)境

圖片圖片

其中任務(wù)a-d為作者的原創(chuàng)任務(wù),任務(wù)e的ALFWorld是微軟等于2020年提出的開源具身智能任務(wù)集。

實驗結(jié)果表明,直接使用強化學(xué)習(xí)微調(diào)7B的多模態(tài)模型之后,能使其在兩類決策問題上的表現(xiàn)超過商用模型GPT-4v Gemini,同時也能超過傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法。

而在ALFWorld的具身智能任務(wù)中,作者的模型也取得了最高的平均分,特別是在單物體拾取任務(wù)上表現(xiàn)尤為突出。

圖片圖片

先生成思維鏈,再做決策

這套VLM智能體主要解決的是需要視覺識別和語言理解的任務(wù),它的工作流程是這樣的:

首先,對于每一個任務(wù),系統(tǒng)會直接將該任務(wù)的當前狀態(tài),以圖片和文字描述的形式輸入多模態(tài)大模型,并要求模型輸出一段思維鏈之后,再以文字形式輸出要執(zhí)行的動作。

最后將,動作信息會被輸入進對應(yīng)的環(huán)境并獲得獎勵值,該獎勵值會被用來進行強化學(xué)習(xí)訓(xùn)練。

例如下圖中,智能體在執(zhí)行玩21點的任務(wù)時,系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài),在輸出思維鏈之后選擇“停牌” (stand)或者“拿牌”(hit),然后直接將對應(yīng)的動作輸入到環(huán)境中,得到獎勵函數(shù)值以及下一個狀態(tài)。

圖片圖片

為了能用直接將強化學(xué)習(xí)運用到多模態(tài)模型的訓(xùn)練中,需要對模型的輸入和輸出做一些調(diào)整,以適應(yīng)RL訓(xùn)練框架中。

具體來說,作者將任務(wù)圖像o和任務(wù)描述的文本v-in合并后,直接作為當前任務(wù)的狀態(tài)s,即:s = [o, v-in]

在獲得了多模態(tài)模型的文字輸出v-out以后,該框架直接將其中文字形式的動作(“action: {act}”) 轉(zhuǎn)化為可與環(huán)境交互的動作指令a。

接下來把a輸入到環(huán)境當中,就能獲得獎勵函數(shù)r,以及操作后的下一個狀態(tài)。

在獲得了來自環(huán)境的獎勵函數(shù)r之后,文章利用PPO直接對整個多模態(tài)模型進行微調(diào)。

而從提示詞上看,這項研究采取了如下的提示過程作為多模態(tài)模型的輸入,并且給出了期望的輸出形式:

(其中藍色的部分是讓模型生成思維鏈提示過程, 紅色的部分是告訴模型以文字形式輸出動作a)。

圖片圖片

消融實驗結(jié)果表明,如果這一過程中不采用思維鏈,則任務(wù)成功率會出現(xiàn)大幅下降。

圖片圖片

論文地址:https://arxiv.org/abs/2405.10292GitHub:https://github.com/RL4VLM/RL4VLM

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-04-14 19:53:44

2023-10-17 12:34:04

2024-06-27 13:10:21

2025-05-06 08:40:00

2023-10-12 09:28:17

2024-06-11 08:16:00

2023-08-28 06:52:29

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2023-10-12 13:05:00

谷歌AI

2023-12-22 12:41:01

模型訓(xùn)練

2023-11-04 12:23:39

GPT-4AI

2023-10-19 09:32:45

自動駕駛技術(shù)

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2024-02-02 21:53:58

AI訓(xùn)練

2025-09-28 15:35:32

AI模型強化學(xué)習(xí)

2025-02-06 09:11:54

2023-11-13 07:48:08

AI檢測

2025-06-11 08:54:52

2023-10-17 13:36:00

人工智能數(shù)據(jù)

2025-02-05 12:53:21

點贊
收藏

51CTO技術(shù)棧公眾號

偷窥国产亚洲免费视频| 黄色精品一二区| 国产丝袜一区二区三区| 免费在线观看的毛片| 尤物视频在线免费观看| 国产精品自拍av| 久久久久久网站| 在线不卡av电影| 亚洲一区av| 天天操天天色综合| 一区二区三区欧美成人| 亚洲精品第五页| 国产精品社区| 日韩专区在线观看| 99久久免费看精品国产一区| 成人精品电影在线| 最近中文字幕一区二区三区| 国产精品区一区| 欧美视频xxxx| 亚洲精品日本| 日韩专区在线播放| 四虎永久免费影院| 久久69av| 在线观看av一区| 国产一二三在线视频| 成人精品一区二区三区校园激情| 久久国产欧美| 欧美精品性视频| 第一次破处视频| 成人影院中文字幕| 88在线观看91蜜桃国自产| 久久精品国产精品亚洲色婷婷| 国产原创av在线| 国产91对白在线观看九色| 国产精品久久久久av| 日韩精品人妻中文字幕| 日韩在线观看电影完整版高清免费悬疑悬疑 | 国产精品一区二区久久不卡| 69**夜色精品国产69乱| 2018天天弄| 色综合天天爱| 日韩成人在线播放| 亚洲无人区码一码二码三码| 日韩一级特黄| 在线观看亚洲成人| 丰满少妇被猛烈进入高清播放| 毛片在线播放a| 国产午夜亚洲精品午夜鲁丝片 | 熟女熟妇伦久久影院毛片一区二区| 成人午夜免费福利| 国产麻豆视频精品| 国产在线视频2019最新视频| 伊人久久中文字幕| 久久一区亚洲| 日本亚洲精品在线观看| 青青草免费观看视频| 欧美日韩中文| 欧美黑人xxxx| 久久午夜无码鲁丝片| 欧美fxxxxxx另类| 久久久久www| 日韩精品一区二区三区在线视频| 国产一区二区欧美| 国产亚洲精品久久久久久| 美国黄色a级片| 日韩手机在线| 精品性高朝久久久久久久| 久久久久麻豆v国产精华液好用吗| 欧美欧美在线| 日韩精品在线一区| 中国xxxx性xxxx产国| 成人午夜三级| 亚洲精品自产拍| 欧美性猛交xxxx乱| 第一社区sis001原创亚洲| 中文字幕日韩电影| 麻豆天美蜜桃91| 欧美日本中文| 97超视频免费观看| 久久久久在线视频| 美日韩一区二区| 成人黄色网免费| 亚洲av无码国产精品久久不卡| 韩国成人精品a∨在线观看| 亚洲bt天天射| 三级网站在线看| 国产亚洲视频系列| 永久域名在线精品| 天使と恶魔の榨精在线播放| 亚洲成人av福利| 国产精品欧美激情在线观看| 亚洲综合av一区二区三区| 欧美老年两性高潮| 性高潮免费视频| 九九综合久久| 久久视频在线免费观看| 国产精品50页| 日韩精品高清不卡| 91久久久久久久久久久| 天天操天天干天天操| 欧美激情一区二区三区四区| 色撸撸在线观看| av伦理在线| 91福利精品第一导航| 精品国产午夜福利在线观看| 日韩精品丝袜美腿| 久久九九国产精品怡红院| 日本免费在线播放| 免费av网站大全久久| 成人在线免费网站| 成人免费黄色网页| 亚洲成人黄色影院| 中文字幕一区久久| 最近国产精品视频| 欧美激情精品久久久久久久变态| 国产精品久久久久久人| 国产精品一二三在| 日韩国产高清一区| 91超碰免费在线| 欧美日韩高清一区二区不卡| 特大黑人巨人吊xxxx| 雨宫琴音一区二区三区| 国产精品v片在线观看不卡| 国产激情视频在线播放| 日本一区二区视频在线| 黄色国产一级视频| 日本精品视频| 色一区av在线| 男人天堂2024| 不卡高清视频专区| 国产又粗又硬又长| 欧美成人aaa| 亚洲乱码av中文一区二区| 黄色在线观看免费| 久久99久久久久| 日韩免费电影一区二区| 在线看的毛片| 亚洲第一区在线| 老熟妇高潮一区二区三区| 免费观看在线色综合| 欧美亚洲免费高清在线观看| 久久青青色综合| 日韩一区二区三| 久久爱一区二区| 免费人成精品欧美精品| 日本一区精品| 日日夜夜天天综合| 亚洲欧美999| 69视频免费在线观看| 99精品视频在线播放观看| 激情深爱综合网| 欧美aaaaaaaa牛牛影院| 国内偷自视频区视频综合| 亚洲黄色小说网| 亚洲永久免费视频| 亚洲成a人无码| 黑人一区二区| 国产精品久久亚洲| 川上优av中文字幕一区二区| 亚洲第一福利网站| 粉嫩aⅴ一区二区三区| 成人精品高清在线| 日韩欧美视频网站| 女人av一区| 国产国语刺激对白av不卡| 国产一级片在线播放| 欧美在线不卡视频| 午夜精品久久久久99蜜桃最新版 | 亚洲精品a区| 九九热r在线视频精品| 成人h动漫精品一区二区无码| 亚洲免费av在线| 9.1在线观看免费| 亚洲欧洲日本一区二区三区| 久久精品国产一区二区三区不卡| 福利小视频在线| 亚洲精品电影在线观看| 精品免费囯产一区二区三区| 久久精品人人做| 一本色道久久亚洲综合精品蜜桃| 欧美一二区在线观看| 国产乱人伦真实精品视频| 日本中文字幕视频在线| 日韩欧美在线影院| 午夜精品久久久久久久久久久久久蜜桃 | 黄色香蕉视频在线观看| 国产毛片精品一区| 黄色大片在线免费看| gogogo高清在线观看一区二区| 国产成人av在线| 麻豆视频在线| 亚洲激情自拍图| 中文字幕一区2区3区| 一区二区三区资源| 丰腴饱满的极品熟妇| 国模无码大尺度一区二区三区| 亚洲第一综合网站| 欧美巨大xxxx| 成人两性免费视频| 91吃瓜在线观看| 在线观看日韩www视频免费| 精品人妻一区二区三区四区不卡| 午夜精品影院在线观看| 大胸美女被爆操| 国产91在线观看丝袜| 99视频在线免费| 国内综合精品午夜久久资源| 日韩成人在线资源| 红杏aⅴ成人免费视频| 国产狼人综合免费视频| sm久久捆绑调教精品一区| 尤物tv国产一区| 人妻与黑人一区二区三区| 欧美在线综合视频| 国产特黄大片aaaa毛片| 中文字幕在线不卡| 人人妻人人藻人人爽欧美一区| 极品少妇xxxx精品少妇偷拍| 国产精品-区区久久久狼| 亚洲欧洲美洲一区二区三区| 女同一区二区| 中文字幕一区图| 国产一区二区在线免费视频| 国产夫妻在线播放| 欧美精品一区二区免费| 天天综合视频在线观看| 亚洲视频axxx| 天天舔天天干天天操| 欧美岛国在线观看| 国产精品呻吟久久| 在线观看精品一区| 精品国产一区二区三区四| 亚洲一区日韩精品中文字幕| frxxee中国xxx麻豆hd| 国产日产欧美一区二区视频| 风间由美一二三区av片| 国产超碰在线一区| 中文字幕色网站| 麻豆传媒一区二区三区| 久久九九国产视频| 久久久久久久高潮| 国产最新免费视频| 妖精视频成人观看www| 狠狠噜天天噜日日噜| 911久久香蕉国产线看观看| 亚洲a∨一区二区三区| 国产一区二区精品福利地址| 欧美精品一区二区三区在线四季| 激情小说亚洲色图| 精品国产一区二区三区四区vr | 精品资源在线看| 亚洲精品成a人在线观看| 日韩在线视频免费| 精品国产乱码久久久久久老虎 | 日韩欧美在线123| 国产男男gay体育生白袜| 91精品国产高清一区二区三区蜜臀 | 在线播放 亚洲| 98精品久久久久久久| 伊人色综合久久天天五月婷| 久久激情电影| 亚洲欧洲日韩精品| 99re6这里只有精品| 中文精品一区二区三区| 久久精品久久久| 三级在线免费观看| 极品尤物久久久av免费看| 91专区在线观看| 免费亚洲一区| 黄色免费网址大全| 极品少妇xxxx偷拍精品少妇| 4438x全国最大成人| 不卡影院免费观看| 男生草女生视频| 国产精品―色哟哟| 国产成人无码aa精品一区| 亚洲国产精品麻豆| 欧美一区二区三区不卡视频| 欧美综合视频在线观看| 国产又粗又猛又黄| 日韩免费福利电影在线观看| 人妻一区二区三区免费| 一本一本久久a久久精品综合小说| 超碰在线影院| 欧美巨大黑人极品精男| av2020不卡| 国产精品久久一区主播| 精品网站999| 久中文字幕一区| 99精品网站| 男人的天堂狠狠干| 美女尤物国产一区| 国产原创剧情av| 欧美激情中文不卡| 国产大片中文字幕| 欧美午夜在线一二页| 不卡的日韩av| 亚洲人成五月天| 在线欧美三级| 青青草国产精品一区二区| 91精品亚洲一区在线观看| 黄色99视频| 91精品1区| 亚洲成熟丰满熟妇高潮xxxxx| 麻豆一区二区在线| 97人妻精品一区二区三区免费| 久久久久久久久97黄色工厂| 黑人巨大精品一区二区在线| 日韩欧美在线看| 精品区在线观看| 尤物yw午夜国产精品视频明星| 四虎影院观看视频在线观看| 国产精品久久久久久一区二区| 日韩成人视屏| 亚洲欧洲精品在线| 另类国产ts人妖高潮视频| 免费观看黄网站| 国产精品网站在线观看| 国产免费av一区二区| 日韩一级精品视频在线观看| 国产精品一区二区婷婷| 69av视频在线播放| 亚洲大奶少妇| 在线丝袜欧美日韩制服| 视频一区视频二区中文| 亚洲视频在线播放免费| 亚洲欧美另类久久久精品| 中文人妻熟女乱又乱精品| 亚洲国内高清视频| 国产啊啊啊视频在线观看| 91视频-88av| 欧美hentaied在线观看| 美女黄色片视频| 久久影音资源网| 久久久国产高清| 精品国产91久久久久久久妲己 | 免费黄色网址在线| 亚洲第一区第二区| 波多一区二区| 成人av影视在线| 欧美精品啪啪| 一级黄色高清视频| 自拍偷拍欧美激情| 91久久精品国产91性色69| 国产午夜精品一区理论片飘花| av资源一区| 国产亚洲精品美女久久久m| 国精品一区二区| 美女搡bbb又爽又猛又黄www| 亚洲乱码精品一二三四区日韩在线 | 亚洲精品无码久久久久| 亚洲免费电影一区| a日韩av网址| 欧美影视一区二区| 老牛国产精品一区的观看方式| 亚洲精品乱码久久久久久蜜桃图片| 亚洲天堂成人网| 91亚洲欧美激情| 不卡毛片在线看| 日韩精品久久久久久久软件91| 天天干天天操天天干天天操| 韩国精品免费视频| 青春草免费视频| 亚洲成人1234| 天堂av在线| 视频一区视频二区视频三区视频四区国产 | 欧美色手机在线观看| 久久久pmvav| 国产精品免费福利| 天天射成人网| 韩国一区二区在线播放| 亚洲一区二区五区| 亚洲av电影一区| 国产成人黄色av| 久久国产成人午夜av影院宅| 一级做a爱视频| 五月天婷婷综合| 大片免费播放在线视频| 成人精品网站在线观看| 欧美日韩久久| asian性开放少妇pics| 精品视频123区在线观看| 在线电影福利片| 久久久久久九九九九| 蜜臀99久久精品久久久久久软件 | 国产精品久久久一区麻豆最新章节| 亚洲av人无码激艳猛片服务器| xvideos成人免费中文版| 亚洲不卡在线| 日韩视频第二页| 亚洲视频中文字幕| 天堂在线中文字幕| 国产区精品在线观看| 亚洲国产日本| 妖精视频在线观看免费| 欧美mv日韩mv国产网站app| 韩国美女久久| 午夜久久久久久久久久久| 91美女在线观看| 国产伦一区二区|