精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI 開始「自由玩電腦」了!吉大提出「屏幕探索者」智能體

人工智能 新聞
近期,吉林大學(xué)人工智能學(xué)院發(fā)布了一項(xiàng)基于強(qiáng)化學(xué)習(xí)訓(xùn)練的 VLM 智能體最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它讓視覺語言模型(VLM)真正學(xué)會(huì)了「自我探索 GUI 環(huán)境」。

作者簡介:本文第一作者牛潤良是吉林大學(xué)人工智能學(xué)院博士研究生,研究方向包括大模型智能體、強(qiáng)化學(xué)習(xí),專注于 GUI Agent。通訊作者王琪為吉林大學(xué)人工智能學(xué)院研究員,研究方向包括數(shù)據(jù)挖掘、大模型、強(qiáng)化學(xué)習(xí)。

邁向通用人工智能(AGI)的核心目標(biāo)之一就是打造能在開放世界中自主探索并持續(xù)交互的智能體。隨著大語言模型(LLMs)和視覺語言模型(VLMs)的飛速發(fā)展,智能體已展現(xiàn)出令人矚目的跨領(lǐng)域任務(wù)泛化能力。

而在我們觸手可及的開放世界環(huán)境中,圖形用戶界面(GUI)無疑是人機(jī)交互最普遍的舞臺(tái)。想象一下 --- 你的 AI 不僅能看懂屏幕,還能像人一樣主動(dòng)探索界面、學(xué)習(xí)操作,并在新應(yīng)用里靈活應(yīng)對(duì),這不再是幻想!

近期,吉林大學(xué)人工智能學(xué)院發(fā)布了一項(xiàng)基于強(qiáng)化學(xué)習(xí)訓(xùn)練的 VLM 智能體最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它讓視覺語言模型(VLM)真正學(xué)會(huì)了「自我探索 GUI 環(huán)境」。

圖片

  • 論文地址:https://arxiv.org/abs/2505.19095
  • 項(xiàng)目地址:https://github.com/niuzaisheng/ScreenExplorer

該工作帶來三大核心突破:

  • 在真實(shí)的 Desktop GUI 環(huán)境中進(jìn)行 VLM 模型的在線訓(xùn)練;
  • 針對(duì)開放 GUI 環(huán)境反饋稀疏問題,創(chuàng)新性地引入「好奇心機(jī)制」,利用世界模型預(yù)測環(huán)境狀態(tài)轉(zhuǎn)移,估算環(huán)境狀態(tài)的新穎度,從而有效激勵(lì)智能體主動(dòng)探索多樣化的界面狀態(tài),告別「原地打轉(zhuǎn)」;
  • 此外,受 DeepSeek-R1 啟發(fā),構(gòu)建了「經(jīng)驗(yàn)流蒸餾」訓(xùn)練范式,每一代智能體的探索經(jīng)驗(yàn)都會(huì)被自動(dòng)提煉,用于微調(diào)下一代智能體。這不僅大幅提升探索效率、減少對(duì)人工標(biāo)注數(shù)據(jù)的依賴,更讓 ScreenExplorer 的能力實(shí)現(xiàn)了持續(xù)自主進(jìn)化,打造真正「學(xué)無止境」的智能體!論文同時(shí)開源了訓(xùn)練代碼等。

廢話少說,先看視頻:

方法

實(shí)時(shí)交互的在線強(qiáng)化學(xué)習(xí)框架

圖片

文章首先構(gòu)建了一個(gè)能夠與 GUI 虛擬機(jī)實(shí)時(shí)交互的在線強(qiáng)化學(xué)習(xí)環(huán)境,VLM 智能體可以通過輸出鼠標(biāo)和鍵盤動(dòng)作函數(shù)調(diào)用與真實(shí)運(yùn)行的 GUI 進(jìn)行交互。強(qiáng)化學(xué)習(xí)環(huán)境通過提示詞要求 VLM 智能體以 CoT 形式輸出,包含「意圖」與「動(dòng)作」兩部分。最后,強(qiáng)化學(xué)習(xí)環(huán)境解析函數(shù)調(diào)用形式的動(dòng)作并在真實(shí)的操作系統(tǒng)中執(zhí)行動(dòng)作。在采樣過程中,可以并行多個(gè)虛擬機(jī)環(huán)境進(jìn)行采樣,每個(gè)環(huán)境采樣多步,所有操作步都存儲(chǔ)在 Rollout Buffer 中。

啟發(fā)式 + 世界模型驅(qū)動(dòng)的獎(jiǎng)勵(lì)體系

文中構(gòu)建了啟發(fā)式 + 世界模型驅(qū)動(dòng)的探索獎(jiǎng)勵(lì),啟發(fā)式探索獎(jiǎng)勵(lì)鼓勵(lì)軌跡內(nèi)畫面之間差異度增大。世界模型可以導(dǎo)出每一個(gè)動(dòng)作的好奇心獎(jiǎng)勵(lì),鼓勵(lì)模型探索到越來越多的未見場景,此外還有格式獎(jiǎng)勵(lì)和意圖對(duì)齊獎(jiǎng)勵(lì)。綜合以上獎(jiǎng)勵(lì),為每一步動(dòng)作賦予即時(shí)獎(jiǎng)勵(lì),進(jìn)而鼓勵(lì)模型與環(huán)境開展有效交互的同時(shí)不斷探索新環(huán)境狀態(tài)。

圖片

計(jì)算 GRPO 的組優(yōu)勢函數(shù)計(jì)算

在獲得每一步輸出的獎(jiǎng)勵(lì)后,文中采用與 Deepseek-R1 相同的 GRPO 算法對(duì) VLM 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。作者將同一個(gè) Rollout Buffer 中所有動(dòng)作視為一個(gè)組,首先根據(jù) GRPO 的優(yōu)勢函數(shù)計(jì)算每一步動(dòng)作的優(yōu)勢值:

圖片

再使用 GRPO 損失函數(shù)更新 VLM 參數(shù):

圖片

由此可實(shí)現(xiàn)每個(gè)回合多個(gè)并行環(huán)境同步推理、執(zhí)行、記錄,再用當(dāng)批數(shù)據(jù)實(shí)時(shí)更新策略,實(shí)現(xiàn)「邊操作邊學(xué)」的在線強(qiáng)化學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果

模型探索能力表現(xiàn)

文中的實(shí)驗(yàn)使用了 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 作為基礎(chǔ)模型,如果不經(jīng)訓(xùn)練,直接讓 3B 的小模型與環(huán)境進(jìn)行交互,模型只會(huì)在屏幕上「亂按一通」,未能成功打開任何一個(gè)軟件:

圖片

但是稍加訓(xùn)練,模型就能成功打開一些桌面上的軟件:

圖片

再進(jìn)行一段時(shí)間的探索,模型學(xué)會(huì)探索到更深的頁面:

圖片

Qwen2.5-VL-7B 的模型表現(xiàn)更好,在一段時(shí)間的訓(xùn)練后甚至能夠完成一次完整的「加購物車」過程:

圖片

基于啟發(fā)式和從世界模型導(dǎo)出的獎(jiǎng)勵(lì)都非常易得,因此無需構(gòu)建具體的任務(wù)獎(jiǎng)勵(lì)函數(shù),就能讓模型在環(huán)境中自己探索起來。動(dòng)態(tài)訓(xùn)練的 ScreenExplorer 能夠更加適應(yīng)當(dāng)前的環(huán)境,與調(diào)用靜態(tài)的 VLM 甚至專門為 GUI 場景訓(xùn)練的模型相比,能夠獲得更高的探索多樣性:

經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練,原本探索能力最弱的基礎(chǔ)模型 Qwen 2.5-VL-3B 成功躍升為探索表現(xiàn)最佳的 ScreenExplorer-3B-E1。更高的探索多樣性意味著智能體能夠與環(huán)境開展更有效的交互,自驅(qū)地打開更多軟件或探索更多頁面,這為接下來訓(xùn)練完成具體任務(wù),或是從屏幕內(nèi)容中學(xué)習(xí)新知識(shí),提供了最基礎(chǔ)的交互和探索能力。

在訓(xùn)練過程中,各分項(xiàng)的獎(jiǎng)勵(lì)值不斷升高。此外,World Model 的重建損失一直保持在較高的水平,這也反應(yīng)了模型一直在探索新的狀態(tài)。

圖片

為什么需要世界模型?

文中通過消融實(shí)驗(yàn)對(duì)比了各類獎(jiǎng)勵(lì)的必要性,尤其關(guān)注來自世界模型的好奇心獎(jiǎng)勵(lì)對(duì)探索訓(xùn)練的影響。實(shí)驗(yàn)發(fā)現(xiàn),一旦去掉來自世界模型的好奇心獎(jiǎng)勵(lì),模型就很難學(xué)習(xí)如何與環(huán)境進(jìn)行有效交互,各項(xiàng)獎(jiǎng)勵(lì)都未顯現(xiàn)提升的趨勢。

圖片

為了進(jìn)一步了解來自世界模型好奇心獎(jiǎng)勵(lì)給訓(xùn)練帶來的影響,文中展示了各種消融設(shè)定下 GRPO Advantage 的變化趨勢。

圖片

可以發(fā)現(xiàn),來自世界模型的好奇心獎(jiǎng)勵(lì)加大了 Advantage 的方差,這一點(diǎn)變化使得探索過程渡過了冷啟動(dòng)階段。而沒有世界模型獎(jiǎng)勵(lì)的消融組卻一直困于冷啟動(dòng)階段,很難開展有效的探索。

新技能涌現(xiàn)

此外,文中還展示了模型在經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后涌現(xiàn)出的技能,例如:

跨模態(tài)翻譯能力:

圖片

根據(jù)現(xiàn)狀制定計(jì)劃能力:

圖片

復(fù)雜推理能力:

圖片

探索產(chǎn)生的樣本中,「意圖」字段可以視為免費(fèi)的標(biāo)簽,為之后構(gòu)造完成具體任務(wù)提供數(shù)據(jù)標(biāo)注的基礎(chǔ)。

結(jié)論

本研究在開放世界 GUI 環(huán)境中成功訓(xùn)練了探索智能體 ScreenExplorer。通過結(jié)合探索獎(jiǎng)勵(lì)、世界模型和 GRPO 強(qiáng)化學(xué)習(xí),有效提升了智能體的 GUI 交互能力,經(jīng)驗(yàn)流蒸餾技術(shù)則進(jìn)一步增強(qiáng)了其探索效率。該智能體通過穩(wěn)健的探索直接從環(huán)境中獲取經(jīng)驗(yàn)流,降低了對(duì)人類遙控操作數(shù)據(jù)的依賴,為實(shí)現(xiàn)更自主的智能體、邁向通用人工智能(AGI)提供了一條可行的技術(shù)路徑。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-07-05 05:29:33

數(shù)據(jù)安全《數(shù)據(jù)安全法》網(wǎng)絡(luò)安全

2022-02-24 13:59:59

AI智能體研究

2020-12-14 13:39:39

AI人工智能算法

2020-12-14 15:26:38

AIAI算法

2025-01-24 08:13:38

2021-03-18 14:16:35

人工智能

2022-09-01 17:08:38

DebianLinux

2024-10-14 08:59:11

智能體驅(qū)動(dòng)AI導(dǎo)購人工智能

2025-04-07 02:00:00

2025-03-24 12:07:34

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-08-29 00:10:00

2017-12-17 22:39:53

京東金融全球數(shù)據(jù)探索者決賽

2025-08-08 02:15:00

2017-11-06 20:59:08

2014-10-11 11:31:00

互聯(lián)網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美性生交大片| 日韩三级电影网站| 国产精品第56页| 欧美激情影院| 色婷婷精品久久二区二区蜜臀av| 欧美一级爱爱| 国产女人高潮时对白| 激情偷拍久久| 永久免费精品影视网站| 涩涩网站在线看| 一色桃子av在线| aaa国产一区| 国产精品视频免费在线| 欧美精品xxxxx| 欧美激情网址| 欧美日韩国产一区二区三区地区| www.九色.com| 国产日本在线视频| 国产成人精品一区二区三区四区| 欧美激情网友自拍| 先锋影音av在线| 成人av资源网址| 欧美天天综合网| 国产美女在线一区| 久久bbxx| 国产午夜亚洲精品午夜鲁丝片| av资源站久久亚洲| 中文字幕人妻色偷偷久久| 99热精品在线| 欧美多人爱爱视频网站| 一本一本久久a久久| 蜜桃a∨噜噜一区二区三区| 91精品国产综合久久香蕉的特点| 能看的毛片网站| heyzo中文字幕在线| 国产精品毛片无遮挡高清| 久久精品成人一区二区三区蜜臀| 国产精品欧美激情在线| 丝袜亚洲另类丝袜在线| 97精品国产97久久久久久春色| 超碰人人人人人人人| 日韩欧美在线精品| 亚洲成人激情在线观看| 亚洲午夜精品在线观看| 亚洲精品tv| 欧美视频一区二| 爆乳熟妇一区二区三区霸乳| 末成年女av片一区二区下载| 亚洲成人免费观看| 蜜桃网站在线观看| 精品国产白色丝袜高跟鞋| 日本一区二区免费在线 | 国产无遮挡又黄又爽| 91久久久精品国产| 色一区av在线| 精品少妇一区二区三区密爱| 国产成人短视频在线观看| 日韩av网站导航| 精品少妇一区二区三区免费观| 欧美男人操女人视频| 日韩av在线网| av鲁丝一区鲁丝二区鲁丝三区| 女仆av观看一区| 日韩电影在线观看中文字幕| 中国黄色a级片| 亚洲综合福利| 亚洲视频欧美视频| 天天舔天天操天天干| 成人羞羞网站入口免费| 精品国产欧美一区二区五十路| 小早川怜子一区二区的演员表| 天天做天天爱天天爽综合网| 久久国产精品久久久久久| 青青草成人免费| 黄色免费成人| 777精品视频| 区一区二在线观看| 看国产成人h片视频| 亚洲xxx大片| 婷婷av一区二区三区| 久久女同互慰一区二区三区| 亚洲成人自拍视频| 成人在线免费看黄| 亚洲va欧美va人人爽午夜| 成人黄色片视频| 日本一区二区三区中文字幕 | 色一情一乱一乱一区91av| 91在线丨porny丨国产| 欧美日韩在线高清| 黄色av网站在线播放| 亚洲一区二区中文在线| 99色精品视频| 国产一区二区高清在线| 亚洲精品电影网站| 成年人网站在线观看视频| 好吊视频一区二区三区四区| 国产97在线|亚洲| 国产日产亚洲系列最新| 99re6这里只有精品视频在线观看| 欧洲精品码一区二区三区免费看| 3d玉蒲团在线观看| 色网站国产精品| 免费人成视频在线播放| 欧美美乳视频| 欧美另类老女人| 久久精品国产亚洲av麻豆蜜芽| 国产乱一区二区| 日韩啊v在线| 91在线超碰| 欧美高清激情brazzers| 野外性满足hd| 欧美精品国产| 国产免费亚洲高清| 日韩电影免费| 一区二区成人在线视频| 久久撸在线视频| 日本在线中文字幕一区| 久久国产精品久久久久久| 天干夜夜爽爽日日日日| 成人h动漫精品| 在线看无码的免费网站| 欧美极品影院| 亚洲国产精品中文| 久久精品黄色片| 老司机免费视频一区二区三区| 精品国产乱码久久久久软件| 直接在线观看的三级网址| 欧美影院精品一区| 久久久久亚洲av无码专区桃色| 欧美精品激情| 91久久夜色精品国产网站| 成人免费在线视频网| 天涯成人国产亚洲精品一区av| 亚洲区 欧美区| 999视频精品| 国产精品高精视频免费| 欧美伦理影视网| 激情成人在线视频| 少妇一级淫片免费放播放| 一区二区在线| 亚洲精品日产aⅴ| 麻豆免费在线视频| 欧美日韩情趣电影| 懂色av粉嫩av浪潮av| 日韩精品久久久久久| 欧美中文娱乐网| 亚洲综合在线电影| 亚洲欧洲中文天堂| 波多野结衣在线观看一区| 久久一夜天堂av一区二区三区| 91精品91久久久中77777老牛| 欧美精品中文| 8090成年在线看片午夜| 亚洲色图21p| 日韩欧美国产视频| 亚洲精品午夜视频| 另类小说综合欧美亚洲| 亚洲欧美日韩精品综合在线观看| 99久久er| 日韩在线高清视频| 精品国产亚洲一区二区麻豆| 一区二区三区精品久久久| 欧美熟妇精品一区二区| 在线日韩欧美| 久久久久网址| 欧美最新精品| 综合av色偷偷网| 国产精品热久久| 亚洲一级在线观看| www.日本高清| 久久综合激情| 在线不卡视频一区二区| 激情久久免费视频| 欧美精品久久久久久久久久| 熟妇人妻中文av无码| 色噜噜狠狠成人网p站| 国产激情av在线| 国产一区二区三区四| 欧美国产视频一区| 亚洲免费观看高清完整版在线观| 国产第一区电影| 国产传媒在线播放| 亚洲第一综合天堂另类专| 三级网站在线播放| 亚洲摸摸操操av| 国产精品无码永久免费不卡| 美女国产一区二区三区| 日韩一级免费看| 国产成人调教视频在线观看 | 懂色av蜜臀av粉嫩av喷吹| ●精品国产综合乱码久久久久| 乳色吐息在线观看| 亚洲影院在线| 久久久成人精品一区二区三区 | 国内久久精品视频| 成年女人18级毛片毛片免费| 欧洲杯半决赛直播| av观看久久| 欧美精品资源| 久久久久久网址| shkd中文字幕久久在线观看| 日韩精品一区二区在线观看| 国产第一页在线观看| 一区二区三区不卡视频在线观看| 白丝女仆被免费网站| 国产精品亚洲人在线观看| 亚洲精品中文字幕无码蜜桃| 韩日欧美一区| 中文字幕一区二区三区四区五区六区 | www.久久国产| 国产精品亚洲一区二区三区妖精 | av成人在线观看| 97激碰免费视频| 污污片在线免费视频| 最新亚洲国产精品| 青青草手机在线| 精品久久久三级丝袜| 一级淫片免费看| 色视频成人在线观看免| 日韩久久久久久久久| 亚洲人成网站色在线观看| 日本精品在线观看视频| heyzo一本久久综合| 亚洲一区二区三区四区精品| 日韩精品成人一区二区在线| 一二三四视频社区在线| 欧美私人啪啪vps| 黄瓜视频免费观看在线观看www | 国产免费裸体视频| 天天射成人网| 少妇精品久久久久久久久久| 日韩美脚连裤袜丝袜在线| 国产不卡一区二区三区在线观看| 日韩黄色三级| 国产噜噜噜噜噜久久久久久久久| 澳门成人av网| 欧美亚洲国产视频| 日本免费一区二区六区| 国产69精品久久久久99| 国产在线xxx| 欧美黑人xxxⅹ高潮交| 日本性爱视频在线观看| 免费成人高清视频| 99在线播放| 久久艳片www.17c.com | 97久久伊人激情网| a'aaa级片在线观看| 国产69精品久久久久99| 国产精品yjizz视频网| 91精品国产91久久久| 日韩av影片| 日韩美女视频在线观看| 九九热线视频只有这里最精品| 日本精品一区二区三区在线播放视频| 激情国产在线| 欧洲精品毛片网站| 久久久人成影片一区二区三区在哪下载| 欧美亚洲日本网站| 欧美大胆性生话| 国产精品r级在线| 日本精品网站| 国产在线拍偷自揄拍精品| 成人激情视屏| 成人在线视频网站| 亚洲精品a区| 精品一区二区三区国产| 亚洲国产网址| 亚洲国产午夜伦理片大全在线观看网站 | 蜜臀va亚洲va欧美va天堂| 色悠悠久久综合网| 精品在线播放午夜| 亚洲少妇中文字幕| 91视频.com| xxxxx99| 亚洲一区二区三区中文字幕在线| 日本在线观看中文字幕| 欧洲av一区二区嗯嗯嗯啊| 91丨九色丨丰满| 亚洲大胆人体在线| 久久经典视频| 久久艳片www.17c.com| www成人免费观看| 国产精品三级网站| 伊人精品久久| 日韩精品电影网站| 自拍偷拍欧美| 青青草原成人网| 久久 天天综合| 精品一区二区视频在线观看| 国产日韩欧美精品电影三级在线| 91嫩草|国产丨精品入口| 黄网站色欧美视频| 国产在成人精品线拍偷自揄拍| 亚洲国产高潮在线观看| 自拍视频在线免费观看| 久久久在线观看| 久久69成人| 黑人中文字幕一区二区三区| 日韩在线中文| 日韩在线一级片| 国产精品亚洲成人| 老熟妇一区二区| 午夜视黄欧洲亚洲| 国产一区二区三区黄片| 国产视频欧美视频| 在线免费av导航| 国产精品亚洲аv天堂网| 欧美三级自拍| 精品嫩模一区二区三区| 日韩精品一二三区| 久久久久99人妻一区二区三区| 亚洲国产成人一区二区三区| 国产成人无码精品久久久久| 欧美精品777| 国产色在线 com| 97视频免费在线观看| 日韩一区二区三区高清在线观看| 日韩中文一区二区三区| 国产一区二区三区的电影| 日本女人性视频| 国产精品欧美一区喷水| 久久久久99精品成人片我成大片| 欧美变态tickle挠乳网站| 日本最新在线视频| 日本久久久久久| 欧美日韩看看2015永久免费 | 久久精品成人av| 亚洲国产欧美一区二区三区丁香婷| 国产影视一区二区| 在线国产精品播放| 日韩福利一区| 欧美精品一区二区视频| 最新亚洲激情| 亚洲天堂2024| 性做久久久久久免费观看欧美| 国产婷婷在线视频| 久热精品在线视频| 91精品国产自产观看在线| 亚洲日本一区二区三区在线不卡| 日日夜夜免费精品| 亚洲综合色一区| 色哟哟国产精品| 精品电影在线| 国产成人精彩在线视频九色| 久9久9色综合| mm1313亚洲国产精品无码试看| 91蜜桃网址入口| 欧美 日韩 精品| 精品中文视频在线| 中文字幕在线直播| 任我爽在线视频精品一| 久久资源在线| 很污很黄的网站| 欧美电影一区二区| 在线中文字幕视频观看| av日韩中文字幕| 国产亚洲欧洲| 国产成人无码精品久久二区三| 色噜噜久久综合| 午夜视频在线观看网站| 成人性生交大片免费看视频直播 | 亚洲精品v日韩精品| www.久久久久久| 97精品在线视频| 自拍欧美一区| 亚洲一级片网站| 亚洲免费观看高清完整版在线观看| 精品国产va久久久久久久| 色综合天天狠天天透天天伊人| 豆花视频一区二区| aa免费在线观看| 国产精品国产三级国产| 99热这里只有精品在线观看| 高清欧美一区二区三区| 免费视频国产一区| 在线一区二区不卡| 午夜电影久久久| avtt亚洲| 999在线观看免费大全电视剧| 翔田千里一区二区| 国产在线免费av| 精品国产乱子伦一区| 综合在线影院| 91传媒免费视频| 久久综合丝袜日本网| 91成人一区二区三区| 久久久久久综合网天天| 欧洲grand老妇人| 色悠悠在线视频| 欧美性猛交xxxx乱大交退制版| 丝袜美女在线观看| 日韩精品国内| 成人h动漫精品一区二区 | 亚洲精品一区二区三区99| 性欧美1819sex性高清| 国产精品一区在线免费观看| 91理论电影在线观看| 99久久国产免费| 2023亚洲男人天堂| 自产国语精品视频|