精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

革新GUI自動化:V-Zen模型引領多模態語言模型新紀元 精華

發布于 2024-5-28 11:33
瀏覽
0收藏


革新GUI自動化:V-Zen模型引領多模態語言模型新紀元-AI.x社區

在人工智能領域不斷發展的今天,多模態大型語言模型(MLLMs)已經成為一種變革性的力量,它們能夠跨越不同數據表現形式的鴻溝,實現數據的理解和整合。這些模型擅長從多種模態(如文本和圖像)中整合信息,顯著擴展了研究和實際應用的范圍。在這一領域內,一個關鍵的研究方向是圖形用戶界面(GUI)的任務自動化。GUI任務的自動化為提高各種應用的效率和生產力提供了巨大的潛力。然而,現有的模型和基準主要集中在基于文本的任務上,這種方法忽視了多模態代理有效處理和整合視覺信息以解決問題的巨大潛力。我們研究的主要推動力是這些模型的應用,特別強調在GUI圖像上下文中的“著陸”概念。在MLLMs領域,著陸指的是將語言中的詞語或短語與其他模態中的相應實體關聯起來的過程。例如,在文本-圖像配對中,“蘋果”一詞將與蘋果的圖像相對應。MLLMs在自動化GUI任務中有效且精確地進行著陸尤為關鍵。

論文標題、機構、論文鏈接 

論文標題: IV-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

機構: SuperAGI Research

論文鏈接: http://arxiv.org/pdf/2405.15341

本研究旨在通過開發一種能夠有效導航、理解和與GUI元素高精度交互的多模態大型語言模型(MLLM),推動基于多模態代理的GUI任務自動化的邊界。

V-Zen模型介紹

V-Zen是一種新型的多模態大型語言模型(MLLM),專為圖形用戶界面(GUI)的理解和精確定位而設計。它不僅僅是一個多模態語言模型,而是一個高級的GUI代理,能夠準確處理圖像和文本輸入,解釋自然語言指令,精確識別GUI元素,并在網站上執行操作以完成用戶定義的目標。

V-Zen的核心在于其視覺定位模塊,該模塊利用DINO檢測器的功能,使其能夠有效處理多模態定位任務。除了LLM的文本響應之外,定位模塊還單獨提供定位坐標,取代了典型的對象檢測模塊,從而確保坐標的精確性。此外,模型的性能通過高交叉分辨率模塊(HRCM)得到進一步增強,該模塊使模型能夠處理高分辨率特征并理解圖像中的文本。

為了推動基于代理的多模態GUI任務自動化的研究邊界,我們還創建了一個名為GUIDE(Graphical User Interface Data for Execution)的數據集,這是一個前沿的基準數據集,包括跨各種GUI平臺收集的邊界框注釋和帶有思維鏈的文本描述。GUIDE數據集在推動代理研究方面起到了助推作用,最終導致了更靈活、響應更快、更類似于人的代理在多個領域的發展。

革新GUI自動化:V-Zen模型引領多模態語言模型新紀元-AI.x社區

多模態融合與視覺理解

多模態融合是指在一個模型中整合來自不同數據源(如文本、圖像、聲音等)的信息的過程。在V-Zen模型中,這一過程尤為關鍵,因為它需要處理和理解來自GUI的圖像和文本指令。V-Zen通過幾個關鍵的技術模塊來實現這一點:

1. 低分辨率視覺特征提取器(LRVFE):這一模塊使用低分辨率編碼器(如EVA-2-CLIP)處理輸入圖像,提取圖像的關鍵特征,為后續的高級處理做準備。

2. 多模態投影適配器(MPA):此模塊負責將從LRVFE提取的特征轉換成適合LLM處理的格式,確保圖像特征與文本模態能夠在同一多模態嵌入空間中對齊。

3. 預訓練的帶視覺專家的語言模型(PLMVE):這一模塊結合了視覺專家層和原始LLM層,用于生成基于處理后的圖像特征和文本輸入的文本輸出。

4. 高分辨率交叉視覺模塊(HRCVM):靈感來自于CogAgent,設計用于處理更高分辨率的輸入,它使用更小的視覺編碼器和交叉注意力機制,將高分辨率圖像特征與PLMVE的每一層融合。

5. 高精度定位模塊(HPGM):這一模塊采用增強的DETR對象檢測器(命名為DINO),從PLMVE中提取的隱藏狀態用作視覺定位的查詢,以精確地定位GUI元素。

通過這些模塊的協同工作,V-Zen不僅能夠理解GUI的視覺和文本信息,還能精確地執行定位任務,極大地提高了模型在真實世界應用中的實用性和效率。

精確定位與執行:高精度定位模塊(HPGM)

在多模態大型語言模型(MLLM)的研究和應用中,精確地定位和執行任務是至關重要的一環。特別是在圖形用戶界面(GUI)自動化的背景下,高精度定位模塊(HPGM)的作用尤為突出。HPGM不僅僅是一個普通的對象檢測模塊,它通過使用增強的DETR(名為DINO)對象檢測器,能夠以極高的精度輸出邊界框坐標。

這一模塊的核心在于它如何處理和利用從預訓練語言模型帶有視覺專家(PLMVE)中提取的隱藏狀態。這些隱藏狀態被用作視覺定位的查詢,與多尺度特征集進行交互,以精確地定位GUI元素。多尺度特征集是使用基于Swin Transformer的骨干網絡獲得的,這進一步增強了模型對圖像中細微元素的識別能力。

通過這種方式,HPGM能夠精確地識別和互動GUI元素,這對于提高自動化任務的效率和準確性至關重要。例如,在處理一個包含多個按鈕和圖標的復雜GUI界面時,HPGM能夠準確地識別出用戶指定的操作對象,從而有效地支持后續的自動化操作。

GUIDE數據集的構建與應用

GUIDE(Graphical User Interface Data for Execution)數據集是為了推動多模態大型語言模型(MLLM)在圖形用戶界面自動化領域的應用而特別設計的。這個數據集包含了124,000個數據點,涵蓋了從Apollo.io到Gmail等多種GUI平臺的用戶交互。

每個數據條目都包含一個圖像、一個任務描述、上一個動作和下一個要執行的動作,以及執行動作所需的定位信息。此外,數據集還包括了一個思維鏈(Chain of Thought),記錄了之前的動作歷史,這有助于模型在執行任務時進行上下文推理。

GUIDE數據集的構建使用了先進的注釋工具NEXTAG(Next Action Grounding and Annotation Tool),并且適配了多種操作系統和瀏覽器。通過多個注釋者的協作,數據集能夠捕捉到不同設計風格和用戶交互方式的多樣性。

在實際應用中,GUIDE數據集支持跨界面的自動化任務研究,并鼓勵開發能夠在多平臺上運行的MLLM。數據集的設計不僅僅是為了訓練模型識別下一個任務,更重要的是能夠準確執行與GUI元素(如按鈕、圖標等)的交互,這對于實現高效的GUI自動化至關重要。


實驗設計與結果分析

1. 實驗設計

在我們的研究中,實驗的設計旨在驗證多模態大型語言模型(MLLM)V-Zen在圖形用戶界面(GUI)任務自動化中的有效性。我們特別關注了兩個核心任務:下一任務預測和元素定位(Grounding)。

為了進行這些實驗,我們首先使用了GUIDE數據集,該數據集包括了124,000個數據點,涵蓋了多種GUI環境中的用戶交互。這些數據點不僅包括圖像和任務描述,還包括了執行任務所需的具體動作和位置信息。

我們的模型V-Zen在兩個階段接受訓練:預訓練和特定任務的微調。預訓練階段,模型學習處理高分辨率圖像并適應GUI應用,強調文本識別、視覺定位和理解GUI圖像。微調階段則使用GUIDE數據集,使模型能夠學習復雜的工作流程和動作歷史,從而在遇到新的GUI時,能夠做出準確的推斷和執行相關動作。

2. 結果分析

在下一任務預測方面,V-Zen的表現優于其他同類模型,如CogAgent、GPT-4V等。V-Zen在這一任務中的準確率達到了93.2%,這一結果表明V-Zen能夠準確預測GUI環境中的后續任務,顯示出其在實際應用中的潛力。

在元素定位任務中,V-Zen同樣表現出色,其定位準確率達到了89.7%。這一成績不僅展示了V-Zen在精確定位GUI元素方面的能力,也突顯了其在GUI任務自動化中的實用性。

這些實驗結果驗證了V-Zen在GUI理解和任務執行方面的有效性,同時也展示了其在多模態大型語言模型領域中的先進性。

討論與未來工作

1. 討論

V-Zen模型的成功歸功于其創新的架構,該架構有效地整合了低分辨率和高分辨率視覺模塊、多模態投影適配器和高精度定位模塊。這種設計使得V-Zen能夠有效處理和整合視覺與文本信息,從而提升了其在GUI理解和定位任務中的表現。

此外,GUIDE數據集的使用為模型提供了豐富的訓練資源,使V-Zen能夠從復雜的工作流程和動作歷史中學習,進一步增強了其處理實際GUI元素和任務序列的能力。

2. 未來工作

盡管V-Zen在多個方面表現出色,但仍有改進和擴展的空間。未來的工作將集中在以下幾個方面:

  • 性能提升:繼續優化V-Zen的架構,提高其在各種GUI平臺上的表現,尤其是在更復雜或未知的GUI環境中。
  • 應用擴展:將V-Zen應用到更廣泛的GUI平臺和實際復雜性場景中,驗證和提升其泛化能力。
  • 數據集發展:擴展GUIDE數據集,包括更多種類的GUI環境和任務類型,以支持模型在更廣泛應用中的訓練和測試。

通過這些未來的研究工作,我們希望進一步推動多模態大型語言模型在GUI自動化領域的發展,為實現更智能、更自動的計算體驗開辟新的可能。

總結:V-Zen在多模態大型語言模型中的創新應用及其對GUI自動化的貢獻

在人工智能領域的快速發展中,多模態大型語言模型(MLLMs)已成為一種變革性的力量,它們能夠跨越不同數據表示之間的鴻溝,實現信息的整合和理解。這些模型擅長從多種模態(如文本和圖像)中整合信息,顯著擴展了研究和實際應用的范圍。在這一領域中,一個關鍵的研究方向是圖形用戶界面(GUI)任務的自動化。

1. V-Zen模型的創新設計

我們提出的模型V-Zen,不僅僅是一個MLLM,而是一個高級的GUI代理,能夠準確處理圖像-文本輸入,解釋自然語言指令,精確識別GUI元素,并在網站上執行動作以完成用戶定義的目標。V-Zen集成了一個視覺接地模塊,該模塊利用DINO檢測器的能力,有效地處理多模態接地任務。此外,該模型的性能通過高交叉分辨率模塊(HRCM)進一步增強,該模塊使模型能夠處理高分辨率特征并理解圖像中的文本。

2. GUIDE數據集的開發

為了推動基于代理的研究,我們還創建了一個名為GUIDE(Graphical User Interface Data for Execution)的數據集,這是一個前沿的基準數據集,包括跨各種GUI平臺收集的邊界框注釋和帶有思維鏈的文本描述。GUIDE數據集在提高模型性能方面發揮了關鍵作用,使V-Zen能夠在執行多樣化GUI平臺上的任務時表現出色。

3. 實際應用和未來的研究方向

V-Zen在GUI自動化領域的應用展示了MLLMs在實際操作中的巨大潛力。通過精確地識別和與GUI元素交互,V-Zen不僅增強了這些代理的功能,還顯著提高了它們在現實世界應用中的實用性。我們的研究目標是通過開發能夠有效導航、理解和與GUI元素高精度交互的多模態大型語言模型,推動多模態代理基于GUI任務自動化的邊界。

總之,V-Zen的引入標志著在多模態大型語言模型及其在GUI自動化中應用的一個重要進步。通過其創新的架構和強大的功能,V-Zen為未來的研究和開發奠定了堅實的基礎,展望未來,我們預計將進一步提升V-Zen的性能,并擴展其適用于更廣泛的GUI平臺。

本文轉載自 ??AI論文解讀??,作者:柏企

收藏
回復
舉報
回復
相關推薦
国产原创一区二区| 99精品在免费线中文字幕网站一区| 精品国产一级毛片| 欧美久久一区二区| 今天免费高清在线观看国语| 午夜免费日韩视频| 成人性生活免费看| 51一区二区三区| 亚洲最新视频在线观看| 欧美激情视频一区二区三区| 亚洲综合精品视频| 亚洲乱码久久| 久久久999精品视频| 亚洲天堂资源在线| 国产精品亚洲欧美一级在线| 欧美性猛交xxx| 欧美一区二区三区综合| 成人欧美亚洲| 粉嫩aⅴ一区二区三区四区| 国产精品激情av电影在线观看| 五月天激情小说| 亚洲精品777| 日韩欧美国产一区二区| 亚洲爆乳无码精品aaa片蜜桃| 少妇无套内谢久久久久| 欧美福利专区| 在线看国产精品| 东京热av一区| 88久久精品| 欧美巨大另类极品videosbest | 亚洲精品乱码久久久久久蜜桃欧美| 日本天堂在线观看| 久久久亚洲精品一区二区三区| 57pao国产成人免费| 亚洲av鲁丝一区二区三区| 日韩在线不卡| 中文字幕亚洲色图| 中文字幕一区二区三区人妻不卡| 影视一区二区三区| 欧美日韩中文字幕| 美女日批免费视频| heyzo在线欧美播放| 亚洲综合无码一区二区| 日本在线视频www色| 精品美女在线观看视频在线观看| 国产一区二区福利| 成人精品一区二区三区电影免费| 国模无码国产精品视频| 久久久久免费av| 久久精品99国产精品酒店日本| 日本中文字幕精品| 免费一区二区三区四区| 欧美日韩中文字幕精品| 中国黄色片免费看| 久久精品 人人爱| 欧美日韩不卡一区二区| 天天影视色综合| 在线高清欧美| 日韩视频在线你懂得| 韩国一区二区在线播放| 8848成人影院| 日韩精品高清视频| 91网站免费视频| 欧美最新另类人妖| 久久精品成人欧美大片| 五月天av网站| 亚洲国产第一| 国产极品jizzhd欧美| 亚洲天堂视频在线播放| 狠狠色狠狠色综合日日91app| 91av国产在线| 亚洲不卡在线视频| 麻豆精品国产91久久久久久| 国产精品丝袜一区二区三区| 6—12呦国产精品| 国产馆精品极品| 国产综合第一页| 川上优的av在线一区二区| 综合色中文字幕| 热99这里只有精品| 在线成人视屏| 制服.丝袜.亚洲.中文.综合| 极品白嫩少妇无套内谢| 亚洲精品国产动漫| 在线视频亚洲欧美| 久草成人在线视频| 首页国产欧美日韩丝袜| 亚洲r级在线观看| 污污的视频网站在线观看| 国产亚洲欧美中文| 天天想你在线观看完整版电影免费| 无遮挡的视频在线观看| 亚洲制服丝袜av| 国产主播中文字幕| jazzjazz国产精品麻豆| 国产亚洲xxx| 国产亚洲精品码| 日韩—二三区免费观看av| 91嫩草在线| 搞黄视频免费在线观看| 一区二区三区四区国产精品| 日韩在线xxx| 亚洲不卡在线| 色系列之999| 日韩欧美一区二区一幕| 久久91精品国产91久久小草| 久久超碰亚洲| 在线免费观看a视频| 欧美午夜精品电影| 亚洲最大免费视频| 亚洲影视一区二区三区| 国产精品爱久久久久久久| 高h调教冰块play男男双性文| 国产大片一区二区| 视频一区二区在线| eeuss鲁一区二区三区| 欧美军同video69gay| 六月婷婷七月丁香| 黄色日韩在线| 91性高湖久久久久久久久_久久99| 91精品国产乱码久久久| 久久亚洲私人国产精品va媚药| 久热国产精品视频一区二区三区| 亚洲av电影一区| 亚洲精选一二三| 色一情一区二区三区| 亚洲+变态+欧美+另类+精品| 免费成人高清视频| 中文字幕自拍偷拍| 日本一区二区三区在线不卡 | 天堂www中文在线资源| 欧美黄色录像片| 国产精品色视频| www.av在线| 欧洲一区二区三区在线| 白丝女仆被免费网站| 99热精品在线| 激情一区二区三区| 国产激情在线播放| 亚洲成人动漫在线播放| 国产乡下妇女做爰| 成人激情av网| 欧美国产日韩激情| 97久久精品| 97免费在线视频| 少妇高潮久久久| 天天av天天翘天天综合网色鬼国产| 88av.com| 久久av网址| 国产精品久久久精品| 国产女人在线视频| 欧美在线免费观看亚洲| 欧美日韩生活片| 久久99精品网久久| 最新av网址在线观看| 日韩精品一区二区三区免费视频| 亚洲免费av片| 日本黄色中文字幕| 国产精品麻豆网站| 中国老熟女重囗味hdxx| 影音先锋亚洲一区| 久久伊人一区| 国产精品久久久久77777丨| 日韩亚洲精品视频| av综合在线观看| 午夜久久久久久久久久一区二区| 国产真人无码作爱视频免费| 凹凸成人精品亚洲精品密奴| 国产精品久久久久久久久粉嫩av | 国产婷婷色一区二区在线观看| 强制捆绑调教一区二区| 亚洲砖区区免费| 97青娱国产盛宴精品视频| 91成人福利在线| 91网页在线观看| 欧美一级高清大全免费观看| 久一视频在线观看| 久久久久久久网| 波多结衣在线观看| 欧美精品一线| 日本不卡一区二区三区在线观看| 亚洲七七久久综合桃花剧情介绍| 日本久久一区二区| 呻吟揉丰满对白91乃国产区| 国产美女一区二区三区| 无码人妻丰满熟妇区96| 久久要要av| 国产亚洲第一区| 91精品美女| 久久久久久综合网天天| yourporn在线观看视频| 精品美女一区二区| 姑娘第5集在线观看免费好剧| 成人av资源网站| 国产aaa免费视频| 成人在线免费观看网站| 国产精品制服诱惑| 祥仔av免费一区二区三区四区| 亚洲日韩中文字幕| 国产激情无套内精对白视频| 色综合久久久久久久| 欧美日韩精品在线观看视频 | 综合 欧美 亚洲日本| 懂色av一区二区在线播放| 不卡av免费在线| 亚洲国产高清视频| 黑人巨茎大战欧美白妇| 欧美理论电影大全| 久久精品二区| 久久免费精品| 国产精品伦子伦免费视频| a级片在线免费观看| 影音先锋在线一区| 国产99在线播放| 免费一级欧美在线观看视频| 1769国内精品视频在线播放| 很黄的网站在线观看| 亚洲桃花岛网站| 天堂av中文在线资源库| 欧美xxxx在线观看| 国产乱码久久久久| 欧美在线观看视频一区二区 | 日本一区二区免费高清| 国产在线欧美日韩| 在线视频亚洲欧美中文| 成人午夜激情免费视频| 韩日精品一区| 国产精品九九九| 免费观看亚洲| 51色欧美片视频在线观看| 丁香花在线影院| 久久99亚洲热视| 成人福利网站| 久久视频在线视频| av电影在线观看| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 亚洲一区二区三区中文字幕在线观看| 欧美另类极品videosbestfree| 亚洲奶汁xxxx哺乳期| 日韩片之四级片| 国产黄色av片| 日韩精品一区二区三区三区免费 | av电影免费在线观看| 日韩亚洲成人av在线| 欧美三级黄网| 久久躁日日躁aaaaxxxx| 中文字幕中文字幕在线中高清免费版| 亚洲成人激情在线| 日本xxxxxwwwww| 亚洲精品短视频| 头脑特工队2在线播放| 亚洲欧美中文日韩在线| 成人午夜在线观看视频| 日韩中文在线中文网三级| 免费看美女视频在线网站| 日韩一区二区av| 伊人福利在线| 国a精品视频大全| 亚洲优女在线| 97视频在线观看视频免费视频 | 性欧美18一19性猛交| 欧美成人一区二区三区在线观看| 黄色在线免费观看| 欧美日韩另类视频| 五月婷婷丁香在线| 91精品国产综合久久久久久久久久 | 欧美日韩免费区域视频在线观看| 啪啪一区二区三区| 亚洲精品成人天堂一二三| 国产无码精品在线播放| 欧美日韩国产色视频| 黄色av一区二区| 欧美日韩国产高清一区二区三区| 日日夜夜狠狠操| 欧美日韩免费在线视频| 国产裸体无遮挡| 亚洲精品成人网| 北岛玲一区二区三区| 欧美成人免费大片| 青青青免费在线视频| 国产精品日韩在线一区| 8848成人影院| 亚洲v国产v在线观看| 欧美在线1区| 欧美牲交a欧美牲交aⅴ免费下载| 精品电影一区| 成人在线看视频| 国产乱子伦视频一区二区三区| 久久这里只精品| 成人性生交大片免费看中文 | www.日韩大片| 男人天堂资源网| 五月天欧美精品| 中文字幕精品一区二区精| 精品久久久久久亚洲综合网| 国产在线观看免费| 久久久久国产精品免费| 中韩乱幕日产无线码一区| 国产成人看片| 999国产精品999久久久久久| 国产精品自拍片| 国产一区视频在线看| 国产高潮呻吟久久| 亚洲成a人v欧美综合天堂下载| 国产亚洲成人av| 欧美日韩国产综合视频在线观看| 最近中文字幕av| 亚洲第一精品福利| 91精品久久| 国产精品一区二区性色av| 日韩大片在线免费观看| 狠狠噜天天噜日日噜| 麻豆国产精品视频| aaaaa级少妇高潮大片免费看| 久久青草欧美一区二区三区| 久久国产精品波多野结衣av| 欧美精品 国产精品| 国产h在线观看| 青青青国产精品一区二区| 91国内精品| 最新黄色av网站| 麻豆91精品91久久久的内涵| 日本少妇高潮喷水xxxxxxx| 亚洲电影一区二区| 亚洲av永久纯肉无码精品动漫| 日韩高清av一区二区三区| 手机在线免费av| 91福利入口| 欧美成熟视频| 中文字幕 欧美 日韩| 亚洲欧美国产77777| 91精品在线视频观看| 日韩在线视频播放| 国产精品麻豆成人av电影艾秋| 91精品视频在线看| 99re66热这里只有精品8| 一区二区三区韩国| 国产三级欧美三级日产三级99| 久久福利免费视频| 欧美日韩亚洲高清一区二区| 理论视频在线| 日韩美女视频免费看| 免费电影一区二区三区| 天天摸天天碰天天添| 久久久久99精品国产片| 日本视频免费观看| 自拍偷拍亚洲在线| 日韩av懂色| 激情五月五月婷婷| 国产成人丝袜美腿| 日本学生初尝黑人巨免费视频| 欧美日韩一本到| 三区四区电影在线观看| 91精品视频免费| 亚洲国产高清一区二区三区| 人妻在线日韩免费视频| 黑人极品videos精品欧美裸| 蜜桃视频在线入口www| 奇米成人av国产一区二区三区| www.久久爱.com| 日韩一区二区高清视频| 国产成人啪午夜精品网站男同| 白白色免费视频| 欧美性猛片aaaaaaa做受| 成a人片在线观看www视频| 91久久在线视频| 国语精品一区| 免费污网站在线观看| 欧美日韩中字一区| 牛牛精品在线| 蜜桃导航-精品导航| 麻豆成人免费电影| 青青草原免费观看| 亚洲美女久久久| 伊人久久大香线蕉综合影院首页| 日韩欧美一区二区在线观看 | 神马电影久久| 三级一区二区三区| 亚洲a一区二区| 99se视频在线观看| 国产精品久久波多野结衣| 久久久蜜桃一区二区人| 黄色a级片在线观看| 日韩国产精品视频| 超碰在线免费观看97| 国产精品久久占久久| 一区二区三区视频网| 一区二区三区四区在线免费观看| 日韩av男人天堂| 激情欧美一区| 精品影片一区二区入口| 欧美三级中文字幕在线观看| 在线免费观看污| 日本成人看片网址| 国产激情视频一区二区在线观看 | 国产精品私人自拍| a级片在线视频| 国产精品av免费在线观看| 欧美 日韩 国产 一区| 爱爱免费小视频|