更懂國內(nèi)APP的開源智能體!感知/定位/推理/中文能力全面提升,還能自己學(xué)會操作
最新開源多模態(tài)智能體,能自動操作手機(jī)、電腦、瀏覽器的那種!開源評測榜單和中文場景交互成績?nèi)嫣嵘?/span>
比如讓它播放一首歌,它就能自己找到對應(yīng)軟件、找到對應(yīng)歌手、選擇歌曲,像人類一樣點(diǎn)擊、滑動、輸入。其中,多模態(tài)智能體學(xué)習(xí)和交互的對象是多步執(zhí)行的軌跡數(shù)據(jù)。
它適用于手機(jī)/電腦上的復(fù)雜多步任務(wù),尤其是在中文APP場景下的真實交互方面具有優(yōu)勢。

來自浙江大學(xué)和美團(tuán)的研究者們開源了多模態(tài)智能體UItron,具有先進(jìn)的GUI內(nèi)容感知、任務(wù)定位和推理規(guī)劃能力,以及優(yōu)秀的中文場景交互能力。
UItron彌補(bǔ)了操作軌跡的稀缺性和智能體交互基建的可用性,提供了更好的基礎(chǔ)能力來促進(jìn)未來的智能體研究,圖中展示了UItron和基準(zhǔn)方法在十個主流評測榜單中的性能對比,顯示了全面的性能水平提升。

方法與技術(shù)
多模態(tài)智能體依賴高質(zhì)量的操作軌跡和可交互的虛擬環(huán)境,因此構(gòu)建多模態(tài)智能體是一項有挑戰(zhàn)的任務(wù)。UItron構(gòu)建了系統(tǒng)性的數(shù)據(jù)工程來緩解操作軌跡的缺乏,搭建了可交互的虛擬環(huán)境支持手機(jī)/電腦的連接,提出了從簡單離線強(qiáng)化學(xué)習(xí)到復(fù)雜在線強(qiáng)化學(xué)習(xí)的訓(xùn)練方法。
數(shù)據(jù)工程
研究者探索了系統(tǒng)的數(shù)據(jù)工程來改進(jìn)UItron,包括感知數(shù)據(jù)、規(guī)劃數(shù)據(jù)和蒸餾數(shù)據(jù),如下圖所示。此外,還組織了少量有利于多模態(tài)智能體訓(xùn)練的通用多模態(tài)數(shù)據(jù),以及中文場景的高質(zhì)量手動標(biāo)注數(shù)據(jù)。具體地,在感知數(shù)據(jù)中,UItron將廣泛來源的跨平臺數(shù)據(jù)整理到統(tǒng)一的多輪對話模板中,有效的擴(kuò)大了可用訓(xùn)練數(shù)據(jù)的規(guī)模。
同時,UItron整合了UI內(nèi)容關(guān)聯(lián)的多任務(wù)數(shù)據(jù),包括OCR\VQA\Caption等,這些多任務(wù)數(shù)據(jù)有效的提供了基礎(chǔ)的頁面理解能力。在規(guī)劃數(shù)據(jù)中,UItron系統(tǒng)地研究了一系列提高訓(xùn)練效果的數(shù)據(jù)工程策略,包括利用各種軌跡元素(如觀察、 思想和行動),探索不同的推理格式,以及結(jié)合各種 反射機(jī)制(如回溯)。

交互基建
為了便于軌跡數(shù)據(jù)收集、在線評估和強(qiáng)化學(xué)習(xí)訓(xùn)練,UItron構(gòu)建了一個連接移動和PC設(shè)備的交互環(huán)境基建,如下圖所示。其意義來自以下三個方面。首先,移動端和PC端的交互環(huán)境提供了自動記錄截圖和坐標(biāo)的功能,大大簡化了手動標(biāo)注軌跡數(shù)據(jù)的難度,尤其是提高了收集中文場景下操作軌跡的效率。
其次,為移動端和PC端的交互環(huán)境提供了一種實現(xiàn)方式,不僅實現(xiàn)了傳統(tǒng)的英文環(huán)境下智能體交互環(huán)境(如OSWorld),還實現(xiàn)了中文環(huán)境中和國內(nèi)App的交互環(huán)境。最后,通過連接手機(jī)/電腦,為在線強(qiáng)化學(xué)習(xí)提供了訓(xùn)練基礎(chǔ),模型在訓(xùn)練的過程中不斷輸出執(zhí)行動作,然后訪問交互環(huán)境獲得執(zhí)行后的新界面,從而交替循環(huán)下去直到任務(wù)完成。

訓(xùn)練范式
在訓(xùn)練過程中,UItron采用了一個三階段的訓(xùn)練策略(如下圖所示),其中包括兩個用于感知和規(guī)劃任務(wù)的SFT階段,以及一個帶有課程強(qiáng)化學(xué)習(xí)框架的RL階段。
在第一階段,感知任務(wù)側(cè)重于提高GUI場景中視覺語言模型的基本理解能力,如定位、問答、描述和OCR。
在第二階段,規(guī)劃任務(wù)集中于根據(jù)歷史行動預(yù)測下一個行動,從而獲得長步驟的推理和執(zhí)行能力。
在最后的強(qiáng)化學(xué)習(xí)階段,課程強(qiáng)化學(xué)習(xí)框架旨在通過對軌跡數(shù)據(jù)的群體相對策略優(yōu)化算法來提高推理和探索能力,包括從簡單的離線環(huán)境中進(jìn)行步驟級的強(qiáng)化學(xué)習(xí)到復(fù)雜的在線環(huán)境中進(jìn)行任務(wù)級的強(qiáng)化學(xué)習(xí)算法。

重點(diǎn)考慮國內(nèi)月活前100的Apps
研究者進(jìn)行了廣泛的實驗,涵蓋場景包括GUI感知、定位、離線規(guī)劃和在線規(guī)劃。除了公開評測榜單之外,研究者還在自建中文APP場景下的離線環(huán)境和在線環(huán)境中進(jìn)行充分的評測。以下是一些代表性的評測:
首先是在經(jīng)典的開源榜單ScreenspotV2上,UItron實現(xiàn)了92.0的平均分?jǐn)?shù),優(yōu)于現(xiàn)有的方法,反映了較強(qiáng)的GUI內(nèi)容理解能力和任務(wù)定位能力。

在代表性的離線規(guī)劃榜單Android-Control和GUI-Odyssey上,UItron實現(xiàn)了92.9的最高平均分,顯著優(yōu)于其他工作,展示了很強(qiáng)的任務(wù)規(guī)劃和執(zhí)行能力。

在開源環(huán)境中,在最受關(guān)注的評測榜單OSWorld上進(jìn)行了對比,UItron取得了24.9的分?jǐn)?shù)(15 Steps),在所有GUI Agent中性能最佳,弱于CUA方法,這是因為CUA方法只專注于優(yōu)化compute-use場景。

特別的,研究者還強(qiáng)調(diào)了中文場景下和頭部的APP進(jìn)行交互的能力,重點(diǎn)考慮了國內(nèi)月活前100的Apps。研究者們構(gòu)建了一個離線環(huán)境和一個在線環(huán)境進(jìn)行中文App能力的評測,實驗結(jié)果表明UItron取得了明顯的性能優(yōu)勢,通過中文操作軌跡收集和中文交互環(huán)境基建改進(jìn)了中文場景的智能體水平。
UItron在多模態(tài)智能體的主流榜單中都取得了較好的效果,為領(lǐng)域提供了一個開源的更強(qiáng)的基礎(chǔ)模型,期望推動未來技術(shù)的發(fā)展。同時,UItron強(qiáng)調(diào)了多模態(tài)智能體的可用性、可信度研究,尤其是面向真實應(yīng)用訴求的中文App交互能力,發(fā)揮其應(yīng)用價值和提升人機(jī)交互的效率。
項目地址:https://github.com/UITron-hub/UItron
論文地址:https://github.com/UITron-hub/UItron/blob/main/report/uitron.pdf

































