字節(jié)Seed最新版原生智能體來了!一個模型搞定手機/電腦/瀏覽器自主操作
AI自己玩手機、玩電腦、操作網(wǎng)頁瀏覽器……背后還只靠一個模型。
卷王字節(jié)Seed又把智能體帶到了一個全新level~
比如任務(wù)是醬紫的:
編寫一個可以轉(zhuǎn)換重量單位的函數(shù)。如果原始單位是千克,目標(biāo)單位是克,并且要轉(zhuǎn)換的值是Mathilde Seigner(法國知名演員)被提名凱撒獎的次數(shù)加1,最終結(jié)果會是多少?
而通過一系列操作,Agent僅用時35s就得出了答案為4000克。

這就是Seed最新發(fā)布的智能體UI-TARS-2,它不止采用了All in one這樣的原生設(shè)計,而且表現(xiàn)更是優(yōu)于Claude和OpenAI Agent等競爭對手。
來看團隊成員曬出的成績單,不管是操作電腦/手機,還是使用瀏覽器、玩15款小游戲,其絲滑程度和完成率現(xiàn)在已經(jīng)超越一眾競爭對手,并進一步接近人類水平。

而且這里還透露了UI-TARS-2背后的關(guān)鍵秘訣:
一個通過多輪強化學(xué)習(xí)訓(xùn)練的原生GUI智能體
劃重點,多輪強化學(xué)習(xí)。依靠這一技巧,UI-TARS-2核心解決了“讓AI自主操作圖形界面(GUI)”的四大難題:
- 數(shù)據(jù)稀缺:以往方法需要上百萬級高質(zhì)量標(biāo)注數(shù)據(jù),成本極高,擴展困難。
- 環(huán)境割裂:不同任務(wù)(電腦、手機、網(wǎng)頁、終端、游戲)通常要在不同框架里訓(xùn)練,無法統(tǒng)一。
- 能力單一:大多數(shù)智能體只能做GUI點擊或終端命令,難以完成真實復(fù)雜任務(wù)。
- 訓(xùn)練不穩(wěn)定:強化學(xué)習(xí)在GUI任務(wù)上容易出現(xiàn)獎勵稀疏、策略崩潰,模型很難可靠收斂。
且看字節(jié)團隊如何見招拆招——
針對四大難題打出“組合拳”
先來看UI-TARS-2的整體設(shè)計思路和框架。
其核心目標(biāo)為:構(gòu)建一個真正原生、通用、跨平臺的GUI智能體,能在電腦、手機、網(wǎng)頁、終端,甚至游戲里自主完成復(fù)雜任務(wù)。
為此,UI-TARS-2架構(gòu)主要包含下面這幾個部分:
1、統(tǒng)一的Agent架構(gòu):以大語言模型為核心決策器(Planner),將自然語言指令→GUI/終端/工具操作,全部納入一個通用執(zhí)行循環(huán),同時支持GUI點擊、鍵盤輸入、終端命令、API調(diào)用等多種操作流。
2、多模態(tài)感知與環(huán)境交互:輸入端整合屏幕截圖(視覺)+文本上下文+歷史操作軌跡,輸出端可以是點擊坐標(biāo)、拖拽動作、命令行、甚至API請求,形成感知—決策—執(zhí)行—反饋的完整閉環(huán)。
3、多輪強化學(xué)習(xí):不依賴人工標(biāo)注,而是通過環(huán)境反饋獎勵優(yōu)化策略,同時采用模擬環(huán)境(sandbox)+自動化任務(wù)生成,構(gòu)建出“數(shù)據(jù)飛輪”,讓模型能不斷自我進化。
4、混合操作流(Hybrid Flows):在一次任務(wù)軌跡中,智能體可以無縫組合GUI點擊、終端命令和API調(diào)用。例如,在網(wǎng)頁上找資料(GUI),處理數(shù)據(jù)(終端),再調(diào)用搜索API(工具)。
下面這個讓UI-TARS-2玩游戲的例子,很好地展示了這套框架的具體運作過程:

而基于這套框架,UI-TARS-2逐一解決了智能體自主操作GUI面臨的四大難題。
靠“數(shù)據(jù)飛輪”解決數(shù)據(jù)少的問題
為了打造數(shù)據(jù)飛輪,團隊采用了以下策略:
1、冷啟動:這一階段主要是廣泛收集原始數(shù)據(jù),以及通過合成數(shù)據(jù)和人工標(biāo)注來構(gòu)建監(jiān)督微調(diào)所需的原始高質(zhì)量、任務(wù)針對性強的數(shù)據(jù)。
2、多輪迭代:有了數(shù)據(jù)之后,先讓模型通過預(yù)訓(xùn)練學(xué)習(xí)更廣泛的知識(如不同GUI操作流程、任務(wù)解決思路等),再使用高質(zhì)量特定任務(wù)數(shù)據(jù)對模型進行優(yōu)化,最后通過強化學(xué)習(xí)進行端到端優(yōu)化。
在每輪迭代中,團隊會使用拒絕采樣(RFT)或交互標(biāo)注生成新軌跡,這些軌跡記錄了模型在執(zhí)行任務(wù)過程中的推理、動作、環(huán)境狀態(tài)以及反饋等信息,將其按質(zhì)量篩選后,高質(zhì)量的進微調(diào)數(shù)據(jù)集,低質(zhì)量的進預(yù)訓(xùn)練數(shù)據(jù)集。
3、循環(huán)增強:然后模型用更新后的數(shù)據(jù)集重新訓(xùn)練,能力提升后又能生成更好的軌跡,形成“模型變好→數(shù)據(jù)變好→模型更好”的循環(huán),不斷解決數(shù)據(jù)稀缺問題。

用“多輪強化學(xué)習(xí)”讓AI操作更穩(wěn)
針對傳統(tǒng)強化學(xué)習(xí)在GUI長周期任務(wù)中“獎勵稀疏、優(yōu)化不穩(wěn)定、信用分配難” 的問題,團隊從任務(wù)設(shè)計、獎勵機制、訓(xùn)練流程三方面進行了優(yōu)化。
如何進行任務(wù)獎勵設(shè)計?團隊先對任務(wù)類型進行拆分:
對可驗證任務(wù)(如游戲得分、網(wǎng)頁信息檢索),用明確信號(成功/失敗、LLM對比答案打分)當(dāng)獎勵;
對模糊任務(wù)(如復(fù)雜GUI操作),訓(xùn)練UI-TARS-2自身作為“獎勵模型”,根據(jù)軌跡和截圖輸出任務(wù)成功分數(shù),保證獎勵可靠。
確定了這一模式后,團隊摒棄“等所有任務(wù)完成再訓(xùn)練”的模式,轉(zhuǎn)而采用“異步rollout”——
把模型推理環(huán)節(jié)單獨拿出來,和實際執(zhí)行過程分離,互不干擾;同時只要湊夠最少需要的軌跡數(shù)量,就立刻用這些完成的軌跡開始訓(xùn)練,那些未完成的就留到下一輪。
等到訓(xùn)練時,團隊還在PPO算法上進行了3處優(yōu)化,從而讓模型操作更穩(wěn),包括用“解耦GAE”避免長序列價值估計偏差、用“不對稱裁剪”鼓勵模型嘗試那些看似不常用、但可能有效的操作等。

打造“混合操作環(huán)境”突破界面限制
為解決純GUI操作(僅鼠標(biāo)/鍵盤)無法應(yīng)對數(shù)據(jù)處理、軟件開發(fā)等復(fù)雜工作流的問題,團隊構(gòu)建了“GUI+多工具”融合的交互環(huán)境:
不僅整合多操作流,比如在同一環(huán)境里,智能體既能做GUI基礎(chǔ)操作(點擊、輸入、滾動網(wǎng)頁/APP),又能直接調(diào)用終端命令(如用Bash處理文件)、調(diào)用API,無需切換上下文。
還為其適配多場景載體,比如在云虛擬機里,內(nèi)置文件系統(tǒng)、遠程VS Code、Jupyter等工具;在瀏覽器沙箱里,也能關(guān)聯(lián)終端功能,讓操作覆蓋“桌面-移動-游戲” 全場景。
建“統(tǒng)一沙盒平臺”支撐大規(guī)模訓(xùn)練
針對傳統(tǒng)環(huán)境“難復(fù)現(xiàn)、易崩潰、吞吐量低”的工程瓶頸,團隊打造了兼容多載體的統(tǒng)一沙盒,保障百萬級交互訓(xùn)練需求。
簡單來說,這就是一個虛擬的模型訓(xùn)練場,支持智能體在里面大規(guī)模練習(xí)、試錯和進化。
以下為一個瀏覽器沙盒的示意圖,據(jù)此也能看到沙盒的大致運作方式:

優(yōu)于Claude和OpenAI Agent等競爭對手
那么,UI-TARS-2的實際表現(xiàn)如何呢?
根據(jù)介紹,UI-TARS-2是團隊基于Seed-thinking-1.6(總參數(shù)230B,含532M視覺編碼器 + 23B激活參數(shù)),經(jīng)過多輪迭代訓(xùn)練而成。
在多個權(quán)威GUI測試里,比如OSWorld(369個Windows/Ubuntu/macOS任務(wù))、WindowsAgentArena(150個 Windows任務(wù))、TerminalBench(命令行任務(wù))等,它的得分都比Claude、OpenAI的同類模型更高。
換句話說,在電腦、手機、瀏覽器操作上,UI-TARS-2的表現(xiàn)明顯更好。

而且在15款小游戲(比如2048、拼圖、迷宮)里,它的平均得分差不多是人類水平的60%,比OpenAI、Claude的游戲AI強不少,有的游戲(如“Shapes”)甚至比人玩得還好。

即使面對一些更復(fù)雜的游戲測試(LMGame-Bench),它也能和o3打得有來有回。

當(dāng)然了,它不光會點界面、玩游戲,還能干“查資料”、“寫代碼修bug” 這樣的活兒,而且成績比只靠界面操作強很多。
總之,UI-TARS-2無疑驗證了多輪強化學(xué)習(xí)在智能體進化上的有效性。

論文:https://arxiv.org/abs/2509.02544
demo:https://seed-tars.com/showcase/ui-tars-2/






















