顛覆UI自動化:Gemini 2.5 Computer Use的技術與商業價值
長期以來,人工智能Agent(智能體)的活動范圍,似乎一直局限于代碼和API的數字世界。它們能理解語言、生成內容、調用接口,但始終無法像人類一樣,直觀地與我們每天都在使用的圖形用戶界面(GUI)進行交互。然而,谷歌DeepMind近期發布的Gemini 2.5 Computer Use模型,正打破這一壁壘。
這一技術突破,標志著AI Agent首次擁有了直接“看到”并“操作”計算機屏幕的能力。它不再需要開發者預先為其編寫好接口,而是能像一個真實的用戶一樣,通過點擊、輸入和滾動,來完成在網頁和移動應用上的復雜任務。這不僅是一次技術上的飛躍,更可能從根本上顛覆UI自動化測試等多個領域。
核心工作原理解析
Gemini 2.5 Computer Use的工作模式,是一個優雅的四步循環交互系統:
- 發送請求: 開發者向模型API發送一個包含了用戶目標和當前GUI截圖的請求。
- 接收操作指令: 模型分析截圖和目標,生成一個或多個具體的UI操作指令,如“在坐標(500, 300)處點擊”。
- 執行操作: 客戶端代碼解析并執行這些指令,完成在屏幕上的實際操作。
- 捕獲新狀態: 操作完成后,客戶端捕獲新的GUI截圖,并將其作為反饋,連同操作結果一起發送回模型,進入下一個循環,直至任務完成。
值得注意的是,模型輸出的所有坐標都基于一個與分辨率無關的1000x1000網格系統,這使得客戶端代碼可以輕松地將其縮放到任何實際的屏幕尺寸上,保證了操作的通用性。

性能的領先與技術細節
Gemini 2.5 Computer Use在多項權威基準測試中,展現了其卓越的性能。在由Browserbase舉辦的Online-Mind2Web網頁控制評測中,其準確率達到了65.7%。在衡量移動端控制能力的Android World基準測試中,其得分也高達69.7%,在多項評測中均處于行業領先地位。
其強大的能力,源于一系列精確定義的UI操作指令,包括click_at(點擊)、type_text_at(輸入文本)、scroll_document(滾動頁面)、drag_and_drop(拖放)等。這些原子化的操作,共同構成了AI與GUI交互的“語言”。
UI自動化測試的游戲規則改變者
Gemini 2.5 Computer Use最具顛覆性的應用場景之一,就是UI自動化測試。
傳統的UI自動化測試,如使用Selenium等框架編寫的腳本,長期以來面臨著一個核心痛點——脆弱性。這些腳本高度依賴于頁面元素的ID、CSS選擇器或XPath等固定的“定位符”。一旦前端開發對UI進行任何微小的改版(例如,修改了一個按鈕的ID),整個自動化測試腳本就可能因為找不到元素而崩潰,需要耗費大量人力進行維護。
而Gemini 2.5 Computer Use則提供了一種全新的、基于視覺理解的測試范式。它不再依賴于代碼層面的定位符,而是像人一樣,“看懂”屏幕上的按鈕、輸入框和鏈接,并根據其視覺特征和上下文來決定如何操作。
谷歌支付平臺團隊的一個內部案例,生動地展示了這一變革的價值。他們利用該模型,成功修復了超過60%的因UI變動而失效的脆弱測試用例。過去需要測試工程師花費數天時間手動排查和更新的腳本,現在AI可以在很短的時間內自動完成適應和修復。
安全機制與開發最佳實踐
賦予AI直接控制軟件界面的能力,無疑也帶來了新的安全挑戰。為此,Gemini 2.5 Computer Use內置了多層安全防護機制。
- 實時安全檢查: 模型的每一次操作提議,都會經過一個獨立的實時安全服務進行評估。
- 用戶確認機制: 對于金融交易、發送通信、訪問敏感信息等高風險操作,模型會明確要求必須獲得終端用戶的手動確認后,才能執行。開發者被嚴格禁止繞過這一機制。
對于希望嘗試該技術的開發者,官方也給出了一系列安全最佳實踐,包括在沙箱環境(如虛擬機或Docker容器)中運行Agent、對用戶輸入進行凈化、以及通過白名單/黑名單機制限制Agent的訪問范圍等。
Gemini 2.5 Computer Use的發布,其意義遠不止于一個更聰明的AI模型。它為AI Agent打開了一扇通往圖形用戶世界的大門,預示著一個AI能像人類一樣,無縫操作我們所有軟件的“通用AI助理”時代的到來。尤其是在UI自動化測試、工作流自動化和信息采集等領域,這場由“視覺驅動”的自動化革命,已經拉開序幕。

















