顛覆UI自動化：Gemini 2.5 Computer Use的技術與商業價值

發布于 2025-10-9 15:35

瀏覽

0收藏

長期以來，人工智能Agent（智能體）的活動范圍，似乎一直局限于代碼和API的數字世界。它們能理解語言、生成內容、調用接口，但始終無法像人類一樣，直觀地與我們每天都在使用的圖形用戶界面（GUI）進行交互。然而，谷歌DeepMind近期發布的Gemini 2.5 Computer Use模型，正打破這一壁壘。

這一技術突破，標志著AI Agent首次擁有了直接“看到”并“操作”計算機屏幕的能力。它不再需要開發者預先為其編寫好接口，而是能像一個真實的用戶一樣，通過點擊、輸入和滾動，來完成在網頁和移動應用上的復雜任務。這不僅是一次技術上的飛躍，更可能從根本上顛覆UI自動化測試等多個領域。

核心工作原理解析

Gemini 2.5 Computer Use的工作模式，是一個優雅的四步循環交互系統：

發送請求： 開發者向模型API發送一個包含了用戶目標和當前GUI截圖的請求。
接收操作指令： 模型分析截圖和目標，生成一個或多個具體的UI操作指令，如“在坐標(500, 300)處點擊”。
執行操作： 客戶端代碼解析并執行這些指令，完成在屏幕上的實際操作。
捕獲新狀態： 操作完成后，客戶端捕獲新的GUI截圖，并將其作為反饋，連同操作結果一起發送回模型，進入下一個循環，直至任務完成。

值得注意的是，模型輸出的所有坐標都基于一個與分辨率無關的1000x1000網格系統，這使得客戶端代碼可以輕松地將其縮放到任何實際的屏幕尺寸上，保證了操作的通用性。
顛覆UI自動化：Gemini 2.5 Computer Use的技術與商業價值-AI.x社區

性能的領先與技術細節

Gemini 2.5 Computer Use在多項權威基準測試中，展現了其卓越的性能。在由Browserbase舉辦的Online-Mind2Web網頁控制評測中，其準確率達到了65.7%。在衡量移動端控制能力的Android World基準測試中，其得分也高達69.7%，在多項評測中均處于行業領先地位。

其強大的能力，源于一系列精確定義的UI操作指令，包括click_at（點擊）、type_text_at（輸入文本）、scroll_document（滾動頁面）、drag_and_drop（拖放）等。這些原子化的操作，共同構成了AI與GUI交互的“語言”。

UI自動化測試的游戲規則改變者

Gemini 2.5 Computer Use最具顛覆性的應用場景之一，就是UI自動化測試。

傳統的UI自動化測試，如使用Selenium等框架編寫的腳本，長期以來面臨著一個核心痛點——脆弱性。這些腳本高度依賴于頁面元素的ID、CSS選擇器或XPath等固定的“定位符”。一旦前端開發對UI進行任何微小的改版（例如，修改了一個按鈕的ID），整個自動化測試腳本就可能因為找不到元素而崩潰，需要耗費大量人力進行維護。

而Gemini 2.5 Computer Use則提供了一種全新的、基于視覺理解的測試范式。它不再依賴于代碼層面的定位符，而是像人一樣，“看懂”屏幕上的按鈕、輸入框和鏈接，并根據其視覺特征和上下文來決定如何操作。

谷歌支付平臺團隊的一個內部案例，生動地展示了這一變革的價值。他們利用該模型，成功修復了超過60%的因UI變動而失效的脆弱測試用例。過去需要測試工程師花費數天時間手動排查和更新的腳本，現在AI可以在很短的時間內自動完成適應和修復。

安全機制與開發最佳實踐

賦予AI直接控制軟件界面的能力，無疑也帶來了新的安全挑戰。為此，Gemini 2.5 Computer Use內置了多層安全防護機制。

實時安全檢查： 模型的每一次操作提議，都會經過一個獨立的實時安全服務進行評估。
用戶確認機制： 對于金融交易、發送通信、訪問敏感信息等高風險操作，模型會明確要求必須獲得終端用戶的手動確認后，才能執行。開發者被嚴格禁止繞過這一機制。

對于希望嘗試該技術的開發者，官方也給出了一系列安全最佳實踐，包括在沙箱環境（如虛擬機或Docker容器）中運行Agent、對用戶輸入進行凈化、以及通過白名單/黑名單機制限制Agent的訪問范圍等。
Gemini 2.5 Computer Use的發布，其意義遠不止于一個更聰明的AI模型。它為AI Agent打開了一扇通往圖形用戶世界的大門，預示著一個AI能像人類一樣，無縫操作我們所有軟件的“通用AI助理”時代的到來。尤其是在UI自動化測試、工作流自動化和信息采集等領域，這場由“視覺驅動”的自動化革命，已經拉開序幕。

標簽

已于2025-10-9 15:42:52修改

贊

回復