谷歌重磅發布Gemini 2.5 Computer Use - AI代理首次實現真正的計算機控制
就在今年早些時候,谷歌曾承諾要通過Gemini API為開發者帶來計算機使用能力。如今,這個承諾終于兌現了。谷歌DeepMind正式發布了Gemini 2.5 Computer Use模型,這是一個基于Gemini 2.5 Pro視覺理解和推理能力構建的專用模型,能夠驅動AI代理與用戶界面進行真正的交互。
圖片
這個突破性的模型在多個網絡和移動控制基準測試中超越了現有的領先替代方案,而且延遲更低。開發者現在可以通過Google AI Studio和Vertex AI中的Gemini API訪問這些強大的功能。
為什么需要AI代理控制計算機?
雖然AI模型可以通過結構化API與軟件進行交互,但許多數字任務仍然需要直接與圖形用戶界面交互。想象一下填寫和提交表單這樣的日常任務——這正是AI代理需要掌握的技能。
要完成這些任務,代理必須像人類一樣瀏覽網頁和應用程序:通過點擊、輸入和滾動。能夠原生地填寫表單、操作下拉菜單和過濾器等交互元素,以及在登錄狀態下操作,這是構建強大、通用AI代理的關鍵下一步。
技術原理:循環交互的智能設計
該模型的核心能力通過Gemini API中全新的computer_use工具公開,并應在循環中運行。工具的輸入包括用戶請求、環境截圖以及最近操作的歷史記錄。輸入還可以指定是否排除完整支持的UI操作列表中的某些功能,或指定要包含的其他自定義功能。
圖片
模型分析這些輸入后生成響應,通常是代表UI操作(如點擊或輸入)的函數調用。這個響應還可能包含對最終用戶確認的請求,這對于某些操作(如進行購買)是必需的。客戶端代碼隨后執行接收到的操作。
操作執行后,GUI的新截圖和當前URL作為函數響應發送回Computer Use模型,重新啟動循環。這個迭代過程持續進行,直到任務完成、發生錯誤或由于安全響應或用戶決定而終止交互。
性能表現:碾壓競爭對手
Gemini 2.5 Computer Use模型在多個網絡和移動控制基準測試中展現出強勁性能。
圖片
以下是一些關鍵數據:
? Online-Mind2Web基準 - 在瀏覽器控制任務中表現領先
? WebVoyager基準 - 在網頁導航任務中超越其他模型
? AndroidWorld基準 - 在移動UI控制方面展現強大能力
該模型在Browserbase的Online-Mind2Web測試中提供了業界領先的瀏覽器控制質量,同時保持最低延遲,準確率超過70%,延遲約225秒。
安全優先:負責任的AI發展
谷歌深知,構建能夠惠及所有人的AI代理,必須從一開始就承擔責任??刂朴嬎銠C的AI代理引入了獨特的風險,包括用戶的惡意使用、意外的模型行為,以及網絡環境中的提示注入和詐騙。
為了應對這些風險,谷歌直接在模型中訓練了安全功能,并為開發者提供了安全控制措施:
? 每步安全服務 - 在模型之外的推理時安全服務,在執行前評估模型提出的每個操作
? 系統指令 - 開發者可以進一步指定代理在采取特定類型的高風險操作之前拒絕或要求用戶確認
早期用戶反饋:實際應用效果顯著
谷歌團隊已經將該模型部署到生產環境中用于UI測試等用例,這可以顯著加快軟件開發速度。該模型的版本還為Project Mariner、Firebase測試代理以及搜索中AI模式的一些代理能力提供支持。
圖片
"我們的許多工作流程需要與為人類設計的界面進行交互,速度尤其重要。Gemini 2.5 Computer Use遠遠領先于競爭對手,通常比我們考慮的下一個最佳解決方案快50%且更好。" - Poke.com團隊
"我們的代理完全自主運行,執行不能容忍數據收集和解析錯誤的工作。Gemini 2.5 Computer Use在復雜情況下可靠解析上下文方面超越了其他模型,在我們最困難的評估中性能提升了高達18%。" - Autotab團隊
如何開始使用
從今天開始,該模型在公開預覽版中可用,可通過Google AI Studio和Vertex AI上的Gemini API訪問。
? 立即試用 - 在Browserbase托管的演示環境中體驗
? 開始構建 - 查閱參考文檔,學習如何使用Playwright在本地或使用Browserbase在云VM中構建自己的代理循環
? 加入社區 - 在開發者論壇中分享反饋并幫助指導產品路線圖
Gemini 2.5 Computer Use的發布標志著AI代理技術的一個重要里程碑。它不僅展示了AI在理解和操作復雜用戶界面方面的突破性進展,也為未來更智能、更實用的AI助手鋪平了道路。隨著這項技術的不斷發展和完善,我們可以期待看到更多創新的應用場景和更高效的人機協作模式。


































