超越RPA:Gemini 2.5帶來的“視覺+操作”自動化新范式
當我們談論具身智能(Embodied AI)時,腦海中浮現(xiàn)的往往是那些能夠在物理世界中行動的機器人。然而,谷歌DeepMind近期發(fā)布的Gemini 2.5 Computer Use模型,正向我們揭示具身智能的另一種深刻形態(tài)——一個在數(shù)字世界中,擁有了“眼睛”和“手”的軟件化身。
這一技術突破的核心,是讓AI Agent不再僅僅活在由代碼和API構成的抽象世界里,而是能夠像人類一樣,直接感知和操作我們每天都在使用的圖形用戶界面(GUI),從而在軟件層面,實現(xiàn)了“有身有感”。
卓越的視覺理解能力
Gemini 2.5 Computer Use的“眼睛”,構建于其強大的基礎模型Gemini 2.5 Pro卓越的視覺-語言能力之上。這意味著,它不再是“閱讀”網(wǎng)頁的HTML代碼,而是真正地“看到”并“理解”一張屏幕截圖。
它能夠像人類一樣,識別出屏幕上哪個是按鈕、哪個是輸入框、哪個是需要滾動的列表。它能理解UI元素的布局、顏色、文本標簽,并結合上下文,推斷出這些元素的功能和用戶的意圖。這種基于視覺的深度理解,是其后續(xù)所有精準操作的基礎。
精準的界面操作能力
擁有了“眼睛”之后,AI還需要一雙能夠執(zhí)行任務的“手”。Gemini 2.5 Computer Use通過生成一系列精確的UI操作指令,扮演了這雙手。
其工作流程,是將一個高層的用戶目標(例如,“幫我預訂一張明天去上海的、靠窗的經(jīng)濟艙機票”),智能地分解為一系列具體的GUI操作步驟,例如:
- 在出發(fā)地輸入框中
type_text_at“北京”。 - 在目的地輸入框中
type_text_at“上海”。 - 在日期選擇器上
click_at明天的日期。 - 在航班列表中找到經(jīng)濟艙選項并
click_at。 - 在座位選擇圖上
click_at一個靠窗的位置。
更令人印象深刻的是,該模型還支持并行函數(shù)調(diào)用。這意味著,在一次響應中,它可以返回多個可以同時執(zhí)行的、互不干擾的操作指令。這在理論上,使其具備了超越人類順序操作的潛力,能夠實現(xiàn)更高效的多任務處理。
人機協(xié)作的新邊界
這種“眼手協(xié)同”的能力,正在深刻地改變著人機協(xié)作的邊界。
來自Poke.com和Autotab等早期測試者的反饋顯示,Gemini 2.5 Computer Use在執(zhí)行任務的速度上,比競爭對手通常要快50%,在處理復雜上下文時的可靠性,也實現(xiàn)了高達18%的性能提升。
這表明,這類AI Agent正在從一個需要人類給出精確指令的“工具”,進化為一個能夠理解模糊目標、并自主完成整個工作流的“數(shù)字同事”。然而,這并非意味著人類角色的消失。行業(yè)專家普遍認為,當前階段最大化軟件開發(fā)影響力的方式,仍然是顯式地使用AI,并始終將人類置于整個開發(fā)循環(huán)的核心。AI是強大的能力放大器,但人類在設定頂層目標、處理復雜異常、進行最終決策和注入創(chuàng)造性等方面的價值,依然不可或缺。

從瀏覽器到整個操作系統(tǒng)
盡管能力強大,但我們也應客觀認識到Gemini 2.5 Computer Use的當前局限。據(jù)官方介紹,該模型目前主要針對網(wǎng)頁瀏覽器進行了深度優(yōu)化,而尚未針對Windows、macOS等桌面操作系統(tǒng)級的控制進行全面優(yōu)化。
但這清晰地指明了其未來的發(fā)展方向。我們可以暢想,當AI Agent的能力從單一的瀏覽器窗口,擴展到能夠自由地在整個操作系統(tǒng)層面,操作文件、打開應用、設置系統(tǒng)參數(shù)時,將會帶來怎樣一場深刻的生產(chǎn)力革命。屆時,我們或許真的只需要通過自然語言對話,就能讓AI為我們完成電腦上的一切操作。
Gemini 2.5 Computer Use的發(fā)布,為我們揭示了具身智能的另一種可能形態(tài)。AI的“身體”,不僅可以是行走于物理世界的鋼筋鐵骨,也可以是存在于像素之間的、能夠嫻熟操作我們所有軟件的無形之手。這場發(fā)生在數(shù)字世界中的“具身革命”,其深遠影響,或許才剛剛開始。

















