超越RPA：Gemini 2.5帶來的“視覺+操作”自動化新范式

發(fā)布于 2025-10-9 16:15

瀏覽

0收藏

當我們談論具身智能（Embodied AI）時，腦海中浮現(xiàn)的往往是那些能夠在物理世界中行動的機器人。然而，谷歌DeepMind近期發(fā)布的Gemini 2.5 Computer Use模型，正向我們揭示具身智能的另一種深刻形態(tài)——一個在數(shù)字世界中，擁有了“眼睛”和“手”的軟件化身。

這一技術突破的核心，是讓AI Agent不再僅僅活在由代碼和API構成的抽象世界里，而是能夠像人類一樣，直接感知和操作我們每天都在使用的圖形用戶界面（GUI），從而在軟件層面，實現(xiàn)了“有身有感”。

卓越的視覺理解能力

Gemini 2.5 Computer Use的“眼睛”，構建于其強大的基礎模型Gemini 2.5 Pro卓越的視覺-語言能力之上。這意味著，它不再是“閱讀”網(wǎng)頁的HTML代碼，而是真正地“看到”并“理解”一張屏幕截圖。

它能夠像人類一樣，識別出屏幕上哪個是按鈕、哪個是輸入框、哪個是需要滾動的列表。它能理解UI元素的布局、顏色、文本標簽，并結合上下文，推斷出這些元素的功能和用戶的意圖。這種基于視覺的深度理解，是其后續(xù)所有精準操作的基礎。

精準的界面操作能力

擁有了“眼睛”之后，AI還需要一雙能夠執(zhí)行任務的“手”。Gemini 2.5 Computer Use通過生成一系列精確的UI操作指令，扮演了這雙手。

其工作流程，是將一個高層的用戶目標（例如，“幫我預訂一張明天去上海的、靠窗的經(jīng)濟艙機票”），智能地分解為一系列具體的GUI操作步驟，例如：

在出發(fā)地輸入框中type_text_at“北京”。
在目的地輸入框中type_text_at“上海”。
在日期選擇器上click_at明天的日期。
在航班列表中找到經(jīng)濟艙選項并click_at。
在座位選擇圖上click_at一個靠窗的位置。

更令人印象深刻的是，該模型還支持并行函數(shù)調(diào)用。這意味著，在一次響應中，它可以返回多個可以同時執(zhí)行的、互不干擾的操作指令。這在理論上，使其具備了超越人類順序操作的潛力，能夠實現(xiàn)更高效的多任務處理。

人機協(xié)作的新邊界

這種“眼手協(xié)同”的能力，正在深刻地改變著人機協(xié)作的邊界。

來自Poke.com和Autotab等早期測試者的反饋顯示，Gemini 2.5 Computer Use在執(zhí)行任務的速度上，比競爭對手通常要快50%，在處理復雜上下文時的可靠性，也實現(xiàn)了高達18%的性能提升。

這表明，這類AI Agent正在從一個需要人類給出精確指令的“工具”，進化為一個能夠理解模糊目標、并自主完成整個工作流的“數(shù)字同事”。然而，這并非意味著人類角色的消失。行業(yè)專家普遍認為，當前階段最大化軟件開發(fā)影響力的方式，仍然是顯式地使用AI，并始終將人類置于整個開發(fā)循環(huán)的核心。AI是強大的能力放大器，但人類在設定頂層目標、處理復雜異常、進行最終決策和注入創(chuàng)造性等方面的價值，依然不可或缺。

超越RPA：Gemini 2.5帶來的“視覺+操作”自動化新范式-AI.x社區(qū)
從瀏覽器到整個操作系統(tǒng)

盡管能力強大，但我們也應客觀認識到Gemini 2.5 Computer Use的當前局限。據(jù)官方介紹，該模型目前主要針對網(wǎng)頁瀏覽器進行了深度優(yōu)化，而尚未針對Windows、macOS等桌面操作系統(tǒng)級的控制進行全面優(yōu)化。

但這清晰地指明了其未來的發(fā)展方向。我們可以暢想，當AI Agent的能力從單一的瀏覽器窗口，擴展到能夠自由地在整個操作系統(tǒng)層面，操作文件、打開應用、設置系統(tǒng)參數(shù)時，將會帶來怎樣一場深刻的生產(chǎn)力革命。屆時，我們或許真的只需要通過自然語言對話，就能讓AI為我們完成電腦上的一切操作。

Gemini 2.5 Computer Use的發(fā)布，為我們揭示了具身智能的另一種可能形態(tài)。AI的“身體”，不僅可以是行走于物理世界的鋼筋鐵骨，也可以是存在于像素之間的、能夠嫻熟操作我們所有軟件的無形之手。這場發(fā)生在數(shù)字世界中的“具身革命”，其深遠影響，或許才剛剛開始。

標簽

贊

回復