AI Agent滿級進化!騎馬種田、辦公修圖,樣樣精通,昆侖萬維等發布通用Agent新框架
近日,昆侖萬維攜手北京智源人工智能研究院、新加坡南洋理工大學、北京大學等頂尖名校機構,聯合提出了迄今為止第一個既能玩多種商業游戲又能操作各種軟件應用的AI框架——Cradle。

在這個全新的通用計算機控制框架加持下,AI Agent無需訓練便能像人一樣直接控制鍵盤鼠標,不依賴任何內部API,實現任意開閉源軟件交互。
目前,Cradle的論文、項目、代碼均已開源。

論文地址:https://arxiv.org/abs/2403.03186
項目主頁:https://baai-agents.github.io/Cradle
代碼鏈接:https://github.com/BAAI-Agents/Cradle
Cradle:真正的全能AI Agent
在游戲中,Cradle不僅能在《荒野大鏢客2》里完成長達40分鐘主線劇情還能在開放世界自由探索。

在《星露谷物語》里清理農場,種地,去商店購物。

在《城市天際線》中建造出千人小鎮。

甚至,還能在《當鋪人生2》中和客戶討價還價,并實現最高87%的周收益率!

不僅如此,發推、瀏覽網頁、下載論文,Cradle是樣樣精通。

撰寫、回復、查找郵件也不在話下。

此外,Cradle還能在美圖秀秀里修圖。

在剪映里剪視頻。

在飛書里日常辦公。

堪稱是一個真正的全能AI Agent。
GCC:通用計算機控制
隨著大模型的發展,越來越多的智能體(AI Agents)研究關注計算機控制,包括瀏覽網頁、操作智能手機、玩游戲等。
然而,已有研究依賴軟件內部API獲取輸入,并輸出預先定義好的動作,無法真正像人類一樣通過眼、腦、手的配合操控計算機。

要構建能完成計算機上一切任務的通用智能體,必須使用最通用和最標準的輸入輸出與計算機進行交互。
因此,通用計算機控制使用統一的輸入和輸出,從而讓智能體的通用性變為可能。
但通用性帶來了操作上的難度:
(1)使用計算機屏幕作為輸入對智能體的視頻理解能力提出了更高的要求,例如由于沒有內部API,需要通過視覺信息判斷動作是否執行成功;
(2)使用鍵盤和鼠標操作作為輸出使得智能體需要更高的時空操作精度,比如鍵盤按鍵和鼠標點擊通常額外涉及時間維度;
(3)許多計算機上的復雜任務往往需要連續執行成百上千次的正確操作才能完成,是智能體的長程規劃決策和歷史信息維護處理能力的一大挑戰;
(4)虛擬世界中多如繁星的環境和任務是對智能體高效探索并自我提升實現通用性的一大考驗。
這些難題成為了構建通用計算機控制智能體(GCC Agents)的挑戰。
六大模塊,三大環節
Cradle一共由6個模塊組成:信息收集、自我反思、任務推斷、技能管理、行動規劃,以及記憶模塊。
Cradle高度的通用性,來源于其對和電腦交互過程中的原始輸入輸出的合理封裝和抽象。
以從屏幕中顯示的視頻圖像作為輸入,提取其中的文本和視覺信息進行決策,并且輸出最底層的操作系統中控制鍵盤和鼠標的信號去和電腦交互,使其可以不依賴于任何假設和任何內部API進行交互。

同時,Cradle強大的決策推理模塊讓其得以自發和軟件進行交互并且完成任務,這個過程可以被簡單地總結為:反思過去,總結現在,規劃未來。
反思過去:Cradle使用執行過往動作過程的視頻作為輸入,分別提取出其中關鍵的文本和視覺信息,通過反思來判斷上一步動作是否執行成功任務是否完成以及如何改進。
總結現在:反思完之后,Cradle需要總結當前情況,并且以此為根據來決定是否更換任務目標或是修改任務內容。
規劃未來:最后Cradle會根據當前任務以及現狀生成或者更新自身的技能,并且從已經學會的技能中檢索一部分和當前任務相關的技能作為備選,然后從中選取合適的技能實例化為動作去執行。

在決策推理的同時,Cradle還會周期性地總結和維護儲存在情境記憶中的歷史信息以及儲存在周期性記憶中的技能。
在此過程中,Cradle為其添加了記憶,總結和反思的功能,進一步提升了其對于決策過程中的觀察和行為的理解。
Cradle能直接根據游戲內的提示和教程或是自我探索的方式生成對應的操作鍵鼠的可執行代碼作為技能,一步步豐富自己的技能庫,并在之后的游戲中重復使用這些技能。

游戲辦公全精通
為了驗證Cradle的通用性,研究者們選擇了4款風格迥異,操作各不相同的經典游戲進行測試——
從第三視角的3D角色扮演類游戲《荒野大鏢客2》到2D固定視角的模擬經營類游戲《星露谷物語》到俯視角的城市規劃類游戲《城市天際線》再到側重交易策略的模擬經營類游戲《當鋪人生2》,并分別設計了不同的任務。
在通用軟件方面,Cradle團隊也同樣選擇了5款常用軟件進行測試,包括Chrome、Outlook、CapCut(剪映)、Meitu(美圖秀秀)和Feishu(飛書)。

首先,Cradle能夠勝任游戲中的各種任務:
在《荒野大鏢客2》的主線劇情以及開放世界中均有出色表現,能夠連續完成長達40分鐘的2個完整主線任務,騎馬、戰斗、購物樣樣在行。

- 在《城市天際線》中修路、保障水電供應,合理劃分居民、商業和工業區,建立起千人小鎮;
- 在《星露谷物語》中清理農場雜物、種地收獲作物、購買種子;
- 在《當鋪人生2》中在和客戶討價還價近2輪后以93.6%的交易成功率達成了平均39.6%的周收益率。

表1:Cradle在各游戲中的表現,所有任務均測試5次,4/5表示5次測試中成功4次
其次,Cradle在日常軟件應用的各項任務執行上表現不俗,如論文下載、發郵件、修圖、剪視頻、發送飛書文件等。

同時,Cradle在非常有挑戰性的benchmark OSWorld上也同樣擊敗了使用真值作為標簽的基線方法。

表2:Cradle在OSWorld各類任務上的成功率(%)以及和基線方法的對比
最后,Cradle也同樣擊敗了眾多常見基線方法,證明了框架各個模塊的合理性和必要性。

表3:Cradle和各種基線的對比的消融實驗,所有任務均測試5次,括號前數字表示完成任務的平均步數,括號中數字表示5次測試中成功的次數,N/A表示5次全部失敗
通往AGI之路
此前,大量關于AI智能體的研究都依賴于計算機內部API的信息獲取,無法讓AI真正「像人類一樣」通過眼、腦、手的配合與計算機進行互動,其環境、行為、動作都相對固定,難以實現跨軟件、跨平臺的通用智能。
Cradle極大程度地擴展了智能體可以交互的范圍,并且證明了將一切軟件轉化為測試智能體不同能力的testbed的可能性。
它所提出的通用計算機控制的設定統一了輸入輸出的接口,促進了統一粒度數據的搜集,為未來Agent在各個環境中交互并且自我提升打下了堅實的基礎。
面向數字世界的通用人工智能,正在加速到來。

























