精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM調用,成為網絡任務智能體新SOTA

人工智能 新聞
來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。

網絡智能體旨在讓一切基于網絡功能的任務自動發生。比如你告訴智能體你的預算,它可以幫你預訂酒店。既擁有海量常識,又能做長期規劃的大語言模型(LLM),自然成為了智能體常用的基礎模塊。

于是上下文學習示例、任務技巧、多智能體協同、強化學習算法…… 一切適用于通用智能體的想法都搶著在大模型落地。

然而有一個問題始終橫亙在 LLM 和智能體之間:基于 LLM 的網絡智能體的行動 / 觀測空間與 LLM 訓練數據的空間相去甚遠。

智能體在充斥著具身行為的行動空間(如鼠標懸停、鍵盤組合鍵)和遍布前端功能強化、格式渲染的觀測空間下運作,大語言模型的理解和推理能力能充分發揮作用嗎?尤其是大語言模型的主要訓練任務是文本補全、問答和對齊人類偏好,這一點值得思考。

來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。他們去除了上下文示例、技巧、多智能體系統,僅僅通過行動 / 觀測空間與 LLM 的訓練任務對齊。他們訓練的 AgentOccam 成為了零樣本基于 LLM 的網絡智能體新 Sota。

幫你寫email

幫你找導師

這正呼應了奧卡姆剃刀原則:「若無必要,勿增實體」。然而換個思考的角度,AgentOccam 的研究團隊也想發問:構建通用智能體時,在鋪設復雜的系統框架前,是否已經優化了行動 / 觀測空間,讓這些功能模塊達到了最優狀態?

圖片

  • 論文鏈接:https://arxiv.org/abs/2410.13825
  • 論文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及動機

某天你刷著短視頻,看中了主播手中拿著的商品。于是,你興致勃勃地對智能助手說:「我是學生,讓這個老板送我一張優惠券!」

隨后,智能體申請了你的私人賬號權限、后臺私信商家、繪聲繪色地寫下「我是學生」,發送消息,一套動作無需人為干預,行云流水......一切這樣的任務,再也不必動手,都有智能體代勞。

大語言模型是構建智能體的熱門選擇。過去,基于 LLM 的網絡智能體通常專注于讓智能體學會某種應用,比如構建上下文學習樣本、積累任務經驗與技巧、以及多智能體角色扮演等等。然而,在實際交互中,智能體的行動 / 觀測空間與 LLM 的技能點不太匹配,這之間的差距卻少有人研究。

于是,針對如何對齊基于 LLM 的網絡智能體的觀測和行動空間與其訓練期間學到的功能,來自伊利諾伊大學香檳分校和亞馬遜的研究人員們展開了研究。

網絡智能體需要準確地從格式各異、編碼腳本不一的網頁中提取信息,并在網頁上定義的動作(例如,鼠標滑輪滾動、點擊或懸停在按鈕上)中進行選擇。這些網絡觀測和行動空間在 LLM 的預訓練和后續訓練數據中都較為罕見,這阻礙了 LLM 充分調動潛能,完成任務。

因此,基于不讓智能體策略變得更復雜,而是讓智能體與 LLM 更加匹配的想法,由此構建的智能體得名 AgentOccam。

形式化與方法

該團隊通過部分可觀測的馬爾可夫決策過程(POMDP),將網絡交互過程形式化為:<O,S,A,P,R,p_0,γ>。

在 POMDP 中,觀測 o∈O 是智能體從網絡環境接收到的信息,例如 HTML,以及任何指令和提示。行動 a∈A 是網絡環境認可的動作指令。 

為解決 POMDP,常見目標是尋找策略圖片,最大化預期累積獎勵,其中 h_t 表示觀測歷史圖片。

在基于 LLM 的網絡智能體設計中,這等價于借助一個或多個基礎 LLM 策略 圖片

和一組算法模塊來設計策略圖片。

在這項工作中,該團隊專注于一類特殊的策略,可以表示為:圖片,其中 f 和 g 是處理觀測和行動空間的基于規則的函數,該團隊將其稱為「觀測和行動空間對齊問題」。

在這樣的問題設置下,接下來的所有更改僅應用于觀測和行動。值得注意的是,并非所有以往方法中的智能體策略都能以這種方式表示。

圖片

例如上表中,基于搜索的算法需要一個頂層控制程序來選擇行動并觸發回溯;帶有評估器、反思或記憶模塊的方法也需要一個管理中心來在主 LLM 和這些輔助模塊或其他角色扮演 LLM 之間切換。

不同于以往復雜化智能體策略,我們能否僅通過優化觀測和行動映射 f 和 g,使用基礎 LLM 策略 圖片 構建一個強大的網絡智能體?這是 AgentOccam 關注的問題。

圖片

如上圖所示,AgentOccam 包括三個組成部分:

  • 首先,減少非必要的網絡交互動作,讓智能體的具身和瑣碎互動需求達到最??;
  • 其次,消除冗余和不相關的網頁元素,并重構網頁內容塊,以獲取更簡潔但同樣信息豐富的表示,從而精煉觀察空間;
  • 最后,引入兩個規劃動作(分支和修剪),這使得智能體能夠以規劃樹結構自組織導航工作流,并使用相同結構過濾歷史步以進行回放。

整個框架通過一套適用于所有標記語言的通用規則來格式化網頁,無需依賴測試基準中的任務相關信息。

圖片

網絡智能體的行動空間規定了可以用來與網絡環境交互的有效命令。

研究團隊從智能體常見的失敗中得出總結:想要成功完成任務,需要編輯行動空間來解決兩個關鍵問題:第一,去除 LLM 難以理解且經常誤用的無關行動;第二,當執行任務需要規劃、嘗試多個潛在路徑時,要提高智能體的記憶和規劃能力。

為此,該團隊提出了對應的解決方法。第一個問題可以通過簡單地移除或合并操作來解決(如上圖中的步驟 1 和 2)。對于第二個問題,過去的研究通常依賴人工制定規則或任務技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計劃和管理任務流程(如步驟 3 所示)。

圖片

AgentOccam 的觀測空間(提示詞)包含了任務概述的通用指令、期望的輸出和可用操作說明,以及關于當前任務目標、智能體過去的交互記錄和最新的觀察信息。

過往互動和當前觀測的部分占據了最多的字符數。這主要歸因于兩個因素:單頁面的長度和歷史跨度的范圍,這是 AgentOccam 觀測空間的主要優化對象。

圖片

網頁標記語言主要用于前端加載和渲染,往往包含大量格式化字符,顯得冗余且重復(如上圖步驟 1 所示)。因此,此時的目標是優化這些表示方式,使得單頁內容對 LLMs 更加簡潔易讀。

將觀測歷史作為輸入,對于執行長程任務至關重要。因為一些關鍵信息可能不會顯示在當前頁面上。然而,觀測歷史也會顯著增加上下文長度,并增加推理難度以及推斷成本。

為了解決這個問題,設置僅選擇先前網頁上最重要和相關的信息,這一選擇依據兩個規則,分別基于關鍵節點和規劃樹,見于步驟 2 和 3。

結果

研究團隊在 WebArena 上評估了 AgentOccam 性能。WebArena 含有 812 項任務,橫跨網購、社交網站、軟件開發、在線商貿管理、地圖等。

測試對象為 AgentOccam 框架下的 GPT-4-Turbo。對比的基線包括:一、WebArena 隨配智能體,二、SteP,前 WebArena 上最優智能體,涵蓋 14 條人類專為 WebArena 任務編寫的技巧,三、多智能體協同方法 WebPilot;四、總結智能體交互經驗的工作 AWM。

圖片

從上表不難看出,AgentOccam 性能優于以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對分數領先往期和同期工作,并且通過其觀測與行動空間的對齊,使得相似的基本網絡智能體的成功率提高了 26.6 點(+161%)。

圖片

圖片

圖片

圖片

消融實驗

逐模塊對比行動與觀測空間的對齊對最終結果的貢獻。從下表可以看出,行動空間對齊能使智能體完成更多 click、type 等引導環境變化的動作,觀測空間對齊則減少大模型調用的字符數與智能體完成任務所需的步數。

圖片

LLM-as-a-Judge 

研究團隊發現,智能體的決策行為波動性很強。簡而言之,面對一個目標,智能體有一定概率做出正確的行為決斷,但由于 token 預測的隨機性,它可能做出一些高成本、低回報的決定。這也導致它在后續步驟中難以糾正之前的錯誤而失敗。

例如,要求智能體在某個最相關的話題下發布帖子,單次 LLM 調用的 AgentOccam 往往輕率地選擇話題,未考慮「最相關」的要求。

為了解決此類問題,他們引導 AgentOccam 生成單步內所有可能的行動,這系列行動將交付另一個 Judge 智能體(同樣調用 GPT-4-turbo)決斷,做出最大化回報的選擇。

與復合策略結合使用

復合策略中,與任務相關的經驗可以提升智能體性能。同時,不因為加入了更多背景知識擾亂決策,不會影響泛化性,能夠糾正錯誤行為模式。

由于行為 / 觀測空間對齊和復合策略方法正交,因此能結合利用。該團隊試驗將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯合使用。

對于和前 SOTA 方法 SteP 聯合,由于它引入人類編寫的 WebArena 任務攻略,在經驗密集型任務,如購物網頁任務中,人類撰寫的引導性經驗大幅提升任務成功率。

而在常識泛化密集型任務,如社交網頁發帖任務中,不相關知識出現會錯誤擾亂智能體決策。對于 LLM-as-a-Judge 方法,Judge 角色的引入不影響智能體的泛化性,同時糾正了智能體倉促決策的錯誤行為模式,在 WebArena 上進一步提升 2.6 的絕對分數。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-06 11:25:50

2025-11-06 01:44:00

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2021-07-24 10:19:14

AI 數據克隆

2024-06-25 09:35:04

模型訓練

2024-11-18 08:40:00

2024-01-22 15:36:54

大語言模型人工智能

2024-09-20 09:37:31

2021-10-25 09:06:29

模型人工智能計算

2024-07-31 08:14:17

2025-02-08 11:12:34

ZAPS影像模型

2024-11-20 16:51:00

目標檢測模型

2023-02-24 10:22:15

2023-07-12 09:00:00

自動語音識別機器學習

2024-03-15 08:00:00

模型數據

2024-09-12 08:00:00

2021-09-13 17:20:01

大數據AI人工智能

2025-09-02 02:00:00

智能體多智能體協作AI安全

2025-07-31 08:40:00

AI模型智能體

2025-11-10 04:15:00

點贊
收藏

51CTO技術棧公眾號

欧美不卡视频| 美国av在线播放| 色屁屁草草影院ccyy.com| xx欧美xxx| 国产午夜精品在线观看| 国产精品久久久精品| 在线视频第一页| 在线高清欧美| 亚洲愉拍自拍另类高清精品| 97在线中文字幕| 天堂网一区二区三区| 国产一区二区三区天码| 欧美狂野另类xxxxoooo| 97干在线视频| 可以在线观看的av网站| 精品一区二区三区香蕉蜜桃| 欧美成人久久久| aa片在线观看视频在线播放| 人人玩人人添人人澡欧美| 亚洲国产精品久久久男人的天堂| 久久精品国产一区二区三区不卡| 看黄色一级大片| 午夜精品久久| 亚洲色图欧美制服丝袜另类第一页| 自拍偷拍一区二区三区四区| av手机在线观看| 国产精品妹子av| 精品91免费| 国产精品无码白浆高潮| 亚洲欧美春色| 欧美国产亚洲视频| 精品人体无码一区二区三区| 精品三级av| 欧美一区二区三区在线| 乱子伦视频在线看| 国产在线xxx| 中文字幕亚洲欧美在线不卡| 欧洲亚洲一区二区三区四区五区| 性一交一乱一乱一视频| 免费成人av资源网| 欧美一区二区视频97| 黄色在线观看免费| 97人人精品| 国产亚洲美女久久| 午夜av免费看| 狠狠一区二区三区| 日韩亚洲电影在线| 在线免费观看av网| 精品久久毛片| 欧美性xxxxxxxx| 欧美v在线观看| 福利在线免费视频| 夜夜嗨av一区二区三区网页| 宅男一区二区三区| 国产二区视频在线观看| 久久午夜免费电影| 国产一区二区三区免费不卡| 亚洲黄色a级片| 国产一区二区三区免费在线观看| 国产精品视频最多的网站| 欧美一区二区三区不卡视频| 香蕉精品999视频一区二区| 午夜精品久久久久久久久久久久| 久久国产精品二区| 欧美精品黄色| 欧美高跟鞋交xxxxxhd| 一级免费黄色录像| 99re6这里只有精品| 中文字幕亚洲激情| www.av免费| 欧美在线日韩| 久久免费少妇高潮久久精品99| 美国黄色小视频| 国产精品a久久久久| 欧美成人精品三级在线观看| 免费在线视频一区二区| 韩国亚洲精品| 77777少妇光屁股久久一区| 久久午夜免费视频| 久久综合中文| 国产精品一区=区| 国产男男gay体育生网站| 紧缚捆绑精品一区二区| 亚洲精品免费av| 成人小说亚洲一区二区三区 | 中文字幕综合在线| 免费黄色国产视频| 欧美日韩国产探花| 97色在线视频| 超碰在线97观看| 韩国欧美国产1区| 波多野结衣久草一区| av中文字幕免费| 白白色 亚洲乱淫| 欧美一级爽aaaaa大片| av在线天堂播放| 一区二区三区中文字幕电影 | 99视频在线免费观看| 天天操天天干天天操| 久久先锋资源网| 午夜一区二区三视频在线观看| 免费黄网在线观看| 婷婷六月综合网| 欧美wwwwwww| 大奶一区二区三区| 国产一区二区免费| 久久久精品人妻一区二区三区四 | 爱高潮www亚洲精品| 精品亚洲一区二区三区| 亚洲AV无码国产成人久久| 91视频一区| 午夜精品一区二区三区在线视频| 久久久久久无码精品大片| 国产精品一区免费视频| 欧美高清视频一区| 91精品久久| 色婷婷综合中文久久一本| 性鲍视频在线观看| 深爱激情久久| 久久久久久伊人| 中国老头性行为xxxx| 丰满亚洲少妇av| 色噜噜狠狠一区二区三区| 欧美人与性动交α欧美精品济南到| 色婷婷av一区二区三区之一色屋| 少妇性l交大片7724com| 国产欧美高清视频在线| 欧美极品欧美精品欧美视频 | 欧美综合欧美视频| 美女被艹视频网站| 欧美一站二站| 欧美怡春院一区二区三区| 99在线观看精品视频| 国产女同互慰高潮91漫画| 好吊妞无缓冲视频观看| 久久久精品区| 日韩小视频在线| 无码人妻精品一区二区蜜桃色欲 | 91国产福利在线| 国产国语老龄妇女a片| 日韩精品1区| 欧美在线亚洲在线| 日韩一区免费视频| 一区二区理论电影在线观看| 国产高清999| 久久影视一区| 国产精品美女www| 国产一级片在线播放| 欧美午夜电影在线| 日本护士做爰视频| 欧美亚洲不卡| 91免费观看| av免费在线观看网址| 欧美精品少妇一区二区三区| 五月婷婷欧美激情| 日韩激情视频网站| 日韩福利视频| 国内欧美日韩| www国产精品视频| 一起草av在线| 亚洲欧洲日产国码二区| 久久撸在线视频| 国产一区二区三区91| 91网站在线播放| 国产精品欧美激情在线播放| 成人在线免费看| 欧美性大战久久久久久久| 久久中文字幕精品| 日韩影院免费视频| 日本高清久久一区二区三区| 少妇一区视频| 中文字幕日韩在线视频| 91禁在线观看| 一区二区三区自拍| 亚洲午夜久久久久久久久| 亚洲日本成人| 欧美日韩亚洲免费| 日韩在线观看不卡| 精品国产一区二区三区四区在线观看 | 亚洲一区二区少妇| av片在线观看永久免费| 精品区一区二区| 国产 欧美 日韩 在线| 久久亚洲精品国产精品紫薇| 无码少妇一区二区三区芒果| 成人嫩草影院| 91免费观看| 亚洲福利影院| 日韩小视频网址| 国产91免费看| 一本色道久久综合亚洲91| 国产一区二区三区视频播放| 国产剧情一区在线| 少妇无码av无码专区在线观看| 国产精品嫩模av在线| 成人欧美一区二区三区在线 | 欧美**字幕| 国产专区精品视频| 欧美午夜大胆人体| 亚洲一级黄色av| 精品毛片一区二区三区| 精品久久久香蕉免费精品视频| 中文字幕成人动漫| 国产黄色精品视频| 精品久久久久久无码国产| 911精品美国片911久久久| 国产亚洲欧美一区二区| 国产精品99久久久久久董美香 | 欧美日韩国产大片| 国产精品二区一区二区aⅴ| 国产日韩av一区二区| 日本女人黄色片| 久久中文精品| 国产av熟女一区二区三区| 久久99国产精品视频| 91在线视频精品| 欧美人体一区二区三区| 欧美另类在线播放| 二人午夜免费观看在线视频| 日韩精品一区二区三区老鸭窝| 亚洲精品一区二区二区| 亚洲成a人v欧美综合天堂| 亚洲 欧美 国产 另类| 91理论电影在线观看| 杨幂一区二区国产精品| 免费视频最近日韩| 日韩精品视频一区二区在线观看| 欧美精品日韩| 国产高潮呻吟久久久| 欧美日韩在线观看视频小说| 精品卡一卡二| 亚洲一区二区三区中文字幕在线观看 | 国产毛片久久久久久| 三级成人在线视频| 五十路熟女丰满大屁股| 欧美区一区二| 天天做天天爱天天高潮| 日韩电影免费在线观看| 欧美亚洲一级二级| 久久中文资源| 国产精品对白刺激久久久| 国产免费av国片精品草莓男男| 国产精品视频男人的天堂| 欧美日韩大片| 欧美一区二区影院| 伊人成综合网站| 韩国精品久久久999| 成年人视频免费在线播放| 欧美大片va欧美在线播放| 黄色网在线免费观看| www.欧美精品一二三区| 午夜激情在线观看| 中文字幕亚洲无线码在线一区| 搞黄视频在线观看| 国产亚洲一级高清| 国产精品一级伦理| 亚洲无限av看| 草草影院在线观看| 尤物tv国产一区| 8888四色奇米在线观看| 中文字幕在线亚洲| 欧美r级在线| 最近的2019中文字幕免费一页| 成人高清免费在线播放| 中文字幕久久精品| 蜜桃av在线免费观看| 久久综合九色九九| 人妖欧美1区| 久久男人资源视频| 伊人久久国产| 国产精品久久久久久久久久东京| 粉嫩av一区二区三区四区五区| 国产精品自拍网| 国产专区精品| 国产精品久久久久久免费观看| 欧美人成在线观看ccc36| 六月婷婷久久| 91麻豆精品国产91久久久平台| 日本xxxxx18| 亚洲激情网站| 中文字幕无码不卡免费视频| 蜜桃视频一区二区三区在线观看| 日韩av片专区| 成人自拍视频在线观看| 黄色正能量网站| 国产精品伦一区二区三级视频| 希岛爱理中文字幕| 亚洲va中文字幕| 亚洲精品久久久久久久蜜桃| 欧美一区二区三区在线观看| 神马午夜一区二区| 亚洲最新av在线网站| av在线免费网址| 欧美重口另类videos人妖| 欧美成a人片免费观看久久五月天| 91精品久久久久久久久中文字幕| 2021年精品国产福利在线| 欧美高清性xxxxhd| 自拍欧美日韩| 亚洲精品中文字幕无码蜜桃| 激情综合色综合久久| 国产精品久久AV无码| 中文字幕第一区二区| 麻豆一区产品精品蜜桃的特点 | 在线激情影院一区| 在线黄色网页| 日韩美女激情视频| 国产精品免费精品自在线观看| 久久日韩精品| 一区二区中文字| 日本一本二本在线观看| 国产精品一二三四五| 99久久精品免费视频| 亚洲国产精品久久人人爱蜜臀| 在线视频 中文字幕| 日韩av网址在线观看| 久操视频在线观看| 欧日韩不卡在线视频| 日韩欧美高清一区二区三区| 久久婷婷人人澡人人喊人人爽| 四虎成人精品永久免费av九九| 日本午夜激情视频| 国产麻豆91精品| 高清国产在线观看| 亚洲国产精品久久一线不卡| 91精品国产乱码久久久| 亚洲男人的天堂网站| hd国产人妖ts另类视频| 91麻豆国产语对白在线观看| 欧美视频网址| 黄色a级片免费| av毛片久久久久**hd| 欧美黄色免费看| 欧美另类videos死尸| gogogo高清在线观看免费完整版| 97香蕉超级碰碰久久免费的优势| 欧洲精品99毛片免费高清观看| 亚洲成人在线视频网站| 久久久久久一区二区| 日本黄色免费观看| 亚洲不卡一区二区三区| 亚洲精品第五页| 欧美另类极品videosbestfree| 高清久久一区| 9999在线观看| 老司机免费视频一区二区| 色噜噜噜噜噜噜| 欧美亚洲国产一卡| 福利在线午夜| 国产精品久久久久久久久久东京| 精品国产乱码| 欧美伦理片在线看| 国产日韩欧美一区二区三区乱码| www亚洲视频| 亚洲欧美激情视频| 伊人久久av| 日韩精品久久一区二区三区| 日韩电影在线一区二区三区| 国产jk精品白丝av在线观看| 欧美在线观看视频在线| 99re在线视频| 成人精品aaaa网站| 综合久久十次| 巨乳女教师的诱惑| 亚洲国产成人av好男人在线观看| 日韩一级中文字幕| 热久久美女精品天天吊色| 久久综合欧美| 亚洲一级免费在线观看| 综合久久国产九一剧情麻豆| 国产三级漂亮女教师| 色综合91久久精品中文字幕 | 欧美一二三区在线观看| 亚洲男同gay网站| 国产视色精品亚洲一区二区| 国产亚洲福利| 青娱乐国产视频| 9191成人精品久久| 欧美hdxxxx| 久久综合福利| 麻豆一区二区在线| 强乱中文字幕av一区乱码| 日韩高清a**址| 福利一区视频| 欧美视频在线第一页| 成人av电影在线播放| 精产国品一区二区| 精品国产一区二区三区久久久| 成人黄色av网址| 日韩欧美xxxx| 亚洲激情图片一区| 亚洲色图21p| 国产日韩专区在线| 亚洲午夜视频| 免费网站在线高清观看| 欧美一区二区黄| 一区一区三区| 日韩人妻一区二区三区蜜桃视频| 337p粉嫩大胆色噜噜噜噜亚洲| 国产尤物在线观看|