精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力

發布于 2024-3-28 13:54
瀏覽
0收藏

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

論文標題:

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

論文鏈接:

??https://arxiv.org/abs/2402.11534??

代碼鏈接:

??https://github.com/Fu-Dayuan/PreAct??

01 概述

1.1 背景

大語言模型(LLM)已顯示出一定的規劃和決策能力。利用這種能力,ReAct 將環境信息和智能體(Agent)可執行的行動提供給大語言模型,就可以利用它確定當前狀態下需要執行的行動。

然而,ReAct 系統通常生成單一、直接的因果推理路徑,這限制了它在具有復雜因果關系的任務中的有效性。以 TOT、GOT 和 RAP 為代表的一系列推理指導范式,它們允許在每一步生成多種可能的行動,并根據多個環境反饋結果和選擇策略決定下一步路徑。

雖然這種方法提高了 agent 處理復雜因果關系的能力,但在真實世界的場景中,在同一情況下執行多個行動往往是不現實的。所以需要一種在每輪中僅生成一種行動但能夠處理多樣、復雜推理的智能體框架。

1.2 動機

處理預測與實際結果之間的差異往往有助于人們擴展思維過程和進行反思,從而促進推理朝著正確的方向發展。受科學研究的過程和任務導向對話中有關預測未來的研究成果的啟發,我們提出了一個將預測、推理和行動融為一體的 agent 推理框架——PreAct。

利用預測提供的信息,基于大語言模型的 agent 可以提供更多樣化、更具戰略導向性的推理,進而產生更有效的行動,幫助 agent 完成復雜的任務。

1.3 效果

我們在 AgentBench 中的 HH、OS、DB、LTP 等數據集上進行了大量的實驗,實驗表明 PreAct 在完成復雜任務方面優于 ReAct 方法,且可以與 Reflexion 結合,進一步增強 agent 的推理能力。

我們用不同數量的歷史預測對模型進行提示,發現歷史預測對 LLM 規劃有持續的正向影響。PreAct 和 ReAct 在單步推理上的差異表明,PreAct 在多樣性和戰略方向性方面確實比 ReAct 更有優勢。

02 方法

2.1 前置知識

2.1.1 Agent與Enviroment


動作  和觀察結果  構成了 agent 與環境交互的過程。對于處于步驟  的代理, agent 將根據歷史信息 、上次觀察結果  及其行動策略  采取動作。

決定要采取的動作后,agent 將在環境中執行動作,并通過環境策略  獲得新的觀察結果。對于 LLM 代理來說,它只能控制  和  的構建。因此,LLM agent 的目標就是設計出高效的  和 。


2.1.2 ReAct


ReAct 是一項面向 LLM agent 的開創性工作,它結合了思考 、行動  和觀察 。ReAct 使用  作為  和一組  作為 。利用 LLM 的規劃能力,ReAct agent可以探索環境并逐步解決問題。


2.1.3 Reflexion


Reflexion 是一種長時記憶策略,用于提高 agent 中  的質量。以 ReAct 的 Reflexion 為例,如果任務失敗,LLM 會被要求進行反思,比如 。一旦進行了反思, 就會更新為 。這種策略可以提示 LLM 一些信息,幫助它避免一些決策錯誤。


2.2 PreAct

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區


PreAct 的框架如圖 1 所示。它與 ReAct 有兩點不同:對于  部分,PreAct 會在每一步中要求 LLM 生成對未來觀察的預測和相應的應對措施 ,并根據預測觀察與實際觀測之間的差異提示 LLM 反思或改變其計劃方向。


通過這種提示,可以提高 LLM 所做計劃的多樣性和策略導向性。對于  部分,PreAct 會在其中添加對未來觀察的預測。雖然 PreAct 提高了 LLM 的思考和計劃能力,但還有兩個問題有待探究:


(1)PreAct 是否能與 Reflexion 結合使用并進一步提升效果?

(2)預測的效果是永久性的,還是只能影響下一輪?


基于這兩個問題,我們考慮了 3 種  模式:


1. 永久模式:所有預測都將保留在永久歷史中,如:

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

2. 即時模式: 只有最后一次預測會保留在即時歷史中,如:


簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

3. 反思模式:反射和所有預測都將保留在歷史記錄中,如:


簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

03 實驗

我們的實驗旨在解決以下研究問題(RQs)。

  1. 與 ReAct 相比,不同模式的 PreAct 在處理任務時是否表現得更好?
  2. PreAct 比 ReAct 能更好促進規劃的內在原因是什么?
  3. 歷史預測是否有助于持續提高規劃能力?

3.1 實驗設置

我們在 AgentBench 中的 HH、OS、DB 和 LTP4 4 個不同的子數據集上對 PreAct 進行了評估。我們使用 GPT3.5 和 GPT4 作為 agent 的 LLM。更多的實驗設置和所有提示詞都能在論文附錄中找到。

3.2 主要結果

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

表 1 列出了 PreAct 和 ReAct 在 Permanent 和 Reflexion 兩種不同設置下,在四個數據集上的性能表現。


在 HH 任務中,PreAct 比 ReAct 提高了約 20%。在 OS 和 DB 任務中,在 Permanent 設置下,PreAct 的平均性能相比 ReAct 分別提高了 12% 和 6%,在 Reflexion 設置下,Preact的性能相比同樣采取了 Reflexion 的 React 分別提高了 5% 和 8%。在 LTP 情景下,PreAct 的結果與僅 Act 的結果類似,這可能是由于 GPT 的安全機制導致其多次拒答,從而減少了有效的探索步驟。


總的來說,在大多數情況下,PreAct 都優于 ReAct,在某些指標上甚至超過了帶 Reflexion 的 React。此外,在 PreAct 的基礎上應用 Reflexion 還能持續提升模型性能。這表明,先驗任務信息和觀察預測可以共同提高 LLM 的規劃和決策能力。

3.3 內在原因分析

根據我們的假設,PreAct 可增強推理的多樣性和策略方向性,從而提高 LLM 的規劃能力。在本節中,我們將研究這兩個促進因素。


3.2.1 多樣性

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 2 展示了 PreAct 和 ReAct 在 HH、OS 和 DB 數據集上的多樣性比較。我們向 GPT-4 輸入了兩條包含思考和行動的軌跡,要求它在 0 到 100 的范圍內對每條軌跡打分。


圖表顯示,在任何給定的數據集上,至少有 45% 的實例顯示出 PreAct 的推理多樣性優于 ReAct,而相反的情況則不超過 34%。這表明,使用 PreAct 可以顯著提高推理多樣性,從而擴大推理空間,拓寬可能行動的范圍。


3.2.2 策略方向性


我們選擇 Alfworld 任務來分析策略方向性。對于每條軌跡的每一輪,我們都向模型提供 ground truth、截至本輪次的所有思考和行動,同時去除所有預測。然后,我們要求 GPT-4 對其策略方向性進行評分,分數范圍為-1 ~ 3。策略方向性的評價指標如下:

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

其中, 為樣本, 為一輪思考和行動, 為評分器。如表 2 所示,PreAct 的策略方向性得分比 ReAct 高出至少 20%。這表明 PreAct 在確定規劃方向方面更勝一籌。

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

3.2.3 相關性研究

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 5 顯示了在 HH 數據集上,多樣性、策略方向性和成功率之間的關系,揭示了成功率與這兩個指標之間的正相關關系。此外,策略方向性與成功率的相關系數分別為 99.8%(Dev)和 99.3%(Test),而多樣性與成功率的相關系數分別為 83.7%(Dev)和 91.2%(Test)。


3.2.4 案例分析

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 3 顯示了 PreAct 和 ReAct 在 DB 和 HH 數據集上的部分軌跡。雖然 PreAct 和 ReAct 在這兩個數據集的初始執行階段都出現了錯誤,但 PreAct 可以借助預測糾正錯誤,而 ReAct 則不能。


在 DB 數據集中,ReAct 和 PreAct 在第一輪中都使用了相同的錯誤列名。PreAct 通過驗證實際列名糾正了這一錯誤,而 ReAct 則反復使用了錯誤的列名。Pre Act 對查詢和更正列名的考慮反映了其推理的多樣性。


在 HH 任務中,ReAct 檢查完冰箱后,與冰箱內的物體進行了互動,這與任務無關,而 PreAct 則預測到了 "冰箱內沒有生菜 "的條件,并根據 Pred 3 中的預測結果,指導其在其他地方找到生菜,最終完成了任務。這種重新考量生菜的可能位置而不是繼續在冰箱附近尋找的決定表明,PreAct 具有更好的策略方向性。


3.2.5 歷史預測影響范圍

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 4 展示了不同數量的預測歷史對 LLM 推理性能的影響。在 HH、OS 和 DB 數據集上進行的實驗表明,增加預測歷史的保留量可以提高成功率。


以 PreAct(GPT4)為例,3 種設置下任務的成功率在 HH 中分別為 66%、70%、74%;在 OS 中分別為 40.9%、42.3%、43.1%;在 DB 中分別為 50%、51%、51.3%。這些發現表明,歷史預測對模型的推理能力有持續的正向影響。然而,在 LTP 數據集上,更多的歷史數據會導致更高的拒答概率,進而導致永久模式下的 Preact 性能下降。

04 結論

本文中,我們介紹了一個簡單卻有效的 agent 推理框架——PreAct,它利用預測來增強規劃的多樣性和策略方向性,從而提高 agent 完成任務的能力。這種增強是持續性的,它獨立于 Reflexion,并將隨著歷史預測的積累而不斷提高。基于 PreAct 的研究結果,我們提出了兩個評估規劃的指標,這可能有助于在未來的工作中為強化學習設置過程級的獎勵函數,以訓練出更強大的 agent。


本文轉自 PaperWeekly ,作者:黃健釗、傅大源


原文鏈接:??https://mp.weixin.qq.com/s/1R_0Q57_vu9uGr_3j0Ozwg??

已于2024-3-28 13:55:23修改
收藏
回復
舉報
回復
相關推薦
成人av网址在线观看| 天天射综合网视频| 色999日韩国产欧美一区二区| 色狠狠久久av五月综合|| 亚洲一区在线观| 国内精品久久久久久久97牛牛 | 四虎影视精品| 欧美日韩中文国产| 可以看毛片的网址| 91caoporm在线视频| 成人午夜伦理影院| 国产精品人人做人人爽| 国产一级免费av| 日韩国产在线| 亚洲国产欧美一区二区三区同亚洲| 日韩中文字幕二区| 男插女视频久久久| 国产精品久久久久影院色老大 | 亚洲五码中文字幕| 亚洲 国产 欧美一区| 亚洲精品一区二区三区蜜桃| 日本欧美久久久久免费播放网| 久久6精品影院| 调教驯服丰满美艳麻麻在线视频| 久久精品色综合| 日韩午夜激情视频| 日韩av在线中文| 亚洲欧美韩国| 一区二区三区日韩在线观看| 亚洲最大免费| 精华区一区二区三区| k8久久久一区二区三区| 亚洲精品免费av| 在线播放国产一区| 日本亚洲一区二区| 欧美在线观看网址综合| 久久精品国产亚洲AV无码男同 | 国产真人无码作爱视频免费| 69av成人| 亚洲成av人**亚洲成av**| 黄色影视在线观看| 毛片在线播放a| 中文字幕一区二区在线观看| 视频一区二区三区在线观看| 欧美日韩伦理片| 2021中文字幕一区亚洲| 精品一区二区三区视频日产| 蜜桃视频在线观看www| 国产91在线看| 成人在线观看av| 亚洲欧美另类视频| 不卡视频在线观看| 国产一区在线免费观看| 亚洲色图欧美视频| 久久午夜免费电影| 日韩国产欧美精品| aaa日本高清在线播放免费观看| 97精品久久久午夜一区二区三区 | 成人a'v在线播放| 国产亚洲成精品久久| аⅴ天堂中文在线网| 成人影院在线| 久久精品91久久香蕉加勒比| 麻豆明星ai换脸视频| 欧美日韩国产综合网| 97色在线视频| 五月天婷婷导航| 蜜臀久久99精品久久久画质超高清 | 自拍另类欧美| 日本三级韩国三级欧美三级| 亚洲国产一二三| www.com毛片| 91成人在线| 91精品国产欧美一区二区18| 欧美日韩一区二区区别是什么| theporn国产在线精品| 亚洲高清色综合| 色噜噜日韩精品欧美一区二区| 精品国产乱码久久久久久蜜坠欲下| 中文在线不卡视频| 欧美激情精品久久| 久久综合九色综合欧美狠狠| 国产精品你懂得| www五月婷婷| av在线不卡免费看| 午夜精品一区二区三区四区| 麻豆tv在线| 天天亚洲美女在线视频| 天天操天天爱天天爽| 国产一区二区视频在线看| 亚洲成人激情在线| 超碰97av在线| 韩国自拍一区| 国产精品丝袜高跟| 欧美 日韩 国产 成人 在线| 欧美激情综合在线| 日本欧美视频在线观看| 成人av集中营| 亚洲精品久久视频| 日本黄区免费视频观看| 亚洲经典三级| 91精品久久久久久综合乱菊 | 国产综合av在线| 开心久久婷婷综合中文字幕| 亚洲精品在线免费观看视频| 夫妇露脸对白88av| 亚洲看片一区| 91视频婷婷| av在线第一页| 黑人巨大精品欧美一区免费视频 | 国产精一区二区| 亚洲男人天堂古典| 久久亚洲国产成人精品性色| 免费的国产精品| 国产一区二区免费在线观看| 麻豆传媒在线观看| 欧美在线观看一二区| 日本少妇xxxx| 欧美日韩综合| 成人午夜高潮视频| 色视频在线免费观看| 天天色天天操综合| 国产艳妇疯狂做爰视频| 91精品天堂福利在线观看| 国产成人精品久久二区二区| 蜜臀av中文字幕| 一区二区三区在线高清| xxx国产在线观看| 精品亚洲成人| 久久久噜噜噜久噜久久| 国产视频第一页| 中文字幕日韩av资源站| 天天操天天摸天天爽| 色天天色综合| 国产91av在线| 天堂资源最新在线| 大伊人狠狠躁夜夜躁av一区 | 欧美极品少妇xxxxⅹ高跟鞋| 中文字幕无码不卡免费视频| 色天下一区二区三区| 97视频在线观看视频免费视频| 国产高清视频免费观看| 亚洲男人的天堂在线观看| 五月天开心婷婷| 天天天综合网| 91在线免费观看网站| 激情视频在线观看| 91精品国产综合久久精品app| 黄色国产在线播放| 精品在线亚洲视频| 一区二区三区四区久久| 高清国产一区二区三区四区五区| 久久精品国产v日韩v亚洲| 国产强伦人妻毛片| 一区二区三区四区五区视频在线观看| 天天做天天干天天操| 欧美91福利在线观看| 亚洲在线一区二区| 国产蜜臀一区二区打屁股调教| 欧美xxx久久| 日韩成人免费在线观看| 91麻豆.com| 青青在线免费观看视频| 日韩欧美精品一区| 97se在线视频| 91老司机福利在线| 亚洲图片在区色| 亚洲一级黄色大片| 亚洲精品欧美激情| 久久久男人的天堂| 久久国产欧美| 在线观看成人av| 欧美日本三级| 91国内产香蕉| av午夜在线| 日韩精品专区在线影院重磅| 国产成人在线免费视频 | 亚洲熟女www一区二区三区| 豆国产96在线|亚洲| 青青视频在线播放| 日韩欧美高清在线播放| 国产精品免费一区二区三区| 台湾佬成人网| 久久成年人免费电影| 婷婷在线观看视频| 欧美日韩夫妻久久| 日韩xxx高潮hd| 国产精品传媒视频| 中国一级特黄录像播放| 久久国产三级精品| 欧美日韩二三区| 亚洲精品国产成人影院| 精品日本一区二区三区| 日韩城人网站| 欧美壮男野外gaytube| 免费观看成人高潮| 亚洲精品网站在线播放gif| 国产普通话bbwbbwbbw| 91精品91久久久中77777| 久久精品视频国产| 中文字幕中文字幕在线一区 | 韩国三级在线看| 天堂久久一区二区三区| 福利视频一区二区三区四区| 99国产精品免费视频观看| 精品久久久久久中文字幕动漫 | 日韩成人在线播放| 国产裸体无遮挡| 色哦色哦哦色天天综合| 久久久久国产精品夜夜夜夜夜| 国产欧美一区二区三区在线看蜜臀 | 国产日韩欧美精品一区| 亚洲精品乱码久久久久久蜜桃欧美| 日韩专区欧美专区| 尤物av无码色av无码| 欧美激情日韩| 亚洲一区二区在线观| 中日韩免视频上线全都免费| 国产v亚洲v天堂无码| 国产精品一区二区精品| 国产日韩欧美在线| 澳门av一区二区三区| 9.1国产丝袜在线观看| 日韩免费影院| 蜜臀久久99精品久久久无需会员| 2019中文字幕在线视频| 亚洲视频在线免费看| 天堂av电影在线观看| 亚洲成av人乱码色午夜| 精品女同一区二区三区| 91精品国产综合久久香蕉的特点| 成人午夜精品视频| 色94色欧美sute亚洲13| 一级片免费在线播放| 日韩欧美在线免费观看| 久久99精品波多结衣一区| 红桃视频成人在线观看| 黄色激情视频在线观看| 亚洲大片精品永久免费| 精品一区在线视频| 亚洲一区二区三区中文字幕| 青草草在线视频| 一个色在线综合| 久久久夜色精品| 亚洲在线观看免费视频| 日韩激情一区二区三区| 午夜精彩视频在线观看不卡| 日本中文字幕免费| 欧美性猛交丰臀xxxxx网站| 在线精品免费视| 在线视频一区二区三区| 中文字幕在线视频第一页| 欧美三区在线观看| 一区不卡在线观看| 91精品国产综合久久精品图片| 国产特级黄色片| 精品久久久久久最新网址| 秋霞网一区二区| 日韩精品中文字幕在线观看 | 岛国av一区| 久久99九九| 精品大片一区二区| 一本色道久久综合亚洲二区三区| 亚洲成av人片乱码色午夜| 成年在线观看视频| 99精品视频免费观看视频| 凹凸国产熟女精品视频| 日本人妖一区二区| 国产资源中文字幕| 国产·精品毛片| 黄色a一级视频| 国产精品夫妻自拍| 国产一级片网址| 一本色道久久加勒比精品| 亚洲中文字幕在线一区| 精品国产乱码久久久久久图片| 头脑特工队2免费完整版在线观看| 国产一区二区精品丝袜| 成年人网站在线| 国产91精品青草社区| 黄色精品视频网站| 国产伦精品一区二区三区在线| 九色精品91| www.黄色网址.com| 性8sex亚洲区入口| 搡的我好爽在线观看免费视频| 成人av在线观| 青青草华人在线视频| 亚洲一区二区三区自拍| 亚洲精品国产精品乱码视色| 日韩欧美亚洲国产另类| 国产精品99999| 欧美激情精品久久久久久变态| 成人免费短视频| 99re国产在线播放| 欧美日韩性在线观看| 加勒比成人在线| 麻豆精品久久久| 国产黑丝一区二区| 亚洲色图.com| 蜜臀99久久精品久久久久小说| 日韩午夜三级在线| 伊人免费在线| 茄子视频成人在线| 99这里只有精品视频| 亚洲精品一品区二品区三品区| 亚洲美女黄色| 中文字幕av一区二区三区人妻少妇| 91欧美一区二区| 亚洲成人生活片| 欧美色图在线观看| 蜜芽tv福利在线视频| 海角国产乱辈乱精品视频| 亚洲一区av| 亚洲国产高清国产精品| 一区二区三区成人精品| 日本黄色大片在线观看| 成人欧美一区二区三区小说 | 精品国产第一区二区三区观看体验| 国产一级网站视频在线| 欧美在线影院在线视频| 精品国产乱子伦一区二区| 欧美一级中文字幕| 狠狠色丁香久久婷婷综合_中| 欧美激情 一区| 色呦呦一区二区三区| 天堂中文在线资| 欧美性视频网站| 欧美成人一区在线观看| 亚洲色欲久久久综合网东京热| 国产真实乱对白精彩久久| 国产在线免费av| 欧美无砖砖区免费| av在线日韩国产精品| 国产精品电影在线观看| 国产免费av一区二区三区| 久久久久免费精品| 久久久久久免费| 日本三级一区二区三区| 亚洲性视频网站| 欧洲精品一区二区三区| 欧美最大成人综合网| 久久久久久一区二区| 91网站免费入口| 欧美在线视频不卡| 1024视频在线| 成人黄色av网站| 中文字幕一区二区三区乱码图片 | 中文字幕在线导航| 国产日韩欧美不卡| 中文字幕人妻精品一区| 综合久久五月天| 成人噜噜噜噜| 久久99久久99精品| 91免费视频观看| 国产女主播喷水视频在线观看 | 欧美成人蜜桃| 日韩一区精品视频| 国产大屁股喷水视频在线观看| 欧美精品丝袜久久久中文字幕| www久久日com| 国产精品综合久久久久久| 亚洲欧美成人| 长河落日免费高清观看| 欧美精品在欧美一区二区少妇| 91cn在线观看| 国产日韩欧美二区| 日韩精品一卡二卡三卡四卡无卡 | 狠狠色狠狠色综合日日小说| 亚洲人在线观看视频| 国产精品嫩草视频| 国内精品久久久久久久97牛牛 | 毛片av一区二区| 青青青在线免费观看| 亚洲经典中文字幕| 国产精品无码久久久久| 日韩中文字幕在线不卡| 97精品久久久午夜一区二区三区| 中文字幕久久网| 久久久久久久久爱| 精品久久久亚洲| 亚洲 自拍 另类 欧美 丝袜| 午夜不卡av在线| 日本在线免费播放| 激情视频一区二区| 蜜桃传媒麻豆第一区在线观看| 免费在线观看国产精品| 亚洲人成伊人成综合网久久久| www久久久| www国产黄色| 亚洲另类中文字| 毛片免费在线观看| 国产精品久久久久久久免费大片| 狂野欧美一区| 特级片在线观看| 亚洲一级黄色片| 国产精品tv| 免费在线观看污网站| 日韩欧中文字幕| 欧美人与牲禽动交com|