精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

當GPT-4反思自己錯了:性能提升近30%,編程能力提升21%

人工智能 新聞
GPT-4 的思考方式,越來越像人了。

人類在做錯事時,會反思自己的行為,避免再次出錯,如果讓 GPT-4 這類大型語言模型也具備反思能力,性能不知道要提高多少了。

眾所周知,大型語言模型 (LLM) 在各種任務上已經(jīng)表現(xiàn)出前所未有的性能。然而,這些 SOTA 方法通常需要對已定義的狀態(tài)空間進行模型微調(diào)、策略優(yōu)化等操作。由于缺乏高質(zhì)量的訓練數(shù)據(jù)、定義良好的狀態(tài)空間,優(yōu)化模型實現(xiàn)起來還是比較難的。此外,模型還不具備人類決策過程所固有的某些品質(zhì),特別是從錯誤中學習的能力。

不過現(xiàn)在好了,在最近的一篇論文中,來自美國東北大學、MIT 等機構(gòu)的研究者提出 Reflexion,該方法賦予智能體動態(tài)記憶和自我反思的能力。

為了驗證方法的有效性,該研究評估了智能體在 AlfWorld 環(huán)境中完成決策任務的能力,以及在 HotPotQA 環(huán)境中完成知識密集型、基于搜索問答任務的能力,在這兩項任務的成功率分別為 97% 和 51%。

圖片

論文地址:https://arxiv.org/pdf/2303.11366.pdf

項目地址:https://github.com/GammaTauAI/reflexion-human-eval

如下圖所示,在 AlfWorld 環(huán)境中,房間里擺設(shè)了各種物品,要求讓智能體給出推理計劃以拿到某件物體,下圖上半部分由于智能體低效的計劃而失敗。經(jīng)過反思后,智能體意識到錯誤,糾正推理軌跡,給出簡潔的軌跡方式(如圖下半部分)。

圖片

模型反思有缺陷的搜索策略:

圖片

這篇論文表明,你可以通過要求 GPT-4 反思「你為什么錯了?」并為自己生成一個新的提示,將這個錯誤原因考慮在內(nèi),直到結(jié)果正確,從而將 GPT-4 的性能提高驚人的 30%。

圖片

網(wǎng)友不禁感嘆:人工智能的發(fā)展速度已經(jīng)超過了我們的適應能力。

圖片

方法介紹

Reflexion 智能體的整體架構(gòu)如下圖 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次試驗中,智能體從構(gòu)成初始查詢的環(huán)境中獲得任務,然后智能體執(zhí)行由 LLM 生成的一系列動作,并從環(huán)境中接收觀察和獎勵。對于提供描述型或持續(xù)型獎勵的環(huán)境,該研究將輸出限制為簡單的二元成功狀態(tài)以確保適用性。

圖片

在每個動作 a_t 之后,智能體會計算一個啟發(fā)性函數(shù) h,如下圖所示

圖片

這個啟發(fā)性函數(shù)旨在檢測智能體產(chǎn)生信息幻覺(即虛假或錯誤的信息)或效率低下,并「告訴」智能體何時需要反思(reflexion),其中 t 是 time step,s_t 是當前狀態(tài),Ω 表示重復動作循環(huán)的次數(shù),ε 表示執(zhí)行動作的最大總數(shù),[a_o, o_0 . . . , a_(t?1), o_(t?1)] 代表軌跡歷史。repeat 是一個簡單的函數(shù),用于確定產(chǎn)生相同結(jié)果的重復動作循環(huán)的次數(shù)。

如果函數(shù) h 告訴智能體需要反思,那么智能體會查詢 LLM 以反映其當前任務、軌跡歷史和上次獎勵,然后智能體在后續(xù)試驗中會重置環(huán)境再重試。如果函數(shù) h 沒有告訴智能體需要反思,那么智能體會將 a_t 和 o_t 添加到其軌跡歷史記錄中,并向 LLM 查詢下一個動作。

如果如果啟發(fā)式 h 建議在 time step t 時進行反思,則智能體會根據(jù)其當前狀態(tài) s_t、最后的獎勵 r_t、先前的動作和觀察 [a_0, o_0, . . . , a_t, o_t],以及智能體現(xiàn)有的工作存儲 mem,啟動一個反思過程。

反思的目的是通過反復試驗幫助智能體糾正「幻覺」和低效率問題。用于反思的模型是一個使用特定的失敗軌跡和理想的反思示例來 prompt 的 LLM。

圖片

智能體會迭代地進行上述反思過程。在實驗中,該研究設(shè)置在智能體內(nèi)存中存儲的反思最多為 3 次,這是為了避免查詢超出 LLM 的限制。以下幾種情況,運行會終止:

  • 超過最大試驗次數(shù);
  • 未能在兩次連續(xù)試驗之間提高性能;
  • 完成任務。

實驗及結(jié)果

AlfWorld 提供了六種不同的任務和 3000 多個環(huán)境,這些任務要求智能體理解目標任務,制定子任務的順序計劃,并在給定環(huán)境中執(zhí)行操作。

該研究在 134 個 AlfWorld 環(huán)境中測試智能體,任務包括尋找隱藏物體(例如,在抽屜里找到水果刀)、移動物體(例如,將刀移到砧板上 ),以及用其他對象來操縱另一個對象(例如,在冰箱中冷藏西紅柿)。 

在沒有反思的情況下,智能體的準確率為 63%,之后加入 Reflexion 進行對比。結(jié)果顯示,智能體在 12 次試驗中能夠處理好 97% 的環(huán)境,在 134 項任務中僅有 4 項沒有解決。

圖片

接下來的實驗是在 HotPotQA 中進行了,它是一個基于維基百科的數(shù)據(jù)集,包含 113k 個問答對,主要用來挑戰(zhàn)智能體解析內(nèi)容和推理的能力。

在 HotpotQA 的 100 個問答對測試中,該研究將基礎(chǔ)智能體和基于 Reflexion 的智能體進行比較,直到它們在連續(xù)的試驗中無法提高準確性。結(jié)果顯示基礎(chǔ)智能體并沒有性能提高,在第一次試驗中,基礎(chǔ)智能體準確率為 34%,Reflexion 智能體準確率為 32%,但在 7 次試驗后,Reflexion 智能體表現(xiàn)大幅改善,性能提升接近 30%,大大優(yōu)于基礎(chǔ)智能體。

圖片

類似地,在測試模型編寫代碼的能力時,加入 Reflexion 的 GPT-4 也顯著優(yōu)于常規(guī)的 GPT-4:

圖片

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-04-04 11:20:40

GPT-4OpenAI

2023-03-29 10:31:40

MIT論文

2023-11-03 13:07:00

AI模型

2023-05-24 10:01:24

代碼模型

2024-06-28 13:40:03

2020-02-06 11:15:58

Python命令代碼

2023-10-20 08:12:00

JDK21線程池配置

2023-06-19 08:19:50

2024-02-07 12:13:03

AI模型

2025-04-16 09:35:03

2020-10-09 17:43:25

計算機CPU技術(shù)

2023-04-10 09:23:36

模型AI

2023-04-04 09:09:10

GPT-4編程程序員

2023-10-14 17:24:49

2023-09-26 17:36:52

GPT-4AI

2024-04-02 07:27:38

ReALM人工智能iOS 18

2023-09-15 13:32:00

AI模型

2021-12-29 11:06:25

Java代碼技巧

2025-03-03 07:39:23

2017-12-28 10:39:23

編程網(wǎng)站編輯
點贊
收藏

51CTO技術(shù)棧公眾號

成人网址在线观看| 亚洲美女福利视频网站| 蜜臀在线免费观看| 日本人妻熟妇久久久久久| 精品成人国产| 亚洲人在线视频| 嫩草视频免费在线观看| 黄色在线看片| 国产无一区二区| 亚洲在线一区二区| 国产日产精品一区二区三区| 99久久国产综合精品成人影院| 欧美不卡视频一区| 亚洲色图 在线视频| 人人超在线公开视频| 国产欧美一区二区三区沐欲 | 中文不卡1区2区3区| 国产精品乱码人人做人人爱| 精品久久久久久综合日本| 亚洲无码精品在线观看| 亚洲专区一区二区三区| 欧美成人精品一区二区三区| 鲁丝一区二区三区| 精品久久ai| 91精品国产一区二区三区| 92看片淫黄大片一级| 羞羞视频在线观看免费| 国产精品毛片大码女人| 欧美日韩精品久久久免费观看| 99久久久国产精品无码网爆| 日本欧美在线观看| 热re91久久精品国99热蜜臀| 九九热只有精品| 日韩在线不卡| 亚洲少妇激情视频| 一区二区视频观看| 97久久综合精品久久久综合| 91精品免费观看| 男人插女人下面免费视频| 三级在线观看视频| 亚洲成人免费观看| 乱熟女高潮一区二区在线| 黄色av电影在线播放| 国产午夜精品一区二区三区嫩草| 久久精品国产一区二区三区日韩| 亚洲精品国产精品国| 国产成人综合自拍| 91精品久久香蕉国产线看观看 | 884aa四虎影成人精品一区| 黑森林福利视频导航| 看黄在线观看| 精品国产91乱高清在线观看| 久久精品无码中文字幕| 国产蜜臀在线| 亚洲线精品一区二区三区八戒| 丰满人妻一区二区三区53号| 中日韩高清电影网| 亚洲精品免费在线观看| 亚洲精品中字| 久做在线视频免费观看| 亚洲视频小说图片| 潘金莲一级淫片aaaaa免费看| 久久亚洲天堂| 亚洲激情图片小说视频| www.日本在线视频| 欧美freesex黑人又粗又大| 午夜私人影院久久久久| 人妻久久久一区二区三区| 国内外成人免费视频| 999精品视频在线观看播放| 日本a口亚洲| www日韩中文字幕在线看| 午夜剧场免费在线观看| 中文字幕一区二区精品区| 九九久久综合网站| 久久免费精彩视频| 99综合视频| 国产成人一区二区三区| 国产偷人爽久久久久久老妇app | 亚洲乱码在线观看| 北条麻妃国产九九精品视频| 国产亚洲欧美一区二区| 麻豆导航在线观看| 欧美国产欧美综合| 五月天色婷婷综合| 波多一区二区| 一本到不卡精品视频在线观看| 久久久久久久片| 日韩有码欧美| 亚洲福利视频久久| 欧美做受高潮6| 久久精品青草| 欧美一区在线直播| 国产又粗又长又大视频| 成人黄色一级视频| 色综合666| 蜜臀av国内免费精品久久久夜夜| 一本色道a无线码一区v| 男人添女人下面免费视频| 中文一区二区三区四区| 国产亚洲欧美视频| 青青草手机视频在线观看| 国产亚洲在线观看| 91沈先生在线观看| 三级av在线| 亚洲女同ⅹxx女同tv| 欧美a在线视频| 国产电影一区二区| 亚洲视频一区二区| 福利一区二区三区四区| 奇米精品一区二区三区在线观看一| 7777精品久久久大香线蕉小说| 日本一二三区在线视频| 一区二区三区日韩| www.99av.com| 五月综合久久| 欧美伦理91i| www.久久网| bt欧美亚洲午夜电影天堂| 在线综合视频网站| 欧美一级大黄| 亚洲精品在线观看视频| 黄色片子在线观看| 视频一区中文字幕国产| 国产九色91| 99视频免费在线观看| 欧美图区在线视频| 国产特级黄色录像| 亚洲深夜福利| 国产伦精品一区二区三区在线| 免费黄网站在线| 欧美吻胸吃奶大尺度电影| 欧美图片一区二区| 日韩香蕉视频| 激情久久av| 欧美v亚洲v| 日韩欧美一区二区免费| 四虎884aa成人精品| 免播放器亚洲一区| 日韩av高清| 高清不卡亚洲| 亚洲精品永久免费精品| 日韩欧美亚洲一区二区三区| 懂色一区二区三区免费观看| 一二三在线视频| a一区二区三区亚洲| 亚洲三级黄色在线观看| 男人天堂2024| 国产无一区二区| 久久久久久香蕉| 国产99精品| 国产精品96久久久久久| 国产尤物视频在线| 欧洲精品中文字幕| 国产精品酒店视频| 理论片日本一区| 一区二区视频在线观看| 亚洲成人毛片| 久久99精品久久久久久琪琪| 亚洲免费不卡视频| 欧美日韩美女视频| 国产精品久久久久无码av色戒| 久久免费国产| 亚洲精品一品区二品区三品区| 不卡亚洲精品| 久久国产精品久久久久| www.日本在线观看| 亚洲国产精品一区二区久久恐怖片 | 亚洲精品91在线| 免费人成在线不卡| 91xxx视频| 好吊妞视频这里有精品| 亲子乱一区二区三区电影| 国产中文字幕在线观看| 欧美日韩国产综合一区二区三区 | 天天色天天爱天天射综合| 欧美深性狂猛ⅹxxx深喉| 丝袜诱惑亚洲看片| 综合视频在线观看| 国内自拍欧美| 国产精品高清免费在线观看| 免费在线观看黄色网| 精品剧情在线观看| 日本视频网站在线观看| 国产精品欧美极品| www.四虎精品| 日本中文一区二区三区| 国产树林野战在线播放| 九九热播视频在线精品6 | 日韩三级av高清片| 欧美性受xxx| 精品国产丝袜高跟鞋| 亚洲精品99999| 一本一道精品欧美中文字幕| 亚洲国产精品自拍| 91动漫免费网站| 99麻豆久久久国产精品免费| jizz欧美性11| 99精品视频免费观看视频| 亚洲精品一区二区三| av成人资源网| 国产欧美一区二区三区在线看| 欧美人与禽猛交乱配| 一区二区三欧美| 午夜久久久久久噜噜噜噜| 91国产成人在线| 国产精品日日夜夜| 国产精品久久777777| 国产极品一区二区| 国产美女主播视频一区| 黄色片视频在线播放| 亚洲性图久久| 最新视频 - x88av| av伊人久久| 另类欧美小说| av成人男女| 91传媒视频免费| 啪啪av大全导航福利综合导航| 97在线免费观看视频| 大地资源网3页在线观看| 亚洲天堂男人天堂| 午夜视频在线免费播放| 6080午夜不卡| 在线观看不卡的av| 在线亚洲一区观看| 日本特级黄色片| 亚洲一级不卡视频| 欧美色图亚洲天堂| 亚洲欧洲国产专区| 毛片视频免费播放| 久久久久久一二三区| 日韩 中文字幕| fc2成人免费人成在线观看播放| 中文字幕人妻无码系列第三区| 免费高清在线一区| 手机看片福利日韩| 六月天综合网| 日韩黄色片视频| 国产欧美精品| 无码aⅴ精品一区二区三区浪潮| 在线看片成人| 成人免费视频91| 亚洲大胆av| 国产不卡一区二区视频| 狠狠色丁香久久综合频道| 综合一区中文字幕| 久久久久国产精品| 久久av秘一区二区三区| 亚洲国产精品久久久天堂| 在线视频福利一区| 91精品秘密在线观看| 国产精品亚洲天堂| 欧美有码视频| 日韩一级片免费视频| 黄色亚洲在线| 日韩激情免费视频| 久久激情网站| 三级a在线观看| 麻豆国产精品视频| 91大神免费观看| 国产成人福利片| 日本少妇xxxx| 国产亚洲欧美在线| 日本一二三不卡视频| 中文字幕av一区二区三区高 | 欧美激情偷拍自拍| 日本黄网站色大片免费观看| 好看的日韩av电影| 日韩在线综合网| 天堂成人免费av电影一区| 丝袜制服一区二区三区| 国产精品综合二区| 国产精品探花一区二区在线观看| 国产网站一区二区| 日韩三级在线观看视频| 午夜精品久久久久久久| 欧美精品韩国精品| 欧美丰满一区二区免费视频| www.com欧美| 亚洲免费电影一区| 欧美成年黄网站色视频| 午夜精品蜜臀一区二区三区免费| 成人一区福利| 91在线观看免费网站| 精品国内亚洲2022精品成人| 少妇免费毛片久久久久久久久| 国产一区二区欧美| 国产日产欧美一区二区| 美女91精品| 激情成人在线观看| 91一区一区三区| 亚洲色图欧美色| 香港成人在线视频| 国产精品国产精品国产专区| 精品福利av导航| 日本在线视频站| 2019亚洲男人天堂| 日韩中文字幕一区二区高清99| 女同一区二区| 欧美日韩综合| 国产三级日本三级在线播放| 国产成人精品三级麻豆| 女人十八毛片嫩草av| 亚洲成人精品影院| 一区二区的视频| 亚洲精选在线观看| 欧美韩日亚洲| 成人a视频在线观看| 亚州av日韩av| 97超碰国产精品| 久久99国内精品| 五月天综合视频| 同产精品九九九| 亚洲AV无码精品自拍| 日韩在线小视频| 欧美xxx视频| 国产区欧美区日韩区| 欧美.www| 污污网站免费观看| 久久久不卡网国产精品二区| 国产精品6666| 日韩欧美国产不卡| 欧美性videos| 国产精品久久久久免费a∨| 欧美18免费视频| 精品一二三四五区| 国产做a爰片久久毛片| 超薄肉色丝袜一二三| 日韩欧亚中文在线| 天堂资源中文在线| 久久久久中文字幕| 伊人www22综合色| 色一情一乱一乱一区91| 精品一区二区三区久久| 久久婷婷五月综合| 色妞www精品视频| 青青视频在线观| 5252色成人免费视频| 精品淫伦v久久水蜜桃| 五月丁香综合缴情六月小说| 丰满放荡岳乱妇91ww| 久青草视频在线观看| 日韩欧美亚洲国产另类| 影院在线观看全集免费观看| 3d动漫啪啪精品一区二区免费| 99久久视频| 一个色综合久久| 亚洲欧美日韩电影| 国产理论片在线观看| 不卡毛片在线看| 欧美日韩黄网站| 日韩a级黄色片| 国产91精品在线观看| 国产成人无码精品亚洲| 国产偷国产偷亚洲清高网站| 伊人久久在线| 台湾成人av| 久色婷婷小香蕉久久| 一区二区三区四区五区| 精品少妇一区二区三区免费观看| 男插女视频久久久| 久久久com| 免费成人av在线播放| 一区二区成人免费视频| 欧美成人女星排名| 忘忧草在线影院两性视频| 欧美一区二区三区在线播放 | 欧美性色xo影院| 国产系列在线观看| 国产精品爽爽爽| 98精品视频| 日本亚洲一区二区三区| 亚洲成av人片一区二区梦乃| 香蕉视频黄色片| 国产精品久久久久久久久久久久| 99热在线成人| 东京热av一区| 欧美性猛交丰臀xxxxx网站| 日本韩国在线视频爽| www 成人av com| 视频一区视频二区中文字幕| 一级片一级片一级片| 精品久久一区二区| 日韩一区二区三区在线免费观看| 性欧美18一19内谢| 95精品视频在线| 在线不卡免费视频| 久久久亚洲国产| 日韩电影一区| 国产成人av片| 色美美综合视频| 色帝国亚洲欧美在线| 乱一区二区三区在线播放| 麻豆精品视频在线观看视频| 美女毛片在线观看| 中文字幕亚洲综合久久| 成人在线超碰| 国产三级三级看三级| 欧美日韩亚洲精品内裤| 超碰在线免费公开|