精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

人工智能 新聞
近日,一篇就 AI 智能體在宣傳和真實表現上的差距而撰寫的博客中,強調了一個觀點:「AI 智能體在宣傳上是個巨人,而現實卻很不妙。」

隨著大語言模型的不斷進化與自我革新,性能、準確度、穩定性都有了大幅的提升,這已經被各個基準問題集驗證過了。

但是,對于現有版本的 LLM 來說,它們的綜合能力似乎并不能完全支撐得起 AI 智能體。

圖片


多模態、多任務、多領域儼然已成為 AI 智能體在公共傳媒空間內的必須要求,但是在具體的功能實踐中所展現的真實效果卻差強人意,這似乎也再次提醒各個 AI 智能體初創公司以及大型科技巨頭認清現實:腳踏實地一點,先別把攤子鋪得太大,從 AI 增強功能開始做起。

近日,一篇就 AI 智能體在宣傳和真實表現上的差距而撰寫的博客中,強調了一個觀點:「AI 智能體在宣傳上是個巨人,而現實卻很不妙。」

不可否認的是,自主 AI 智能體能夠執行復雜任務的前景已經引起極大的興奮。通過與外部工具和功能的交互,LLMs 可以在沒有人為干預的情況下完成多步驟的工作流程。

但現實證明,這比預期的要更具挑戰性。

WebArena 排行榜(一個真實可復現的網絡環境,用于評估實用智能體的性能)對 LLM 智能體在現實任務中的表現進行了基準測試,結果顯示即使是表現最好的模型,成功率也只有 35.8%。

圖片

WebArena 排行榜對 LLM 智能體在現實任務中的表現進行的基準測試結果:SteP 模型在成功率指標上表現最為良好,達到了 35.8%,而知名的 GPT-4 的成功率僅達到了 14.9%。

什么是 AI 智能體?

「AI 智能體」這個術語并沒有真正被定義,對智能體究竟是什么也存在很多的爭議。

AI 智能體可以定義為「一個被賦予行動能力的 LLM(通常在 RAG 環境中進行函數調用),以便在環境中對如何執行任務做出高層次的決策。」

當前,構建 AI 智能體主要有以下兩種架構方法:

  1. 單一智能體:一個大型模型處理整個任務,并基于其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的涌現能力,避免了將任務分解所帶來的信息丟失。
  2. 多智能體系統:將任務分解為子任務,每個子任務由一個更小、更專業的智能體處理。與嘗試使用一個難以控制和測試的大型通用智能體相比,人們可以使用許多更小的智能體來為特定子任務選擇正確的策略。由于上下文窗口長度的限制或不同技能組合的需要等實際約束,這種方法有時是必要的。

理論上,具有無限上下文長度和完美注意力的單一智能體是理想的。由于上下文較短,在特定問題上,多智能體系統總是比單一系統效果差。

實踐中的挑戰

在見證了許多 AI 智能體的嘗試之后,作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智能體初創公司似乎在等待一個模型突破,以開啟智能體產品化的競賽。

AI 智能體在實際運用中的表現并不夠成熟,這體現在輸出不精確、性能差強人意、成本較高、賠償風險、無法獲得用戶信任等問題:

  • 可靠性:眾所周知,LLMs 容易產生幻覺和不一致性。將多個 AI 步驟連接起來會加劇這些問題,尤其是對于需要精確輸出的任務。
  • 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函數調用方面表現不錯,但它們仍然較慢且成本高,特別是如果需要進行循環和自動重試時。
  • 法律問題:公司可能需要對其智能體的錯誤負責。最近的一個例子是,加拿大航空被命令向一位被航空公司聊天機器人誤導的客戶賠償。
  • 用戶信任:AI 智能體的「黑箱」性質以及類似示例使得用戶難以理解和信任其輸出。在涉及支付或個人信息的敏感任務中(如支付賬單、購物等),贏得用戶信任將會很困難。

現實世界中的嘗試

目前,以下幾家初創公司正在涉足 AI 智能體領域,但大多數仍處于實驗階段或僅限邀請使用:

  • adept.ai - 融資 3.5 億美元,但訪問權限仍然非常有限。
  • MultiOn - 融資情況未知,他們的 API 優先方法看起來很有前景。
  • HypeWrite - 融資 280 萬美元,起初是一個 AI 寫作助手,后來擴展到智能體領域。
  • minion.ai - 最初引起了一些關注,但現在已經沉寂,僅有等候名單。

它們中似乎只有 MultiOn 在追求「給出指令并觀察其執行」的方法,這與 AI 智能體的承諾更為一致。

其他所有公司都在走記錄和重放的 RPA(record-and-replay)路線,這在現階段可能是為保證可靠性所必需的。

同時,一些大公司也在將 AI 功能帶到桌面和瀏覽器,并且看起來將會在系統層面上獲得本地的 AI 集成。

OpenAI 宣布了他們的 Mac 桌面應用程序,可以與操作系統屏幕互動。

在 Google I/O 大會上,Google 演示了 Gemini 自動處理購物退貨。

圖片

微軟宣布了 Copilot Studio,它將允許開發人員構建 AI 智能體機器人。

圖片

這些技術演示令人印象深刻,人們可以拭目以待這些智能體功能在公開發布并在真實場景中測試時的表現,而不是僅限于精心挑選的演示案例。

AI 智能體將走向哪條路?

作者強調:「AI 智能體被過度炒作了,大多數還沒有準備好用于關鍵任務。」

然而,隨著基礎模型和架構迅速進步,他表示人們仍可以期待看到更多成功的實際應用。

AI 智能體最有前途的前進道路可能是這樣的:

  • 近期的重點應放在利用 AI 增強現有工具,而不是提供廣泛的全自主獨立服務。
  • 人機協同的方法,讓人類參與監督和處理邊緣案例。
  • 根據當前的能力和局限,設定不脫離現實的期望。

通過結合嚴格約束的 LLMs、良好的評估數據、人機協同監督和傳統工程方法,就可以在自動化等復雜任務方面實現可靠且良好的結果。

對于 AI 智能體是否會自動化乏味重復的工作,例如網絡抓取、填表和數據錄入?

作者:「是的,絕對會。」

那 AI 智能體是否會在沒有人們干預的情況下自動預訂假期?

作者:「至少在近期內不太可能。」


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-28 08:00:00

AI工廠數據中心GPU

2023-08-07 15:18:55

NLP技術

2019-08-26 11:21:33

2024-02-06 14:11:00

模型數據

2024-04-22 08:25:00

2025-06-04 13:53:22

代碼模型AI

2024-09-02 13:59:16

2019-05-06 10:50:44

AI智能算法

2023-07-25 17:54:42

2025-08-25 09:39:57

2024-03-27 09:12:52

自動化智能體

2025-04-21 02:00:00

網絡安全AI人工智能

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2023-11-13 19:35:12

訓練數據

2020-05-06 10:59:18

區塊鏈分布式比特幣

2022-09-02 13:43:33

零信任首席信息安全官

2023-10-17 13:32:00

AI數據

2018-04-04 16:37:55

2023-06-19 08:19:50

2025-07-29 00:15:00

點贊
收藏

51CTO技術棧公眾號

欧美一级做一级爱a做片性| 免费看黄色一级视频| 色999国产精品| 51精品视频一区二区三区| 在线国产伦理一区| 丰满岳乱妇国产精品一区| 国产日韩亚洲欧美精品| 伊人亚洲福利一区二区三区| 日本一二三四区视频| 国产高清中文字幕在线| 欧美激情一区二区三区全黄| 国产精品视频xxx| 久久99久久久| 成人写真视频| 亚洲国产精品嫩草影院久久| 亚洲 国产 图片| 色在线视频观看| 亚洲视频一二区| 日韩精品国内| 色欲av永久无码精品无码蜜桃| 欧美aⅴ一区二区三区视频| 欧美高跟鞋交xxxxxhd| 国产熟女一区二区| 国产精品传媒| 日韩一区二区三区免费看 | 国产精品日韩一区| 国产精品99精品无码视| 亚洲成人99| 永久免费毛片在线播放不卡 | 91老师国产黑色丝袜在线| 91免费在线视频| 四虎影院在线免费播放| 日韩五码在线| 欧美精品激情视频| 懂色av粉嫩av蜜臀av一区二区三区| 女同一区二区三区| 精品日韩成人av| 555www成人网| 精品一区在线观看视频| 亚洲区小说区图片区qvod按摩| 日韩一本二本av| 日韩精品aaa| 亚洲aⅴ网站| 欧美另类变人与禽xxxxx| 国产激情在线观看视频| 国产欧美一区二区三区精品酒店| 天天免费综合色| 免费国产a级片| yellow字幕网在线| 亚洲成人在线观看视频| 欧美中日韩在线| 日本在线视频www鲁啊鲁| 亚洲欧美经典视频| 欧美精品久久96人妻无码| 日本三级视频在线播放| 国产精品国产三级国产专播品爱网 | 91在线视频18| 久久视频在线观看中文字幕| 五月婷中文字幕| 91在线码无精品| 久久99影院| 免费一级在线观看| 久久久噜噜噜久噜久久综合| 日本在线播放不卡| 中国日本在线视频中文字幕| 久久亚区不卡日本| 精品国产免费人成电影在线观...| 国产91绿帽单男绿奴| 不卡的看片网站| 欧美不卡在线一区二区三区| 黄色大片在线看| 中文字幕在线观看不卡视频| 天天操天天干天天玩| 男女免费观看在线爽爽爽视频| 一区二区三区波多野结衣在线观看| 男女裸体影院高潮| rebdb初裸写真在线观看| 天天射综合影视| 午夜激情在线观看视频| 伊人亚洲精品| 亚洲成人黄色在线| 白白色免费视频| 午夜免费一区| 亚洲3p在线观看| 中文字幕免费高清网站| 九九热在线视频观看这里只有精品| 成人免费激情视频| 手机在线不卡av| 亚洲国产高清不卡| 成人一区二区av| 国模套图日韩精品一区二区| 欧美日韩精品一区视频| 黄色性视频网站| 精品国产网站| 久久777国产线看观看精品| 在线观看黄网站| 精品一区二区三区日韩| 久久久久久99| 羞羞污视频在线观看| 欧美性猛交xxxxx水多| 久久久久久综合网| 伊人成综合网yiren22| 久久国产精品视频| 精人妻无码一区二区三区| 国产成人午夜高潮毛片| 日本视频一区二区不卡| 天堂av资源在线观看| 在线观看日韩一区| 少妇一级淫免费观看| 99久久精品网站| 欧美中文在线字幕| 性生活免费网站| 国产精品色婷婷久久58| 凹凸国产熟女精品视频| 日韩中文在线| 日韩视频在线免费| 日本中文字幕久久| proumb性欧美在线观看| 欧美性受xxxx黑人猛交88| 中文字幕av一区二区三区佐山爱| 精品久久久久久久久久久久久久久| 99国产精品免费| 午夜一区在线| 韩日午夜在线资源一区二区| 羞羞的网站在线观看| 欧美日韩大陆在线| 久久婷婷五月综合| 久久xxxx精品视频| 久久99精品久久久久久秒播放器 | 婷婷综合网站| 国产成人中文字幕| 香蕉视频网站在线| 亚洲毛片av在线| 亚洲精品久久久中文字幕| 国产欧美日韩在线一区二区| 91成人精品网站| 天天干在线观看| 亚洲成人综合在线| 涩视频在线观看| 亚洲图片在线| 国产欧美日韩伦理| 国产网红在线观看| 精品国产一区久久| 久久久无码精品亚洲国产| 国产乱理伦片在线观看夜一区| 欧美洲成人男女午夜视频| 黄色aaa大片| 亚洲丶国产丶欧美一区二区三区| 99国产精品免费视频| 一区二区三区在线| 99理论电影网| 国内老司机av在线| 亚洲精品久久久久久下一站| 国产一区二区99| 国产亚洲成年网址在线观看| 国产精品亚洲a| 欧美色婷婷久久99精品红桃| 国产美女精品视频免费观看| 麻豆传媒免费在线观看| 欧美一级免费观看| 精品深夜av无码一区二区老年| 丁香婷婷综合激情五月色| 久久久久久www| 亚洲婷婷伊人| 国产精品手机播放| av在线播放观看| 亚洲国产中文字幕久久网| 男女视频免费看| 国产视频一区在线观看| 最新天堂在线视频| 欧美一区视频| 久久国产精品99久久久久久丝袜| 欧美xxx性| 精品国产依人香蕉在线精品| 亚洲成熟女性毛茸茸| 精品美女国产在线| 大胸美女被爆操| 国产999精品久久久久久| 成人免费观看cn| 欧美精品一区二区久久| 成人欧美一区二区三区在线湿哒哒| 婷婷丁香在线| 亚洲欧美一区二区三区四区| 国产免费无遮挡| 黄色成人在线免费| 欧美色图17p| 成人性生交大合| 天天操天天爽天天射| 欧美激情性爽国产精品17p| 麻豆成人av| 激情视频亚洲| 日韩免费在线视频| 久草在线资源站资源站| 亚洲人在线观看| 亚洲精品97久久中文字幕无码| 欧美日韩激情小视频| 国产日产精品一区二区三区的介绍| 成人激情黄色小说| 激情视频免费网站| 亚洲视频大全| 五月天在线免费视频| 久操成人av| 翡翠波斯猫1977年美国| 国产资源一区| 91精品国产99久久久久久| 日本电影在线观看网站| 亚洲精品在线看| 亚洲奶汁xxxx哺乳期| 欧美日韩在线播放三区四区| 成人免费视频毛片| 一区二区不卡在线播放 | 亚洲人成精品久久久久| 一区二区不卡免费视频| 国产成人精品1024| 九九热精品国产| 视频一区二区中文字幕| 欧美三级在线观看视频| 欧美黄色免费| 正在播放国产精品| 成人影院在线| 日韩不卡av| 在线日韩网站| 九九九九九精品| 精品欧美午夜寂寞影院| 91亚洲永久免费精品| 成人午夜毛片| 国产精品久久久999| 暖暖成人免费视频| 91av国产在线| 国产三级电影在线播放| 久久久天堂国产精品女人| 国产超级va在线视频| 日韩在线欧美在线国产在线| a√在线中文网新版址在线| 亚洲欧美激情在线视频| 日产精品久久久久久久性色| 亚洲国产天堂久久国产91| 熟妇人妻系列aⅴ无码专区友真希| 日韩视频在线一区二区| 精品久久国产视频| 日韩三级视频在线看| 国产夫绿帽单男3p精品视频| 91精品黄色片免费大全| 国产手机视频在线| 日韩一区二区三区免费看 | 久热这里只有精品6| 婷婷激情综合网| 国产又大又黄视频| 色婷婷综合五月| 免费看污视频的网站| 欧美唯美清纯偷拍| 又污又黄的网站| 欧美一区二区视频免费观看| 99久久久国产精品无码网爆 | 天天干天天爱天天操| 亚洲黄一区二区| 精品美女视频在线观看免费软件| 亚洲视频在线观看| 日本黄色片在线观看| 麻豆乱码国产一区二区三区 | 亚洲午夜免费视频| 日韩精品一区二区三区国语自制| 婷婷开心激情综合| 免费av中文字幕| 91精品欧美福利在线观看| 亚洲不卡免费视频| 日韩精品亚洲精品| 爱爱爱免费视频在线观看| 久久精品久久久久| 18aaaa精品欧美大片h| 国产91色在线播放| 欧美一级网址| 国产亚洲精品自在久久| 最新国产一区| 色撸撸在线观看| 精品99视频| 丝袜制服一区二区三区| 国产东北露脸精品视频| 精品视频站长推荐| 国产欧美一区二区精品秋霞影院| 手机在线免费看片| 欧美日韩亚洲一区二区三区| 老熟妇一区二区三区啪啪| 欧美一区二区久久| 色鬼7777久久| 久久亚洲精品成人| 伊人久久av| 成人免费在线视频网站| 欧美日韩导航| 中文字幕综合在线观看| 国产午夜久久| 日韩av自拍偷拍| 91论坛在线播放| 国语对白在线播放| 日本乱码高清不卡字幕| 精品国产av 无码一区二区三区| 日韩精品久久久久| av网站免费在线观看| 国产成人短视频| 精品国产一区二区三区不卡蜜臂| 亚洲一区不卡在线| 亚洲一区二区免费看| 九一精品久久久| 久久久不卡影院| 国产真实的和子乱拍在线观看| 欧美亚日韩国产aⅴ精品中极品| 亚洲va天堂va欧美ⅴa在线| 中文字幕欧美日韩| 一区二区精品伦理... | 精品人妻伦一二三区久久| 国产亚洲xxx| 蜜桃在线视频| 福利精品视频| 中文字幕日韩一区二区不卡| 国产又猛又黄的视频| 99re这里只有精品首页| 欧美精品99久久久| 欧美精品自拍偷拍| 国产三级在线观看| 欧美一级片免费在线| 岛国成人av| 精品久久久无码人妻字幂| 麻豆视频观看网址久久| 在线不卡av电影| 欧美日韩中文字幕| 全国男人的天堂网| 欧美精品激情在线观看| 涩爱av色老久久精品偷偷鲁 | 亚洲一区欧美二区| 国产日韩视频一区| 亚洲影院理伦片| 性猛交xxxx乱大交孕妇印度| 久久久99久久精品女同性| 国产精品久久乐| 五月天婷亚洲天综合网鲁鲁鲁| 久久久夜精品| 国产手机在线观看| 色网综合在线观看| 欧洲毛片在线| 国产mv久久久| 国产中文字幕一区二区三区| 一本久道中文无码字幕av| 久久精子c满五个校花| 久久精品无码av| 亚洲图片欧美日产| 亚洲第一会所| 先锋在线资源一区二区三区| 免费看精品久久片| 男人av资源站| 日韩一区二区三区三四区视频在线观看 | 国产二区视频在线| 99久久99久久精品国产片果冻| 日韩精品一区二区三区国语自制 | 蜜桃视频网站在线| 91亚洲va在线va天堂va国 | 国产精品丝袜久久久久久消防器材| 99精品欧美一区二区三区小说| 日韩欧美视频在线免费观看| 精品视频久久久久久久| 姬川优奈av一区二区在线电影| 深田咏美在线x99av| 久久精品国产99国产| 欧美成人三级视频| 亚洲第一中文字幕| 伊人久久综合一区二区| 性欧美精品一区二区三区在线播放 | av在线播放国产| 精品高清视频| 日本vs亚洲vs韩国一区三区二区| 亚洲女人久久久| 日韩久久久久久| 人狥杂交一区欧美二区| 少妇特黄a一区二区三区| 国产麻豆一精品一av一免费| 国产精品999久久久| 国产亚洲在线播放| 国产精品亚洲欧美日韩一区在线| 久久99久久久久久| 久久久久国色av免费看影院| 国产精品污视频| 91av福利视频| 天天做天天爱天天爽综合网| 亚洲av成人片无码| 欧美性xxxxxxxx| 黄色污污视频在线观看| 欧美日韩综合另类| 国内精品视频666| 天天操中文字幕| 久久综合久久美利坚合众国| 看全色黄大色大片免费久久久| 狠狠热免费视频| 亚洲国产日日夜夜| 91九色在线porn| 精品久久精品久久| 国产一区激情在线| 精品国产xxx| 97久久国产精品| 91不卡在线观看| 亚洲а∨天堂久久精品2021| 精品国产123|