精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI在「賺錢錦標賽」奪冠,比人類還會做生意!躺賺時代要來了?

人工智能 新聞
Vending-Bench模擬環境可以測試大模型管理自動售貨機的能力,結果顯示,Claude 3.5 Sonnet表現最佳,人類屈居第四!

如何用AI賺錢,可能是這個時代最常見的問題。

有些人選擇用大模型寫小說、寫報告、寫文案等等,但這些場景只是讓模型在執行一些「短期且孤立」的任務。

如果能找到合適的應用場景,比如「用自動駕駛跑網約車」,并且模型還能夠在長時間內保持連貫的輸出,再那豈不是就能躺賺了?

最近,有研究人員提出了一個自動售貨機運營模擬環境Vending-Bench,專門用來測試基于大模型的智能體管理一個簡單、長期運行業務場景的能力。

智能體必須平衡庫存、下訂單、設定價格以及處理日常費用,這些任務單個執行都非常簡單,但綜合起來,在長時間運行(每次運行超過兩千萬個token)的情況下,對大模型持續、連貫決策的能力來說是個很大的挑戰。

圖片

論文鏈接:https://arxiv.org/pdf/2502.15840

實驗結果也顯示了不同大模型之間的性能方差很大:Claude 3.5 Sonnet和o3-mini在大多數運行中能很好地管理機器并盈利,但所有模型都出現過運營失誤:

要么是由于誤解配送時間表、忘記訂單,要么是陷入細枝末節的「崩潰」循環,并且很少有模型能解決這些問題,也無法恢復運營。

圖片

而且,運營失敗與模型上下文窗口溢出時間沒有明顯的相關性,表明運營失敗并非源于內存限制。

Vending-Bench設計理念

智能體(agent)可以讓生成式AI自主地采取行動來完成指定任務,最簡單的實現方式是「循環」,根據之前的迭代結果和任務目標反復調用工具。

圖片

Vending-Bench框架下設計的智能體具有以下特點:

上下文管理:在每次迭代中,智能體都會將歷史記錄中的最后N個(實驗設置為30,000個)token作為輸入傳遞給生成式人工智能進行推理。

記憶工具:智能體可以對三種數據庫(草稿區、鍵值存儲和向量)進行讀取、寫入和刪除,以彌補其記憶能力的限制。其中,向量數據庫基于OpenAI的「text-embedding-3-small」模型計算文本和嵌入向量,并使用余弦相似度進行搜索。

任務相關工具:與自動售貨機業務的運營相關。

一些可以通過遠程操作完成的任務可以直接調用相關工具,比如閱讀和撰寫電子郵件、使用搜索引擎查找產品信息、查看當前的庫存情況以及檢查資金余額等。

對于需要在現實世界中進行物理操作的部分操作,研究人員實現了一個子智能體,模擬了與現實世界中人類的互動,可以完成從倉庫向自動售貨機補充商品、收取現金、設置價格以及獲取自動售貨機的庫存信息。

在技術實現上,研究人員開發了inspect-ai框架的一個擴展模塊,可以讓主智能體將任務委托給子智能體,具體工具包括:

sub_agent_specs:返回子智能體的相關信息,包括可用工具的列表。

run_sub_agent:以字符串形式向子智能體發出指令并執行。

chat_with_sub_agent:向子智能體提問,了解運行過程中完成了什么操作。

系統中也有時間概念,智能體每次采取行動都會推動時間線,也可以選擇使用「wait_for_next_day」工具加速時間流逝。

每天早上,智能體會收到通知,告知購買到哪些商品,以及是否收到了新的電子郵件。

為了成功完成售貨機運營任務,智能體需要做到:

  • 發送電子郵件從供應商處購買商品
  • 將商品補充到自動售貨機中
  • 設置的價格必須在市場上有競爭力
  • 定期收取收入
  • 控制日常運營成本

任務環境還要求智能體模擬人類行為,包括與批發供應商的溝通,以及顧客購買等。

供應商交流

圖片

在尋找供應商前,智能體需要使用搜索引擎查找流行的自動售貨機商品,然后尋找地址附近的批發商聯系方式并發送電子郵件,詢問商品信息。

當新的一天開始時,批發商會回復一封由AI生成的電子郵件,回復內容取決于真實數據和請求內容。

決定購買商品后,智能體必須在電子郵件中明確指定要購買的商品名稱和數量、送貨地址以及批發商可以扣款的賬戶號碼。

商品發貨后,幾天就會到達庫存,并收到一封電子郵件通知。

根據預定價格,經濟系統會彈性模擬每天顧客的購買行為,如果商品價格定得過高,銷量就會下降。

環境配置

智能體一開始有500美元的初始資金,并且每天需要支付2美元的費用來運營自動售貨機。

自動售貨機有四排,每排有三個格子,其中兩排用于放置小件商品,另外兩排用于放置大件商品,商品尺寸由GPT-4o在訂購產品時確定。

智能體使用一個工具時,環境中的時間會向前推進5分鐘、25分鐘、75分鐘或5小時,取決于所使用的工具;記憶容量為3萬個token

智能體每天運行2000條消息,如果模型連續10天無法支付每日費用而破產,運營就會提前結束。

評分方法

智能體的主要評分標準是游戲結束時的凈資產,即手頭現金、自動售貨機中尚未取出的現金、已購買但尚未售出的商品的價值。

除了凈資產之外,研究人員還會跟蹤智能體的資金余額、售出的商品數量以及對工具的使用情況。

實驗結果

為了將不同模型的結果與人類表現進行對比,研究人員搭建了一個基于聊天的界面,然后安排了一位人類參與者用五個小時來完成運營任務,參與者在開始之前對任務沒有任何預先了解,僅通過任務提示和與環境的互動來理解任務的運作方式。

圖片

每個模型運行五次后,從結果中可以看出,Claude 3.5 Sonnet的凈資產表現最為出色,遙遙領先,而o3-mini則位居第二

在可靠性上,只對模型最差的一次運行進行評估后,發現人類基線表現最好,其次是Claude 3.5 Sonnet和Gemini 1.5 Pro

按照售出商品數量進行的排名通常與凈資產排名一致,但即使是排名靠前的模型,有時也會出現一件商品都賣不出去的情況,凸顯了模型在長周期內的表現波動很大。

研究人員還測量了模型在停滯之前能夠運行的天數,即停止銷售商品的時間。

Claude 3.5 Sonnet在這個指標上排名最高,可以看到如果自動售貨機始終保持有貨,那么運行時間越長,銷售的機會就越多,不過所有模型最終都會停止。

為了更詳細地分析模型在模擬天數上的表現,研究人員主要分析了GPT-4o、Claude 3.5 Sonnet、o3-mini 和 Gemini 1.5 Pro的表現。

圖片

當把評估限制在2000條消息,可以發現o3-mini在模擬中持續時間最長,達到了222天。

從圖中陰影部分的不確定性區域(±1個標準差)可以看出,模型在五次運行中都表現出非常高的波動性。

圖片

對于所有模型,可以觀察到,隨著時間推移,在大約120天后,每日工具的使用頻率都在下降,其中o3-mini、Gemini 1.5 Pro和GPT-4o的下降最為明顯。

工具使用頻率降低通常意味著經濟活動的減少,在凈資產圖表中表現得尤為明顯:o3-mini在初期表現良好,但隨后其凈資產開始停滯甚至下降(沒有銷售且每天仍有費用),與其工具使用頻率的下降模式相似。

相比之下,Gemini 1.5 Pro和GPT-4o在凈資產表現上最差,使用電子郵件功能的頻率也最低。

責任編輯:張燕妮 來源: 新智元
相關推薦

2016-01-29 12:38:11

2025-07-04 16:47:35

AI模型工具

2022-02-18 09:53:17

AI芯片設計

2025-04-30 06:52:20

2018-03-06 14:59:13

2012-12-07 13:19:01

打印企業

2022-09-26 12:17:56

SIMeSIMiPhone

2024-04-12 14:12:45

人工智能JavaScript

2021-01-28 16:58:12

數字貨幣加密貨幣區塊鏈

2023-03-15 09:11:49

2013-01-10 10:18:59

云BI云分析大數據

2024-04-07 00:00:00

JSNode.jsAI

2025-02-11 13:00:00

2024-04-01 07:00:00

模型AI

2015-05-12 14:12:25

馬自達

2013-08-08 10:21:12

Android 5.0創新
點贊
收藏

51CTO技術棧公眾號

一区二区在线观看免费视频| 潘金莲激情呻吟欲求不满视频| 五月婷婷丁香花| 天堂影院一区二区| 视频在线观看一区二区| 秋霞午夜鲁丝一区二区 | 久久精品91久久香蕉加勒比 | 国产一区高清| 亚洲一区二区三区激情| 日韩精品久久久| 精品人妻无码一区二区三区蜜桃一| 亚洲尤物影院| 美女国内精品自产拍在线播放| 超碰97在线资源站| 91精品福利观看| 色婷婷激情久久| 大荫蒂性生交片| av大片在线播放| 97久久精品人人澡人人爽| 国产美女被下药99| 日本一区二区免费电影| 国内自拍视频一区二区三区| 一本大道亚洲视频| 国产激情第一页| 国产精品视频一区二区三区| 91国偷自产一区二区开放时间| 精品一二三四五区| 日本不卡不卡| 国产三级精品视频| 久久久久久久久久久久久久久久av| 国产日韩在线观看一区| 免费在线看成人av| 欧美又大粗又爽又黄大片视频| 欧美精品久久久久性色| 欧美国产美女| 色婷婷av一区二区三区在线观看| 亚洲做受高潮无遮挡| 老牛精品亚洲成av人片| 欧美成人精品福利| 国产永久免费网站| 91另类视频| 色老综合老女人久久久| 日本福利视频在线| 黄色软件视频在线观看| 亚洲电影在线播放| 久久99久久久久久| 国内在线视频| 亚洲国产色一区| 青青草国产免费| 2001个疯子在线观看| 亚洲一区二区在线免费观看视频| 国产对白在线播放| 2020国产在线视频| 亚洲综合一二区| 久久99久久99精品| 美女高潮视频在线看| 精品欧美国产一区二区三区| 国产av人人夜夜澡人人爽麻豆| 伊人精品影院| 亚洲一区二区中文在线| www..com日韩| 亚洲欧洲自拍| 在线观看日韩毛片| www.日本一区| 久久综合给合| 亚洲第一精品自拍| 免费观看av网站| 欧美日韩伦理在线免费| 日韩在线视频观看| 国产十六处破外女视频| 红桃视频国产一区| 69久久夜色精品国产69乱青草| 国产91精品一区| 免费人成精品欧美精品| 成人天堂噜噜噜| 免费国产精品视频| 久久九九99视频| 一区二区精品在线| 色呦呦在线资源| 懂色aⅴ精品一区二区三区蜜月| 国产一区二区视频免费在线观看| 福利精品在线| 欧美大肚乱孕交hd孕妇| 国产三级视频网站| 91视频一区| 97不卡在线视频| 伊人22222| 成人18视频在线播放| 色之综合天天综合色天天棕色| 黄色在线免费看| 五月天欧美精品| 天天色综合天天色| www国产精品| 伊人久久精品视频| 久久精品视频日本| 老鸭窝一区二区久久精品| 成人免费看片网站| 福利在线播放| 婷婷开心久久网| www.欧美激情.com| 亚洲福利网站| 欧美日韩成人在线观看| 奴色虐av一区二区三区| 国产91精品一区二区麻豆网站| 欧美一卡2卡3卡4卡无卡免费观看水多多| 香蕉视频国产在线观看| 亚洲妇熟xx妇色黄| 免费在线观看污网站| 在线一级成人| 欧美激情久久久久| 亚洲最大成人av| 久久夜色精品国产噜噜av| 最近免费观看高清韩国日本大全| 久久电影tv| 亚洲成人网在线| 中国毛片直接看| 日韩电影在线看| 久久久久久草| 国产www视频在线观看| 欧美日韩国产小视频在线观看| a视频免费观看| 狠狠干综合网| 亚洲free性xxxx护士白浆| 在线免费看a| 欧美性20hd另类| 午夜av免费看| 亚洲天堂偷拍| 99精彩视频在线观看免费| 日本三级视频在线播放| 色呦呦网站一区| 制服丝袜第二页| 亚洲人体大胆视频| 成人羞羞视频免费| 调教一区二区| 日韩欧美一区二区三区在线| 国产高清视频免费在线观看| 蜜桃视频免费观看一区| 日韩亚洲视频在线| 国产精品高清乱码在线观看 | 91视频国产一区| 在线视频91p| 欧美精品一卡二卡| 懂色av蜜臀av粉嫩av永久| 日韩电影免费在线看| 欧美激情第六页| 一区一区三区| 亚洲免费视频观看| 黄色av网站免费观看| 久久久精品tv| 美女一区二区三区视频| 精品国产乱码久久久久久1区2匹| 国产精品精品视频一区二区三区| 国产黄色在线| 91超碰这里只有精品国产| 免费成人美女女在线观看| 韩国午夜理伦三级不卡影院| 韩国黄色一级大片| 日韩中文字幕视频网| 欧美极品欧美精品欧美视频| 色婷婷av一区二区三区之红樱桃 | 九九久久久久99精品| www日本高清视频| 亚洲成人777| 久久久久久九九九九九| 日韩电影免费在线看| 中文视频一区视频二区视频三区| 国产精品免费精品自在线观看| 欧美激情区在线播放| 亚洲三区在线播放| 在线观看欧美日本| 国产精品白丝喷水在线观看| 国产成人精品三级| 欧美日韩精品在线一区二区 | 亚洲一区999| 国产精品欧美亚洲| 日韩毛片在线免费观看| 秘密基地免费观看完整版中文| 99国产精品99久久久久久粉嫩| 欧美日本国产精品| av在线成人| 97超级碰在线看视频免费在线看 | 国产内射老熟女aaaa∵| 亚洲成人福利片| 手机看片福利视频| 国产高清在线精品| 日韩欧美xxxx| 国产精品观看| 色狠狠久久av五月综合| aiai久久| 国产乱肥老妇国产一区二| 国产深夜视频在线观看| 一区二区日韩精品| 精品国产乱码一区二区三| 福利视频一区二区| 情侣偷拍对白清晰饥渴难耐| 99国产精品久久久久久久久久久| 岛国毛片在线播放| 国产精品久久777777毛茸茸 | 欧美 日韩 国产在线| 综合久久伊人| 欧美中文字幕视频| a级在线观看| 国产一区二区美女视频| 蜜桃视频久久一区免费观看入口| 欧美在线不卡一区| 免费看日韩毛片| 亚洲免费资源在线播放| 亚洲理论片在线观看| 高清不卡一区二区| jizz欧美性11| 久久久噜噜噜久久狠狠50岁| 国产精品无码免费专区午夜| 999国产精品永久免费视频app| 久久青青草综合| 91亚洲精品视频在线观看| 国产精品自拍偷拍| 中文在线8资源库| 欧美高清视频免费观看| 黄色网址在线免费| 国产一区二区美女视频| 深夜福利在线观看直播| 精品久久久久久久久久久久包黑料 | 国产人妖乱国产精品人妖| 国产二级一片内射视频播放| 国产在线一区观看| 美女一区二区三区视频| 噜噜噜躁狠狠躁狠狠精品视频| 可以在线看的av网站| 一区久久精品| 青草青青在线视频 | 国产91xxx| 欧美+亚洲+精品+三区| 日韩第一页在线观看| 欧美wwwww| 视频一区二区三区免费观看| 精品国产一区二区三区香蕉沈先生 | 亚洲美女区一区| 三级黄色在线观看| 国产精品久久久久久户外露出 | 国产精品欧美激情| 日韩不卡免费高清视频| 欧美最近摘花xxxx摘花| 中文字幕在线视频久| 人妖精品videosex性欧美| 中文字幕成在线观看| 秋霞成人午夜鲁丝一区二区三区| 中国字幕a在线看韩国电影| 日本免费久久高清视频| 天天综合网站| 国产区精品视频| 成人黄色理论片| 99高清视频有精品视频| 高清欧美性猛交xxxx黑人猛| 国产嫩草一区二区三区在线观看| 国产精品chinese在线观看| 国产三级精品在线不卡| 综合亚洲自拍| 无码免费一区二区三区免费播放| 日韩中文在线电影| 日韩国产精品毛片| 亚洲欧美综合国产精品一区| 国产成人永久免费视频| 国产精品主播| 粉色视频免费看| 国产成人8x视频一区二区| 波多野结衣一二三区| 久久久久一区二区三区四区| 亚洲综合久久av一区二区三区| 亚洲九九爱视频| 五月天综合激情| 欧美亚洲综合另类| 精品人妻久久久久一区二区三区 | 欧美日韩国产首页| 国产成人精品一区二区无码呦| 亚洲成成品网站| 国产二区在线播放| 欧美大码xxxx| 亚洲一区站长工具| 国产免费观看久久黄| 中文无码日韩欧| 欧美日韩亚洲免费| 亚洲国产一成人久久精品| 97在线国产视频| 日韩在线播放一区二区| 色哟哟网站在线观看| 国产视频一区在线播放| 综合五月激情网| 欧美视频裸体精品| 国产精品系列视频| 日韩精品在线免费观看视频| 欧美jizzhd69巨大| 538国产精品视频一区二区| 午夜精品久久久久久毛片| 久久99九九| 一区二区三区午夜视频| 成人精品视频一区二区| 高清国产一区二区三区| 亚洲a∨无码无在线观看| 精品美女国产在线| 国产偷人妻精品一区二区在线| 亚洲欧洲一区二区三区久久| 欧美xxxbbb| 国产精品久久婷婷六月丁香| 国产精品自在| 一区二区三区四区免费观看| 久久狠狠婷婷| 欧美xxxx×黑人性爽| 最新国产精品久久精品| 国产亚洲欧美日韩高清| 亚洲精品一区二区三区99| 黄色在线视频网站| 国产精品久久一| 蜜桃精品wwwmitaows| 青青青青草视频| 国产成人亚洲综合色影视| 污污视频网站在线免费观看| 懂色av中文一区二区三区天美| 亚洲第一成人av| 久热爱精品视频线路一| 97成人超碰| 日本一区二区高清视频| 在线亚洲国产精品网站| xxxx视频在线观看| 亚洲欧美综合在线精品| 怡红院男人的天堂| 亚洲人精选亚洲人成在线| 美女露胸视频在线观看| 国产一级二级三级精品| 黄色av一区| xxxx视频在线观看| 亚洲综合在线五月| 精品国产乱码一区二区三| 超碰日本道色综合久久综合| 久久爱.com| 亚洲欧美日韩精品在线| 日本午夜精品视频在线观看 | 天天操天天操天天操| 欧美黄网免费在线观看| 亚洲一区二区三区中文字幕在线观看 | 视色视频在线观看| 国产情人综合久久777777| 日日夜夜狠狠操| 亚洲天堂第一页| 电影亚洲精品噜噜在线观看| 欧美连裤袜在线视频| 久久中文欧美| 一级特黄曰皮片视频| 欧美综合一区二区三区| 日本激情视频在线观看| 国产一区欧美二区三区| 天天操综合网| 中文字幕avav| 亚洲国产视频一区二区| 日本人妻熟妇久久久久久| 97国产真实伦对白精彩视频8| 猫咪成人在线观看| 国产女女做受ⅹxx高潮| 中文字幕高清一区| 999久久久久久| 久久久久久久97| 偷拍亚洲色图| 免费涩涩18网站入口| 亚洲欧美日韩国产中文在线| 国内毛片毛片毛片毛片| 97视频在线观看免费高清完整版在线观看| 国产精品极品| 国产精品久久久久9999小说| 中文字幕一区二区三区四区不卡| 99热这里只有精品3| 国产69精品久久久| 欧美精品momsxxx| 91精品999| 婷婷国产在线综合| 8888四色奇米在线观看| 999视频在线免费观看| 亚洲精品人人| 四季av中文字幕| 日韩欧美一级二级| 天堂av中文在线观看| 一区二区不卡在线观看| 成人深夜在线观看| 7799精品视频天天看| 久热精品视频在线免费观看| 日韩成人av在线资源| www.污污视频| 五月天欧美精品| 日本三级在线视频| 精品1区2区| 久久99久久精品| 久久不卡免费视频| 久久久精品久久久| 日韩精品免费一区二区三区竹菊 | 欧美日韩一级黄色片| 精品激情国产视频| 欧美激情久久久久久久久久久| 一本色道久久亚洲综合精品蜜桃| 亚洲风情在线资源站| 137大胆人体在线观看| 九色视频成人porny| 狠狠色狠狠色综合|