精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI“推理”模型興起,基準(zhǔn)測試成本飆升

人工智能
隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢卻伴隨著高昂的測試成本,使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

4 月 13 日消息,隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢卻伴隨著高昂的測試成本,使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

據(jù)第三方 AI 測試機(jī)構(gòu)“人工智能分析”(Artificial Analysis)提供的數(shù)據(jù)顯示,評估 OpenAI 的 o1 推理模型在七個(gè)流行的 AI 基準(zhǔn)測試(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表現(xiàn),需要花費(fèi) 2767.05 美元(IT之家注:現(xiàn)匯率約合 20191 元人民幣)。而評估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元(現(xiàn)匯率約合 10839 元人民幣),相比之下,測試 OpenAI 的 o3-mini-high 則只需 344.59 美元(現(xiàn)匯率約合 2514 元人民幣)。盡管有些推理模型的測試成本相對較低,例如評估 OpenAI 的 o1-mini 只需 141.22 美元(現(xiàn)匯率約合 1030 元人民幣),但從整體來看,推理模型的測試成本仍然比較高昂。截至目前,“人工智能分析”已經(jīng)花費(fèi)了約 5200 美元(現(xiàn)匯率約合 37945 元人民幣)來評估大約十幾種推理模型,這一金額接近該公司分析超過 80 種非推理模型所花費(fèi)的 2400 美元的兩倍。

OpenAI 在 2024 年 5 月發(fā)布的非推理 GPT-4o 模型,其評估成本僅為 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的評估成本為 81.41 美元。“人工智能分析”聯(lián)合創(chuàng)始人喬治?卡梅倫(George Cameron)向 TechCrunch 表示,隨著越來越多的 AI 實(shí)驗(yàn)室開發(fā)推理模型,該組織計(jì)劃增加其測試預(yù)算。“在‘人工智能分析’,我們每月進(jìn)行數(shù)百次評估,并為此投入了相當(dāng)可觀的預(yù)算,”卡梅倫說,“我們預(yù)計(jì)隨著模型的頻繁發(fā)布,這一支出將會(huì)增加。”

“人工智能分析”并非唯一面臨 AI 測試成本上升的機(jī)構(gòu)。AI 初創(chuàng)公司“通用推理”(General Reasoning)的首席執(zhí)行官羅斯?泰勒(Ross Taylor)表示,他最近花費(fèi)了 580 美元用大約 3700 個(gè)獨(dú)特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計(jì),僅對 MMLU Pro(一套旨在評估模型語言理解能力的問題集)進(jìn)行一次完整的測試,成本就會(huì)超過 1800 美元。“我們正在邁向一個(gè)世界,在這個(gè)世界里,一個(gè)實(shí)驗(yàn)室在一項(xiàng)基準(zhǔn)測試中報(bào)告 x% 的結(jié)果,而他們在其中花費(fèi)了 y 數(shù)量的計(jì)算資源,但學(xué)者們的資源遠(yuǎn)遠(yuǎn)小于 y,”泰勒在 X 上最近的一篇帖子中寫道,“沒有人能夠復(fù)制這些結(jié)果。”

那么,為什么推理模型的測試成本如此之高呢?主要原因在于它們生成了大量的 token。token 代表原始文本的片段,例如將單詞“fantastic”拆分為音節(jié)“fan”、“tas”和“tic”。據(jù)“人工智能分析”稱,在該公司的基準(zhǔn)測試中,OpenAI 的 o1 生成了超過 4400 萬個(gè) token,大約是 GPT-4o 生成量的八倍。大多數(shù) AI 公司都是按 token 收費(fèi)的,因此成本很容易就會(huì)累積起來。

此外,現(xiàn)代基準(zhǔn)測試通常會(huì)從模型中引出大量 token,因?yàn)樗鼈儼婕皬?fù)雜、多步驟任務(wù)的問題。Epoch AI 的高級研究員讓-斯坦尼斯拉斯?德內(nèi)恩(Jean-Stanislas Denain)表示,這是因?yàn)榻裉斓幕鶞?zhǔn)測試更加復(fù)雜,盡管每個(gè)基準(zhǔn)測試的問題數(shù)量總體有所減少。“它們通常試圖評估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力,例如編寫和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)以及使用計(jì)算機(jī),”德內(nèi)恩稱。德內(nèi)恩還指出,最昂貴的模型隨著時(shí)間的推移,每個(gè) token 的成本也在增加。例如,Anthropic 在 2024 年 5 月發(fā)布的 Claude 3 Opus 是當(dāng)時(shí)最昂貴的模型,每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時(shí)候推出的 GPT-4.5 和 o1-pro,每百萬輸出 token 的成本分別為 150 美元和 600 美元。

“盡管隨著時(shí)間的推移,模型的性能有所提高,達(dá)到給定性能水平的成本也確實(shí)大幅下降,但如果你想在任何特定時(shí)間評估最大最好的模型,你仍然需要支付更多,”德內(nèi)恩說。許多 AI 實(shí)驗(yàn)室,包括 OpenAI,為測試目的向基準(zhǔn)測試組織提供免費(fèi)或補(bǔ)貼的模型訪問權(quán)限。但一些專家表示,這會(huì)影響測試結(jié)果的公正性 —— 即使沒有操縱的證據(jù),AI 實(shí)驗(yàn)室的參與本身就可能損害評估評分的完整性。

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2022-04-11 11:37:13

AI研究NLP

2025-04-21 08:22:25

2025-06-10 09:10:00

2014-04-17 09:25:20

VM Depot文思海輝Microsoft A

2025-04-09 04:22:00

2012-11-12 11:00:56

風(fēng)河Ido測試

2013-05-07 09:47:30

測試MySQLMySQL測試

2024-07-19 09:59:31

2025-10-15 00:00:00

2024-12-02 11:45:48

2025-01-16 08:40:00

2024-01-24 13:11:00

AI模型

2025-05-08 09:05:37

2024-09-05 16:37:37

2024-08-27 08:38:34

2009-07-02 18:41:24

TPC能耗服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲精品写真福利| 久久99日本精品| 日韩精品在线免费观看| www.com毛片| 毛片在线播放网站| 麻豆精品国产传媒mv男同| 欧美国产日韩在线| 中文字幕人妻一区二区三区在线视频| 91精品麻豆| 午夜精品国产更新| 亚洲精品一品区二品区三品区 | 超碰97av在线| 亚洲精品在线a| 在线精品视频小说1| 国产精品69久久久| av在线电影播放| 国产成人在线观看免费网站| 国产精品91久久久| 免费看一级一片| 青草国产精品| 欧美精品一区二区在线播放| 波多结衣在线观看| 爱啪啪综合导航| 亚洲欧美综合在线精品| 久久国产精品久久| 国产高清精品软件丝瓜软件| 日本午夜精品视频在线观看 | 国产手机在线视频| 欧美一区二区三区久久精品茉莉花| 日韩av网址在线观看| 波多野结衣网页| 韩国精品视频在线观看| 一本大道久久a久久综合| 青草全福视在线| 免费的黄网站在线观看| 久久精品一区蜜桃臀影院| 国产一区二区无遮挡| 国产av无码专区亚洲av| 蓝色福利精品导航| 国产成人精品综合| 丁香六月婷婷综合| 国产日韩一区| 91豆花精品一区| 日韩免费av片| 亚洲第一精品影视| 久久国产加勒比精品无码| 任你操精品视频| 日韩中文在线电影| 亚洲人线精品午夜| 级毛片内射视频| 国产麻豆一区二区三区精品视频| 欧美精品一区二区三区蜜臀 | 综合中文字幕| 精品国产自在久精品国产| 超碰人人cao| 亚洲一二av| 亚洲成人亚洲激情| chinese麻豆新拍video| 国产精品极品| 亚洲国产精品久久久久久| 国产婷婷在线观看| jizz性欧美23| 日韩精品中文字幕视频在线| 亚洲图色一区二区三区| 19禁羞羞电影院在线观看| 91色婷婷久久久久合中文| 国产综合欧美在线看| 内射无码专区久久亚洲| 成人综合在线网站| 国产成人免费电影| 秋霞av鲁丝片一区二区| 91亚洲精品久久久蜜桃| 欧美日韩在线观看一区| 久草福利在线视频| 中文无字幕一区二区三区| 中文字幕中文字幕在线中一区高清| 黄色免费在线观看网站| 亚洲一区中文日韩| 成人在线免费在线观看| 日本欧美韩国| 7777精品伊人久久久大香线蕉超级流畅 | 国产黄色av网站| 成人性生交大合| 美女视频久久| 日本中文字幕电影在线免费观看| 亚洲三级电影全部在线观看高清| www.亚洲成人网| 一区二区三区短视频| 欧美日本在线视频| 亚洲乱妇老熟女爽到高潮的片| 全球av集中精品导航福利| 亚洲图片欧美日产| 中文字幕另类日韩欧美亚洲嫩草| 亚洲国产裸拍裸体视频在线观看乱了中文| 欧美性资源免费| 国产一区二区三区在线观看| 成人不卡免费av| 五月天综合网| 成人在线播放| 欧美日韩在线视频观看| 国产精品自在自线| 乱亲女h秽乱长久久久| 色琪琪综合男人的天堂aⅴ视频| 久久激情免费视频| 日韩精品福利网| 成人资源av| 国产二区在线播放| 午夜天堂影视香蕉久久| 免费看污污网站| 亚洲精品推荐| 欧美精品久久久久a| 成人免费一级片| av爱爱亚洲一区| 国产高清精品软男同| 91av亚洲| 亚洲成人精品视频| 午夜精品一区二区三区视频| 丝袜诱惑制服诱惑色一区在线观看| 99久久99久久| 国产九色在线| 欧美性猛交xxxx乱大交极品| 麻豆tv在线观看| 午夜精品毛片| 国产精品色视频| 久久手机免费观看| 精品久久久久久久久久| 日韩av片免费观看| 成人久久综合| 国产精品福利网站| 男生女生差差差的视频在线观看| 亚洲大片精品永久免费| 免费国偷自产拍精品视频| 成人女性视频| 国产精品久久久久久久久久免费| 亚洲AV成人无码一二三区在线 | 男人的天堂一区二区| 国产美女一区二区三区| 亚洲视频在线二区| 国产一区二区三区朝在线观看| 日韩成人久久久| 国产欧美日韩另类| 不卡一区二区中文字幕| 欧美国产视频一区| 亚洲精品v亚洲精品v日韩精品| www.日韩av.com| 国产精品国产av| 中文字幕在线播放不卡一区| 无码内射中文字幕岛国片| 亚洲日本三级| 国产精品h片在线播放| 欧美女子与性| 91国偷自产一区二区三区观看| 国产三级视频网站| 美女精品在线| 日韩精品一区二区三区丰满| 日本一区免费网站| 在线观看不卡av| 国产理论片在线观看| 亚洲欧美电影院| 亚洲精品久久久久久| 国产精品va| 精品无人区一区二区三区| 天堂电影一区| 伊人久久免费视频| 一区二区三区在线免费观看视频| 中文字幕乱码久久午夜不卡| 91福利免费观看| 欧美视频不卡| 久久精品一二三区| 巨胸喷奶水www久久久免费动漫| 最近2019中文字幕第三页视频| 一级做a爱片久久毛片| 亚洲另类一区二区| 中文字幕第3页| 久久综合九色| 一道本在线观看视频| 一区二区网站| 欧美亚洲伦理www| chinese偷拍一区二区三区| 88在线观看91蜜桃国自产| 国产亚洲自拍av| 久久久久久一二三区| 久热精品在线观看视频| 欧美xxx在线观看| 久久66热这里只有精品| 成人精品国产亚洲| 欧美精品18videosex性欧美| 青青青手机在线视频观看| 欧美日韩综合在线| 国产一级一片免费播放| 国产亚洲人成网站| 原创真实夫妻啪啪av| 亚洲综合激情| 日本xxx免费| 亚洲a级精品| 亚洲精品欧美日韩| 小h片在线观看| 久久五月天色综合| 深夜视频在线免费| 91精品国产品国语在线不卡| 97久久久久久久| 亚洲精品视频观看| 婷婷色一区二区三区| 岛国av在线一区| 91高清国产视频| 一本一本久久| 4444在线观看| 日韩夫妻性生活xx| 精品免费二区三区三区高中清不卡| 国产精品第一| 国产91色在线免费| 成全电影大全在线观看| 久久精品视频99| 成人在线观看一区| 亚洲高清一区二| h狠狠躁死你h高h| 欧美色偷偷大香| 精品成人av一区二区在线播放| 亚洲日本一区二区| 国产又粗又硬视频| 久久久亚洲精品石原莉奈| 国产chinesehd精品露脸| 美女在线视频一区| 精品视频无码一区二区三区| 一本久道久久久| 国产精彩视频一区二区| 亚洲精品久久| av不卡在线免费观看| gogogo高清在线观看一区二区| 国产日韩二区| 99精品在免费线中文字幕网站一区| 91在线看www| 日韩三级一区| 成人福利网站在线观看| 精品69视频一区二区三区| 日韩暖暖在线视频| 中文字幕影音在线| 欧美中文在线免费| 欧美办公室脚交xxxx| 欧美激情久久久| 国产亚av手机在线观看| 欧美激情久久久久久| www.久久久久.com| 久久亚洲一区二区三区四区五区高| lutube成人福利在线观看| 国产一区二区三区视频免费| 精品三级久久久久久久电影聊斋| 亚洲开心激情网| 欧美老女人性开放| 亚洲一区www| av电影在线观看网址| 亚洲性线免费观看视频成熟| 成人在线免费看| 色婷婷综合成人av| 成人黄视频在线观看| 欧美激情乱人伦一区| free性欧美16hd| 欧美又大又硬又粗bbbbb| 在线天堂新版最新版在线8| 日本精品久久久| 日韩av超清在线观看| 国产日韩精品在线| 国产精品国产亚洲精品| 91一区二区三区| 久久久免费毛片| 日韩三级电影网站| 欧美电影免费观看高清| 成年丰满熟妇午夜免费视频 | 视频一区欧美| 亚洲一区二区免费视频软件合集 | aa视频在线播放| 男人的天堂亚洲| 亚洲一级片免费| 国产精品1区二区.| 精品无码在线视频| 中文字幕av资源一区| 青娱乐91视频| 欧美小视频在线观看| 中文亚洲av片在线观看| 日韩美女在线视频| 日本在线一二三| 精品国产区一区二区三区在线观看| 在线观看男女av免费网址| 午夜精品久久久久久久久久久久久 | 欧美激情第8页| 虎白女粉嫩尤物福利视频| 蜜桃视频一区二区三区| 中国特级黄色片| 国产婷婷色一区二区三区四区 | 成人高清免费在线播放| 久久精品国产成人| 第一福利在线视频| 成人看片人aa| 午夜精品影视国产一区在线麻豆| 亚洲一区二区精品在线| 一区二区日韩免费看| 九九九九九国产| 97久久超碰国产精品| 少妇高潮在线观看| 都市激情亚洲色图| 国产suv精品一区二区69| 国产一区二区黄| 高潮在线视频| 91日韩在线视频| 欧美禁忌电影| 亚洲精品蜜桃久久久久久| 免费精品视频在线| 国产精品伦子伦| 亚洲精品成人少妇| 亚洲午夜无码久久久久| 日韩av网站电影| 欧美78videosex性欧美| 国产一区私人高清影院| 中文字幕伦av一区二区邻居| www.九色.com| 韩国v欧美v亚洲v日本v| 摸摸摸bbb毛毛毛片| 欧美日韩国产一区二区三区| www.97av.com| 久久久av电影| 久久久久黄色| 午夜精品区一区二区三| 丝袜诱惑亚洲看片| 国产全是老熟女太爽了| 精品久久香蕉国产线看观看gif| 不卡视频免费在线观看| 久久精品99久久久久久久久| 岛国精品在线| 视频一区在线免费观看| 久久三级视频| 熟女俱乐部一区二区视频在线| 亚洲成人一二三| 亚洲精品国产精| 久久99久久99精品免观看粉嫩 | 亚洲怡红院在线观看| 欧美自拍偷拍午夜视频| 欧美少妇另类| 欧美最顶级的aⅴ艳星| 午夜欧洲一区| 50路60路老熟妇啪啪| 91女厕偷拍女厕偷拍高清| 天天操天天干视频| 日韩精品视频在线观看网址| 超碰99在线| 蜜桃网站成人| 水野朝阳av一区二区三区| 国产全是老熟女太爽了| 在线欧美日韩精品| 粉嫩av在线播放| 国产精品久久久久久久久粉嫩av| 国产永久精品大片wwwapp| 日日碰狠狠丁香久燥| 欧美激情一区不卡| 亚洲天堂avav| 久久国产精品影视| 天堂精品久久久久| 国产二区视频在线| 91尤物视频在线观看| 成人免费毛片视频| 国产一区二区三区视频免费| 午夜不卡一区| 50度灰在线观看| 成人三级伦理片| 久久国产黄色片| 有码中文亚洲精品| 高清国产一区二区三区四区五区| 黄色小视频大全| 99久免费精品视频在线观看 | 日本中文在线一区| 成人三级视频在线观看| 日韩视频123| 欧美男男激情videos| 日韩三级电影免费观看| 国产精品综合久久| 91九色丨porny丨肉丝| 在线观看日韩视频| 久久精品一级| 国产超级av在线| 国产精品卡一卡二| 精品国产免费无码久久久| 91高清免费视频| 99精品视频在线观看免费播放| 又大又长粗又爽又黄少妇视频| 欧美午夜精品久久久久久久| 日韩欧美小视频| 国产一区二区三区四区五区在线| 日韩高清在线电影| 免费在线黄色片| 国产亚洲精品美女| 成人精品毛片| 污污的视频免费| 欧美日韩在线视频一区| 国产精品刘玥久久一区| 久久www免费人成精品| 国产在线视视频有精品| 天天综合天天干| 九九视频这里只有精品| 要久久电视剧全集免费| 午夜影院免费版| 欧美三级三级三级|