精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM仍然不能規(guī)劃,刷屏的OpenAI o1遠未達到飽和

人工智能 新聞
實驗證明,大模型的 System 2 能力還有待開發(fā)。

規(guī)劃行動方案以實現(xiàn)所需狀態(tài)的能力一直被認為是智能體的核心能力。隨著大型語言模型(LLM)的出現(xiàn),人們對 LLM 是否具有這種規(guī)劃能力產(chǎn)生了極大的興趣。

最近,OpenAI 發(fā)布了 o1 模型,一舉創(chuàng)造了很多歷史記錄。o1 模型擁有真正的通用推理能力。在一系列高難基準測試中展現(xiàn)出了超強實力,相比 GPT-4o 有巨大提升,讓大模型的上限從「沒法看」直接上升到優(yōu)秀水平,不專門訓練直接數(shù)學奧賽金牌,甚至能在博士級別的科學問答環(huán)節(jié)上超越人類專家。

那么,o1 模型是否具備上述規(guī)劃能力?

2022 年,來自亞利桑那州立大學(ASU)的研究團隊開發(fā)了評估 LLM 規(guī)劃能力的基準 ——PlanBench。現(xiàn)在,亞利桑那州立大學研究團隊全面審視了當前 LLM 在 PlanBench 上的表現(xiàn),包括 o1 模型。值得注意的是,雖然 o1 在基準測試上性能超過了競爭對手,但它還遠未達到飽和狀態(tài)。

圖片

  • 論文標題:LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
  • 論文地址:https://arxiv.org/pdf/2409.13373

SOTA 性能的 LLM 仍然不會規(guī)劃

對于 vanilla LLM(通過 RLHF 微調(diào)的 Transformer 模型)來說,PlanBench 基準仍然充滿挑戰(zhàn),即使在最簡單的測試集上,模型表現(xiàn)也不佳。

下表為當前和前一代 LLM 的結(jié)果,測試領(lǐng)域包括 Blocksworld 和 Mystery Blocksworld(混淆版本),其中前者是在 600 個 3 到 5 個 block Blocksworld 問題靜態(tài)測試集上運行的結(jié)果,后者是在 600 個語義相同但語法混淆的實例(稱之為 Mystery Blocksworld)上的運行結(jié)果。

在這些模型中,LLaMA 3.1 405B 在常規(guī) Blocksworld 測試中表現(xiàn)最佳,準確率達到 62.6%。然而模型在 Mystery Blocksworld 的表現(xiàn)卻遠遠落后——沒有一個 LLM 在測試集上達到 5%,并且在一個領(lǐng)域上的性能并不能清楚地預測另一個領(lǐng)域的性能。

這種結(jié)果揭示了 LLM 本質(zhì)上仍是近似檢索系統(tǒng)。

圖片

更進一步的,作者測試了自然語言提示和 PDDL,發(fā)現(xiàn) vanilla 語言模型在前者上的表現(xiàn)更好。

作者還發(fā)現(xiàn),與之前的說法相反,one-shot 提示并不是對 zero-shot 的嚴格改進。這在對 LLaMA 系列模型的測試中最為明顯。

值得注意的是,基準測試的原始迭代沒有考慮效率,因為 vanilla LLM 生成某些輸出所花費的時間僅取決于該輸出的長度,而與實例的語義內(nèi)容或難度無關(guān)。不過作者也對各個模型的提示成本進行了比較,如表格 4 所示。

從近似檢索到近似推理:評估 o1

標準自回歸 LLM 通過近似檢索生成輸出,但這些模型面臨一個問題,即在 System 1 任務中表現(xiàn)出色,但在對規(guī)劃任務至關(guān)重要的類似 System 2 的近似推理能力上表現(xiàn)不佳。

回顧之前的研究,從 LLM 中獲取可靠規(guī)劃能力的最佳方法是將它們與生成測試框架中的外部驗證器配對,即所謂的 LLM-Modulo 系統(tǒng)。o1 嘗試以不同的方式為底層 LLM 補充類似 System 2 的能力。

據(jù)了解,o1 是將底層 LLM(很可能是經(jīng)過修改的 GPT-4o)結(jié)合到 RL 訓練的系統(tǒng)中,該系統(tǒng)可指導私有 CoT 推理軌跡的創(chuàng)建、管理和最終選擇。但是目前確切的細節(jié)很少,因此只能推測其確切機制。

作者猜測 o1 和 LLM 之間有兩個主要區(qū)別:一個額外的強化學習預訓練階段和一個新的自適應擴展推理程序。無論如何,從現(xiàn)有細節(jié)可以看出,該模型在本質(zhì)上與以前的 LLM 根本不同。

在原始測試集上評估 LRM:作者在靜態(tài) PlanBench 測試集上測試了 o1-preview 和 o1-mini,結(jié)果如表 2 所示。其中,600 個 Blocksworld 實例范圍從 3 到 5 個 block 不等,需要 2 到 16  個 step 的規(guī)劃才能解決。

結(jié)果顯示,o1 正確回答了 97.8% 的這些實例,但在 Mystery Blocksworld 上,o1 沒有保持這種性能,但也遠遠超過了以前的模型,正確回答了 52.8% 的實例。

圖片

標準 LLM  CoT 提示方法很脆弱,無法隨著問題規(guī)模的擴大而穩(wěn)健地擴展。作者在一組較大的 Blocksworld 問題上測試了這些模型(見圖 3)。此集合中的問題長度從 6 到 20 個 block 不等,需要 20 到 40 step 的最佳規(guī)劃。

作者發(fā)現(xiàn)模型性能從之前報告的 97.8% 迅速下降。事實上,在這組實例中,o1-preview 僅實現(xiàn)了 23.63% 的準確率。可以看出雖然這些模型總體上令人印象深刻,但這表明它們的性能仍然遠不夠穩(wěn)健。

在不可解決實例上的性能:接著作者修改了測試集中的一些實例,結(jié)果如表 3 所示。在 Blocksworld 上,只有 27% 的實例被 o1 正確且明確地識別為無法解決。在所有案例中,有 19% 的模型返回一個點或「empty plan」標記,沒有任何解釋或指示無法解決。在其余 54% 的案例中,模型生成了一個完整的規(guī)劃。

在隨機 Mystery Blocksworld 上,這些數(shù)字更糟:16% 的案例被正確識別為無法解決,5% 返回了一個「empty plan」,其余 79% 的案例得到了完整規(guī)劃的回答。

圖片

準確率 / 成本權(quán)衡與保證

研究團隊發(fā)現(xiàn):o1-preview 似乎在每個問題使用的推理 token 數(shù)量方面受到限制。如果 o1 的正式版本消除了這一限制,可能會提高整體準確性,但也可能導致更不可預測(甚至高得離譜)的推理成本。o1-mini 雖然更便宜,但通常性能較差。

圖片

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-11-10 08:51:00

LLMOpenAI模型

2024-09-24 11:01:03

2024-09-13 06:32:25

2024-11-07 15:40:00

2024-09-19 18:03:31

2024-10-05 00:00:00

2024-09-13 12:34:54

2024-12-05 10:16:14

2017-09-27 10:48:31

2023-11-27 00:40:56

2025-02-03 14:17:27

2024-09-13 10:06:21

2024-12-09 11:06:31

2024-11-25 15:50:00

模型訓練

2024-11-07 22:59:36

2025-02-20 09:11:28

2024-09-14 14:00:00

AI模型

2024-09-13 09:26:17

2025-07-07 09:04:00

2024-09-14 12:51:04

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲精品午夜精品| 亚洲欧美国产高清| 日韩免费观看av| 林心如三级全黄裸体| 亚洲伦理网站| 婷婷开心久久网| 三区精品视频观看| 国产黄a三级三级看三级| 在线看片一区| 日韩资源在线观看| 精品影片一区二区入口| 91成人在线| 一区二区成人在线| 亚洲成人网上| 午夜av免费在线观看| 久久国产精品99久久人人澡| 国内精品在线一区| 成人三级视频在线观看| 日韩大片在线免费观看| 欧美高清视频不卡网| av在线播放亚洲| 二区三区在线观看| 久久色在线观看| 产国精品偷在线| 一区二区三区精| 天堂久久一区二区三区| 九色成人免费视频| 美女三级黄色片| 综合综合综合综合综合网| 日韩一区二区视频| 欧美婷婷精品激情| 中文字幕色婷婷在线视频| 一区二区三区av电影| 一本一道久久a久久综合精品| 亚洲av成人无码久久精品老人 | 日韩欧美二区| 精品偷拍一区二区三区在线看| 秋霞午夜鲁丝一区二区| 在线一区视频观看| 一本一道综合狠狠老| 国产精品久久久久久久久电影网| 日本亚洲精品| 欧美国产97人人爽人人喊| 免费国产一区二区| 日本黄在线观看| 99久久国产免费看| 国内精品二区| 人人妻人人澡人人爽人人欧美一区| 激情欧美一区二区| 成人亚洲欧美一区二区三区| 影音先锋国产在线| 日韩成人免费电影| 国产精品日韩专区| 在线观看免费高清视频| 日本欧美一区二区| 国产精品欧美在线| 波多野结衣不卡| 日韩av网站在线观看| 国产mv免费观看入口亚洲| 探花视频在线观看| 日韩精品一区第一页| 国产99在线|中文| 中文字幕日韩国产| 国产真实乱偷精品视频免| 成人激情av在线| 国产美女免费视频| 粉嫩蜜臀av国产精品网站| 国产美女99p| 黄色一级大片在线免费看国产一 | 欧美精品videosex| 亚洲国产美国国产综合一区二区| 蜜臀av色欲a片无码精品一区| 精精国产xxxx视频在线中文版| 亚洲国产成人va在线观看天堂| 青青草国产精品视频| 丝袜诱惑一区二区| 欧美三级一区二区| 香蕉视频xxxx| 天堂成人娱乐在线视频免费播放网站| 亚洲欧洲一区二区三区在线观看| 91麻豆精品国产91久久综合| 99精品全国免费观看视频软件| 美日韩丰满少妇在线观看| 久久久国产成人| 国产色综合网| 成人h片在线播放免费网站| 国产av一区二区三区| heyzo一本久久综合| 任我爽在线视频精品一| 九义人在线观看完整免费版电视剧| 亚洲精品少妇30p| 日韩avxxx| 外国成人毛片| 亚洲精品国产精品久久清纯直播| 亚洲av无码一区二区三区人| 99久久久久| 欧美性视频在线| 91好色先生tv| 99久久精品免费精品国产| 亚洲国产一区二区精品视频| 神马午夜伦理不卡 | 欧美做受69| 日韩在线观看视频免费| 欧美亚洲天堂网| 久草在线在线精品观看| 精品视频导航| caoporn97在线视频| 欧美丝袜一区二区| 男生和女生一起差差差视频| 猛男gaygay欧美视频| 欧美成年人视频网站欧美| 日本熟女毛茸茸| 国产成人免费视频网站高清观看视频 | 99精品国产热久久91蜜凸| 中文字幕乱码一区二区三区| 亚洲天堂av影院| 欧美成人女星排行榜| 人妻精品久久久久中文| 99视频一区| 91传媒免费看| 免费在线视频欧美| 色欧美88888久久久久久影院| 色综合久久久无码中文字幕波多| 日本女优一区| 人人爽久久涩噜噜噜网站| 理论片中文字幕| 亚洲人成网站影音先锋播放| 国产精品视频黄色| 中文字幕av一区二区三区人| 久久久噜噜噜久久久| 国产情侣av在线| 国产精品另类一区| 亚洲国产精品三区| 国产精品一区二区av交换| 国模精品一区二区三区色天香| 国产精品人人爽| 国产精品家庭影院| 在线免费观看视频黄| 欧美禁忌电影| 欧美中文在线视频| 日韩三级电影网| 欧美日韩免费在线观看| 国产精品一区二区人妻喷水| 国产精品99一区二区| 51国偷自产一区二区三区的来源| 黄色片网站在线| 91精品国产综合久久福利| 影音先锋男人看片资源| 蜜臀av一区二区在线观看| 日韩欧美在线电影| 国产成人精品一区二区三区免费| 国产一区二区av| 欧美激情一区二区三区免费观看 | 亚洲欧美日韩天堂| 91玉足脚交嫩脚丫在线播放| 久久亚洲二区三区| 99re在线视频免费观看| 精品久久久久中文字幕小说 | 久久精品国产久精国产一老狼| 亚洲天堂久久久久| 综合久久国产九一剧情麻豆| 中文字幕资源在线观看| 亚洲国产日韩欧美在线| 91九色视频在线观看| 七七成人影院| 亚洲精品720p| 小泽玛利亚一区二区三区视频| 国产日产亚洲精品系列| 国产精品区在线| 欧美另类亚洲| 久久国产主播精品| 成人a在线观看高清电影| 精品国产欧美成人夜夜嗨| 99国产成人精品| 精品国产户外野外| 极品尤物一区二区| 成人性生交大片| 无码内射中文字幕岛国片| 91一区二区三区四区| 成人羞羞视频免费| 国产精品一区二区av影院萌芽| 色狠狠av一区二区三区香蕉蜜桃| 99久久免费国产精精品| 黄色一区二区三区| 欧美美女性生活视频| 成人av综合在线| 在线观看高清免费视频| 国产在线欧美| 日本一区二区三区四区在线观看| 国产美女视频一区二区| 2019av中文字幕| 色网站免费在线观看| 337p日本欧洲亚洲大胆色噜噜| 欧美精品韩国精品| 亚洲免费av高清| 三上悠亚ssⅰn939无码播放| 国产综合色在线视频区| 一女被多男玩喷潮视频| 7777久久香蕉成人影院| 久久久久久亚洲精品不卡4k岛国| 北岛玲精品视频在线观看| 91极品视频在线| 黄色av电影在线观看| 亚洲欧美日韩另类| 免费观看黄色av| 欧美日韩国产影片| 91精品国产综合久久久蜜臀九色| 一区二区视频在线看| 色婷婷国产精品免| 久久欧美中文字幕| 女王人厕视频2ⅴk| 久久精品国产999大香线蕉| 1024av视频| 欧美日本一区二区视频在线观看| 亚洲精品tv久久久久久久久| 久久精品色综合| 999国产视频| 中文字幕成人| 国产精品免费一区豆花| 国产精品专区免费| 韩国v欧美v日本v亚洲| a在线免费观看| 日韩中文字幕免费看| 精品影院一区| 亚洲毛片在线看| 色婷婷在线视频| 精品国产乱码91久久久久久网站| 国产又黄又大又爽| 欧美日韩国产高清一区二区| 无码人妻精品一区二区蜜桃色欲| 激情成人中文字幕| 国产成人无码一区二区三区在线 | 狠狠人妻久久久久久| 婷婷开心激情综合| 激情五月色婷婷| 亚洲妇熟xx妇色黄| 国产午夜精品一区二区理论影院| 亚洲精品成人a在线观看| 91高清免费看| 1024成人网| 亚洲一级生活片| 亚洲男人天堂av| 欧美黄色一区二区三区| 亚洲黄色免费电影| 久久成人国产精品入口| 亚洲五月六月丁香激情| 精品一区二区三区人妻| 亚洲最大色网站| 日本三级欧美三级| 欧美日韩亚洲激情| 欧美一区二区激情视频| 精品欧美aⅴ在线网站| 特一级黄色大片| 日韩欧美国产高清91| 色av性av丰满av| 欧美视频中文字幕| 亚洲无码久久久久| 欧美一卡2卡3卡4卡| 亚洲AV无码精品自拍| 亚洲成人1234| 玖玖综合伊人| 日韩中文理论片| 最新黄网在线观看| 97免费视频在线| 成人性教育av免费网址| 国产精品久久久久福利| av国产精品| 国产精品免费一区二区三区在线观看| 另类在线视频| 无码免费一区二区三区免费播放| 久久人人99| www.国产在线视频| 日韩精品一二区| 爽爽爽在线观看| 99久久免费视频.com| 中文字幕被公侵犯的漂亮人妻| 国产精品久久久久久久浪潮网站| 波多野结衣不卡视频| 亚洲一卡二卡三卡四卡五卡| 国产精品999在线观看| 欧美午夜一区二区三区免费大片| 国产精品嫩草影院精东| 日韩电影中文字幕av| 最新国产在线观看| 久久全球大尺度高清视频| 朝桐光一区二区| 97免费高清电视剧观看| 亚洲精品3区| 视色,视色影院,视色影库,视色网| 一区二区三区国产盗摄| 国产精品区在线| www激情久久| 在线免费观看亚洲视频| 日韩欧美aaa| 亚洲精品一区二区三区四区| 亚洲欧美在线免费| 男人添女人下部高潮视频在线观看| 日本一欧美一欧美一亚洲视频| 99综合99| 五月天国产一区| 亚洲综合不卡| 色哟哟网站在线观看| 国产午夜久久久久| 久久久久成人精品无码| 欧美视频在线观看一区二区| 日韩在线视频观看免费| 精品久久久999| 国产精品高清乱码在线观看| 国产高清在线一区二区| 四季av一区二区三区免费观看| 久久精品免费一区二区| 国产精品99久| www中文在线| 日本二三区不卡| 无码国产精品一区二区免费16 | 日韩偷拍一区二区| 99伊人成综合| 国产麻豆剧传媒精品国产| 中文字幕一区二区三区视频| 欧美一区二区三区不卡视频| 精品sm捆绑视频| 欧美人与牲禽动交com| 成人www视频在线观看| 精品国产日韩欧美| 久久婷婷国产精品| av一区二区三区四区| 久久无码精品丰满人妻| 91精品免费在线观看| 五月天婷婷在线视频| 国产成人一区三区| 自拍自偷一区二区三区| 日韩av高清在线看片| 国产 日韩 欧美大片| 欧美日韩一级在线观看| 88在线观看91蜜桃国自产| 自拍视频在线免费观看| 国产成人亚洲综合91精品| 视频精品在线观看| 可以免费观看av毛片| 久久久久久一二三区| 国产99久久久| 亚洲三级免费看| 久久精品女人天堂av免费观看| 久久99精品久久久久久水蜜桃| 国产毛片久久| av在线免费观看国产| 国产又粗又猛又爽又黄91精品| 天美传媒免费在线观看| 欧美午夜精品久久久久久孕妇| 国产综合在线观看| 国产精品麻豆va在线播放| 欧美日韩在线观看视频小说| 激情综合网俺也去| 欧美激情综合五月色丁香| 中文字幕+乱码+中文| 最近2019中文字幕第三页视频| 免费视频成人| 天天综合五月天| 国产成人午夜精品5599| 九九九国产视频| 精品丝袜一区二区三区| 日韩高清在线| 亚洲图片都市激情| 国产精品1024久久| 日本少妇做爰全过程毛片| 精品一区二区三区三区| 精品成人av| 日韩精品福利片午夜免费观看| 成人久久视频在线观看| 日本一区二区三区精品| 尤物tv国产一区| 视频一区日韩| av网站在线观看不卡| 国产精品久久久久久妇女6080| 精品国产九九九| 欧美一区二区三区图| 日韩欧美电影| 亚州av综合色区无码一区| 色网综合在线观看| www久久日com| 麻豆亚洲一区| 国产一区二区不卡在线| 国产女同在线观看| www.午夜精品| 久9re热视频这里只有精品| 亚洲狼人综合干| 亚洲综合在线五月| av影片在线看| 国产伦精品一区二区三区四区视频 | 国产精品国三级国产av| 91碰在线视频| 国产精品视频一二区| 91精品国产高清久久久久久| 青青一区二区三区| 欧美夫妇交换xxx| 91麻豆精品国产91久久久 | 国内精品久久久久国产盗摄免费观看完整版| 亚洲最大免费视频| 在线不卡免费欧美| 性欧美1819sex性高清|