被神化的o1模型，規劃能力到底如何？

大語言模型論文跟蹤

發布于 2024-9-27 13:15

瀏覽

0收藏

最近OpenAI推出了新的o1模型，與之前類似檢索器的大語言模型（LLM）不同，o1被稱為推理器模型。o1模型可能是類似于 AlphaGo 的強化學習訓練系統，只不過所生成和評估的“動作”是思維鏈。

依據 OpenAI 發布該模型的博客：o1模型與過去的大語言模型有所區別，是一個新系列的大型推理模型，代表了人工智能能力的新水平。所以，OpenAI將模型的計數器重置為1，命名為OpenAI o1模型。

在o1-preview 和 o1-mini 發布了一周后，作者在 PlanBench 測試數據集上進行了性能測試。

PlanBench 是一套專門用于評估LLM規劃能力的工具套件。

那么，o1系列模型在規劃能力上到底表現如何？

1. 傳統 LLM 在PlanBench上表現如何？

對于傳統大型語言模型（通過 RLHF 進行微調的大規模 Transformer 模型），他們在 PlanBench 上的表現都差強人意，這表明依靠近似檢索通常無法穩妥地解決規劃問題。

被神化的o1模型，規劃能力到底如何？-AI.x社區圖片

上表展示了前一代的LLM在Blocksworld和Mystery Blocksworld數據集上的表現。

在 Blocksworld 靜態數據集上，表現最好的模型是 LLaMA 3.1 405B，準確率達到了62.6%。

但是在Mystery Blocksworld數據集上（該數據集為600個語義相同但句法混淆的測試數據），沒有任何一個模型能達到5%的準確率。

2. o1系列模型表現如何？

傳統LLM是通過類似【檢索】的方式生成結果的，盡管在【System 1】類任務重表現出色，但是在更加偏向于【System 2】的任務上，比如：規劃任務，表現一般。

據論文作者所知，o1模型是一個底層 LLM（很可能是經過修改的 GPT-4o）整合進了一個經過強化學習訓練的系統，該系統引導著私有思維鏈推理軌跡的創建、管理與最終選擇。目前大家能了解到的細節仍然不多，所以只能對其確切機制進行推測。

本篇論文作者猜測 o1 與 LLM 主要有兩點不同：

? 1、增加了一個強化學習的預訓練階段（可能是為了從海量合成數據中學習不同思維鏈的q值）

? 2、引入了一種新的自適應推理過程（或許在選擇特定的思維鏈之前，它會通過類似于展開的方式進一步提煉已學習的q值）。

2.1 在靜態測試數據集上評估o1

在靜態的 PlanBench 測試集上對 o1-preview 和 o1-mini 進行了測試。

被神化的o1模型，規劃能力到底如何？-AI.x社區圖片

? 在 Blocksworld 測試數據集中，o1-preview 的表現遠超任何 LLM，正確回答了這些實例中的 97.8％。

? 在 Mystery Blocksworld 中，o1-preview 未能保持這樣的高性能，但仍遠超以往所有模型，正確回答了 52.8％。

? 在隨機 Mystery Blocksworld 中，盡管準確率有所下降，仍有37.3%的問題得到了正確解答，這與之前模型測試時的零通過率形成了鮮明對比。

隨機 Mystery Blocksworld是為驗證數據污染是否破壞了效果，采用徹底隨機的字符串創建了新的混淆，并以語義對等且明確無誤的PDDL格式重新定義了問題域和具體問題的描述。

2.2 隨著問題規模增加，o1表現如何？

標準的 LLM 思維鏈提示方法較為脆弱，無法隨著問題規模穩定擴展，也難以誘導通用的算法程序遵循。

被神化的o1模型，規劃能力到底如何？-AI.x社區圖片

在一組 110 個更大的 Blocksworld 問題上對模型進行了測試。這組問題的長度范圍在 6 到 20 個塊之間，并且需要 20 到 40 步的最優計劃。

沒有任何混淆的情況下，性能從之前報告的 97.8％迅速滑落。實際上，在這 110 個實例中，o1-preview 僅能處理 23.63％，并且大部分的準確性來自于正確解決需要少于 28 步的問題。雖然這些模型總體令人贊嘆，但這表明它們的性能遠非穩健。

2.3 在無解問題上的性能

在真實場景中的一個例子是網絡漏洞分析，希望證明對于特定系統不存在攻擊計劃。LLM 一直難以認識到某些問題無法解決，而是自信地編造無意義的答案。

o1 宣稱已經開始克服這個問題，并且現在能夠準確地識別不可解的問題。

為了系統地測試這一點，通過向原始的 3 到 5 個塊測試集中的每個實例的目標狀態添加一個“on(x,y)”類型的合取，使目標無法達成，從而修改了 100 個實例。

被神化的o1模型，規劃能力到底如何？-AI.x社區圖片

? 在 Blocksworld 上：

只有 27％的所有實例被 o1 正確且明確地識別為不可解。

在所有情況的 19％中，模型返回一個點或某種“[空計劃]”標記，沒有任何關于不可解性的解釋或指示。
這些應該被認為是不正確的，因為“空計劃”只有在目標已經達成時才是正確的答案。

在其余 54％的情況下，模型生成了完整的（因此不可能且不正確！
）計劃。

? 在隨機 Mystery Blocksworld 上，這些數字更糟：

? 16％的情況被正確識別為不可解，5％返回空計劃，其余 79％用完整的（不可能或不滿足目標的）計劃作答。

因此，不可解的實例仍然是 LRM 的難題。此外，有時能夠正確注意到不可能的計劃是有代價的：現在模型有時會錯誤地聲稱可解的問題實際上是不可解的。

2.4 成本收益的權衡

盡管o1-preview可能比LLMs提供更高的精準度，但它任然不能100%確保規劃的正確性，其成本效益也尚不明確。

不同于以往模型僅基于輸入和輸出令牌數量計費，o1的每次調用費用還包括基于其使用的“推理令牌”數量的附加費——這些作為推理過程一部分生成的令牌并不向用戶展示，并且以更高的輸出令牌費率計費。

目前，用戶無法控制生成的推理令牌數量。自這些模型推出不到一周，論文作者在這項基準測試的o1模型實驗上已經累積了1897.55美元的費用！

像Fast Downward這樣的經典規劃器在數據集上實現了100%的準確率，僅用了一小部分的時間、計算和成本。

在個人計算機上運行Fast Downward基本上是免費的，平均每次實例0.265秒，比平均o1時鐘時間快了幾個數量級。結果也是可預測的，并且可以直接擴展到更難的實例。

普通的LLMs通常非常擅長在格式之間轉換問題，并且可以與經典規劃器一起使用，成本僅為LRMs的一小部分。

對于沒有簡單的PDDL領域和實例規范的問題，LLM-Modulo系統可能是一個更安全、更便宜的方法：在循環中運行一個更小、更快的LLM與一個可靠的驗證器一起，以便組合系統只輸出保證正確的解決方案。

這種LLM-Modulo方法已經可以在原始Blocksworld測試集的一個子集上實現82%的準確率，以及在物流領域實現70%的準確率。

這些后兩種方法提供的準確性保證在像o1這樣的LRMs中嚴重缺乏。如果一個通用推理系統繼續自信地制定錯誤的計劃，那么它就不能被部署在安全關鍵和非遍歷領域。

o1是一個完全的黑匣子系統，甚至比以前的模型更是如此，OpenAI決定不僅要保密架構和隱藏推理痕跡，而且要警告甚至禁止任何試圖理解它們內部情況的人，這使得可解釋性幾乎是不可能的，并且降低了對系統整體的信任。

? 論文原文: https://arxiv.org/abs/2409.13373

本文轉載自??大語言模型論文跟蹤??，作者：HuggingAGI ????

標簽

o1模型

LRMs

系統

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

被神化的o1模型，規劃能力到底如何？

1. 傳統 LLM 在PlanBench上表現如何？

2. o1系列模型表現如何？

2.1 在靜態測試數據集上評估o1

2.2 隨著問題規模增加，o1表現如何？

2.3 在無解問題上的性能

2.4 成本收益的權衡

目錄