當前的“LLM 智能”，是來自模型突破，還是工程堆砌？原創精華

發布于 2025-11-21 07:45

瀏覽

0收藏

編者按： 推理模型的“推理能力”飛躍，究竟是模型本身的進步，還是工程編排的巧妙包裝？
我們今天為大家帶來的這篇文章提出了一個尖銳的觀點：所謂“推理模型”的突破，本質上并非模型智能的根本性提升，而是通過工具調用與流程編排對模型能力停滯所做的工程性補償。
文章深入剖析了 GPT-5 等最新模型在執行任務時嚴重依賴 Python 沙箱、API 調用等外部工具的現象，揭示出大語言模型在代碼生成與語義理解上的深層瓶頸。作者指出，OpenAI 正從基礎研究轉向應用變現，其推出的 ChatGPT Apps、Atlas 瀏覽器等產品，反映的不是技術突破，而是對模型能力停滯的策略性回避。文章進一步探討了行業面臨的兩種路徑選擇：一是在現有架構上不斷優化 pipeline 系統，追求短期收益；二是直面 Transformer 架構的根本缺陷，投入高風險、長周期的基礎架構創新。

本文系原作者觀點，Baihai IDP 僅進行編譯分享

作者 | Mani Doraisamy

編譯 | 岳揚

01 工具使用（tool use）是如何成為難題求解的替代方案

當 OpenAI 于 2024 年 4 月發布 o1，并稱之為“推理模型”時，整個行業為之歡呼，認為這是一次重大突破。終于，AI 能夠一步步思考、解決復雜問題，甚至處理研究生級別的數學題了。

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？-AI.x社區

但仔細觀察其運行機制我們就會發現，當我們讓最新模型 ChatGPT-5 計算兩個大數的乘積時，它并不會自己進行計算，而是生成一段 Python 代碼，在沙箱中執行后返回結果。相比之下，ChatGPT-3 至少還會嘗試在內部完成算術運算（盡管常常出錯），而 ChatGPT-5 則將計算任務外包給了外部工具。[注釋1]

這種模式無處不在。所謂“Agentic AI”的自主性？無非是一連串的工具調用，比如網頁搜索、API 調用、數據庫查詢。真正的突破并不在于模型本身的智能水平，而在于協調外部系統的編排層。從推理能力到 Agentic AI，一切都不過是代碼生成的高級應用。 這些能力并非模型本身的進步，而是為停滯不前的模型能力所設計的工程層面的變通方案。

這一點至關重要，因為整個 AI 行業（從數萬億美元的 GDP 預測到獨角獸公司的估值[1]）都建立在模型能力持續進步的預期之上。而我們實際得到的，卻是越來越復雜的“pipeline 工程”，其底層基礎卻早已陷入停滯。

02 GPT-5：皇帝的新推理（不是“衣服”??

2025 年 8 月本該是一場勝利。OpenAI 曾承諾“將博士級智能裝進每個人的口袋”，然而他們交付的成果在代碼生成這一核心能力上幾乎停滯不前 —— 而其他能力都依賴于此。這正是瓶頸所在：代碼生成是交通樞紐。更好的代碼 → 更強的推理（通過工具執行）→ 更優的智能體 → 更高的生產力 → 萬億美元級市場。 一旦這個交通樞紐停滯，整條鏈條便隨之停擺。

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？-AI.x社區

使用 AI 編程工具的開發者們明顯感到了失望。基于 OpenAI 模型構建 AI 編程工具的公司（如 Cursor、Replit）曾押下數十億美元，賭定每次模型發布都會帶來指數級的進步。GPT-5 卻打破了這一預期，而這本不該發生。從 GPT-3 笨拙的算術能力，到 GPT-4 生成連貫代碼的能力，進步似乎勢不可擋。整個行業正是建立在對持續進步的預期之上。但在過去一年里，這種進步明顯停滯了。

03 從研究實驗室到應用商店

與此同時，OpenAI 正將重心從模型研究轉向應用開發。只需觀察 OpenAI 在過去幾個月的軌跡，這一趨勢便已顯而易見：

2025 年 10 月 6 日：ChatGPT Apps 上線

第三方應用可直接在 ChatGPT 內運行。通過 Expedia 預訂航班，在 Canva 中設計圖像，瀏覽 Zillow 上的房產信息，全程無需離開聊天界面。Apps SDK 為開發者開放了 8 億用戶生態。這標志著 OpenAI 正在變成一個應用商店。

2025 年 10 月 21 日：Atlas 瀏覽器發布

這是一款由 AI 驅動的新型網頁瀏覽器，意在挑戰 Chrome 的主導地位。該產品具備瀏覽器記憶、智能體模式，以及集成于瀏覽器的全鏈路 AI 助手。這標志著 OpenAI 正在轉型為一家消費級產品公司。

他們正逐步從研究領域轉向技術應用：

推理模型（貼近最前沿、最基礎的核心研究）
帶工作流構建器的 Agentic AI（離核心研究距離更遠了）
ChatGPT Apps（純粹的生態運營）
Atlas 瀏覽器（將 ChatGPT 深度嵌入瀏覽器）

OpenAI 的每一步都在遠離“如何構建更優模型”，邁向“如何將現有模型變現”。

04 關于 OpenAI 轉型動因的兩種解讀

為何這家全球頂尖的 AI 實驗室會從技術研究轉向應用領域？現有兩種主流解釋。

解讀一：遭遇技術瓶頸卻秘而不宣

規模擴張已然失效。盡管投入數十億美元的算力資源和全球頂尖的研究人員，模型質的飛躍卻難再現。模型并未變得更智能，只是更擅長協調外部工具。

與其承認"無法突破模型性能瓶頸"，不如轉向變現賽道。ChatGPT Apps 無需技術研究實現突破即可創收，瀏覽器生態不依賴 GPT-6 就能構建用戶壁壘。在摸索下一步方向時，應用業務能為他們爭取緩沖時間 —— 當然，這是一種悲觀的解讀：將技術進步的停滯包裝成戰略轉型。

解讀二：應用賽道的利潤更豐厚

訓練尖端模型耗資數十億、歷時數載，而基于現有模型開發應用成本低、見效快。后者利潤空間更大，風險更低，變現路徑更清晰。

或許 OpenAI 經過理性測算，發現應用開發能以更小投入獲取更大回報，因而調整資源分配。既然六個月就能打造瀏覽器，何必耗費 50 億美元訓練 GPT-6？這是從現實主義的視角進行解讀：利潤空間優先于技術進步。

這兩種解讀可能都部分正確。但無論如何，結果殊途同歸：當整個生態系統最需要突破時，領頭羊卻減少了對基礎模型研發的投入。

05 沒人愿面對的架構問題

工具編排（Tool orchestration）確實是令人印象深刻的工程成果。協調網頁搜索、代碼執行、數據庫查詢和 API 調用，需要復雜的軟件架構。能夠管理復雜工作流的智能體框架也的確具備實際價值。但這些都并未回答一個根本問題：模型為何從一開始就離不開工具？

早期模型如 GPT-3 曾飽受詞元碎片化（token fragmentation）的困擾（例如將 “strawberry” 拆成 “straw” 和 “berry”，而后者含義完全不同）。現代分詞器已緩解了這一問題，但更深層的架構缺陷依然存在：大語言模型仍然缺乏真正的語義理解能力。這類語義問題在代碼生成中尤為致命，因為代碼對精確性要求極高。 當模型產生幻覺，或在長上下文中喪失連貫性時，引入網絡搜索功能并不能根除病灶。固定維度的嵌入（embeddings）會有損地壓縮語義信息，注意力窗口則對上下文施加了硬性邊界。這些都是架構層面的限制，而非工程問題。

這就好比在一座僅能支撐三層樓的地基上建造摩天大樓。你可以不斷加固結構、重新分配承重、安裝精密的支撐系統，但最終，你需要的是一個全新的地基。無論圍繞現有地基做多少精巧的工程優化，都無法讓你建得更高。

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？-AI.x社區

06 行業必須面對的抉擇

整個行業站在十字路口，盡管多數參與者仍在回避這個現實。

路徑一：持續優化 pipeline 系統

延續當前軌跡：略微擴大模型規模，優化工具協調機制，深化與應用平臺的整合。推出瀏覽器與應用商店，構建更完善的智能體框架，在既定架構限制下進行工程優化。

這條路徑能帶來可預測的短期收益。對許多尚未達到 AI 編程工具智能水平的領域而言尤其如此。由于 AI 編程工具最初是由開發者為自己打造的，他們深刻理解問題所在，并知道如何解決。類似的進步將在其他領域陸續出現，風險投資的資金流仍會持續一段時間。但 a16z 預測的 3 萬億美元 GDP 增長，其前提是生產力翻倍，而不是像當前 AI 編程工具那樣僅停在約 20% 的提升水平。要實現突破，必須承認現有基本方法已遇阻。

路徑二：承認我們需要全新的基礎架構

承認模型規模擴大已觸及天花板，投入能解決根本問題的架構創新。這意味著：

采用基于圖結構的架構，保留結構化關系，避免分詞造成的語義碎片化問題，根治 Transformer 架構的固有缺陷；
部署能高效處理長上下文的稀疏注意力機制；
借鑒生物神經組織原理的神經形態計算方案。

解決方案在于構建能保留信息而非有損壓縮的架構。正如 AI 研究者 Andrej Karpathy 所言，現有模型只是“互聯網的有損壓縮”。真正的進步需要向無損表征邁進：保留原始信息中固有的組織形式、精確維護信息單元之間的具體關系、維護信息中概念的層級與從屬關系。

這條路徑成本高昂、前景未卜且進展緩慢。它要求我們直面現有路線的失敗，且需要耗費數年的研究投入，且不保證成功。但這是唯一能真正解決問題而非回避問題的途徑。

07 總結

目前，AI 編程工具市場正呈爆發式增長：

Cursor：15 個月實現 5 億美元年經常性收入（ARR），估值達 100 億美元
GitHub Copilot：數百萬用戶，年收入達數億美元
Windsurf：以 24 億美元被收購
數十家初創公司正在融資，金額高達九位數

這一切都建立在同一個假設之上：模型在代碼生成能力上將持續進步。如果這個假設是錯的，整個市場就會變成一座紙牌屋 —— 3 萬億美元的 GDP 預期將化為泡影，獨角獸估值將失去支撐，生產力革命也將無限期推遲。

反之，誰若能解決底層架構問題，誰就將贏得一切。哪怕只是基礎能力的小幅提升，也會在整個生態系統中產生連鎖反應：

更優的代碼生成能力 → 更強的推理能力（通過工具執行實現）
更強的推理能力 → 更強大的智能體
更強大的智能體 → 真正實現生產力翻倍
真正實現生產力翻倍 → 3 萬億美元市場成為現實

由此創造的價值將是天文數字。現在的問題是：是否有任何實驗室愿意選擇艱難的“修復地基”之路，而不是輕松地在停止加固的地基上繼續搭建應用？ 答案將決定這場 3 萬億美元的生產力革命究竟是現實，還是幻想。

注釋：

[1] GPT-5 中有兩種方式進行乘法運算：

Python 模式：使用 Python 沙箱執行
無工具模式：依賴模型內部推理

在 FrontierMath 基準測試中，Python 模式的準確率約為無工具模式的 2 倍（26.3% 對 13.5%），同時成本效益高出 4 到 10 倍。

GPT-5 API 默認使用無工具模式（必須在 API 調用中顯式啟用工具），而 ChatGPT 用戶端很可能默認啟用 Python 模式，因為“高級數據分析”（Advanced Data Analysis）已對所有訂閱用戶默認開啟。這使得 OpenAI 在消費級產品中實現了大幅成本優化，而 API 用戶若不手動啟用工具使用，則需承擔低效推理的全部成本。

END

本期互動內容 ??

?文章指出，整個 AI 生態的繁榮建立在“代碼生成能力持續進步”的假設上。你怎么看待這個觀點？

文中鏈接

[1]??https://a16z.com/the-trillion-dollar-ai-software-development-stack/??

本文經原作者授權，由 Baihai IDP 編譯。如需轉載譯文，請聯系獲取授權。

原文鏈接：

??https://manidoraisamy.com/reasoning-not-ai.html??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

推理模型

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？原創精華

01 工具使用（tool use）是如何成為難題求解的替代方案

02 GPT-5：皇帝的新推理（不是“衣服”??

03 從研究實驗室到應用商店

04 關于 OpenAI 轉型動因的兩種解讀

05 沒人愿面對的架構問題

06 行業必須面對的抉擇

07 總結

目錄

51CTO

51CTO博客

51CTO學堂

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？ 原創 精華

01 工具使用（tool use）是如何成為難題求解的替代方案

02 GPT-5：皇帝的新推理（不是“衣服”??

03 從研究實驗室到應用商店

04 關于 OpenAI 轉型動因的兩種解讀

05 沒人愿面對的架構問題

06 行業必須面對的抉擇

07 總結

目錄

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？原創精華