當前的“LLM 智能”,是來自模型突破,還是工程堆砌? 原創 精華
編者按: 推理模型的“推理能力”飛躍,究竟是模型本身的進步,還是工程編排的巧妙包裝?
我們今天為大家帶來的這篇文章提出了一個尖銳的觀點:所謂“推理模型”的突破,本質上并非模型智能的根本性提升,而是通過工具調用與流程編排對模型能力停滯所做的工程性補償。
文章深入剖析了 GPT-5 等最新模型在執行任務時嚴重依賴 Python 沙箱、API 調用等外部工具的現象,揭示出大語言模型在代碼生成與語義理解上的深層瓶頸。作者指出,OpenAI 正從基礎研究轉向應用變現,其推出的 ChatGPT Apps、Atlas 瀏覽器等產品,反映的不是技術突破,而是對模型能力停滯的策略性回避。文章進一步探討了行業面臨的兩種路徑選擇:一是在現有架構上不斷優化 pipeline 系統,追求短期收益;二是直面 Transformer 架構的根本缺陷,投入高風險、長周期的基礎架構創新。
本文系原作者觀點,Baihai IDP 僅進行編譯分享
作者 | Mani Doraisamy
編譯 | 岳揚
01 工具使用(tool use)是如何成為難題求解的替代方案
當 OpenAI 于 2024 年 4 月發布 o1,并稱之為“推理模型”時,整個行業為之歡呼,認為這是一次重大突破。終于,AI 能夠一步步思考、解決復雜問題,甚至處理研究生級別的數學題了。

但仔細觀察其運行機制我們就會發現,當我們讓最新模型 ChatGPT-5 計算兩個大數的乘積時,它并不會自己進行計算,而是生成一段 Python 代碼,在沙箱中執行后返回結果。相比之下,ChatGPT-3 至少還會嘗試在內部完成算術運算(盡管常常出錯),而 ChatGPT-5 則將計算任務外包給了外部工具。[注釋1]
這種模式無處不在。所謂“Agentic AI”的自主性?無非是一連串的工具調用,比如網頁搜索、API 調用、數據庫查詢。真正的突破并不在于模型本身的智能水平,而在于協調外部系統的編排層。從推理能力到 Agentic AI,一切都不過是代碼生成的高級應用。 這些能力并非模型本身的進步,而是為停滯不前的模型能力所設計的工程層面的變通方案。
這一點至關重要,因為整個 AI 行業(從數萬億美元的 GDP 預測到獨角獸公司的估值[1])都建立在模型能力持續進步的預期之上。而我們實際得到的,卻是越來越復雜的“pipeline 工程”,其底層基礎卻早已陷入停滯。
02 GPT-5:皇帝的新推理(不是“衣服”??
2025 年 8 月本該是一場勝利。OpenAI 曾承諾“將博士級智能裝進每個人的口袋”,然而他們交付的成果在代碼生成這一核心能力上幾乎停滯不前 —— 而其他能力都依賴于此。這正是瓶頸所在:代碼生成是交通樞紐。更好的代碼 → 更強的推理(通過工具執行)→ 更優的智能體 → 更高的生產力 → 萬億美元級市場。 一旦這個交通樞紐停滯,整條鏈條便隨之停擺。

使用 AI 編程工具的開發者們明顯感到了失望。基于 OpenAI 模型構建 AI 編程工具的公司(如 Cursor、Replit)曾押下數十億美元,賭定每次模型發布都會帶來指數級的進步。GPT-5 卻打破了這一預期,而這本不該發生。從 GPT-3 笨拙的算術能力,到 GPT-4 生成連貫代碼的能力,進步似乎勢不可擋。整個行業正是建立在對持續進步的預期之上。但在過去一年里,這種進步明顯停滯了。
03 從研究實驗室到應用商店
與此同時,OpenAI 正將重心從模型研究轉向應用開發。只需觀察 OpenAI 在過去幾個月的軌跡,這一趨勢便已顯而易見:
2025 年 10 月 6 日:ChatGPT Apps 上線
第三方應用可直接在 ChatGPT 內運行。通過 Expedia 預訂航班,在 Canva 中設計圖像,瀏覽 Zillow 上的房產信息,全程無需離開聊天界面。Apps SDK 為開發者開放了 8 億用戶生態。這標志著 OpenAI 正在變成一個應用商店。
2025 年 10 月 21 日:Atlas 瀏覽器發布
這是一款由 AI 驅動的新型網頁瀏覽器,意在挑戰 Chrome 的主導地位。該產品具備瀏覽器記憶、智能體模式,以及集成于瀏覽器的全鏈路 AI 助手。這標志著 OpenAI 正在轉型為一家消費級產品公司。
他們正逐步從研究領域轉向技術應用:
- 推理模型(貼近最前沿、最基礎的核心研究)
- 帶工作流構建器的 Agentic AI(離核心研究距離更遠了)
- ChatGPT Apps(純粹的生態運營)
- Atlas 瀏覽器(將 ChatGPT 深度嵌入瀏覽器)
OpenAI 的每一步都在遠離“如何構建更優模型”,邁向“如何將現有模型變現”。
04 關于 OpenAI 轉型動因的兩種解讀
為何這家全球頂尖的 AI 實驗室會從技術研究轉向應用領域?現有兩種主流解釋。
解讀一:遭遇技術瓶頸卻秘而不宣
規模擴張已然失效。盡管投入數十億美元的算力資源和全球頂尖的研究人員,模型質的飛躍卻難再現。模型并未變得更智能,只是更擅長協調外部工具。
與其承認"無法突破模型性能瓶頸",不如轉向變現賽道。ChatGPT Apps 無需技術研究實現突破即可創收,瀏覽器生態不依賴 GPT-6 就能構建用戶壁壘。在摸索下一步方向時,應用業務能為他們爭取緩沖時間 —— 當然,這是一種悲觀的解讀:將技術進步的停滯包裝成戰略轉型。
解讀二:應用賽道的利潤更豐厚
訓練尖端模型耗資數十億、歷時數載,而基于現有模型開發應用成本低、見效快。后者利潤空間更大,風險更低,變現路徑更清晰。
或許 OpenAI 經過理性測算,發現應用開發能以更小投入獲取更大回報,因而調整資源分配。既然六個月就能打造瀏覽器,何必耗費 50 億美元訓練 GPT-6?這是從現實主義的視角進行解讀:利潤空間優先于技術進步。
這兩種解讀可能都部分正確。但無論如何,結果殊途同歸:當整個生態系統最需要突破時,領頭羊卻減少了對基礎模型研發的投入。
05 沒人愿面對的架構問題
工具編排(Tool orchestration)確實是令人印象深刻的工程成果。協調網頁搜索、代碼執行、數據庫查詢和 API 調用,需要復雜的軟件架構。能夠管理復雜工作流的智能體框架也的確具備實際價值。但這些都并未回答一個根本問題:模型為何從一開始就離不開工具?
早期模型如 GPT-3 曾飽受詞元碎片化(token fragmentation)的困擾(例如將 “strawberry” 拆成 “straw” 和 “berry”,而后者含義完全不同)。現代分詞器已緩解了這一問題,但更深層的架構缺陷依然存在:大語言模型仍然缺乏真正的語義理解能力。這類語義問題在代碼生成中尤為致命,因為代碼對精確性要求極高。 當模型產生幻覺,或在長上下文中喪失連貫性時,引入網絡搜索功能并不能根除病灶。固定維度的嵌入(embeddings)會有損地壓縮語義信息,注意力窗口則對上下文施加了硬性邊界。這些都是架構層面的限制,而非工程問題。
這就好比在一座僅能支撐三層樓的地基上建造摩天大樓。你可以不斷加固結構、重新分配承重、安裝精密的支撐系統,但最終,你需要的是一個全新的地基。無論圍繞現有地基做多少精巧的工程優化,都無法讓你建得更高。

06 行業必須面對的抉擇
整個行業站在十字路口,盡管多數參與者仍在回避這個現實。
路徑一:持續優化 pipeline 系統
延續當前軌跡:略微擴大模型規模,優化工具協調機制,深化與應用平臺的整合。推出瀏覽器與應用商店,構建更完善的智能體框架,在既定架構限制下進行工程優化。
這條路徑能帶來可預測的短期收益。對許多尚未達到 AI 編程工具智能水平的領域而言尤其如此。由于 AI 編程工具最初是由開發者為自己打造的,他們深刻理解問題所在,并知道如何解決。類似的進步將在其他領域陸續出現,風險投資的資金流仍會持續一段時間。但 a16z 預測的 3 萬億美元 GDP 增長,其前提是生產力翻倍,而不是像當前 AI 編程工具那樣僅停在約 20% 的提升水平。要實現突破,必須承認現有基本方法已遇阻。
路徑二:承認我們需要全新的基礎架構
承認模型規模擴大已觸及天花板,投入能解決根本問題的架構創新。這意味著:
- 采用基于圖結構的架構,保留結構化關系,避免分詞造成的語義碎片化問題,根治 Transformer 架構的固有缺陷;
- 部署能高效處理長上下文的稀疏注意力機制;
- 借鑒生物神經組織原理的神經形態計算方案。
解決方案在于構建能保留信息而非有損壓縮的架構。正如 AI 研究者 Andrej Karpathy 所言,現有模型只是“互聯網的有損壓縮”。真正的進步需要向無損表征邁進:保留原始信息中固有的組織形式、精確維護信息單元之間的具體關系、維護信息中概念的層級與從屬關系。
這條路徑成本高昂、前景未卜且進展緩慢。它要求我們直面現有路線的失敗,且需要耗費數年的研究投入,且不保證成功。但這是唯一能真正解決問題而非回避問題的途徑。
07 總結
目前,AI 編程工具市場正呈爆發式增長:
- Cursor:15 個月實現 5 億美元年經常性收入(ARR),估值達 100 億美元
- GitHub Copilot:數百萬用戶,年收入達數億美元
- Windsurf:以 24 億美元被收購
- 數十家初創公司正在融資,金額高達九位數
這一切都建立在同一個假設之上:模型在代碼生成能力上將持續進步。如果這個假設是錯的,整個市場就會變成一座紙牌屋 —— 3 萬億美元的 GDP 預期將化為泡影,獨角獸估值將失去支撐,生產力革命也將無限期推遲。
反之,誰若能解決底層架構問題,誰就將贏得一切。哪怕只是基礎能力的小幅提升,也會在整個生態系統中產生連鎖反應:
- 更優的代碼生成能力 → 更強的推理能力(通過工具執行實現)
- 更強的推理能力 → 更強大的智能體
- 更強大的智能體 → 真正實現生產力翻倍
- 真正實現生產力翻倍 → 3 萬億美元市場成為現實
由此創造的價值將是天文數字。現在的問題是:是否有任何實驗室愿意選擇艱難的“修復地基”之路,而不是輕松地在停止加固的地基上繼續搭建應用? 答案將決定這場 3 萬億美元的生產力革命究竟是現實,還是幻想。
注釋:
[1] GPT-5 中有兩種方式進行乘法運算:
- Python 模式:使用 Python 沙箱執行
- 無工具模式:依賴模型內部推理
在 FrontierMath 基準測試中,Python 模式的準確率約為無工具模式的 2 倍(26.3% 對 13.5%),同時成本效益高出 4 到 10 倍。
GPT-5 API 默認使用無工具模式(必須在 API 調用中顯式啟用工具),而 ChatGPT 用戶端很可能默認啟用 Python 模式,因為“高級數據分析”(Advanced Data Analysis)已對所有訂閱用戶默認開啟。這使得 OpenAI 在消費級產品中實現了大幅成本優化,而 API 用戶若不手動啟用工具使用,則需承擔低效推理的全部成本。
END
本期互動內容 ??
?文章指出,整個 AI 生態的繁榮建立在“代碼生成能力持續進步”的假設上。你怎么看待這個觀點?
文中鏈接
[1]??https://a16z.com/the-trillion-dollar-ai-software-development-stack/??
本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。
原文鏈接:
??https://manidoraisamy.com/reasoning-not-ai.html??

















