AI 推理服務是否真的無利可圖?從第一性原理看 AI 推理成本 原創 精華
編者按: 你是否也曾認為,AI 推理服務注定是一場燒錢的無底洞?
我們今天為大家帶來的這篇文章,作者的核心觀點是:OpenAI 和 Anthropic 等公司在推理環節的實際成本遠低于外界普遍認知,甚至在某些場景下已具備大幅盈利能力。
文章通過第一性原理,以 H100 GPU 集群為例,詳細拆解了輸入與輸出 token 的成本結構,指出輸入處理成本極低(每百萬 token 約 0.001 美元),而輸出生成成本較高(每百萬 token 約 3 美元)。作者進一步分析了不同用戶場景(如消費者套餐、開發者工具、API 服務)的經濟模型,揭示了為何像 Claude Code 這樣的編程助手能夠實現高利潤率,而視頻生成類應用則面臨更大的成本壓力。
閱讀時請注意:文中計算基于理想化的硬件利用率和簡化模型假設,現實世界的推理成本可能更高。可以把它當作“啟發性的估算框架”,而非精確的經濟結論~
作者 | Martin Alderson
編譯 | 岳揚
我總聽人說 AI(尤其是推理環節)是臺燒錢機器[1-3]。表面上看這種說法似乎有道理,但我一直對這類論斷持保留態度,因此決定深入探究一番。
目前還沒見到有人真正系統性地剖析過大范圍運行推理任務的實際成本,其中的經濟賬確實讓我深感好奇。
以下內容完全是粗略估算。雖然我沒有親自大規模部署過最頂尖的 AI 模型,但我對如何在云上運營高并發、大流量的服務及其成本效益有著深入的了解,也深知那些云巨頭的報價和他們自家硬件成本之間存在著多么驚人的利潤空間。我說的不一定全對,非常歡迎大家來指正和討論。
01 幾點前提假設
本文僅探討原始計算成本。這種處理方式顯然過于簡化,但考慮到當前模型的實用價值,即便假定技術毫無進步,我仍想重點驗證一個觀點:是否所有企業在推理環節的虧損都已嚴重到根本難以為繼的程度。
我設定單顆 H100 芯片的成本為每小時 2 美元。這實際上已高于當前市場零售的按需租賃價,而我(推測)大型 AI 企業實際采購成本應該遠低于這個數額。

其次,我將以 DeepSeek R1 的架構為基準,該模型采用混合專家模型架構,總參數量 671B,激活參數量 37B。鑒于其性能與 Claude Sonnet 4 和 GPT-5 大致相當,我認為這個假設是合理的。
02 逆向推導:基于第一性原理的、針對 H100 的分析
2.1 生產環境配置
首先設定一個現實的生產環境:假設采用 72 張 H100 組成的集群,單卡每小時 2 美元,總成本為每小時 144 美元。
為滿足生產環境的延遲要求,我們設定每個模型實例的批處理量(batch size)為 32 個并發請求,這比基準測試中可能出現的大批量處理更符合實際。通過對每個模型實例采用 8 路 GPU 進行張量并行,我們可在 72 顆 GPU 上同時運行 9 個模型實例。
2.2 預填充階段(處理輸入)
每張 H100 GPU 的顯存(HBM)帶寬約 3.35 TB/s,這將成為大多數工作負載的瓶頸。由于 37B 激活參數以 FP16 的精度存儲需占用 74 GB 空間,每個實例每秒可完成約 3,350GB/s ÷ 74GB = 45 次前向傳播(譯者注:實際每秒能完成的前向傳播次數不僅取決于顯存帶寬,還受到其他因素影響)。
關鍵在于:每次前向傳播會同時處理所有序列中的所有詞元(tokens)。當我們批量處理 32 條序列且每條序列平均包含 1000 個詞元時,單次前向傳播即可處理 32,000 個詞元。這意味著每個實例每秒可處理 45 次前向傳播 × 32k tokens = 144 萬個 input tokens。9 個實例合計每秒處理 1300 萬 input tokens,即每小時 468 億 input tokens。
實際情況中,混合專家模型(MoE)可能需要為當前批次中不同詞元加載不同的專家組合,若這些詞元被路由到多樣化的專家組合,可能使吞吐量降低 2-3 倍。然而在實際應用中,路由模式通常呈現圍繞熱門專家的聚集現象,且現代實現方案采用專家并行與容量因子等技術來維持效率,因此實際影響更可能接近 30%-50% 的降幅,而非最壞情況下的數值。
2.3 解碼階段(生成輸出)
輸出生成階段則呈現完全不同的圖景。此階段需順序生成詞元 —— 每次前向傳播每個序列僅產生一個詞元。因此每秒 45 次前向傳播僅使每個實例每秒產生 45×32=1440 個 output tokens。9 個實例合計每秒 12,960 個output tokens,即每小時 4670 萬個 output tokens。
2.4 每個詞元的原始成本
成本不對稱性非常顯著:input tokens 成本為 144 美元 ÷ 468 億 = 每百萬詞元 0.003 美元,而 output tokens 成本為 144 美元 ÷ 4670 萬 = 每百萬詞元 3.08 美元,存在千倍的差異!
2.5 當計算能力成為瓶頸
上述計算假設內存帶寬是主要限制因素 —— 這對典型工作負載確實成立。但在某些特定場景下,計算能力反而會成為系統瓶頸。當處理長上下文序列時,注意力計算量會隨序列長度呈平方級增長。采用超大批處理數量并增加并行注意力頭數,也會使系統從內存瓶頸轉為計算瓶頸。
當上下文長度超過 128k 時,注意力矩陣會變得極其龐大,系統將從內存受限模式轉為計算受限模式。對于超長上下文場景,這可能導致成本增長 2 到 10 倍。
這解釋了某些有趣的產品決策:Claude Code 將上下文長度人為限制在 20 萬詞元 —— 不僅是出于性能考量,更是為了將推理運算維持在低成本的內存受限狀態,避免陷入高成本的計算受限長上下文場景。這也是為何服務商對 20萬+ 詞元的上下文窗口會額外收費 —— 因為其經濟模型已發生本質變化。
03 終端用戶行為模式如 何影響 AI 服務提供商盈利結構
根據成本逆向推導的結果(再次強調,此處基于 H100 的零售租賃價格),我推測實際情況如下:
- 處理輸入幾乎零成本(約每百萬 token 0.001 美元)
- 生成輸出存在必須支付的實質性成本(約每百萬 token 3 美元)
這些成本恰好與 DeepInfra 平臺對 R1 模型的定價策略基本吻合,不過 input tokens 的加價幅度明顯更高。

3.1 A. 消費者套餐
- 每月支付 20 美元的 ChatGPT Pro 用戶:不限制日使用次數但限制 token 使用量
- 每日限制 10 萬 token 使用量
- 按 70% 輸入 token / 30% 輸出 token 的比例:實際成本約 3 美元 / 月
- OpenAI 實現了 5-6 倍的加價
這類用戶屬于典型的重度使用者,他們每天運用模型進行寫作、編程和常規查詢。此場景下的經濟模型非常健康。
3.2 B. 開發者使用場景
(譯者注:開發者場景的長 prompt 成本非常高昂,前文有提到,但此處計算可能沒有考慮這種情況)
- Claude Code Max 5 用戶(100 美元/月):若每日重度編程 2 小時
- 約 200 萬 input tokens,3 萬 output tokens /日
- 大量消耗 input token(低成本并行處理) + 極小量 output tokens
- 實際成本:約 4.92 美元/月 → 20.3 倍加價
- Claude Code Max 10 用戶(200 美元/月):若每日極重度使用 6 小時
- 約 1000 萬 input tokens,10 萬 output tokens/日
- 海量的 input tokens 與相對少量的生成 tokens
- 實際成本:約 16.89 美元/月 → 11.8 倍加價
開發者使用場景的經濟效益最為顯著。 像 Claude Code 這樣的編程助手天然存在極度不對稱的使用模式 —— 它們輸入整個代碼庫、相關文檔、堆棧跟蹤、多個文件及擴展上下文(低成本的 input tokens),僅需輸出代碼片段或對代碼的解釋說明等少量內容。這種模式完美契合了“輸入近乎免費,輸出成本高昂”的底層經濟結構。
3.3 C. API 利潤空間
- 現行 API 定價:每百萬 tokens 3/15(譯者注:分別代表輸入和輸出,后同) 美元 vs 實際成本約 0.01/3 美元。
- 利潤率:毛利潤率達 80-95% 以上
API 業務本質上就像一臺印鈔機。其毛利率水平更接近軟件業務模式,而非傳統基礎設施服務。
04 Conclusion
本文分析基于大量假設,其中部分可能并不準確。但即便假設誤差高達三倍,其經濟模型仍顯示出極高的盈利潛力。即便采用 H100 的公開市場零售價計算,原始計算成本也表明 AI 推理并非如許多人宣稱的那樣是不可持續的燒錢無底洞。
大多數人忽略了這樣一個事實:處理輸入信息的成本,比起生成輸出結果來,要低廉得多。這意味著成本存在高達千倍的差距 —— 處理每百萬個 input tokens 僅需約 0.005 美元,而生成每百萬個 output tokens 的成本卻要 3 美元以上。
正是這種成本上的不對稱性,解釋了為何某些應用場景利潤驚人,而另一些卻可能難以為繼。 重度讀取型應用(那些消耗海量上下文信息卻只生成極小量輸出的程序)的算力成本幾乎可忽略不計。對話智能體、處理完整代碼庫的編程助手、文檔分析工具和研究應用,正是這種成本模式的最大受益者。
視頻生成則處于這一成本結構的另一個極端。一個視頻模型可能只需接收一句簡單的文本提示詞(約 50 個詞元)作為輸入,卻需要生成代表每一幀畫面的數百萬個詞元。當你需要從極少的輸入生成海量的輸出時,其經濟模型會變得異常殘酷。這正好解釋了為何視頻生成的成本始終居高不下,也解釋了為何相關服務要么收取高昂價格,要么嚴格限制使用次數。
“AI這玩意貴得離譜,誰也玩不起”這種說法,與其說反映了經濟現實,不如說更符合行業巨頭的利益。現有的行業主導者不斷強調其巨額投入和技術壁壘,可能是在嚇阻潛在的競爭者,并阻止資本投向那些可能挑戰他們的后來者。但只要我們的計算大致準確(尤其是對于輸入密集型任務的處理),那么實現盈利的 AI 推理服務的實際門檻,很可能遠低于人們普遍認知的水平。
我們不應過度炒作成本而讓人忽視了最基本的經濟規律。感覺就像一二十年前,所有人都被超大規模云廠商關于云計算成本的說辭所迷惑,最終放任它們變成了利潤驚人的印鈔機。若此時不夠警惕,我們必將在 AI 推理領域重蹈覆轍。
END
本期互動內容 ??
?您在使用 AI 服務時,感覺哪個環節的成本對服務商挑戰最大?是生成長文本、處理超長上下文,還是高并發請求?您的直觀感受和文中分析的成本結構(輸入廉價/輸出昂貴)一致嗎?
文中鏈接
[2]??https://www.wheresyoured.at/wheres-the-money/??
[3]??https://futurism.com/the-byte/openai-chatgpt-pro-subscription-losing-money??
原文鏈接:
??https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/??

















