輸入成本接近免費,推理根本不燒錢!ChatGPT毛利超5倍,Claude賺麻溢價20倍!大佬起底:別被忽悠了! 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
OpenAI 的 ChatGPT 也好、Claude 也好,國內的 DeepSeek也好,到底在推理上是燒錢,虧錢,還是掙錢?
ChatGPT Pro 的毛利高達 5-6 倍;
Claude 做開發者的生意更賺錢:Claude Code Max 的毛利潤率竟高達 12-20 倍溢價。怪不得大家都下場卷編程賽道!
而 API 的利潤率接近 100%,堪比軟件。
就在剛剛,一位資深業界人士、同時也是剛成立一年的初創公司的聯合創始人忍不住替我們揭開了真相。
大家口口聲聲說推理成本讓整個行業不可持續,這說法到底有多站得住腳?
昨晚,英國一家初創公司 catchmetrics.io 的聯創 Martin Alderson 發表了一篇博客,在 HackerNews 上引起了巨大反響,評論高達 430 多條。
圖片
文章中,Alderson 以 DeepSeek R1 為基準架構,可以說將整個推理環節的成本翻了個底朝天,并得到了一個讓人驚掉下巴的結論,他發現:
大模型在推理環節,輸入的處理上成本幾乎是免費的,而在 decode 輸出階段的成本卻搞出來上千倍!
輸入處理幾乎免費:約 $0.001 / 百萬 tokens
輸出生成才是真正成本:約 $3 / 百萬 tokens
按照這個數字,你就會發現 OpenAI ChatGPT 的經濟狀況到底有多健康!
話不多說,咱們馬上看看這篇神文究竟是如何起底 OpenAI 和 Anthropic 這兩家究竟有多賺錢的!
1.AI推理環節很燒錢?我懷疑
我一直聽說 AI,尤其是推理環節,是個“燒錢機器”。表面上看這種說法很合理,但我對這種論調始終存疑,所以決定自己挖一挖。
我沒見過有人真正把大規模推理的成本結構拆開過,而這恰恰是我很感興趣的經濟學問題。
先說清楚:這只是粗算。我沒有大規模運行前沿模型的經驗,但我對在云上跑超高吞吐量服務的成本和經濟學很了解,也知道超大規模云廠商和裸機之間離譜的利潤差。歡迎指正。
2.一些假設
我只考慮純粹的計算成本。這當然是過度簡化,但考慮到現有模型即便不再改進也極具實用性,我想測試一個假設:大家口口聲聲說推理成本讓整個行業不可持續,這說法到底有多站得住腳。
我取一塊 H100 的成本為 2 美刀/小時。這其實比零售按需租賃價還貴,而我(希望)大廠能以遠低于這個價格拿到。
作為基準架構,我選用 DeepSeek R1:總 6710 億參數,通過專家混合(MoE)激活 370 億參數。性能大致接近 Claude Sonnet 4 和 GPT-5,我覺得這個假設算合理。
圖片
3.從第一性原理出發:H100 成本推算
|生產環境設定
假設一組 72 張 H100,每張 2 美元/小時,總成本 144 美元/小時。
延遲要求下,我設定 batch size=32 并行請求/模型實例,比基準測試里的巨大 batch 更現實。采用張量并行,每個模型實例分布在 8 張 GPU 上,因此 72 張 GPU 可以同時跑 9 個模型實例。
|Prefill 階段(輸入處理)
H100 的顯存帶寬大約 3.35TB/s。激活的 370 億參數按 FP16 存儲需要 74GB。計算:3,350GB/s ÷ 74GB ≈ 45 次前向傳遞/秒/實例。
關鍵在于:每次前向傳遞會同時處理所有序列的所有 token。batch=32,每序列平均 1000 tokens,即每次 32,000 tokens。所以單實例:45 × 32k = 144 萬 tokens/秒。9 個實例合計:1300 萬 tokens/秒,≈ 468 億 tokens/小時。
MoE 可能導致不同 token 走向不同專家,吞吐降低 2–3 倍。但由于路由常常聚集,且現代實現有專家并行和容量因子優化,實際影響更可能是 30–50% 的下降,而不是最糟情況。
|Decode 階段(輸出生成)
這里情況完全不同。生成是逐 token 輸出的:每次前向傳遞每序列只生成 1 個 token。所以:45 × 32 = 1440 tokens/秒/實例。9 個實例合計:12,960 tokens/秒,≈ 4670 萬 tokens/小時。
4.單位 token 成本差異巨大
當我們細化到單個輸入和輸出的成本來看,就會發現兩者極其不對稱,差異極其懸殊:
- 輸入:144 ÷ 468 億 ≈ 0.003 美元 / 百萬 tokens
- 輸出:144 ÷ 4670 萬 ≈ 3.08 美元 / 百萬 tokens
差了 一千倍!
ps:關于輸出成本,有網友提出了質疑。
圖片
該網友表示,事實上,任何有足夠資金,能配置一小批高性能 GPU 的人,都可以在規模上解碼超大模型。差不多 4 個月前,這個已經可以做到,成本是每百萬輸出 tokens 0.2 美元。
再加上更多代碼優化 hack,以及使用 B200 芯片,這個成本還在顯著下降。
圖片
此外,還有一位網友補充了一些作者存在的錯誤之處。
預填充(prefill)根本不是帶寬受限的。
如果你算一下作者得到的 MFU(機器浮點運算利用率):每秒 144 萬輸入 tokens * 370 億個活躍參數 * 2(FMA)/ 每實例 8 張 GPU = 每秒 13 Petaflops。
這大約是硬件絕對峰值 FLOPS 的 7 倍。顯然,這是不可能的。
ps:雖然澄清這些錯誤很有必要,但不過,這些都不足以推翻作者下面要得出的結論。
5.當計算而非帶寬成為瓶頸
以上假設內存帶寬是瓶頸,但在某些情況計算會成為主導:
- 長上下文:注意力機制復雜度隨序列長度二次增長。
- 巨大 batch:更多并行頭會讓計算飽和。
一旦序列長度 >128k,注意力矩陣極大,成本會驟增 2–10 倍。
這也解釋了為什么 Claude Code 限制上下文到 200k,不只是性能問題,也是為了讓推理停留在廉價的內存帶寬受限區,而不是昂貴的計算受限區。超過 200k 的上下文窗口往往要額外收費,本質是因為成本曲線發生了躍遷。
6.真實的用戶經濟學
基于零售價的推算結果:
- 輸入處理幾乎免費:約 $0.001 / 百萬 tokens
- 輸出生成才是真正成本:約 $3 / 百萬 tokens
這與 DeepInfra 對 R1 的定價大體吻合,差別在于輸入 tokens 收費加了很高溢價。
圖片
A. 消費者套餐
- ChatGPT Pro:$20/月
- 假設每天 10 萬 tokens(70% 輸入 / 30% 輸出)
- 實際成本 ≈ $3/月
- OpenAI 毛利:約 5–6 倍
典型重度用戶:寫作、編程、問答。經濟性非常健康。
B. 開發者使用
- Claude Code Max 5:$100/月,2 小時/天
輸入 ~200 萬 tokens,輸出 ~3 萬 tokens/天
成本 ≈ $4.92/月 → 20 倍溢價
- Claude Code Max 10:$200/月,6 小時/天
- 輸入 ~1000 萬 tokens,輸出 ~10 萬 tokens/天
- 成本 ≈ $16.89/月 → 12 倍溢價
開發者場景的經濟性更優:輸入大量代碼、文檔、錯誤日志,輸出卻相對小。正好契合輸入幾乎免費的成本結構。
C. API 利潤率
- 定價:$3 / $15 每百萬 tokens
- 實際成本:約 $0.01 / $3
- 毛利率:80–95%+
API 基本就是印鈔機。毛利接近軟件,而不是基礎設施。
7.寫在最后:推理是門很好的生意
在這份分析中,我們做了很多假設,其中一些可能并不準確。但即便誤差放大 3 倍,推理的經濟性依然極其可觀。
大多數人忽略的關鍵點就在于:輸入處理的成本與輸出生成相比,便宜得極其夸張。兩者之間大約存在千倍差距:
輸入 Token 的成本大約是每百萬 $0.005,而輸出 Token 則超過每百萬 $3。
這種成本的不對稱性,也解釋了為什么某些場景能夠獲得極高利潤,而另一些則舉步維艱。
- 重輸入/輕輸出的應用極度盈利:對話助手、代碼助手、文檔分析、研究工具。
這些應用通常消耗海量上下文但只生成極少輸出,幾乎是在一個接近“免費層”的算力成本上運行。
- 重輸出/輕輸入的應用極其燒錢:視頻生成就是典型。
一個視頻模型可能只需要一個簡單的文本提示作為輸入,可能僅 50 個 Token,但生成的每一幀都需要消耗數百萬個 Token。這也解釋了為什么視頻生成依然如此昂貴,以及為什么相關服務要么收取高昂費用,要么嚴格限制使用。
8.不要被“燒錢”嚇到,未必是真的
所以,“AI 成本高得不可持續”的敘事,或許更多是在既得利益玩家的唬人話術,借以阻止競爭和替代性投資,而非真正反映經濟現實。
當頭部廠商不斷強調巨大的成本和技術復雜性時,這會打擊競爭者的進入熱情以及對替代方案的投資。
但如果我們的測算哪怕接近準確,尤其是在輸入密集型工作負載上,盈利性 AI 推理的門檻可能遠低于大眾的認知。
回顧十幾二十年前,大家就在云計算成本上被超大規模廠商“忽悠”過一次,最終大廠們變成了印鈔機。如果我們不小心,AI 推理也可能重蹈覆轍。
其實,他們很賺錢。
參考鏈接:https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
本文轉載自??51CTO技術棧??,作者:云昭

















