淺談智算設(shè)備對模型推理場景的影響

作者：王叢 2025-09-30 09:47:29

硬件作為AI業(yè)務(wù)落地的基礎(chǔ)設(shè)施，不僅決定模型訓(xùn)練的效率，更直接影響推理服務(wù)的實時性與用戶體驗。本文將從設(shè)備管理員視角，結(jié)合推理過程核心階段的分析，剖析推理過程對硬件參數(shù)的要求，為AI硬件選型與性能優(yōu)化提供參考。

隨著AI技術(shù)在金融、科技等領(lǐng)域的深度滲透，算力建設(shè)已成為機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的核心支撐。硬件作為AI業(yè)務(wù)落地的基礎(chǔ)設(shè)施，不僅決定模型訓(xùn)練的效率，更直接影響推理服務(wù)的實時性與用戶體驗。本文將從設(shè)備管理員視角，結(jié)合推理過程核心階段的分析，剖析推理過程對硬件參數(shù)的要求，為AI硬件選型與性能優(yōu)化提供參考。

1.推理和訓(xùn)練的區(qū)別

AI模型從測試到投產(chǎn)落地，需經(jīng)歷訓(xùn)練與推理兩個核心環(huán)節(jié)，二者在目標(biāo)、流程及算力需求上存在顯著差異。

（一）訓(xùn)練環(huán)節(jié)

以海量數(shù)據(jù)為基礎(chǔ)，通過反復(fù)迭代優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)權(quán)重與結(jié)構(gòu)配置，最終使模型具備特定任務(wù)的泛化能力。該過程涉及大規(guī)模矩陣運算與反向傳播糾錯，對算力需求極高，構(gòu)建大語言模型（LLM）往往需依托超算級硬件與TB級數(shù)據(jù)集支撐。

（二）推理環(huán)節(jié)

基于已訓(xùn)練完成的模型，輸入新數(shù)據(jù)并快速生成決策或預(yù)測結(jié)果，全程無需調(diào)整模型內(nèi)置參數(shù)。從用戶交互視角看，多數(shù)AI服務(wù)（如對話生成、內(nèi)容推薦）均屬于推理過程，其算力需求遠(yuǎn)低于訓(xùn)練，但對響應(yīng)實時性要求更高。

由于訓(xùn)練與推理均依賴底層硬件提供的算力支撐，故硬件性能將直接影響模型運行效率。

2.模型推理階段時間估算方式

從任務(wù)執(zhí)行邏輯來看，大語言模型的推理流程可劃分為四個階段：Tokenize（分詞，CPU處理）、Prefill（預(yù)填充，GPU處理）、Decode（解碼，GPU處理）、Detokenize & Network（結(jié)果轉(zhuǎn)換與傳輸，CPU處理）。其中，GPU主導(dǎo)的Prefill與Decode階段直接決定推理延遲，具體流程如圖1所示：

圖1 推理流程圖

大語言模型推理形成結(jié)果的總延遲可以劃分為兩個階段：首個Token延遲（Time To First Token，TTFT）和每個輸出Token延遲（Time Per Output Token，TPOT）（分別對應(yīng)Prefill和Decode階段）。

（一）TTFT（首Token延遲）

從提交輸入請求到生成第一個輸出Token所需的時間，包括排隊等待、輸入Token化以及模型預(yù)填充計算等，從而得到第一個輸出Token。對于較長的提示詞（Prompt），TTFT會增大，因為模型需要先對整個輸入序列執(zhí)行一次完整的前向傳播計算來建立上下文。

（二）TPOT（單Token生成延遲）

在第一個Token之后，每生成一個后續(xù)Token所平均消耗的時間。通常完整的推理總延遲可表示為公式:TTFT+nxTPOT（其中 n 為輸出Token的數(shù)量）。在流式輸出場景中，它反映模型持續(xù)解碼過程的速度。TPOT不包括TTFT階段的開銷，主要衡量解碼循環(huán)本身的效率。在生成階段，每產(chǎn)生一個新Token都需進(jìn)行一次不含提示詞（prompt）的新前向計算，并隨著已生成序列增長而增加計算資源開銷。

相較之下，TTFT決定了用戶看到首個模型輸出的延遲，TPOT主要衡量模型在生成階段每個Token的平均輸出速度。兩者共同決定了推理服務(wù)所需的實時性和吞吐量。

3.硬件性能與 TTFT/TPOT 階段的關(guān)系

在GPU上推理大模型的延遲受多種硬件因素影響，包括GPU算力、顯存帶寬、多卡互聯(lián)帶寬、PCIe帶寬等。下面分析每項硬件參數(shù)如何影響TTFT和TPOT這兩個階段。

（一）總算力（理論 Flops）

算力是推理延遲的“理論上限”，在處理推理或高并行度場景中可發(fā)揮作用，但單流推理（如單用戶對話）時，其影響易被內(nèi)存或通信瓶頸掩蓋。

例如Transformer這類模型，每生成一個token需要執(zhí)行大量的矩陣運算，在TTFT階段，如果提示詞（prompt）長度很長（需處理大量token），算術(shù)強(qiáng)度（計算量/數(shù)據(jù)量）較高，GPU算力可能會被充分利用（此時TTFT可能接近計算受限）；但對于典型的短提示詞（prompt）或生成階段（逐token解碼），計算單元常常等待數(shù)據(jù)加載，GPU處于低利用率狀態(tài)。

（二）顯存帶寬（HBM 內(nèi)存帶寬）

顯存帶寬是大型模型推理的首要瓶頸，更高的顯存帶寬能顯著降低TTFT與TPOT。

TTFT階段

即使輸入prompt較短，一次前向傳播仍需遍歷模型所有層的權(quán)重，算術(shù)強(qiáng)度低，主要受HBM帶寬制約；僅當(dāng)prompt極長時，計算占比才會小幅上升。

TPOT階段

解碼過程需反復(fù)加載模型參數(shù)與KV Cache，數(shù)據(jù)訪問量巨大，顯存帶寬直接決定TPOT長短。以70B參數(shù)模型（BF16精度下權(quán)重約140GB）為例，每生成一個Token需傳輸數(shù)10GB數(shù)據(jù)，若顯存帶寬存在限制，單Token解碼延遲可達(dá)幾十毫秒，遠(yuǎn)高于實際計算耗時（毫秒級）。

因此，顯存帶寬對TTFT和TPOT都有關(guān)鍵影響，尤其是對重復(fù)的解碼階段TPOT貢獻(xiàn)最大。提升內(nèi)存帶寬或減少每Token需訪問的參數(shù)量（如模型裁剪、量化等）都能有效降低延遲。

（三）卡間互聯(lián)帶寬

卡間互聯(lián)帶寬直接決定通信等待時間，高帶寬可使通信占比降至10%以下，低帶寬則會讓通信成為主要瓶頸，導(dǎo)致額外GPU的算力無法轉(zhuǎn)化為速度提升。

對于DeepSeek-R1等超大規(guī)模模型（參數(shù)超百億），需多GPU聯(lián)合推理（如張量并行、流水并行），此時GPU間的通信帶寬成為延遲關(guān)鍵影響因素。在多GPU并行時，每層計算完成后需交換中間結(jié)果（如張量分塊、全局All-Reduce操作），若通信帶寬不足，GPU會陷入“同步等待”，直接拉長TTFT與TPOT。高速互聯(lián)技術(shù)（如NVLink/NVSwitch）可大幅降低通信開銷：以H100為例，第四代NVLink單卡互聯(lián)總帶寬達(dá)900GB/s；而若缺乏高速互聯(lián)，僅通過PCIe（約128GB/s）傳輸20GB數(shù)據(jù)，單次同步需150ms，通信占比超總耗時的50%；使用NVSwitch時，同等數(shù)據(jù)量傳輸僅需22ms，通信開銷可忽略。

（四）PCIe 帶寬

在“模型常駐顯存+GPU高速直連”的理想配置下，PCIe帶寬對推理延遲的貢獻(xiàn)極小；但在顯存不足或無高速互聯(lián)的場景中，其會成為關(guān)鍵瓶頸。

PCIe帶寬主要影響兩類數(shù)據(jù)傳輸場景，對推理延遲的作用需結(jié)合部署架構(gòu)判斷：

場景1 CPU和GPU數(shù)據(jù)交互

包括模型初始權(quán)重加載、輸入Token傳輸、輸出結(jié)果回傳。若模型預(yù)加載至GPU顯存（實際部署的主流方式），TTFT階段僅需傳輸少量輸入/輸出數(shù)據(jù)，PCIe帶寬（如PCIe5.0的128GB/s）足以支撐，開銷可忽略；但若需頻繁從CPU主存加載權(quán)重（如顯存不足場景），則會顯著增加TTFT。

場景2 無NVLink時的多GPU通信

若缺乏高速互聯(lián)，GPU間需通過PCIe交換數(shù)據(jù)，此時PCIe帶寬會成為多卡推理的嚴(yán)重瓶頸，導(dǎo)致TTFT與TPOT大幅上升，速度顯著下降。

4.設(shè)備硬件指標(biāo)對于推理延遲的優(yōu)化程度

各硬件參數(shù)對兩個階段的影響有所不同：TTFT階段若輸入長則更依賴算力，短則類似解碼階段偏內(nèi)存受限；TPOT階段由于逐Token計算算術(shù)強(qiáng)度低，主要受限于內(nèi)存帶寬和多卡通信延遲。BF16低精度運算和高帶寬互聯(lián)屬于加速器特性，對降低整體延遲起到乘數(shù)效應(yīng)。因此，需綜合考量模型對于算力、顯存以及互聯(lián)的需求。

根據(jù)公開資料支持?jǐn)?shù)據(jù)以及測試經(jīng)驗數(shù)據(jù)，以DeepSeek-R1 為例，可以將GPU推理總延遲 (TTFT + n×TPOT) 按瓶頸因素分解為以下近似比例：

推理總延遲影響歸納表

歸納圖3.0.png

綜上，大參數(shù)量模型推理場景下，顯存影響較大，其次為算力及卡間互聯(lián)帶寬，優(yōu)先提升顯存可能會帶來更好的體驗。

5.總結(jié)

本文通過拆解大語言模型的推理流程（Prefill/Decode階段），剖析了GPU算力、顯存帶寬、卡間互聯(lián)等硬件參數(shù)對TTFT與TPOT的作用機(jī)制，并量化了各指標(biāo)對總延遲的貢獻(xiàn)權(quán)重。顯存帶寬是推理延遲的首要制約因素，多卡場景下高速互聯(lián)的重要性顯著提升，而CPU與PCIe帶寬的影響需結(jié)合部署架構(gòu)判斷。

上述分析可為AI硬件選型、資源優(yōu)化配置提供理論支撐：例如高并發(fā)對話場景需優(yōu)先保障顯存帶寬，從而實現(xiàn)“按需分配硬件資源、精準(zhǔn)控制推理延遲”的目標(biāo)，為AI業(yè)務(wù)的精細(xì)化實施落地奠定基礎(chǔ)。

作者：王叢

王叢.jpg

目前主要負(fù)責(zé)G行信創(chuàng)AI算力硬件選型及運維工作，積極探索測試新產(chǎn)品，提前布局，為業(yè)務(wù)上線提供充足優(yōu)質(zhì)的智能算力。

責(zé)任編輯：武曉燕來源：匠心獨運維妙維效

智算設(shè)備 AI業(yè)務(wù)模型推理