淺談智算設(shè)備對模型推理場景的影響
隨著AI技術(shù)在金融、科技等領(lǐng)域的深度滲透,算力建設(shè)已成為機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的核心支撐。硬件作為AI業(yè)務(wù)落地的基礎(chǔ)設(shè)施,不僅決定模型訓(xùn)練的效率,更直接影響推理服務(wù)的實時性與用戶體驗。本文將從設(shè)備管理員視角,結(jié)合推理過程核心階段的分析,剖析推理過程對硬件參數(shù)的要求,為AI硬件選型與性能優(yōu)化提供參考。
1.推理和訓(xùn)練的區(qū)別
AI模型從測試到投產(chǎn)落地,需經(jīng)歷訓(xùn)練與推理兩個核心環(huán)節(jié),二者在目標(biāo)、流程及算力需求上存在顯著差異。
(一)訓(xùn)練環(huán)節(jié)
以海量數(shù)據(jù)為基礎(chǔ),通過反復(fù)迭代優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)權(quán)重與結(jié)構(gòu)配置,最終使模型具備特定任務(wù)的泛化能力。該過程涉及大規(guī)模矩陣運算與反向傳播糾錯,對算力需求極高,構(gòu)建大語言模型(LLM)往往需依托超算級硬件與TB級數(shù)據(jù)集支撐。
(二)推理環(huán)節(jié)
基于已訓(xùn)練完成的模型,輸入新數(shù)據(jù)并快速生成決策或預(yù)測結(jié)果,全程無需調(diào)整模型內(nèi)置參數(shù)。從用戶交互視角看,多數(shù)AI服務(wù)(如對話生成、內(nèi)容推薦)均屬于推理過程,其算力需求遠(yuǎn)低于訓(xùn)練,但對響應(yīng)實時性要求更高。
由于訓(xùn)練與推理均依賴底層硬件提供的算力支撐,故硬件性能將直接影響模型運行效率。
2.模型推理階段時間估算方式
從任務(wù)執(zhí)行邏輯來看,大語言模型的推理流程可劃分為四個階段:Tokenize(分詞,CPU處理)、Prefill(預(yù)填充,GPU處理)、Decode(解碼,GPU處理)、Detokenize & Network(結(jié)果轉(zhuǎn)換與傳輸,CPU處理)。其中,GPU主導(dǎo)的Prefill與Decode階段直接決定推理延遲,具體流程如圖1所示:
圖1 推理流程圖
大語言模型推理形成結(jié)果的總延遲可以劃分為兩個階段:首個Token延遲(Time To First Token,TTFT)和每個輸出Token延遲(Time Per Output Token,TPOT)(分別對應(yīng)Prefill和Decode階段)。
(一)TTFT(首Token延遲)
從提交輸入請求到生成第一個輸出Token所需的時間,包括排隊等待、輸入Token化以及模型預(yù)填充計算等,從而得到第一個輸出Token。對于較長的提示詞(Prompt),TTFT會增大,因為模型需要先對整個輸入序列執(zhí)行一次完整的前向傳播計算來建立上下文。
(二)TPOT(單Token生成延遲)
在第一個Token之后,每生成一個后續(xù)Token所平均消耗的時間。通常完整的推理總延遲可表示為公式:TTFT+nxTPOT(其中 n 為輸出Token的數(shù)量)。在流式輸出場景中,它反映模型持續(xù)解碼過程的速度。TPOT不包括TTFT階段的開銷,主要衡量解碼循環(huán)本身的效率。在生成階段,每產(chǎn)生一個新Token都需進(jìn)行一次不含提示詞(prompt)的新前向計算,并隨著已生成序列增長而增加計算資源開銷。
相較之下,TTFT決定了用戶看到首個模型輸出的延遲,TPOT主要衡量模型在生成階段每個Token的平均輸出速度。兩者共同決定了推理服務(wù)所需的實時性和吞吐量。
3.硬件性能與 TTFT/TPOT 階段的關(guān)系
在GPU上推理大模型的延遲受多種硬件因素影響,包括GPU算力、顯存帶寬、多卡互聯(lián)帶寬、PCIe帶寬等。下面分析每項硬件參數(shù)如何影響TTFT和TPOT這兩個階段。
(一)總算力(理論 Flops)
算力是推理延遲的“理論上限”,在處理推理或高并行度場景中可發(fā)揮作用,但單流推理(如單用戶對話)時,其影響易被內(nèi)存或通信瓶頸掩蓋。
例如Transformer這類模型,每生成一個token需要執(zhí)行大量的矩陣運算,在TTFT階段,如果提示詞(prompt)長度很長(需處理大量token),算術(shù)強(qiáng)度(計算量/數(shù)據(jù)量)較高,GPU算力可能會被充分利用(此時TTFT可能接近計算受限);但對于典型的短提示詞(prompt)或生成階段(逐token解碼),計算單元常常等待數(shù)據(jù)加載,GPU處于低利用率狀態(tài)。
(二)顯存帶寬(HBM 內(nèi)存帶寬)
顯存帶寬是大型模型推理的首要瓶頸,更高的顯存帶寬能顯著降低TTFT與TPOT。
TTFT階段
即使輸入prompt較短,一次前向傳播仍需遍歷模型所有層的權(quán)重,算術(shù)強(qiáng)度低,主要受HBM帶寬制約;僅當(dāng)prompt極長時,計算占比才會小幅上升。
TPOT階段
解碼過程需反復(fù)加載模型參數(shù)與KV Cache,數(shù)據(jù)訪問量巨大,顯存帶寬直接決定TPOT長短。以70B參數(shù)模型(BF16精度下權(quán)重約140GB)為例,每生成一個Token需傳輸數(shù)10GB數(shù)據(jù),若顯存帶寬存在限制,單Token解碼延遲可達(dá)幾十毫秒,遠(yuǎn)高于實際計算耗時(毫秒級)。
因此,顯存帶寬對TTFT和TPOT都有關(guān)鍵影響,尤其是對重復(fù)的解碼階段TPOT貢獻(xiàn)最大。提升內(nèi)存帶寬或減少每Token需訪問的參數(shù)量(如模型裁剪、量化等)都能有效降低延遲。
(三)卡間互聯(lián)帶寬
卡間互聯(lián)帶寬直接決定通信等待時間,高帶寬可使通信占比降至10%以下,低帶寬則會讓通信成為主要瓶頸,導(dǎo)致額外GPU的算力無法轉(zhuǎn)化為速度提升。
對于DeepSeek-R1等超大規(guī)模模型(參數(shù)超百億),需多GPU聯(lián)合推理(如張量并行、流水并行),此時GPU間的通信帶寬成為延遲關(guān)鍵影響因素。在多GPU并行時,每層計算完成后需交換中間結(jié)果(如張量分塊、全局All-Reduce操作),若通信帶寬不足,GPU會陷入“同步等待”,直接拉長TTFT與TPOT。高速互聯(lián)技術(shù)(如NVLink/NVSwitch)可大幅降低通信開銷:以H100為例,第四代NVLink單卡互聯(lián)總帶寬達(dá)900GB/s;而若缺乏高速互聯(lián),僅通過PCIe(約128GB/s)傳輸20GB數(shù)據(jù),單次同步需150ms,通信占比超總耗時的50%;使用NVSwitch時,同等數(shù)據(jù)量傳輸僅需22ms,通信開銷可忽略。
(四)PCIe 帶寬
在“模型常駐顯存+GPU高速直連”的理想配置下,PCIe帶寬對推理延遲的貢獻(xiàn)極小;但在顯存不足或無高速互聯(lián)的場景中,其會成為關(guān)鍵瓶頸。
PCIe帶寬主要影響兩類數(shù)據(jù)傳輸場景,對推理延遲的作用需結(jié)合部署架構(gòu)判斷:
場景1 CPU和GPU數(shù)據(jù)交互
包括模型初始權(quán)重加載、輸入Token傳輸、輸出結(jié)果回傳。若模型預(yù)加載至GPU顯存(實際部署的主流方式),TTFT階段僅需傳輸少量輸入/輸出數(shù)據(jù),PCIe帶寬(如PCIe5.0的128GB/s)足以支撐,開銷可忽略;但若需頻繁從CPU主存加載權(quán)重(如顯存不足場景),則會顯著增加TTFT。
場景2 無NVLink時的多GPU通信
若缺乏高速互聯(lián),GPU間需通過PCIe交換數(shù)據(jù),此時PCIe帶寬會成為多卡推理的嚴(yán)重瓶頸,導(dǎo)致TTFT與TPOT大幅上升,速度顯著下降。
4.設(shè)備硬件指標(biāo)對于推理延遲的優(yōu)化程度
各硬件參數(shù)對兩個階段的影響有所不同:TTFT階段若輸入長則更依賴算力,短則類似解碼階段偏內(nèi)存受限;TPOT階段由于逐Token計算算術(shù)強(qiáng)度低,主要受限于內(nèi)存帶寬和多卡通信延遲。BF16低精度運算和高帶寬互聯(lián)屬于加速器特性,對降低整體延遲起到乘數(shù)效應(yīng)。因此,需綜合考量模型對于算力、顯存以及互聯(lián)的需求。
根據(jù)公開資料支持?jǐn)?shù)據(jù)以及測試經(jīng)驗數(shù)據(jù),以DeepSeek-R1 為例,可以將GPU推理總延遲 (TTFT + n×TPOT) 按瓶頸因素分解為以下近似比例:
推理總延遲影響歸納表
歸納圖3.0.png
綜上,大參數(shù)量模型推理場景下,顯存影響較大,其次為算力及卡間互聯(lián)帶寬,優(yōu)先提升顯存可能會帶來更好的體驗。
5.總結(jié)
本文通過拆解大語言模型的推理流程(Prefill/Decode階段),剖析了GPU算力、顯存帶寬、卡間互聯(lián)等硬件參數(shù)對TTFT與TPOT的作用機(jī)制,并量化了各指標(biāo)對總延遲的貢獻(xiàn)權(quán)重。顯存帶寬是推理延遲的首要制約因素,多卡場景下高速互聯(lián)的重要性顯著提升,而CPU與PCIe帶寬的影響需結(jié)合部署架構(gòu)判斷。
上述分析可為AI硬件選型、資源優(yōu)化配置提供理論支撐:例如高并發(fā)對話場景需優(yōu)先保障顯存帶寬,從而實現(xiàn)“按需分配硬件資源、精準(zhǔn)控制推理延遲”的目標(biāo),為AI業(yè)務(wù)的精細(xì)化實施落地奠定基礎(chǔ)。
作者:王叢
王叢.jpg
目前主要負(fù)責(zé)G行信創(chuàng)AI算力硬件選型及運維工作,積極探索測試新產(chǎn)品,提前布局,為業(yè)務(wù)上線提供充足優(yōu)質(zhì)的智能算力。

























