AI大牛李沐裝機視頻來了!你也能練100億的大模型

在還沒出裝機視頻前,李沐老師曾發起了一個小小的問卷調查,趁著顯卡降價,看下童鞋們對裝機跑Transformer有多大興趣。
當時,就連華為天才少年「稚暉君」都來點贊了,足見大家還是很期待的。

這不,沐神帶著他的裝機視頻來了。怎樣用最低的成本訓練一個100億模型?
而就在最近,幣圈也在一直降溫,同時GPU也明顯降價了不少,就比如英偉達3090TI現在售價1600美元(原價2000美元)。

在這個項目的開始,先裝了2臺原型機,每臺機器都是雙卡RTX 3090TI,采用了水冷散熱系統,減少了噪音。
一臺機器裝下來,造價有5000多美元,大約3萬5人民幣。
話不多說,來看看沐神如何裝機的吧~
裝機清單
裝機的需求,首先就要是足夠安靜。不然太吵的話沒法工作。
第二個需求就是散熱要好。不然溫度過高的話會導致GPU降頻。
第三個,重點來了,因為需要跑比較大的Transformer模型,所以GPU的帶寬必須足夠好。
如果之前裝過GPU服務器用來跑CNN的話,跟跑Transformer模型的需求會不太一樣。因為Transformer模型比CNN模型要更大,對內存的占有率會更高。所以GPU的內存大小非常重要。

之前沐神也講過,要把這樣大的Transformer模型放到多個GPU上訓練,來自谷歌、微軟等的工程師都是使用類似DGA X100這樣的機器來跑的。即使在這樣的機器上,GPU的帶寬仍然是一個瓶頸。
購買這種服務器GPU和游戲GPU的區別就在于,前者不在于單卡能跑多快,而是卡與卡之間能夠多快地連接出來。
因此裝機理念的重點就是:盡量增大GPU內存,以及GPU之間互聯的一個帶寬,
如果一臺機器想放很多卡的話,就要買渦輪的散熱。
如果想要安靜的話,就買水冷的散熱,沐神買的是4塊3090 TI。用水冷的好處是比較安靜,壞處就是特別占地方。
所以,如果要在機箱放四塊卡的話,就不要買水冷的版本,而是要買只有一個渦輪風扇的版本。
而且機箱里風的流向是一個特別重要的問題。如果買帶3個風扇的卡,風是從正面進入機箱,然后從四面八方散熱,卡挨得緊的話,機箱里的溫度就會非常高。
沐神也說,自己在多年前,買了四塊2個大風扇的卡放在一起,結果就導致一塊卡溫度過高燒掉了。
GPU選好以后(華碩的ROG), 剩下的配置就比較簡單。CPU用的是AMD的12核CPU,主板是號稱PCIE 4.0 16的某牌子,硬盤是2 TB的M.2的硬盤,風扇是120毫米水冷風扇,加一個全尺寸機箱。

裝機步驟
裝機清單完成后,接下來就是具體的裝機過程了。步驟如下:
首先放GPU。注意,放的過程中一定不能用手碰金屬的地方,如果有靜電的話非常容易造成GPU導電。

把GPU放進去之后,把螺絲擰上。然后把風扇裝進去。
插上電源后,把電源線和水管線綁在一起。然后把NVLink的橋給連上去。

最后連上電源,機器就可以運行了。

壓力測試
在裝機完成后,下一步的任務就是繼續裝上操作系統。
沐神裝的是ubuntu22,裝上之后就靠遠程連上去了。
當然了,沐神也是把各種情況說的比較詳細,除了ubuntu22以外,windows和linux在不同的需求下也是可以的。
這里沐神用的SSH進行的遠程連接。

沐神的系統已經裝上了驅動,同時,他也指出如果還沒有驅動的話,也可以用apt-get裝上nvidia-driver-515。

裝好之后,就可以運行nvidia-smi,看到系統了。

從中可以看到各項信息。比如GPU的數量、溫度、瓦數、內存使用等等。
接下來還可以通過nvidia-smi的topo-m矩陣看到nv-link是否正常。

可以看到兩個GPU由NV4連接。4表示4個通道,這就代表連接是正常的。
下一題,是測試系統在滿負荷的情況下的溫度。
沐神表示,測試GPU的是一個叫gpu-burn的小程序,github上可以下載。
這里沐神模擬跑了十分鐘,也是看到了兩個GPU的溫度。沐神還打趣說,都能感覺到GPU在呼呼吹熱風。
同理,CPU也可以用這種辦法測試溫度,用的是cpu-burn。
最終兩個GPU的溫度停留在58度和55度,功耗拉到了440多瓦(滿功耗480瓦),還挺好的。
最后的一項參數是機器的耗電情況。沐神的測試大概用了1240瓦,意味著每小時用電1.5度。

從目前的數據來看,穩定性還ok。
至于用這臺機器跑Transformer性能怎么樣,還得等下期視頻了。
網友熱評
視頻發出后,b站的網友也表示出了極大的興趣。
有滿分課代表同學出沒,列出了視頻中提到的完整配置清單。
還有網友火速前來圍觀,「跟李沐學裝機」。

沐神自己表示,感覺3090ti的卡不是太行。馬上有網友搭腔,「不行就抽了送人吧。」

當然了,這種硬核裝機視頻下的評論肯定少不了幽默因素。

只能說,太真實了。


































