彭博社25日報道,亞馬遜正在通過其雄心勃勃的AI芯片計劃,力圖在云計算和人工智能領域減少對英偉達的依賴,盡管短期內(nèi)不太可能取而代之。
作者 | Matt Day, Ian King, and Dina Bass
在一個平凡的北奧斯汀社區(qū),周圍是匿名的企業(yè)辦公大樓,亞馬遜的工程師們正在為科技行業(yè)最雄心勃勃的計劃之一而努力:打破英偉達(Nvidia)在1000億美元以上的人工智能芯片市場上的壟斷。
亞馬遜的實用工程實驗室里,一排排長工作臺俯瞰著德州首府日益擴展的郊區(qū)。這里有點亂。印刷電路板、散熱風扇、電纜和網(wǎng)絡設備散落在工作站上,處于不同的組裝狀態(tài),有些還弄臟了與芯片連接的導熱膏,這些膏狀物能幫助芯片與防止過熱的組件連接。這里的氛圍就像一個創(chuàng)業(yè)公司,而非一家市值超過2萬億美元的大公司。
在這里工作的工程師們毫不猶豫地跑到家得寶(Home Depot)買鉆床,如果能加快進度,他們也樂于學習自己不擅長的領域。經(jīng)過數(shù)年的艱難努力,試圖從零開始創(chuàng)造機器學習芯片,他們發(fā)現(xiàn)自己背負著盡快推出一款與英偉達競爭的芯片的責任。這不僅僅是關于計算能力的問題,更重要的是構建一個簡單、可靠的系統(tǒng),能夠迅速將亞馬遜的數(shù)據(jù)中心轉(zhuǎn)變?yōu)榫薮蟮娜斯ぶ悄軝C器。
圖片
拉米·辛諾(Rami Sinno),一位外向的黎巴嫩裔工程師,曾在芯片行業(yè)工作了幾十年,負責芯片設計和測試。他曾幫助打造亞馬遜AI半導體的前兩代,現(xiàn)在正在爭分奪秒,力求在今年年底前讓最新版本的Trainium2在數(shù)據(jù)中心中穩(wěn)定運行。“讓我晚上無法安睡的是,如何盡可能快地實現(xiàn)這一目標,”辛諾說。
在過去的兩年里,英偉達已經(jīng)從一家利基芯片制造商轉(zhuǎn)變?yōu)樯墒紸I硬件的主要供應商,這一地位讓它成為了全球市值最大的公司。英偉達的處理器每個售價數(shù)萬美元,由于需求極其旺盛,難以獲得。上周,在發(fā)布財報后,英偉達告訴投資者,其最新硬件的需求將超出供應,預計會持續(xù)幾個季度,進一步加劇緊張局勢。
英偉達的最大客戶——如亞馬遜云服務、微軟的Azure和谷歌的云平臺等云服務提供商——都渴望減少對英偉達芯片的依賴,甚至取而代之。三家公司都在研發(fā)自己的硅片,但亞馬遜作為最大規(guī)模的租賃計算能力供應商,迄今為止已部署了最多的芯片。
在許多方面,亞馬遜有著成為AI芯片巨頭的理想條件。十五年前,亞馬遜發(fā)明了云計算業(yè)務,隨后逐步構建了支撐這一業(yè)務的基礎設施。隨著時間的推移,它逐步減少對一系列傳統(tǒng)廠商的依賴,包括英特爾,并將許多數(shù)據(jù)中心的服務器和網(wǎng)絡交換機拆除,換成了定制的硬件。然后,十年前,詹姆斯·漢密爾頓(James Hamilton),一位具有非凡時機把握感的高級副總裁兼杰出工程師,成功說服杰夫·貝佐斯開始做芯片。
1.“我們能夠生產(chǎn)出一款能夠與他們正面競爭的產(chǎn)品”
當OpenAI的ChatGPT在兩年前開啟了生成式AI的時代時,亞馬遜普遍被認為是一個后來者,措手不及,拼命追趕。到目前為止,亞馬遜還沒有推出一款被認為能與ChatGPT或Claude(由Anthropic公司打造,亞馬遜已投資80億美元)競爭的大型語言模型。但亞馬遜所建立的云計算基礎設施——定制的服務器、交換機、芯片——讓首席執(zhí)行官安迪·賈西(Andy Jassy)有機會開設一個AI超市,向那些希望使用由其他公司構建的模型的企業(yè)提供工具,并向那些訓練自己AI服務的公司提供芯片。
在業(yè)內(nèi)打拼近四十年的漢密爾頓深知,要將亞馬遜的芯片雄心推向下一個階段并不容易。設計可靠的AI硬件非常困難。也許更難的是編寫能夠讓這些芯片對廣泛客戶群體有用的軟件。英偉達的硬件幾乎可以順利處理任何人工智能任務。該公司正在向包括亞馬遜在內(nèi)的客戶交付下一代芯片,并且已經(jīng)開始宣傳一年后將取代它們的產(chǎn)品。行業(yè)觀察人士表示,亞馬遜短期內(nèi)不太可能取代英偉達的市場地位。
盡管如此,漢密爾頓和亞馬遜的工程團隊一次又一次地展示了他們在緊張預算下解決重大技術問題的能力。“英偉達是一家非常非常有能力的公司,做出了卓越的工作,因此他們將長期為許多客戶提供良好的解決方案,”漢密爾頓說。“我們堅信,我們可以生產(chǎn)出一款能夠與他們正面競爭的產(chǎn)品。”
漢密爾頓于2009年加入亞馬遜,之前曾在國際商業(yè)機器公司(IBM)和微軟工作。他是業(yè)內(nèi)的標志性人物,起初在家鄉(xiāng)加拿大修理豪華汽車,并從一艘54英尺的船上通勤到工作。漢密爾頓的加入恰逢其時。亞馬遜云服務(AWS)在三年前剛剛推出,獨自創(chuàng)造了云計算服務這個行業(yè)。AWS很快開始產(chǎn)生大量現(xiàn)金,幫助亞馬遜進行一系列重大投資。
當時,亞馬遜建造了自己的數(shù)據(jù)中心,但使用的是其他公司制造的服務器和網(wǎng)絡交換機。漢密爾頓領導了一項將這些設備替換為定制硬件的努力,首先從服務器開始。由于亞馬遜將購買數(shù)百萬臺服務器,漢密爾頓認為,通過根據(jù)不斷擴大的數(shù)據(jù)中心隊伍定制設備,并去掉AWS不需要的功能,他能夠降低成本并提高效率。
這項工作取得了足夠的成功,以至于當時負責AWS的賈西問公司還能設計哪些硬件。漢密爾頓建議做芯片,因為芯片已經(jīng)承擔了越來越多原本由其他組件處理的任務。他還推薦亞馬遜采用能源高效的Arm架構,這種架構驅(qū)動著智能手機,他押注于該技術的普及和開發(fā)者對其日益熟悉,認為這可以幫助亞馬遜取代長期以來為全球服務器機房提供動力的英特爾芯片。
“所有的路徑都指向我們擁有一個半導體設計團隊,”他在2013年8月提交給貝佐斯的提案中寫道。一個月后,喜歡在下午晚些時候與初創(chuàng)公司和客戶共度時光的漢密爾頓,在西雅圖的弗吉尼亞酒店酒吧與納費阿·布沙拉(Nafea Bshara)喝酒。
布沙拉是以色列的芯片行業(yè)老兵,2000年代初期移居舊金山灣區(qū),他共同創(chuàng)辦了Annapurna Labs,并以尼泊爾的安娜普爾納山命名。(布沙拉和他的聯(lián)合創(chuàng)始人原本打算在創(chuàng)辦初創(chuàng)公司之前登頂這座山,但投資者迫切希望他們開始工作,結果他們沒有完成這次旅行。)
這家低調(diào)的初創(chuàng)公司致力于為數(shù)據(jù)中心開發(fā)芯片,而當時大多數(shù)行業(yè)的重點仍集中在移動電話上。亞馬遜從Annapurna公司訂購了處理器,并在兩年后以約3.5億美元的價格收購了這家初創(chuàng)公司。這是一個具有遠見的舉措。
布沙拉和漢密爾頓從小規(guī)模開始,這反映了他們對實用工程的共同欣賞。當時,每個數(shù)據(jù)中心的服務器都分配了一部分計算能力用于運行控制、安全和網(wǎng)絡功能。Annapurna和亞馬遜的工程師們開發(fā)了一種名為Nitro的卡片,它完全從服務器中抽取了這些功能,使客戶能夠使用服務器的全部計算能力。
隨后,Annapurna將漢密爾頓的Arm通用處理器投入生產(chǎn)。這個名為Graviton的產(chǎn)品比競爭對手英特爾的設備便宜,使得亞馬遜成為了臺灣半導體制造公司(臺積電)十大客戶之一。臺積電是全球許多行業(yè)的芯片制造巨頭。
到那時,亞馬遜高層已經(jīng)對Annapurna有了充分的信心,認為它即便在不熟悉的領域也能表現(xiàn)出色。“你會發(fā)現(xiàn)很多公司在CPU上非常出色,或在網(wǎng)絡方面非常強,”布沙拉說。“但很少能找到在兩個、三個或四個不同領域都很強的團隊。”
在Graviton開發(fā)過程中,賈西問漢密爾頓亞馬遜還能自己做些什么。2016年底,Annapurna指派了四名工程師去探索開發(fā)機器學習芯片。這是另一個及時的賭注:幾個月后,一組谷歌的研究人員發(fā)布了一篇開創(chuàng)性的論文,提出了一種能夠使生成式AI成為可能的過程。
這篇名為《Attention is All You Need》的論文介紹了 Transformer,這是一種幫助人工智能系統(tǒng)識別最重要訓練數(shù)據(jù)的軟件設計原理。它成為了背后方法的基礎,支持能夠做出推測的系統(tǒng),分析詞語之間的關系,并從零開始創(chuàng)作文本。
大約在這個時候,拉米·辛諾正在奧斯汀的Arm公司工作,并在輔導他的學齡兒子參加機器人比賽。團隊開發(fā)了一款應用,利用機器學習算法分析照片,檢測夏季時定期污染奧斯汀湖泊的藻類爆發(fā)。辛諾對孩子們僅用一臺筆記本電腦就能做到這些感到印象深刻,他意識到一場革命即將到來。2019年,他加入了亞馬遜,幫助領導其AI芯片制造工作。
2.亞馬遜的漫漫造芯路
辛諾團隊的第一款芯片旨在支持“推理”(inference)——當計算機被訓練去識別數(shù)據(jù)中的模式并做出預測時,例如判斷一封郵件是否是垃圾郵件。這個名為Inferentia的組件于2019年12月開始在亞馬遜的數(shù)據(jù)中心投入使用,后來還用于幫助Alexa語音助手回答命令。亞馬遜的第二款AI芯片Trainium1,針對那些希望訓練機器學習模型的公司。工程師們還將該芯片與其他組件重新打包,使其更適合進行推理,成為Inferentia2。
最初,亞馬遜的AI芯片需求較為緩慢,這意味著客戶可以立即獲得芯片,而無需等待數(shù)周才能得到大量的英偉達硬件。尋求快速加入生成式AI革命的日本公司抓住了這一機會。例如,電子制造商Ricoh公司獲得了幫助,將以英語數(shù)據(jù)訓練的大型語言模型轉(zhuǎn)換為日語。
據(jù)Gadi Hutt所說,需求隨后有所增加。Hutt是Annapurna的早期員工之一,目前與使用亞馬遜芯片的公司合作。“我沒有Trainium芯片的閑置容量在那等著客戶,”他說。“它們都已經(jīng)被使用了。”
Trainium2是該公司第三代人工智能芯片。根據(jù)業(yè)內(nèi)的看法,這是一個生死攸關的時刻。要么第三次嘗試能夠以足夠的銷量證明投資是值得的,要么它失敗,公司就得找到新的道路。“我從未見過任何產(chǎn)品偏離三代法則,”數(shù)據(jù)分析軟件供應商Databricks公司AI工作的負責人、芯片行業(yè)資深人士Naveen Rao說。
Databricks在10月同意將Trainium作為與AWS達成的一項廣泛協(xié)議的一部分。目前,該公司的AI工具主要運行在英偉達硬件上。計劃是用Trainium取代部分英偉達的工作,而亞馬遜表示,Trainium可以以更低的價格提供30%的更好性能,Rao表示。“這歸結為純粹的經(jīng)濟學和可用性,”Rao說。“這就是戰(zhàn)場所在。”
Trainium1由八個芯片組成,這些芯片緊挨在一起,放置在一個深鋼盒子里,允許它們的熱量有效散發(fā)。AWS租給客戶的完整設備由兩個這樣的陣列組成。每個設備盒子里都充滿了線纜,整齊地包裹在網(wǎng)狀材料中。
對于Trainium2,亞馬遜表示其性能是上一代的四倍,內(nèi)存是上一代的三倍,工程師們舍棄了大多數(shù)電纜,而是通過印刷電路板傳輸電信號。同時,亞馬遜將每個機箱中的芯片數(shù)量減少到兩個,這樣工程師在進行維護時,所拆卸的其他組件就更少了。Sinno開始將數(shù)據(jù)中心視為一臺巨型計算機,這是英偉達首席執(zhí)行官黃仁勛鼓勵整個行業(yè)采納的方法。“簡化是關鍵,而且這也確實讓我們能夠更快推進,”Sinno說。
亞馬遜沒有等到臺積電生產(chǎn)出可用版本的Trainium2才開始測試新設計的工作方式。相反,工程師們將兩顆上一代芯片固定在板上,給他們時間開發(fā)控制軟件并測試電氣干擾。這在半導體行業(yè)中,相當于一邊飛行一邊造飛機。
亞馬遜已經(jīng)開始運輸Trainium2,并計劃將其連接成最多10萬個芯片的集群,送往俄亥俄州等數(shù)據(jù)中心。更廣泛的推廣將面向亞馬遜的主要數(shù)據(jù)中心樞紐。
該公司計劃大約每18個月推出一款新芯片,部分原因是減少硬件需要外包到其他供應商的次數(shù)。在車床對面的實驗室里,亞馬遜使用示波器來測試卡片和芯片,檢查是否有接頭問題或設計缺陷。
辛諾暗示,未來版本的工作已經(jīng)在進行中:在另一個實驗室里,那里有刺耳的風扇在為測試單元降溫,四對管道懸掛在天花板上。它們現(xiàn)在被封閉,但已經(jīng)準備好應對未來當AWS芯片產(chǎn)生過多熱量,僅靠風扇無法散熱的情況。
3.芯片界的“軍備競賽”
除了亞馬遜,其他公司也在推動極限。
英偉達將其芯片的需求形容為“瘋狂”,并正在努力每年推出一款新芯片,這一節(jié)奏雖然導致即將發(fā)布的Blackwell產(chǎn)品出現(xiàn)生產(chǎn)問題,但也將迫使整個行業(yè)加速跟進。同時,亞馬遜的兩個最大云計算競爭對手也在加速推進自己的芯片計劃。
谷歌大約十年前開始打造AI芯片,以加速其搜索產(chǎn)品背后的機器學習工作。后來,谷歌將該產(chǎn)品提供給云計算客戶,包括像Anthropic、Cohere和Midjourney這樣的AI初創(chuàng)公司。該芯片的最新版本預計明年將廣泛上市。今年4月,谷歌推出了首款中央處理單元(CPU),這款產(chǎn)品類似于亞馬遜的Graviton。“通用計算是一個巨大的機會,”谷歌副總裁Amin Vahdat說,他領導著從事芯片和其他基礎設施工作的工程團隊。他表示,最終目標是讓AI和通用計算芯片無縫協(xié)同工作。
微軟比AWS和谷歌稍晚進入數(shù)據(jù)中心芯片領域,直到去年年底才宣布推出名為Maia的AI加速器和名為Cobalt的CPU。像亞馬遜一樣,微軟意識到通過定制硬件來為其數(shù)據(jù)中心提供更好的性能。
Rani Borkar是微軟副總裁,曾在英特爾工作近三十年,她領導了這一努力。就在本月,她的團隊為微軟的產(chǎn)品組合增加了兩款新產(chǎn)品:一款安全芯片和一款數(shù)據(jù)處理單元,用于加速CPU和圖形處理單元(GPU)之間的數(shù)據(jù)流動,類似英偉達的產(chǎn)品。微軟一直在內(nèi)部測試這款AI芯片,并且已經(jīng)開始將其與英偉達的芯片一起使用,來運行讓客戶能夠創(chuàng)建應用程序的OpenAI模型服務。
雖然微軟的努力被認為比亞馬遜的版本落后幾代,但Borkar表示,公司對目前的成果感到滿意,并且正在開發(fā)更新版本的芯片。“不管別人是從哪里起步的,”她說,“我關注的重點是:客戶需要什么?因為你可以領先,但如果你做出的產(chǎn)品是客戶不需要的,那對硅芯片的投資是如此龐大,我可不想成為那個故事中的一章。”
盡管三家云巨頭都在競爭,但他們一致稱贊英偉達,并在新芯片(如Blackwell)發(fā)布時爭奪市場位置。
Amazon的Trainium2如果能夠承擔更多公司的內(nèi)部AI工作,并為一些大型AWS客戶提供項目支持,那么它可能會被視為成功。這將幫助釋放Amazon寶貴的高端英偉達芯片資源,供專業(yè)AI公司使用。為了讓Trainium2成為一個毫無爭議的成功,工程師們必須確保軟件的正確性——這可不是一件容易的事。與英偉達的全面工具套件相比,亞馬遜的軟件Neuron SDK仍處于起步階段,后者的工具使客戶能夠輕松地將機器學習項目投入使用,而無需大量定制。
即使公司能在沒有太多麻煩的情況下將項目遷移到Amazon,驗證轉(zhuǎn)換過程中是否出現(xiàn)問題可能會占用工程師數(shù)百小時的時間,一位亞馬遜和芯片行業(yè)的資深人士表示(他要求匿名以便自由發(fā)言)。一位AWS合作伙伴的高管(也要求匿名)表示,盡管亞馬遜在使其通用Graviton芯片易于使用方面取得了成功,但AI硬件的潛在用戶仍然面臨更多的復雜性。
“英偉達主導的原因很簡單,”Gartner公司副總裁Chirag Dekate說,他跟蹤人工智能技術。“你不必擔心這些細節(jié)。”
因此,亞馬遜求助于合作伙伴——鼓勵大客戶和合作伙伴在與AWS簽訂新協(xié)議或續(xù)簽時使用其芯片。其目的是讓前沿團隊充分利用這些硅芯片,找出改進的空間。
其中一家公司是Databricks,雖然他們預見到可能需要幾周或幾個月才能將其投入使用,但他們愿意付出努力,希望能夠?qū)崿F(xiàn)成本節(jié)約。人工智能初創(chuàng)公司Anthropic(OpenAI的競爭對手)去年接受了亞馬遜40億美元的資金,并同意將Trainium芯片用于未來的開發(fā),盡管它們也使用英偉達和谷歌的產(chǎn)品。上周五,Anthropic宣布又獲得了亞馬遜40億美元的資金,并加深了合作關系。
“我們特別看重亞馬遜Trainium芯片的性價比,”Anthropic的首席計算官Tom Brown表示。“我們正在穩(wěn)步擴大其在越來越廣泛的工作負載中的使用。”
Hamilton表示,Anthropic正在幫助亞馬遜迅速改進。但他也清楚地認識到挑戰(zhàn),并表示“必須”開發(fā)出優(yōu)秀的軟件,使客戶能夠輕松使用AWS芯片。“如果你不能彌合復雜性差距,”他說,“你將會失敗。”


































