太平洋科技要聞

黃仁勛“人肉快遞”，掀起900億美元算力爭奪戰(zhàn)

騰訊科技整合編輯：龔震發(fā)布于：2024-05-04 00:15

全球首臺，黃仁勛親自送貨上門，OpenAI首發(fā)，DGX H200算是把流量拉滿了。

DGX H200在發(fā)布大概半年后出貨交付客戶，按級別算屬于現(xiàn)役“AI算力核彈”，更先進(jìn)的GB200系列畢竟還沒有量產(chǎn)服役。

作為山姆·奧特曼的親密戰(zhàn)友，在去年的“宮斗事件”中一同被趕出公司的格雷格·布羅克曼興奮的在推特上官宣了這一消息。格雷格·布羅克曼炫耀式的推文中，還特意引用了黃仁勛在這臺設(shè)備上的寄語簽名——“為了推動AI、計算與人類的發(fā)展。”

山姆·奧特曼、黃仁勛與格雷格·布羅克曼與DGX-GH200服務(wù)器合影

2016年，彼時黃仁勛在馬斯克等人的見證下，也曾為OpenAI捐贈了全球首臺DGX-1服務(wù)器。請注意，當(dāng)時是贈送的。黃仁勛寫道，“致埃隆和OpenAI團(tuán)隊，為了計算和人類的未來，我向你們贈送世界上第一臺DGX-1。”

兩次題詞，都強(qiáng)調(diào)“為了計算和人類的未來”，或多或少能說明：硅谷大佬們眼中“規(guī)模法則”是帶領(lǐng)人類通往AGI時代的大門；黃仁勛和英偉達(dá)，掌握著打開這扇大門的鑰匙。

一直以來，OpenAI信奉的就是這種“大力出奇跡”的邏輯，山姆·奧特曼頻繁對外吹風(fēng)“我們需要更多的GPU”、“世界需要更多的人工智能計算”，甚至被傳出“7萬億美元投資AI芯片制造”的消息。

我們的問題是，硅谷巨頭們的算力儲備情況如何，英偉達(dá)能否緩解AI布道者們的算力焦慮癥，而誰又會成為英偉達(dá)供應(yīng)算力子彈的掣肘，回答這些問題，可以從H200的“戰(zhàn)斗力”開始。

H200迎戰(zhàn)MI300X、Gaudi3

H200實際上去年下半年就已經(jīng)發(fā)布，分HGX和DGX兩個版本。HGX可以理解為計算模組，包含4 GPU、8 GPU兩個版本，而DGX版本可以理解為AI超算服務(wù)器，不僅搭載了GPU模塊，還配置有操作系統(tǒng)和處理器。

大家都說DGX H200交付，更準(zhǔn)確的說法應(yīng)該是DGX GH200，這里的“G”，對應(yīng)的就是英偉達(dá)的Grace處理器。

單純的看硬件，H200和上一代產(chǎn)品H100采用相同的Hooper架構(gòu)，浮點運算性能基本沒有提升（如下表），改進(jìn)在于H200全球首發(fā)了HBM3e內(nèi)存（去年8月給客戶送樣，今年3月開始量產(chǎn)），顯存達(dá)到了141GB，顯存帶寬達(dá)到4.8TB/s。

*BlackWell和Hopper架構(gòu)基礎(chǔ)硬件規(guī)格對比，來源：Semianalysis

由于浮點運算性能沒有提升，整體配置沒有大改，H200也被外界解讀為半代升級，但價格基本上不變，好歹算是個加量不加價，未來H100即將退役，相關(guān)市場則交棒給H200了。

按英偉達(dá)官方的說法，H200運行70B參數(shù)的Llama 2和175B參數(shù)的GPT-3，推理性能分別提升1.9倍和1.6倍。

作為明星產(chǎn)品，H100一直被用來作為行業(yè)對標(biāo)的對象，AMD發(fā)布MI300X時對外強(qiáng)調(diào)，70B參數(shù)的Llama 2推理性能是H100的1.4倍，英特爾在Gaudi3上給出的數(shù)據(jù)則是1.5倍。

把幾款產(chǎn)品放在一起對比，H200、Gaudi 3和MI300X，70B參數(shù)的Llama 2模型，推理性能分別是H100的1.9倍、1.5倍和1.4倍。

*Intel和AMD官方提供的Gaudi 3、MI300X 70B參數(shù)Llama 2推理性能

基于顯存、帶寬的提升，依舊能讓英偉達(dá)在特定參數(shù)模型的推理上，占據(jù)領(lǐng)先地位。更重要的是，黃仁勛手中還有未上市的“核彈級產(chǎn)品”GB200，以及未公布的B100。

基于紙面參數(shù)看，英偉達(dá)目前還領(lǐng)先競爭對手一個代差，但紙面參數(shù)的追趕并不難。

作為挑戰(zhàn)者，AMD和英特爾還需要提供讓開發(fā)者從英偉達(dá)的CUDA生態(tài)走出去的吸引力，這種生態(tài)建設(shè)則是長期的追趕過程。芯事重重資深顧問，亞洲視覺科技研發(fā)總監(jiān)陳經(jīng)在GTC大會解讀直播中將CUDA類比成PC互聯(lián)網(wǎng)時代的Windows，“開發(fā)者則需要在Windows給定的框架里使用PC。”

“CUDA不是一個孤立軟件，它需要眾多配套系統(tǒng)，包括硬件層、驅(qū)動、GPU集群、底層庫、Pytorch等上層庫、編譯器，跟著CUDA的套路走會很方便，一旦偏離套路就遇到知識盲區(qū)，懂怎么調(diào)整的人極為稀缺。”陳經(jīng)認(rèn)為如果人們想拋開CUDA，雖然可以選擇單卡性能（比H100）更強(qiáng)的MI300X，但“實戰(zhàn)”搭環(huán)境可能會面臨無數(shù)個想不到的bug而被弄崩潰，適配的時間耗不起。

除了生態(tài)，另一個增加吸引力的杠桿是價格，追趕者需要借助更高的性價比，來覆蓋開發(fā)者們的遷移成本。

當(dāng)然，挖墻角并不是一件容易的事情，英偉達(dá)在商業(yè)策略上也有明確的反競爭機(jī)制，Semianalysis曾在研究報告中援引供應(yīng)鏈人士的爆料，稱英偉達(dá)正在基于多重因素，對客戶進(jìn)行不同優(yōu)先級的產(chǎn)能分配。影響因素包括但不限于：存在多方采購的情況，自研AI芯片，捆綁采購英偉達(dá)其他產(chǎn)品。

在這種情況下，下場自研都會面臨訂單交付優(yōu)先級下調(diào)的風(fēng)險，更不用說在英偉達(dá)、AMD和Intel之間“騎墻”。

當(dāng)然，這些都是對于存量用戶的爭搶。增量用戶面前，性價比就是Intel、AMD這些追趕者的強(qiáng)力武器，這個策略在英特爾身上表現(xiàn)的最為明顯——今年的Intel Vision大會上，英特爾就秀了一波合作伙伴陣容，其中包括博世、Naver、SAP、Ola等等。

硅谷公司搶算力“上頭”

算力是硅谷巨頭們在AI時代的硬通貨，但他們手里到底屯了多少顯卡，構(gòu)建了什么規(guī)模的算力？

研究機(jī)構(gòu)Omdia的數(shù)據(jù)顯示，截至2023年第三季度，英偉達(dá)H100出貨量達(dá)到65萬張，其中Meta和微軟分別拿下15萬張，接近全部訂單的一半。如果按照單卡價格24000美元計算，截至到2023年第三季度，65萬張H100總計為英偉達(dá)貢獻(xiàn)156億美元營收。

截至到2023年Q3，H100的出貨量及主要科技公司儲備情況，來源：Omdia

另外，Omdia數(shù)據(jù)還顯示，僅僅第三季度，英偉達(dá)的H100出貨量就達(dá)到50萬臺，價值120億美元。也就是說，硅谷巨頭們的訂單在第三季度得到了集中交付。交付量的增長與CoWoS封裝產(chǎn)能拉升呈正相關(guān)。公開數(shù)據(jù)顯示，臺積電于去年4月、6月和10月，先后進(jìn)行了多輪CoWoS設(shè)備加單，并且還對InFO封裝線改機(jī)以增加CoWoS產(chǎn)能。

需要注意，Omdia的數(shù)據(jù)只統(tǒng)計到第三季度，且不包含OpenAI，所以只做參考。實際上，各家H100的囤貨都在不斷上漲，硅谷巨頭們對算力的需求并不是虛張聲勢，而是用真金白銀兌現(xiàn)。

日前，馬斯克在特斯拉電話會議上確認(rèn)公司已經(jīng)儲備3.5萬張H100。對照上面的圖表，這意味著特斯拉過去兩個季度新儲備2萬張H100。馬斯克在電話會議上還表示，到2024年年底，總計儲備量將達(dá)到8.5萬張。扎克伯格更早之前就宣布計劃到2024年底，將H100的儲備量提升到35萬張，微軟則提出了更宏大的目標(biāo)，到年底GPU儲備量翻一倍，達(dá)到180萬張，實際是在暗示目前已經(jīng)屯了90萬張（感慨一下納德拉的鈔能力）。

買卡其實很好理解，但前有發(fā)布間隔大半年的H200，后有性能更出眾的B200，硅谷巨頭們應(yīng)該怎么選？

有報道稱微軟將放棄采購H100，計劃搶奪50%的GB200訂單，可是問題在于，“算力核彈”B200現(xiàn)階段還屬于“期貨”。按照H200的交付節(jié)奏預(yù)估，包含臺積電的邏輯芯片的生產(chǎn)及封裝，富士康和緯創(chuàng)的代工以及最終進(jìn)入渠道，B200系列向客戶發(fā)貨最快也要到今年四季度。

黃仁勛給OpenAI交付全球第一臺DGX GH200，其目的也是在向市場表態(tài)，H200系列已具備量產(chǎn)交付能力，如果大家想要進(jìn)入AGI時代，“鑰匙”就擺在這里，而微軟喊“卡”，就意味著將算力拱手讓人。

爭搶算力在人類史上可能會是一個長期現(xiàn)象，只是大家都在喊著缺顯卡，缺算力，誰才是真正缺的那一位？

傅盛在騰訊科技的對話中提到過谷歌的案例，他說“如果一個谷歌研究員跟老板說訓(xùn)練一次2000萬美金，老板問能不能做成？你說不知道，肯定就很難申請到資源。”

也就是說，對于一家商業(yè)化公司，當(dāng)你的目標(biāo)或者收益不夠明確時，想燒錢堆算力做大模型是一件很困難的時間，畢竟所有的資本支出要對股東、投資人負(fù)責(zé)，微軟和Meta瘋狂砸錢買卡，就是因為商業(yè)回報已經(jīng)有若隱若現(xiàn)的意思。

扎克伯格在2024財年一季度電話會議上說，“生成式AI可能要投資數(shù)年，才能實現(xiàn)有效盈利”，看起來是給投資者打預(yù)防針，但Meta的信息流、廣告推薦系統(tǒng)都已經(jīng)清楚的看到投資回報。扎克伯格說，臉書30%的帖子來自AI推薦系統(tǒng)，Instagram更是達(dá)到了50%，而且兩個端到端人工智能工具Advantage+購物和Advantage+應(yīng)用帶來的收入已經(jīng)翻倍增長。

微軟的邏輯也差不多，剛剛公布的2024年第三財季業(yè)績?nèi)娉A(yù)期，AI推動Azure云收入加速增長了31%，貢獻(xiàn)的云收入增幅提升至7個百分點，包含Copilot AI助手的Office商業(yè)收入增長15%。

如果真的說巨頭們信奉“規(guī)模法則”，強(qiáng)調(diào)“大力出奇跡”，至少微軟、Meta們還可以再加一個“不見兔子不撒鷹”的標(biāo)簽。

全球科技公司自研芯片布局，來源：摩根史坦利

當(dāng)然，儲備算力，買或者說搶是一條路徑，自研則是另一條路徑，這可能會帶來數(shù)十億的采購和能耗成本的縮減。

不過，自研前期資本支出巨大，從投入到性能符合預(yù)期的產(chǎn)出兌現(xiàn)也需要時間，基本上科技公司都在采用自研+采購兩條腿走路的策略。

大摩此前提供了一份研究報告，資料顯示絕大部分科技公司在自研芯片上都有布局（如上圖），包括谷歌的TPU，meta的MTIA，也包括國內(nèi)大廠的相關(guān)項目。

長期看，自研確實可以消除算力焦慮，大摩對自研的總結(jié)是“單美元效率”更高，尤其是不追求最尖端工藝產(chǎn)品的情況下，“單美元效率”會更明顯。Semiannaly的“總擁有成本”也值得參考，該機(jī)構(gòu)在研究報告中以GB200為例，強(qiáng)調(diào)盡管Blackwell系列提供了更多浮點運算性能，但考慮到硅面積的增加，單位面積的性能并沒有顯著提升，而且隨著功率的提升，每瓦性能的提升幅度也會逐步下降。

還有一個終極問題，錢和卡都有了，電怎么辦？

AI初創(chuàng)公司OpenPipe聯(lián)合創(chuàng)始人、CEO 凱爾·科比特援引一位微軟的工程師的觀點稱，“如果在一個州放置超過10萬張H100 GPU，電網(wǎng)就會崩潰。”那么，卡不夠可以自研，電不夠，硅谷巨頭們又要下場布局電力基礎(chǔ)設(shè)施？

“卡黃仁勛脖子”的兩只手

硅谷巨頭缺卡又缺電，英偉達(dá)則缺CoWoS產(chǎn)能和HBM內(nèi)存。

CoWoS被稱之為2.5D封裝，簡單說就是將邏輯芯片、HBM內(nèi)存通過硅中介層，再透過硅通孔技術(shù)，最后連接至PCB基板上，其英文全稱也就是Chip on Wafer on Substrate。

今年GTC，黃仁勛在面對全球媒體的采訪時，被問及CoWoS需求是去年三倍是否屬實時幽了一默，反問記者“你想要確切的數(shù)據(jù)，這很有趣。”

關(guān)于英偉達(dá)CoWoS需求的具體情況，黃仁勛不給小抄，就只能參考外界數(shù)據(jù)。

Digitimes援引設(shè)備廠的數(shù)據(jù)，稱臺積電2023年全年CoWoS總產(chǎn)能逾12萬片，2024年將沖上24萬，英偉達(dá)將取得14.4萬-15萬片，占臺積電總產(chǎn)能約60%左右。從Semianalysis跟蹤的數(shù)據(jù)來看（如下圖），2023年Q3英偉達(dá)的占比大致在40-50%的區(qū)間。

另外，隨著臺積電擴(kuò)產(chǎn)及其他客戶需求增長，英偉達(dá)的CoWoS需求占比也會被稀釋，去年11月份，臺積電電話會議上確認(rèn)英偉達(dá)占臺積電CoWoS總產(chǎn)能的40%，基本和Semianalysis數(shù)據(jù)吻合。

*Semianalysis提供的CoWoS產(chǎn)能分布情況跟蹤和預(yù)測

而按月拆分，Digitimes還預(yù)測，臺積電的今年一季度CoWoS產(chǎn)能將爬升到17000片/月，到年底有機(jī)會爬升到26000片-28000片/月。

按照CoWoS月產(chǎn)能17000片的數(shù)據(jù)來計算，如果英偉達(dá)可以拿到其中40%，即6800片，而一片12英寸的晶圓，大致可以切30張左右的H200，即臺積電單月可完成20.4萬張H200的封裝。到年底，按照臺積電26000片/月的CoWoS產(chǎn)能，英偉達(dá)如果還是占40%，即10400片/月，單月可以完成31.2萬張H200的封裝。

也就是說，英偉達(dá)在臺積電的助攻下，H200 GPU全年的封裝產(chǎn)能，下限可能是244萬張，上限有可能突破374萬張，按照24000美元的單價，價值在580億美元-890億美元之間。

雖然和臺積電長期交好，但似乎黃仁勛并不滿足于當(dāng)前的產(chǎn)能，也有消息說英偉達(dá)將在二季度向英特爾開出先進(jìn)封裝訂單，預(yù)計月產(chǎn)能大概5000片左右，即單月封裝15萬張H200。

英偉達(dá)苦CoWoS產(chǎn)能久矣，同樣苦HBM產(chǎn)能久矣。以H100、H200都是標(biāo)配了6顆HBM內(nèi)存，而GB200更是搭配了8顆HBM3e內(nèi)存，HBM內(nèi)存不夠用了怎么辦？

目前，HBM內(nèi)存主要供應(yīng)商有SK海力士、三星與美光，和先進(jìn)封裝一樣，HBM廠商也在瘋狂擴(kuò)產(chǎn)。

外媒援引韓國券商Kiwoom Securities的數(shù)據(jù)，稱三星電子的HBM內(nèi)存月產(chǎn)能，預(yù)計將從2023年第二季的 2.5萬片晶圓增加到2025年第四季度的15-17萬片；同期，SK海力士的月產(chǎn)能預(yù)計將從3.5萬片爬升到12-14萬片，以此來估算，2024年全球HBM總產(chǎn)能70-75萬片左右。

以12層堆疊的HBM3e為例，按照90%的良率，每片晶圓可以切750顆HBM，按照前面估算的70-75萬片年產(chǎn)能，預(yù)計全球2024年總計產(chǎn)出5200-5600萬顆HBM3e內(nèi)存。而如果按前面的H200產(chǎn)能計算，每張GPU搭配6顆HBM內(nèi)存，僅英偉達(dá)一家，對HBM內(nèi)存的年需求總量大致在1460萬-2240萬顆區(qū)間。

如果SK海力士、三星和美光的HBM內(nèi)存擴(kuò)產(chǎn)順利，英偉達(dá)懸著的心基本可以放下一半的，另一半也要看AMD、英特爾以及自研的企業(yè)如何來搶產(chǎn)能了。

畢竟，也不能在下場自研AI芯片，蓋晶圓代工廠，建發(fā)電站這些想法出現(xiàn)之后，再給硅谷巨頭們安排新任務(wù)——下場蓋內(nèi)存廠。

文章來源：騰訊科技

算力英偉達(dá) CoWoS

騰訊科技

原創(chuàng)欄目