全球首臺,黃仁勛親自送貨上門,OpenAI首發(fā),DGX H200算是把流量拉滿了。 DGX H200在發(fā)布大概半年后出貨交付客戶,按級別算屬于現(xiàn)役“AI算力核彈”,更先進的GB200系列畢竟還沒有量產(chǎn)服役。 作為山姆·奧特曼的親密戰(zhàn)友,在去年的“宮斗事件”中一同被趕出公司的格雷格·布羅克曼興奮的在推特上官宣了這一消息。格雷格·布羅克曼炫耀式的推文中,還特意引用了黃仁勛在這臺設(shè)備上的寄語簽名——“為了推動AI、計算與人類的發(fā)展。” 山姆·奧特曼、黃仁勛與格雷格·布羅克曼與DGX-GH200服務(wù)器合影 2016年,彼時黃仁勛在馬斯克等人的見證下,也曾為OpenAI捐贈了全球首臺DGX-1服務(wù)器。請注意,當時是贈送的。黃仁勛寫道,“致埃隆和OpenAI團隊,為了計算和人類的未來,我向你們贈送世界上第一臺DGX-1。” 兩次題詞,都強調(diào)“為了計算和人類的未來”,或多或少能說明:硅谷大佬們眼中“規(guī)模法則”是帶領(lǐng)人類通往AGI時代的大門;黃仁勛和英偉達,掌握著打開這扇大門的鑰匙。 一直以來,OpenAI信奉的就是這種“大力出奇跡”的邏輯,山姆·奧特曼頻繁對外吹風“我們需要更多的GPU”、“世界需要更多的人工智能計算”,甚至被傳出“7萬億美元投資AI芯片制造”的消息。 我們的問題是,硅谷巨頭們的算力儲備情況如何,英偉達能否緩解AI布道者們的算力焦慮癥,而誰又會成為英偉達供應(yīng)算力子彈的掣肘,回答這些問題,可以從H200的“戰(zhàn)斗力”開始。 H200迎戰(zhàn)MI300X、Gaudi3 H200實際上去年下半年就已經(jīng)發(fā)布,分HGX和DGX兩個版本。HGX可以理解為計算模組,包含4 GPU、8 GPU兩個版本,而DGX版本可以理解為AI超算服務(wù)器,不僅搭載了GPU模塊,還配置有操作系統(tǒng)和處理器。 大家都說DGX H200交付,更準確的說法應(yīng)該是DGX GH200,這里的“G”,對應(yīng)的就是英偉達的Grace處理器。 單純的看硬件,H200和上一代產(chǎn)品H100采用相同的Hooper架構(gòu),浮點運算性能基本沒有提升(如下表),改進在于H200全球首發(fā)了HBM3e內(nèi)存(去年8月給客戶送樣,今年3月開始量產(chǎn)),顯存達到了141GB,顯存帶寬達到4.8TB/s。 *BlackWell和Hopper架構(gòu)基礎(chǔ)硬件規(guī)格對比,來源:Semianalysis 由于浮點運算性能沒有提升,整體配置沒有大改,H200也被外界解讀為半代升級,但價格基本上不變,好歹算是個加量不加價,未來H100即將退役,相關(guān)市場則交棒給H200了。 按英偉達官方的說法,H200運行70B參數(shù)的Llama 2和175B參數(shù)的GPT-3,推理性能分別提升1.9倍和1.6倍。 作為明星產(chǎn)品,H100一直被用來作為行業(yè)對標的對象,AMD發(fā)布MI300X時對外強調(diào),70B參數(shù)的Llama 2推理性能是H100的1.4倍,英特爾在Gaudi3上給出的數(shù)據(jù)則是1.5倍。 把幾款產(chǎn)品放在一起對比,H200、Gaudi 3和MI300X,70B參數(shù)的Llama 2模型,推理性能分別是H100的1.9倍、1.5倍和1.4倍。 *Intel和AMD官方提供的Gaudi 3、MI300X 70B參數(shù)Llama 2推理性能 基于顯存、帶寬的提升,依舊能讓英偉達在特定參數(shù)模型的推理上,占據(jù)領(lǐng)先地位。更重要的是,黃仁勛手中還有未上市的“核彈級產(chǎn)品”GB200,以及未公布的B100。 基于紙面參數(shù)看,英偉達目前還領(lǐng)先競爭對手一個代差,但紙面參數(shù)的追趕并不難。 作為挑戰(zhàn)者,AMD和英特爾還需要提供讓開發(fā)者從英偉達的CUDA生態(tài)走出去的吸引力,這種生態(tài)建設(shè)則是長期的追趕過程。芯事重重資深顧問,亞洲視覺科技研發(fā)總監(jiān)陳經(jīng)在GTC大會解讀直播中將CUDA類比成PC互聯(lián)網(wǎng)時代的Windows,“開發(fā)者則需要在Windows給定的框架里使用PC。” “CUDA不是一個孤立軟件,它需要眾多配套系統(tǒng),包括硬件層、驅(qū)動、GPU集群、底層庫、Pytorch等上層庫、編譯器,跟著CUDA的套路走會很方便,一旦偏離套路就遇到知識盲區(qū),懂怎么調(diào)整的人極為稀缺。”陳經(jīng)認為如果人們想拋開CUDA,雖然可以選擇單卡性能(比H100)更強的MI300X,但“實戰(zhàn)”搭環(huán)境可能會面臨無數(shù)個想不到的bug而被弄崩潰,適配的時間耗不起。 除了生態(tài),另一個增加吸引力的杠桿是價格,追趕者需要借助更高的性價比,來覆蓋開發(fā)者們的遷移成本。 當然,挖墻角并不是一件容易的事情,英偉達在商業(yè)策略上也有明確的反競爭機制,Semianalysis曾在研究報告中援引供應(yīng)鏈人士的爆料,稱英偉達正在基于多重因素,對客戶進行不同優(yōu)先級的產(chǎn)能分配。影響因素包括但不限于:存在多方采購的情況,自研AI芯片,捆綁采購英偉達其他產(chǎn)品。 在這種情況下,下場自研都會面臨訂單交付優(yōu)先級下調(diào)的風險,更不用說在英偉達、AMD和Intel之間“騎墻”。 當然,這些都是對于存量用戶的爭搶。增量用戶面前,性價比就是Intel、AMD這些追趕者的強力武器,這個策略在英特爾身上表現(xiàn)的最為明顯——今年的Intel Vision大會上,英特爾就秀了一波合作伙伴陣容,其中包括博世、Naver、SAP、Ola等等。 硅谷公司搶算力“上頭” 算力是硅谷巨頭們在AI時代的硬通貨,但他們手里到底屯了多少顯卡,構(gòu)建了什么規(guī)模的算力? 研究機構(gòu)Omdia的數(shù)據(jù)顯示,截至2023年第三季度,英偉達H100出貨量達到65萬張,其中Meta和微軟分別拿下15萬張,接近全部訂單的一半。如果按照單卡價格24000美元計算,截至到2023年第三季度,65萬張H100總計為英偉達貢獻156億美元營收。 截至到2023年Q3,H100的出貨量及主要科技公司儲備情況,來源:Omdia 另外,Omdia數(shù)據(jù)還顯示,僅僅第三季度,英偉達的H100出貨量就達到50萬臺,價值120億美元。也就是說,硅谷巨頭們的訂單在第三季度得到了集中交付。交付量的增長與CoWoS封裝產(chǎn)能拉升呈正相關(guān)。公開數(shù)據(jù)顯示,臺積電于去年4月、6月和10月,先后進行了多輪CoWoS設(shè)備加單,并且還對InFO封裝線改機以增加CoWoS產(chǎn)能。 需要注意,Omdia的數(shù)據(jù)只統(tǒng)計到第三季度,且不包含OpenAI,所以只做參考。實際上,各家H100的囤貨都在不斷上漲,硅谷巨頭們對算力的需求并不是虛張聲勢,而是用真金白銀兌現(xiàn)。 日前,馬斯克在特斯拉電話會議上確認公司已經(jīng)儲備3.5萬張H100。對照上面的圖表,這意味著特斯拉過去兩個季度新儲備2萬張H100。馬斯克在電話會議上還表示,到2024年年底,總計儲備量將達到8.5萬張。扎克伯格更早之前就宣布計劃到2024年底,將H100的儲備量提升到35萬張,微軟則提出了更宏大的目標,到年底GPU儲備量翻一倍,達到180萬張,實際是在暗示目前已經(jīng)屯了90萬張(感慨一下納德拉的鈔能力)。 買卡其實很好理解,但前有發(fā)布間隔大半年的H200,后有性能更出眾的B200,硅谷巨頭們應(yīng)該怎么選? 有報道稱微軟將放棄采購H100,計劃搶奪50%的GB200訂單,可是問題在于,“算力核彈”B200現(xiàn)階段還屬于“期貨”。按照H200的交付節(jié)奏預(yù)估,包含臺積電的邏輯芯片的生產(chǎn)及封裝,富士康和緯創(chuàng)的代工以及最終進入渠道,B200系列向客戶發(fā)貨最快也要到今年四季度。 黃仁勛給OpenAI交付全球第一臺DGX GH200,其目的也是在向市場表態(tài),H200系列已具備量產(chǎn)交付能力,如果大家想要進入AGI時代,“鑰匙”就擺在這里,而微軟喊“卡”,就意味著將算力拱手讓人。 爭搶算力在人類史上可能會是一個長期現(xiàn)象,只是大家都在喊著缺顯卡,缺算力,誰才是真正缺的那一位? 傅盛在騰訊科技的對話中提到過谷歌的案例,他說“如果一個谷歌研究員跟老板說訓(xùn)練一次2000萬美金,老板問能不能做成?你說不知道,肯定就很難申請到資源。” 也就是說,對于一家商業(yè)化公司,當你的目標或者收益不夠明確時,想燒錢堆算力做大模型是一件很困難的時間,畢竟所有的資本支出要對股東、投資人負責,微軟和Meta瘋狂砸錢買卡,就是因為商業(yè)回報已經(jīng)有若隱若現(xiàn)的意思。 扎克伯格在2024財年一季度電話會議上說,“生成式AI可能要投資數(shù)年,才能實現(xiàn)有效盈利”,看起來是給投資者打預(yù)防針,但Meta的信息流、廣告推薦系統(tǒng)都已經(jīng)清楚的看到投資回報。扎克伯格說,臉書30%的帖子來自AI推薦系統(tǒng),Instagram更是達到了50%,而且兩個端到端人工智能工具Advantage+購物和Advantage+應(yīng)用帶來的收入已經(jīng)翻倍增長。 微軟的邏輯也差不多,剛剛公布的2024年第三財季業(yè)績?nèi)娉A(yù)期,AI推動Azure云收入加速增長了31%,貢獻的云收入增幅提升至7個百分點,包含Copilot AI助手的Office商業(yè)收入增長15%。 如果真的說巨頭們信奉“規(guī)模法則”,強調(diào)“大力出奇跡”,至少微軟、Meta們還可以再加一個“不見兔子不撒鷹”的標簽。 全球科技公司自研芯片布局,來源:摩根史坦利 當然,儲備算力,買或者說搶是一條路徑,自研則是另一條路徑,這可能會帶來數(shù)十億的采購和能耗成本的縮減。 不過,自研前期資本支出巨大,從投入到性能符合預(yù)期的產(chǎn)出兌現(xiàn)也需要時間,基本上科技公司都在采用自研+采購兩條腿走路的策略。 大摩此前提供了一份研究報告,資料顯示絕大部分科技公司在自研芯片上都有布局(如上圖),包括谷歌的TPU,meta的MTIA,也包括國內(nèi)大廠的相關(guān)項目。 長期看,自研確實可以消除算力焦慮,大摩對自研的總結(jié)是“單美元效率”更高,尤其是不追求最尖端工藝產(chǎn)品的情況下,“單美元效率”會更明顯。Semiannaly的“總擁有成本”也值得參考,該機構(gòu)在研究報告中以GB200為例,強調(diào)盡管Blackwell系列提供了更多浮點運算性能,但考慮到硅面積的增加,單位面積的性能并沒有顯著提升,而且隨著功率的提升,每瓦性能的提升幅度也會逐步下降。 還有一個終極問題,錢和卡都有了,電怎么辦? AI初創(chuàng)公司OpenPipe聯(lián)合創(chuàng)始人、CEO 凱爾·科比特援引一位微軟的工程師的觀點稱,“如果在一個州放置超過10萬張H100 GPU,電網(wǎng)就會崩潰。”那么,卡不夠可以自研,電不夠,硅谷巨頭們又要下場布局電力基礎(chǔ)設(shè)施? “卡黃仁勛脖子”的兩只手 硅谷巨頭缺卡又缺電,英偉達則缺CoWoS產(chǎn)能和HBM內(nèi)存。 CoWoS被稱之為2.5D封裝,簡單說就是將邏輯芯片、HBM內(nèi)存通過硅中介層,再透過硅通孔技術(shù),最后連接至PCB基板上,其英文全稱也就是Chip on Wafer on Substrate。 今年GTC,黃仁勛在面對全球媒體的采訪時,被問及CoWoS需求是去年三倍是否屬實時幽了一默,反問記者“你想要確切的數(shù)據(jù),這很有趣。” 關(guān)于英偉達CoWoS需求的具體情況,黃仁勛不給小抄,就只能參考外界數(shù)據(jù)。 Digitimes援引設(shè)備廠的數(shù)據(jù),稱臺積電2023年全年CoWoS總產(chǎn)能逾12萬片,2024年將沖上24萬,英偉達將取得14.4萬-15萬片,占臺積電總產(chǎn)能約60%左右。從Semianalysis跟蹤的數(shù)據(jù)來看(如下圖),2023年Q3英偉達的占比大致在40-50%的區(qū)間。 另外,隨著臺積電擴產(chǎn)及其他客戶需求增長,英偉達的CoWoS需求占比也會被稀釋,去年11月份,臺積電電話會議上確認英偉達占臺積電CoWoS總產(chǎn)能的40%,基本和Semianalysis數(shù)據(jù)吻合。 *Semianalysis提供的CoWoS產(chǎn)能分布情況跟蹤和預(yù)測 而按月拆分,Digitimes還預(yù)測,臺積電的今年一季度CoWoS產(chǎn)能將爬升到17000片/月,到年底有機會爬升到26000片-28000片/月。 按照CoWoS月產(chǎn)能17000片的數(shù)據(jù)來計算,如果英偉達可以拿到其中40%,即6800片,而一片12英寸的晶圓,大致可以切30張左右的H200,即臺積電單月可完成20.4萬張H200的封裝。到年底,按照臺積電26000片/月的CoWoS產(chǎn)能,英偉達如果還是占40%,即10400片/月,單月可以完成31.2萬張H200的封裝。 也就是說,英偉達在臺積電的助攻下,H200 GPU全年的封裝產(chǎn)能,下限可能是244萬張,上限有可能突破374萬張,按照24000美元的單價,價值在580億美元-890億美元之間。 雖然和臺積電長期交好,但似乎黃仁勛并不滿足于當前的產(chǎn)能,也有消息說英偉達將在二季度向英特爾開出先進封裝訂單,預(yù)計月產(chǎn)能大概5000片左右,即單月封裝15萬張H200。 英偉達苦CoWoS產(chǎn)能久矣,同樣苦HBM產(chǎn)能久矣。以H100、H200都是標配了6顆HBM內(nèi)存,而GB200更是搭配了8顆HBM3e內(nèi)存,HBM內(nèi)存不夠用了怎么辦? 目前,HBM內(nèi)存主要供應(yīng)商有SK海力士、三星與美光,和先進封裝一樣,HBM廠商也在瘋狂擴產(chǎn)。 外媒援引韓國券商Kiwoom Securities的數(shù)據(jù),稱三星電子的HBM內(nèi)存月產(chǎn)能,預(yù)計將從2023年第二季的 2.5萬片晶圓增加到2025年第四季度的15-17萬片;同期,SK海力士的月產(chǎn)能預(yù)計將從3.5萬片爬升到12-14萬片,以此來估算,2024年全球HBM總產(chǎn)能70-75萬片左右。 以12層堆疊的HBM3e為例,按照90%的良率,每片晶圓可以切750顆HBM,按照前面估算的70-75萬片年產(chǎn)能,預(yù)計全球2024年總計產(chǎn)出5200-5600萬顆HBM3e內(nèi)存。而如果按前面的H200產(chǎn)能計算,每張GPU搭配6顆HBM內(nèi)存,僅英偉達一家,對HBM內(nèi)存的年需求總量大致在1460萬-2240萬顆區(qū)間。 如果SK海力士、三星和美光的HBM內(nèi)存擴產(chǎn)順利,英偉達懸著的心基本可以放下一半的,另一半也要看AMD、英特爾以及自研的企業(yè)如何來搶產(chǎn)能了。 畢竟,也不能在下場自研AI芯片,蓋晶圓代工廠,建發(fā)電站這些想法出現(xiàn)之后,再給硅谷巨頭們安排新任務(wù)——下場蓋內(nèi)存廠。 文章來源:騰訊科技
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選