就在剛剛結(jié)束的GTC人工智能大會上,英偉達(dá)的新一代性能巨獸Backwell誕生了! Blackwell B200 GPU,是如今世界上最強大的AI芯片,旨在「普惠萬億參數(shù)的AI」。 本來,H100已經(jīng)使英偉達(dá)成為價值數(shù)萬億美元的公司,趕超了谷歌和亞馬遜,但現(xiàn)在,憑著Blackwell B200和GB200,英偉達(dá)的領(lǐng)先優(yōu)勢還要繼續(xù)領(lǐng)先。 老黃表示——「H100很好,但我們需要更大的GPU」! 新的B200 GPU,從2080億個晶體管中能提供高達(dá)20 petaflops的FP4性能。(H100僅為4 petaflops) 而將兩個B200與單個Grace CPU相結(jié)合的GB200,則可以為LLM推理工作負(fù)載提供30倍的性能,同時大大提高效率。 比起H100,GB200的成本和能耗降低了25倍! Blackwell芯片和Hopper H100芯片的尺寸比較 這種額外的處理能力,就能讓AI公司訓(xùn)練更大、更復(fù)雜的模型,甚至可以部署一個27萬億參數(shù)的模型。 更大的參數(shù),更多的數(shù)據(jù),未來的AI模型,無疑會解鎖更多新功能,涌現(xiàn)出更多新的能力。 現(xiàn)在,老黃拿在手里的,或許是100億美元。 新一代性能巨獸,深夜重磅登場 憑借H100成為全球市值第三大公司的英偉達(dá),今天再次推出了性能野獸——Blackwell B200 GPU和GB200「超級芯片」。 它以著名數(shù)學(xué)家David Blackwell(1919-2010)命名。他一生中對博弈論、概率論做出了重要的貢獻(xiàn)。 老黃表示,「30年來,我們一直在追求加速計算,目標(biāo)是實現(xiàn)深度學(xué)習(xí)和AI等變革性突破。生成式AI已然成為我們這個時代的標(biāo)志性技術(shù),而Blackwell將是推動這場新工業(yè)革命的引擎」!肝覀冋J(rèn)為這是個完美的博弈概率」。全新B200 GPU擁有2080億個晶體管,采用臺積電4NP工藝節(jié)點,提供高達(dá)20 petaflops FP4的算力。與H100相比,B200的晶體管數(shù)量是其(800億)2倍多。而單個H100最多提供4 petaflops算力,直接實現(xiàn)了5倍性能提升。 而GB200是將2個Blackwell GPU和1個Grace CPU結(jié)合在一起,能夠為LLM推理工作負(fù)載提供30倍性能,同時還可以大大提高效率。 值得一提的是,與H100相比,它的成本和能耗「最多可降低25倍」。過去,訓(xùn)練一個1.8萬億參數(shù)的模型,需要8000個Hopper GPU和15MW的電力。 如今,2000個Blackwell GPU就能完成這項工作,耗電量僅為4MW。在GPT-3(1750億參數(shù))大模型基準(zhǔn)測試中,GB200的性能是H100的7倍,訓(xùn)練速度是H100的4倍。
全新芯片其中一個關(guān)鍵改進(jìn)是,采用了第二代Transformer引擎。對每個神經(jīng)元使用4位(20 petaflops FP4)而不是8位,直接將算力、帶寬和模型參數(shù)規(guī)模提高了一倍。與此同時,英偉達(dá)還推出了第五代NVLink網(wǎng)絡(luò)技術(shù)。最新的NVLink迭代增強了數(shù)萬億參數(shù)AI模型的性能,提供了突破性的每GPU雙向吞吐量,促進(jìn)了無縫高速通信。 這也就是第二個關(guān)鍵區(qū)別,只有當(dāng)你連接大量這些GPU時才會出現(xiàn):新一代NVLink交換機可以讓576個GPU相互通信,雙向帶寬高達(dá)1.8TB/秒。這就要求英偉達(dá)打造一個全新的網(wǎng)絡(luò)交換芯片,其中包含500億個晶體管和一些自己的板載計算:擁有3.6 teraflops FP8處理能力。在此之前,由16個GPU組成的集群,有60%的時間用于相互通信,只有40%的時間用于實際計算。
另外,Blackwell還配備了RAS引擎。為了確保可靠性、可用性和可維護(hù)性,Blackwell GPU集成了專用引擎和基于AI的預(yù)防性維護(hù)功能,以最大限度地延長系統(tǒng)正常運行時間并最大限度地降低運營成本。老黃表示,「過去8年,計算規(guī)模擴展已經(jīng)增加了1000倍」。 網(wǎng)友:新的摩爾定律誕生了! 網(wǎng)友們紛紛驚嘆,Blackwell再一次改變了摩爾定律。英偉達(dá)高級科學(xué)家Jim Fan表示:Blackwell,城里的新野獸。 - DGX Grace-Blackwell GB200:單機架計算能力超過1 Exaflop。- 從這個角度來看:老黃交付給OpenAI的第一臺DGX是0.17 Petaflops。- GPT-4-1.8T參數(shù)在2000張Blackwell上可在90天內(nèi)完成訓(xùn)練。 新摩爾定律誕生了。 賈揚清回憶道,「我記得在Meta,當(dāng)我們在一小時內(nèi)(2017年)訓(xùn)練ImageNet時,總計算量約為1exaflop。這意味著有了新的DGX,理論上你可以在一秒鐘內(nèi)訓(xùn)練ImageNet」。 還有網(wǎng)友表示,「這簡直就是野獸,比H100強太多」。 另有網(wǎng)友戲稱,「老黃確認(rèn)GPT-4是1.8萬億參數(shù)」。 所以,GB200的成本是多少呢?英偉達(dá)目前并沒有公布。此前據(jù)分析師估計,英偉達(dá)基于Hopper的H100芯片,每顆的成本在25,000美元到40,000美元之間,整個系統(tǒng)的成本高達(dá)200,000美元。而GB200的成本,只可能更高。 新超算可訓(xùn)萬億參數(shù)大模型 當(dāng)然,有了Blackwell超級芯片,當(dāng)然還會有Blackwell組成的DGX超算。這樣,公司就會大量購入這些GPU,并將它們封裝在更大的設(shè)計中。GB200 NVL72是將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中,可實現(xiàn)總計720 petaflops的AI訓(xùn)練性能,或是1,440 petaflops(1.4 exaflops)的推理性能。它內(nèi)部共有5000條獨立電纜,長度近兩英里。 它的背面效果如下圖所示。 機柜中的每個機架包含兩個GB200芯片,或兩個NVLink交換機。一共有18個GB200芯片托盤,9個NVLink交換機托盤有。老黃現(xiàn)場表示,「一個GB200 NVL72機柜可以訓(xùn)練27萬億參數(shù)的模型」。此前傳言稱,GPT-4的參數(shù)規(guī)模達(dá)1.8萬億,相當(dāng)于能訓(xùn)練近15個這樣的模型。 與H100相比,對于大模型推理工作負(fù)載,GB200超級芯片提供高達(dá)30倍的性能提升。 那么,由8個系統(tǒng)組合在一起的就是DGX GB200?偣灿288個Grace CPU、576個Blackwell GPU、240 TB內(nèi)存和11.5 exaflop FP4計算。 這一系統(tǒng)可以擴展到數(shù)萬個GB200超級芯片,通過Quantum-X800 InfiniBand(最多144個連接)或Spectrum-X800ethernet(最多64個連接)與800Gbps網(wǎng)絡(luò)連接在一起。 配備DGX GB200系統(tǒng)的全新DGX SuperPod采用統(tǒng)一的計算架構(gòu)。除了第五代NVIDIA NVLink,該架構(gòu)還包括NVIDIA Bluefield-3 DPU,并將支持Quantum-X800 InfiniBand網(wǎng)絡(luò)。這種架構(gòu)可以為平臺中的每個GPU提供高達(dá)每秒1,800 GB的帶寬。除此之外,英偉達(dá)還發(fā)布了統(tǒng)一的超算平臺DGX B200,用于AI模型訓(xùn)練、微調(diào)和推理。它包括8個Blackwell GPU和2個第五代Intel Xeon處理器,包含F(xiàn)P4精度功能,提供高達(dá)144 petaflops的AI性能、1.4TB的GPU內(nèi)存和64TB/s的內(nèi)存帶寬。這使得萬億參數(shù)模型的實時推理速度,比上一代產(chǎn)品提高了15倍。用戶還可以使用DGX B200系統(tǒng)構(gòu)建DGX SuperPOD,創(chuàng)建人工智能卓越中心,為運行多種不同工作的大型開發(fā)團(tuán)隊提供動力。目前,亞馬遜、谷歌、微軟已經(jīng)成為最新芯片超算的首批用戶。亞馬遜網(wǎng)絡(luò)服務(wù),將建立一個擁有20,000 GB200芯片的服務(wù)器集群。 「不只是一個芯片,更是一個平臺」 自從ChatGPT于2022年底掀起AI熱潮以來,英偉達(dá)的股價已經(jīng)上漲了五倍之多,總銷售額增長了兩倍多。因為英偉達(dá)的GPU對于訓(xùn)練和部署大型AI模型至關(guān)重要,微軟、Meta等大公司都已紛紛豪擲數(shù)十億購買。如今各大公司和軟件制造商還在爭先恐后地?fù)屬廐opper H100等芯片呢,GB200就已經(jīng)出了。老黃表示,Blackwell不是一個芯片,而是一個平臺的名稱。從此,英偉達(dá)不再是芯片供應(yīng)商,而更像是微軟、蘋果這樣的平臺提供商,可以讓其他公司在平臺上構(gòu)建軟件。英偉達(dá)副總裁Manuvir Das表示,GPU是可銷售的商業(yè)產(chǎn)品,而軟件,是為了幫人們用不同的方式使用GPU。雖然英偉達(dá)現(xiàn)在仍然售賣GPU,但真正不同的是,英偉達(dá)現(xiàn)在有了商業(yè)軟件業(yè)務(wù)。 新軟件NIM,代表著英偉達(dá)的推理微服務(wù)。NIM使得在英偉達(dá)的任何GPU上運行程序都變得更容易,即使是可能更適合部署但不適合構(gòu)建AI的舊GPU。也就是說,假如一名開發(fā)者有一個有趣的模型,希望向人們推廣,就可以把它放到NIM中。英偉達(dá)會確保它可以在所有的GPU上運行,這樣模型的受眾就大大擴展了。NIM使得部署AI變得更容易,這就更加增加了客戶使用英偉達(dá)芯片的粘性。并且,與新AI模型的初始訓(xùn)練相比,NIM的推理需要更少的算力。這樣,想要運行自己AI模型的公司,就能運行自己的AI模型,而不是從OpenAI等公司購買對AI結(jié)果的訪問權(quán)。 需要購買基于英偉達(dá)服務(wù)器的客戶,需要注冊Nvidia企業(yè)版,每個GPU每年需要花費4,500美元。英偉達(dá)將與微軟或Hugging Face等人工智能公司合作,確保他們的人工智能模型經(jīng)過調(diào)整,可以在所有兼容的英偉達(dá)芯片上運行。然后,使用NIM,開發(fā)者可以在自己的服務(wù)器或基于云的英偉達(dá)服務(wù)器上,高效運行模型,而無需冗長的配置過程。Das介紹說,在自己調(diào)用OpenAI的代碼中,他只替換了一行代碼,就指向了NIM。另外,NIM軟件還將幫助AI在配備GPU的筆記本電腦上運行,而不是在云端的服務(wù)器上。 NIM支持跨多個領(lǐng)域的AI用例,包括LLMs、視覺語言模型(VLM)以及用于語音、圖像、視頻、3D、藥物發(fā)現(xiàn)、醫(yī)學(xué)成像等的模型。AI API就是未來的軟件。在未來,所有LLM都可以從云端獲取,從云上下載,運行它的工作站。 終極生成式AI模型 而現(xiàn)在,整個行業(yè)都已經(jīng)為Blackwell準(zhǔn)備好了。2012年,將一只小貓的圖片輸入,AlexNet識別后輸出「cat」,讓世界所有人為之震驚,并高呼這改變了一切。 而現(xiàn)在從三個字「cat」輸出10 million 像素成為了可能。僅用了10年時間,我們就可以識別文本、圖像、視頻。萬物都皆可數(shù)字化。 網(wǎng)友表示,老黃向我們展示了GenAI的終極游戲:多模態(tài)輸入——多模態(tài)輸出。「這是我們總有一天都會使用的最終模型。它可以獲取任何模態(tài)并生成任何模態(tài)。同時,它還能在沒有每個部件的情況下工作」。 數(shù)字化的目的是讓所有的目標(biāo)都能成為機器學(xué)習(xí)的目標(biāo),從而讓它們都能被AI生成。比如,數(shù)字孿生地球,可以很好地幫助我們了解全球氣象氣候的變化。 將基因、蛋白質(zhì)、氨基酸數(shù)字化,可以讓人類去理解生命的力量。 在大會接近尾聲時,活動迎來了一個小高潮:WALL-E機器人也登臺表演了。 而生成式AI的未來應(yīng)用不僅于此。現(xiàn)在,有了世界最強的處理器Blackwell,新一輪技術(shù)革命即將開啟。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選