英偉達(dá) GTC 大會(huì)已經(jīng)成了 AI 界超級(jí)碗,沒有劇本也沒有提詞器,中途黃仁勛被線纜卡住,反而是這場(chǎng)高濃度 AI 發(fā)布會(huì)里最有人味的片段,在當(dāng)今提前基本提前彩排或錄播的科技發(fā)布會(huì)里已經(jīng)很稀缺了。 剛剛,黃仁勛再次發(fā)布了全新一代核彈級(jí) AI 芯片,不過這場(chǎng)發(fā)布會(huì)的還有個(gè)隱藏主角——DeepSeek。 由于智能體 AI(Agentic AI)和推理能力的提升,現(xiàn)在所需的計(jì)算量至少是去年此時(shí)預(yù)估的 100 倍。 推理成本效率給 AI 行業(yè)帶來影響,而不是簡(jiǎn)單地堆積計(jì)算能力,成為貫穿這場(chǎng)發(fā)布會(huì)的主線。英偉達(dá)要變成 AI 工廠,讓 AI 以超越人類的速度學(xué)習(xí)和推理。 推理本質(zhì)上是一座工廠在生產(chǎn) token,而工廠的價(jià)值取決于能否創(chuàng)造收入和利潤(rùn)。因此,這座工廠必須以極致的效率打造。 黃仁勛掏出的英偉達(dá)新「核彈」也在告訴我們,未來的人工智能競(jìng)爭(zhēng)不在于誰的模型更大,而在于誰的模型具有最低的推理成本和更高推理的效率。 除了全新 Blackwell 芯片,還有兩款「真·AI PC」 全新的 Blackwell 芯片代號(hào)為「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最強(qiáng) AI 芯片」B200,再一次實(shí)現(xiàn)性能上的突破. Blackwell Ultra 將包括英偉達(dá) GB300 NVL72 機(jī)架級(jí)解決方案,以及英偉達(dá) HGX B300 NVL16 系統(tǒng)。 Blackwell Ultra GB300 NVL72 將于今年下半年發(fā)布,參數(shù)細(xì)節(jié)如下: 1.1 EF FP4 Inference:在進(jìn)行 FP4 精度的推理任務(wù)時(shí),能夠達(dá)到 1.1 ExaFLOPS(每秒百億億次浮點(diǎn)運(yùn)算)。 0.36 EF FP8 Training:在進(jìn)行 FP8 精度的訓(xùn)練任務(wù)時(shí),性能為 1.2 ExaFLOPS。 1.5X GB300 NVL72:與 GB200 NVL72 相比,性能為 1.5 倍。 20 TB HBM3:配備了 20TB HBM 內(nèi)存,是前代的 1.5 倍 40 TB Fast Memory:擁有 40TB 的快速內(nèi)存,是前代的 1.5 倍。 14.4 TB/s CX8:支持 CX8,帶寬為 14.4 TB/s,是前代的 2 倍。 單個(gè) Blackwell Ultra 芯片將和前代一樣提供相同的 20 petaflops(每秒千萬億次浮點(diǎn)運(yùn)算) AI 性能,但配備更多的 288GB 的 HBM3e 內(nèi)存。 如果說 H100 更適合大規(guī)模模型訓(xùn)練,B200 在推理任務(wù)中表現(xiàn)出色,那么 B300 則是一個(gè)多功能平臺(tái),預(yù)訓(xùn)練、后訓(xùn)練和 AI 推理都不在話下。 英偉達(dá)還特別指出,Blackwell Ultra 也適用于 AI 智能體,以及用于訓(xùn)練機(jī)器人和汽車自動(dòng)駕駛的「物理 AI」。 為了進(jìn)一步增強(qiáng)系統(tǒng)性能,Blackwell Ultra 還將與英偉達(dá)的 Spectrum-X 以太網(wǎng)和英偉達(dá) Quantum-X800 InfiniBand 平臺(tái)集成,為系統(tǒng)中的每個(gè) GPU 提供 800Gb/s 的數(shù)量吞吐量,幫助 AI 工廠和云數(shù)據(jù)中心能夠更快處理 AI 推理模型。 除了 NVL72 機(jī)架,英偉達(dá)還推出了包含單個(gè) GB300 Blackwell Ultra 芯片的臺(tái)式電腦 DGX Station。Blackwell Ultra 之外,這個(gè)主機(jī)還將配備 784GB 的同一系統(tǒng)內(nèi)存,內(nèi)置 800Gbps 英偉達(dá) ConnectX-8 SuperNIC 網(wǎng)絡(luò),能夠支持 20 petaflops 的 AI 性能。 而之前在 CES 2025 展示的「迷你主機(jī)」Project DIGITS 也正式被命名為 DGX Spark,搭載專為桌面優(yōu)化的 GB10 Grace Blackwell 超級(jí)芯片,每秒可提供高達(dá) 1000 萬億次 AI 計(jì)算操作,用于最新 AI 推理模型的微調(diào)和推理,包括 NVIDIA Cosmos Reason 世界基礎(chǔ)模型和 NVIDIA GR00T N1 機(jī)器人基礎(chǔ)模型。 黃仁勛表示,借助 DGX Station 和 DGX Spark,用戶可以在本地運(yùn)行大模型,或者將其部署在 NVIDIA DGX Cloud 等其他加速云或者數(shù)據(jù)中心基礎(chǔ)設(shè)施上。 這是 AI 時(shí)代的計(jì)算機(jī)。 DGX Spark 系統(tǒng)現(xiàn)已開放預(yù)訂,而 DGX Station 預(yù)計(jì)將由華碩、戴爾、惠普等合作伙伴于今年晚些時(shí)候推出。 下一代 AI 芯片 Rubin 官宣,2026 年下半年推出 英偉達(dá)一直以科學(xué)家的名字為其架構(gòu)命名,這種命名方式已成為英偉達(dá)文化的一部分。這一次,英偉達(dá)延續(xù)了這一慣例,將下一代 AI 芯片平臺(tái)命名為「Vera Rubin」,以紀(jì)念美國(guó)著名天文學(xué)家薇拉·魯賓(Vera Rubin)。 黃仁勛表示,Rubin 的性能將達(dá)到 Hopper 的 900 倍,而 Blackwell 相較 Hopper 已實(shí)現(xiàn)了 68 倍的提升。 其中,Vera Rubin NVL144 預(yù)計(jì)將在 2026 年下半年發(fā)布。參數(shù)信息省流不看版: 3.6 EF FP4 Inference:在進(jìn)行 FP4 精度的推理任務(wù)時(shí),能夠達(dá)到 3.6 ExaFLOPS(每秒百億億次浮點(diǎn)運(yùn)算)。 1.2 EF FP8 Training:在進(jìn)行 FP8 精度的訓(xùn)練任務(wù)時(shí),性能為 1.2 ExaFLOPS。 3.3X GB300 NVL72:與 GB300 NVL72 相比,性能提升了 3.3 倍。 13 TB/s HBM4:配備了 HBM4,帶寬為 13TB/s。 75 TB Fast Memory:擁有 75 TB 的快速內(nèi)存,是前代的 1.6 倍。 260 TB/s NVLink6:支持 NVLink 6,帶寬為 260 TB/s,是前代的 2 倍。 28.8 TB/s CX9:支持 CX9,帶寬為 28.8 TB/s,是前代的 2 倍。 標(biāo)準(zhǔn)版 Rubin 將配備 HBM4,性能比當(dāng)前的 Hopper H100 芯片大幅提升。 Rubin 引入名為 Grace CPU 的繼任者——Veru,包含 88 個(gè)定制的 Arm 核心,每個(gè)核心支持 176 個(gè)線程,并通過 NVLink-C2C 實(shí)現(xiàn) 1.8 TB/s 的高帶寬連接。 英偉達(dá)表示,定制的 Vera 設(shè)計(jì)將比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。 與 Vera CPU 搭配時(shí),Rubin 在推理任務(wù)中的算力可達(dá) 50 petaflops,是 Blackwell 20 petaflops 的兩倍以上。此外,Rubin 還支持高達(dá) 288GB 的 HBM4 內(nèi)存,這也是 AI 開發(fā)者關(guān)注的核心規(guī)格之一。 實(shí)際上,Rubin 由兩個(gè) GPU 組成,而這一設(shè)計(jì)理念與當(dāng)前市場(chǎng)上的 Blackwell GPU 類似——后者也是通過將兩個(gè)獨(dú)立芯片組裝為一個(gè)整體運(yùn)行。 從 Rubin 開始,英偉達(dá)將不再像對(duì)待 Blackwell 那樣把多 GPU 組件稱為單一 GPU,而是更準(zhǔn)確地按照實(shí)際的 GPU芯 片裸片數(shù)量來計(jì)數(shù)。 互聯(lián)技術(shù)也升級(jí)了,Rubin 配備第六代 NVLink,以及支持 1600 Gb/s 的 CX9 網(wǎng)卡,能夠加速數(shù)據(jù)傳輸并提升連接性。 除了標(biāo)準(zhǔn)版 Rubin,英偉達(dá)還計(jì)劃推出 Rubin Ultra 版本。 Rubin Ultra NVL576 則將于 2027 年下半年推出。參數(shù)細(xì)節(jié)如下: 15 EF FP4 Inference:在 FP4 精度下進(jìn)行推理任務(wù)時(shí),性能達(dá)到 15 ExaFLOPS。 5 EF FP8 Training:在 FP8 精度下進(jìn)行訓(xùn)練任務(wù)時(shí),性能為 5 ExaFLOPS。 14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。 4.6 PB/s HBM4e:配備 HBM4e 內(nèi)存,帶寬為 4.6 PB/s。 365 TB Fast Memory:系統(tǒng)擁有 365 TB 的快速內(nèi)存,是前代的 8 倍。 1.5 PB/s NVLink7:支持 NVLink 7,帶寬為 1.5 PB/s,是前代的 12 倍。 115.2 TB/s CX9:支持 CX9,帶寬為 115.2 TB/s,是前代的 8 倍。 在硬件配置上,Rubin Ultra 的 Veras 系統(tǒng)延續(xù)了 88 個(gè)定制 Arm 核心的設(shè)計(jì),每個(gè)核心支持 176 個(gè)線程,并通過 NVLink-C2C 提供 1.8 TB/s 的帶寬。 而 GPU 方面,Rubin Ultra 集成了 4 個(gè) Reticle-Sized GPU,每顆 GPU 提供 100 petaflops 的 FP4 計(jì)算能力,并配備 1TB 的 HBM4e 內(nèi)存,在性能和內(nèi)存容量上都達(dá)到了新的高度。 為了在瞬息萬變的市場(chǎng)競(jìng)爭(zhēng)中站穩(wěn)腳跟,英偉達(dá)的產(chǎn)品發(fā)布節(jié)奏已經(jīng)縮短至一年一更。發(fā)布會(huì)上,老黃也正式揭曉下一代 AI 芯片的命名——物理學(xué)家費(fèi)曼(Feynman)。 隨著 AI 工廠的規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的重要性愈發(fā)凸顯。 為此,英偉達(dá)推出了 Spectrum-X™ 和 Quantum-X 硅光網(wǎng)絡(luò)交換機(jī),旨在幫助 AI 工廠實(shí)現(xiàn)跨站點(diǎn)連接數(shù)百萬 GPU,同時(shí)顯著降低能耗和運(yùn)營(yíng)成本。 Spectrum-X Photonics 交換機(jī)具有多種配置,包括: 128 端口 800Gb/s或 512 端口 200Gb/s 配置,總帶寬達(dá) 100Tb/s 512 端口 800Gb/s或 2048 端口200Gb/s配置,總吞吐量達(dá) 400Tb/s 與之配套的 Quantum-X Photonics 交換機(jī)則基于 200Gb/s SerDes 技術(shù),提供 144 端口 800Gb/s 的 InfiniBand 連接,并采用液冷設(shè)計(jì)高效冷卻板載硅光子組件 與上一代產(chǎn)品相比,Quantum-X Photonics 交換機(jī)為 AI 計(jì)算架構(gòu)提供 2 倍速度和 5 倍可擴(kuò)展性。 Quantum-X Photonics InfiniBand 交換機(jī)預(yù)計(jì)于今年晚些時(shí)候上市,而 Spectrum-X Photonics 以太網(wǎng)交換機(jī)預(yù)計(jì)將于 2026 年推出。 隨著 AI 的快速發(fā)展,對(duì)數(shù)據(jù)中心的帶寬、低延遲和高能效需求也急劇增加。 英偉達(dá) Spectrum-X Photonics 交換機(jī)采用了一種名為 CPO 的光電子集成技術(shù)。其核心是將光引擎(就是能處理光信號(hào)的芯片)和普通的電子芯片(比如交換芯片或 ASIC 芯片)放在同一個(gè)封裝里。 這種技術(shù)的好處很多: 傳輸效率更高:因?yàn)榫嚯x縮短,信號(hào)傳輸更快。 功耗更低:距離短了,傳輸信號(hào)需要的能量也少了。 體積更。喊压夂碗姷牟考稍谝黄,整體體積也變小了,空間利用率更高。 AI 工廠的「操作系統(tǒng)」Dynamo 未來將沒有數(shù)據(jù)中心,只有 AI 工廠。 黃仁勛表示,未來,每個(gè)行業(yè)、每家公司擁有工廠時(shí),都將有兩個(gè)工廠:一個(gè)是他們實(shí)際生產(chǎn)的工廠,另一個(gè)是 AI 工廠,而 Dynamo 則是專門為「AI 工廠」打造的操作系統(tǒng)。 Dynamo 是一款分布式推理服務(wù)庫(kù),為需要 token 但又無法獲得足夠 token 的問題提供開源解決方案。 簡(jiǎn)單來說,Dynamo 有四個(gè)方面的優(yōu)勢(shì): GPU 規(guī)劃引擎,動(dòng)態(tài)調(diào)度 GPU 資源以適應(yīng)用戶需求 智能路由器,減少 GPU 對(duì)重復(fù)和重疊請(qǐng)求的重新計(jì)算,釋放更多算力應(yīng)對(duì)新的傳入請(qǐng)求 低延遲通信庫(kù),加速數(shù)據(jù)傳輸 內(nèi)存管理器,智能在低成本內(nèi)存和存儲(chǔ)設(shè)備中的推理數(shù)據(jù) 人形機(jī)器人的露臉環(huán)節(jié),永遠(yuǎn)不會(huì)缺席 人形機(jī)器人再一次成為了 GTC 大會(huì)的壓軸節(jié)目,這次英偉達(dá)帶來了 Isaac GR00T N1,全球首款開源人形機(jī)器人功能模型。 黃仁勛表示,通用機(jī)器人技術(shù)的時(shí)代已經(jīng)到來,借助 Isaac GR00T N1 核心的數(shù)據(jù)生成以及機(jī)器人學(xué)習(xí)框架,全球各地的機(jī)器人開發(fā)人員將進(jìn)入 AI 時(shí)代的下一個(gè)前沿領(lǐng)域。 這個(gè)模型采用「雙系統(tǒng)」架構(gòu),模仿人類的認(rèn)知原理: 系統(tǒng) 1:快速思考的動(dòng)作模型,模仿人類的反應(yīng)或直覺 系統(tǒng) 2:慢思考的模型,用于深思熟慮的決策。 在視覺語言模型的支持下,系統(tǒng) 2 對(duì)環(huán)境和指令進(jìn)行推理,然后規(guī)劃動(dòng)作,系統(tǒng) 1 將這些規(guī)劃轉(zhuǎn)化為機(jī)器人的的動(dòng)作。 GR00T N1 的基礎(chǔ)模型采用廣義類人推理和技能進(jìn)行了預(yù)訓(xùn)練,而開發(fā)人員可以通過真實(shí)或合成數(shù)據(jù)進(jìn)行后訓(xùn)練,滿足特定的需求:既可以完成工廠的特定任務(wù),也可以在家里自主完成家務(wù)。 黃仁勛還宣布了與 Google DeepMind 和 Disney Research 合作開發(fā)的開源物理引擎 Newton。 一臺(tái)搭載 Newton 平臺(tái)的機(jī)器人也登上了舞臺(tái),黃仁勛稱之為「Blue」,外觀神似《星球大戰(zhàn)》中的 BDX 機(jī)器人,能夠用聲音和動(dòng)作和黃仁勛互動(dòng)。 8 塊 GPU,DeepSeek-R1 推理速度創(chuàng)全球之最 英偉達(dá)實(shí)現(xiàn)了全球最快的 DeepSeek-R1 推理。 官網(wǎng)顯示,一臺(tái)搭載 8 個(gè) Blackwell GPU 的 DGX 系統(tǒng),在運(yùn)行 6710 億參數(shù)的 DeepSeek-R1 模型時(shí),可實(shí)現(xiàn)每用戶每秒超過 250 個(gè) token 的速度,或達(dá)到最高吞吐量每秒超過 30000 個(gè) token。 通過硬件和軟件的結(jié)合,自今年 1 月以來,英偉達(dá)在 DeepSeek-R1 671B 模型上的吞吐量提升了約 36 倍,每 token 的成本效率提高了約 32 倍。 為了實(shí)現(xiàn)這一成就,英偉達(dá)完整的推理生態(tài)系統(tǒng)已針對(duì) Blackwell 架構(gòu)進(jìn)行了深度優(yōu)化,不僅整合 TensorRT-LLM、TensorRT Model Optimizer 等先進(jìn)工具,還無縫支持 PyTorch、JAX 和 TensorFlow 等主流框架。 在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平臺(tái)相較于 DGX H200 平臺(tái),推理吞吐量提升超過 3 倍。 值得注意的是,此次發(fā)布會(huì)的主題演講并未提及量子計(jì)算,但英偉達(dá)特意在這屆 GTC 大會(huì)設(shè)置了量子日,邀請(qǐng)了多家當(dāng)紅量子計(jì)算公司的 CEO 出席。 要知道黃仁勛年初一句「量子計(jì)算還需 20 年才實(shí)用」的論斷猶在耳畔。 一改口風(fēng)的背后,離不開微軟耗時(shí) 17年研發(fā)的拓?fù)淞孔有酒?Majorana 1 實(shí)現(xiàn) 8 個(gè)拓?fù)淞孔颖忍丶,離不開 Google Willow 芯片宣稱用 5 分鐘完成經(jīng)典計(jì)算機(jī)需 10^25 年處理的任務(wù),推動(dòng)了量子計(jì)算的熱潮。 芯片無疑是重頭戲,但一些軟件的亮相同樣值得關(guān)注。 硅谷著名投資人馬克·安德森曾提出軟件正在吞噬世界(Software is eating the world)的論斷,其核心邏輯在于軟件通過虛擬化、抽象化和標(biāo)準(zhǔn)化,正在成為控制物理世界的基礎(chǔ)設(shè)施。 不滿足于做「賣鏟人」,英偉達(dá)的野心是打造 AI 時(shí)代的「生產(chǎn)力操作系統(tǒng)」。從汽車智能駕駛,到制造業(yè)的數(shù)字孿生工廠,這些貫穿整場(chǎng)發(fā)布會(huì)的案例都是將 GPU 算力轉(zhuǎn)化為行業(yè)生產(chǎn)力的具象化表達(dá)。 實(shí)際上,無論是發(fā)布會(huì)上亮相的最新核彈芯片,還是押注戰(zhàn)未來的量子計(jì)算,黃仁勛在這場(chǎng)發(fā)布會(huì)上對(duì) AI 未來發(fā)展的洞察和布局,都比當(dāng)下的技術(shù)參數(shù)與性能指標(biāo)更具看點(diǎn)。 在介紹 Blackwell 與 Hopper 架構(gòu)的對(duì)比時(shí),黃仁勛還不忘幽默一把。 他以一個(gè) 100MW 工廠的對(duì)比數(shù)據(jù)為例,指出采用 Hopper 架構(gòu)需要 45,000 顆芯片和 400 個(gè)機(jī)架,而 Blackwell 架構(gòu)憑借更高的效率顯著減少了硬件需求。 于是,黃仁勛那句經(jīng)典的總結(jié)再次拋出,「the more you buy, the more you save」(買得越多,省得越多)。」隨后話鋒一轉(zhuǎn),他又補(bǔ)充說,「the more you buy, the more you make」(買得越多,賺得越多)。 隨著 AI 領(lǐng)域的重心從訓(xùn)練轉(zhuǎn)向推理,英偉達(dá)更需要證明其軟硬件生態(tài)在推理場(chǎng)景的不可替代性。 一方面,Meta、Google 等巨頭自研 AI 芯片,可能分流 GPU 市場(chǎng)需求。 另一方面,英偉達(dá)最新 AI 芯片的適時(shí)亮相,回應(yīng)如 DeepSeek 的開源模型對(duì) GPU 需求的沖擊,并展示推理領(lǐng)域技術(shù)優(yōu)勢(shì),也是為了對(duì)沖市場(chǎng)對(duì)訓(xùn)練需求見頂?shù)膿?dān)憂。 最近估值跌至 10 年低位的英偉達(dá),比以往任何時(shí)候都需要一場(chǎng)酣暢淋漓的勝利。 本文來源:愛范兒 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選