作為AI時(shí)代的“賣鏟人”,黃仁勛和他的英偉達(dá),始終堅(jiān)信算力永不眠。今天的GTC大會(huì)上,黃仁勛拿出了全新的Blackwell Ultra GPU,以及在此基礎(chǔ)上衍生的應(yīng)用于推理、Agent的服務(wù)器SKU,也包括基于Blackwell架構(gòu)的RTX全家桶,這一切都與算力有關(guān),但接下來(lái)更重要的是,如何將源源不斷算力,合理有效地消耗掉。在黃仁勛眼里,通往AGI需要算力,具身智能機(jī)器人需要算力,構(gòu)建Omniverse與世界模型更需要源源不斷的算力,至于最終人類構(gòu)建一個(gè)虛擬的“平行宇宙”,需要多少算力,英偉達(dá)給了一個(gè)答案——過去的100倍。為了支撐自己的觀點(diǎn),黃仁勛在GTC現(xiàn)場(chǎng)曬了一組數(shù)據(jù)——2024年美國(guó)前四云廠總計(jì)采購(gòu)130萬(wàn)顆Hopper架構(gòu)芯片,到了2025年,這一數(shù)據(jù)飆升至360萬(wàn)顆Blackwell GPU。 以下是騰訊科技整理的英偉達(dá)GTC 2025大會(huì)的一些核心要點(diǎn): Blackwell全家桶上線 1)年度“核彈”Blackwell Ultra在擠牙膏 英偉達(dá)去年GTC發(fā)布Blackwell架構(gòu),并推出GB200芯片,今年的正式名稱做了微調(diào),不叫之前傳言的GB300,直接就稱之為Blakwell Ultra。但從硬件來(lái)看,就是在去年基礎(chǔ)上更換了新的HBM內(nèi)存。一句話理解就是,Blackwell Ultra= Blackwell大內(nèi)存版本。Blackwell Ultra由兩顆臺(tái)積電N4P(5nm)工藝,Blackwell 架構(gòu)芯片+Grace CPU封裝而來(lái),并且搭配了更先進(jìn)的12層堆疊的HBM3e內(nèi)存,顯存提升至為288GB,和上一代一樣支持第五代NVLink,可實(shí)現(xiàn)1.8TB/s的片間互聯(lián)帶寬。 NVLink歷代性能參數(shù) 基于存儲(chǔ)的升級(jí),Blackwell GPU的FP4精度算力可以達(dá)到15PetaFLOPS,基于Attention Acceleration機(jī)制的推理速度,比Hopper架構(gòu)芯片提升2.5倍。 2)Blackwell Ultra NVL72:AI推理專用機(jī)柜 Blackwell Ultra NVL72官方圖和GB200 NVL72一樣,英偉達(dá)今年也推出了類似的產(chǎn)品Blackwell Ultra NVL72機(jī)柜,一共由18個(gè)計(jì)算托盤構(gòu)成,每個(gè)計(jì)算托盤包含4顆Blackwell Ultra GPU+2顆Grace CPU,總計(jì)也就是72顆Blackwell Ultra GPU+36顆Grace CPU,顯存達(dá)到20TB,總帶寬576TB/s,外加9個(gè)NVLink交換機(jī)托盤(18顆NVLink 交換機(jī)芯片),節(jié)點(diǎn)間NVLink帶寬130TB/s。 機(jī)柜內(nèi)置72張CX-8網(wǎng)卡,提供14.4TB/s帶寬,Quantum-X800 InfiniBand和Spectrum-X 800G以太網(wǎng)卡則可以降低延遲和抖動(dòng),支持大規(guī)模AI集群。此外,機(jī)架還整合了18張用于增強(qiáng)多租戶網(wǎng)絡(luò)、安全性和數(shù)據(jù)加速BlueField-3 DPU。 英偉達(dá)說這款產(chǎn)品是“為AI推理時(shí)代”專門定制,應(yīng)用場(chǎng)景包括推理型AI、Agent以及物理AI(用于機(jī)器人、智駕訓(xùn)練用的數(shù)據(jù)仿真合成),相比前一代產(chǎn)品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架構(gòu)同定位的DGX機(jī)柜產(chǎn)品,可以為數(shù)據(jù)中心提供50倍增收的機(jī)會(huì)。 根據(jù)官方提供的信息,6710億參數(shù)DeepSeek-R1的推理,基于H100產(chǎn)品可實(shí)現(xiàn)每秒100tokens,而采用Blackwell Ultra NVL72方案,可以達(dá)到每秒1000 tokens。 換算成時(shí)間,同樣的推理任務(wù),H100需要跑1.5分鐘,而Blackwell Ultra NVL72 15秒即可跑完。 Blackwell Ultra NVL72和GB200 NVL72硬件參數(shù)根據(jù)英偉達(dá)提供的信息,Blackwell NVL72相關(guān)產(chǎn)品預(yù)計(jì)在2025年下半年上市,客戶包括服務(wù)器廠商、云廠、算力租賃服務(wù)商幾大類: 服務(wù)器廠商Cisco/Dell/HPE/Lenovo/超微等15家制造商 云廠AWS/Google Cloud/Azure/Oracle云等主流平臺(tái) 算力租賃服務(wù)商CoreWeave/Lambda/Yotta等 3)提前預(yù)告真“核彈”GPU Rubin芯片 按照英偉達(dá)的路線圖,GTC2025的主場(chǎng)就是Blackwell Ultra。不過,黃仁勛也借這個(gè)場(chǎng)子預(yù)告了2026年上市的基于Rubin架構(gòu)的下一代GPU以及更強(qiáng)的機(jī)柜Vera Rubin NVL144——72顆Vera CPU+144顆 Rubin GPU,采用288GB顯存的HBM4芯片,顯存帶寬13TB/s,搭配第六代NVLink和CX9網(wǎng)卡。這個(gè)產(chǎn)品有多強(qiáng)呢?FP4精度的推理算力達(dá)到了3.6ExaFLOPS,F(xiàn)P8精度的訓(xùn)練算力也達(dá)到了1.2ExaFlOPS,性能是Blackwell Ultra NVL72的3.3倍。如果你覺得還不夠,沒關(guān)系,2027年還有更強(qiáng)的 Rubin Ultra NVL576機(jī)柜,F(xiàn)P4精度的推理和FP8精度的訓(xùn)練算力分別是15ExaFLOPS和5ExaFLOPS,14倍于Blackwell Ultra NVL72。 英偉達(dá)官方提供的Rubin Ultra NVL144和Rubin Ultra NVL576參數(shù) 4)Blackwell Ultra版DGX Super POD“超算工廠“ 對(duì)于那些現(xiàn)階段Blackwell Ultra NVL72都不能滿足需求,又不需要搭建超大規(guī)模AI集群的客戶,英偉達(dá)的解決方案是基于Blackwell Ultra、即插即用的DGX Super POD AI超算工廠。作為一個(gè)即插即用的AI超算工廠,DGX Super POD主要面向?qū)樯墒紸I、AI Agent和物理模擬等AI場(chǎng)景,覆蓋從預(yù)訓(xùn)練、后訓(xùn)練到生產(chǎn)環(huán)境的全流程算力擴(kuò)展需求,Equinix作為首個(gè)服務(wù)商,提供液冷/風(fēng)冷基礎(chǔ)架構(gòu)支持。 由Blackwell Ultra構(gòu)建的DGX SuperPod基于Blackwell Ultra定制的DGX Super POD分兩個(gè)版本: 內(nèi)置DGX GB300(Grace CPU ×1+Blackwell Ultra GPU ×2) 的DGX SuperPOD,總計(jì)288顆Grace CPU+576顆 Blackwell Ultra GPU,提供300TB的快速內(nèi)存,F(xiàn)P4精度下算力為11.5ExaFLOPS 內(nèi)置DGX B300的DGX SuperPOD,這個(gè)版本不含Grace CPU芯片,具備進(jìn)一步的擴(kuò)展空間,且采用的是風(fēng)冷系統(tǒng),主要應(yīng)用場(chǎng)景為普通的企業(yè)級(jí)數(shù)據(jù)中心 5)DGX Spark與DGX Station 今年1月份,英偉達(dá)在CES上曬了一款售價(jià)3000美元的概念性的AI PC產(chǎn)品——Project DIGITS,現(xiàn)在它有了正式名稱DGX Spark。產(chǎn)品參數(shù)方面,搭載GB10芯片,F(xiàn)P4精度下算力可以達(dá)到1PetaFlops,內(nèi)置128GB LPDDR5X 內(nèi)存,CX-7網(wǎng)卡,4TB NVMe存儲(chǔ),運(yùn)行基于Linux定制的DGX OS操作系統(tǒng),支持Pytorch等框架,且預(yù)裝了英偉達(dá)提供的一些基礎(chǔ)AI軟件開發(fā)工具,可以運(yùn)行2000億參數(shù)模型。整機(jī)的尺寸和Mac mini的大小接近,兩臺(tái)DGX Spark互聯(lián),還可以運(yùn)行超過4000億參數(shù)的模型。雖然我們說它是AI PC,但本質(zhì)上仍然屬于超算范疇,所以被放在了DGX產(chǎn)品系列當(dāng)中,而不是RTX這樣的消費(fèi)級(jí)產(chǎn)品里面。不過也有人吐槽這款產(chǎn)品,F(xiàn)P4的宣傳性能可用性低,換算到FP16精度下只能跟RTX 5070,甚至是250美元的Arc B580對(duì)標(biāo),因此性價(jià)比極低。 DGX Spark計(jì)算機(jī)與DGX Station工作站除了擁有正式名稱的DGX Spark,英偉達(dá)還推出了一款基于Blackwell Ultra的AI工作站,這個(gè)工作站內(nèi)置一顆Grace CPU和一顆Blackwell Ultra GPU,搭配784GB的統(tǒng)一內(nèi)存、CX-8網(wǎng)卡,提供20PetaFlops的AI算力(官方未標(biāo)記,理論上也是FP4精度)。 6)RTX橫掃AI PC,還要擠進(jìn)數(shù)據(jù)中心 前面介紹的都是基于Grace CPU和Blackwell Ultra GPU的產(chǎn)品SKU,且都是企業(yè)級(jí)產(chǎn)品,考慮到很多人對(duì)RTX 4090這類產(chǎn)品在AI推理上的妙用,英偉達(dá)本次GTC也進(jìn)一步強(qiáng)化了Blackwell和RTX系列的整合,推出了一大波內(nèi)置GDDR7內(nèi)存的AI PC相關(guān)GPU,覆蓋筆記本、桌面甚至是數(shù)據(jù)中心等場(chǎng)景。 桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell 筆記本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell 數(shù)據(jù)中心 GPU:NVIDIA RTX PRO 6000 Blackwell服務(wù)器版 英偉達(dá)針對(duì)企業(yè)級(jí)計(jì)算打造的AI“全家桶”以上還只是部分基于Blackwell Ultra芯片針對(duì)不同場(chǎng)景定制的SKU,小到工作站,大到數(shù)據(jù)中心集群,英偉達(dá)自己將其稱之為“Blackwell Family”(Blackwell家族),中文翻譯過來(lái)“Blackwell全家桶”再合適不過。 英偉達(dá)Photonics 站在隊(duì)友肩膀上的CPO系統(tǒng) 光電共封模塊(CPO)的概念,簡(jiǎn)單來(lái)說就是將交換機(jī)芯片和光學(xué)模塊共同封裝,可實(shí)現(xiàn)光信號(hào)轉(zhuǎn)化為電信號(hào),充分利用光信號(hào)的傳輸性能。在此之前,業(yè)界就一直在討論英偉達(dá)的CPO網(wǎng)絡(luò)交換機(jī)產(chǎn)品,但一直遲遲未上線,黃仁勛在現(xiàn)場(chǎng)也給了解釋——由于在數(shù)據(jù)中心中大量使用光纖連接,光學(xué)網(wǎng)絡(luò)的功耗相當(dāng)于計(jì)算資源的10%,光連接的成本直接影響著計(jì)算節(jié)點(diǎn)的Scale-Out網(wǎng)絡(luò)和AI性能密度提升。 GTC上展示的兩款硅光共封芯片Quantum-X、Spectrum-X參數(shù)今年的GTC英偉達(dá)一次性推出了Quantum-X硅光共封芯片、Spectrum-X硅光共封芯片以及衍生出來(lái)的三款交換機(jī)產(chǎn)品:Quantum 3450-LD、Spectrum SN6810和Spectrum SN6800。 Quantum 3450-LD:144個(gè)800GB/s端口,背板帶寬115TB/s,液冷 Spectrum SN6810:128個(gè)800GB/s端口,背板帶寬102.4TB/s,液冷 Spectrum SN6800:512個(gè)800GB/s端口,背板帶寬409.6TB/s,液冷 上述產(chǎn)品統(tǒng)一歸類到“NVIDIA Photonics”,英偉達(dá)說這是一個(gè)基于CPO合作伙伴生態(tài)共創(chuàng)研發(fā)的平臺(tái),例如其搭載的微環(huán)調(diào)制器(MRM)是基于臺(tái)積電的光引擎優(yōu)化而來(lái),支持高功率、高能效激光調(diào)制,并且采用可拆卸光纖連接器。比較有意思的是,根據(jù)之前業(yè)內(nèi)的資料,臺(tái)積電的微環(huán)調(diào)制器(MRM)是其與博通基于3nm工藝以及CoWoS等先進(jìn)封裝技術(shù)打造而來(lái)。按照英偉達(dá)給的數(shù)據(jù),整合光模塊的Photonics交換機(jī)相比傳統(tǒng)交換機(jī),性能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的擴(kuò)展彈性。 模型效率PK DeepSeek 軟件生態(tài)發(fā)力AI Agent 黃仁勛在現(xiàn)場(chǎng)描繪AI infra的“大餅”因?yàn)楸敬伍L(zhǎng)達(dá)2個(gè)小時(shí)的GTC上,黃仁勛總共只講大概半個(gè)小時(shí)軟件和具身智能。因此很多細(xì)節(jié)都是通過官方文檔進(jìn)行補(bǔ)充的,而非完全來(lái)自現(xiàn)場(chǎng)。 1)Nvidia Dynamo,英偉達(dá)在推理領(lǐng)域構(gòu)建的新CUDA Nvidia Dynamo絕對(duì)是本場(chǎng)發(fā)布的軟件王炸。它是一個(gè)專為推理、訓(xùn)練和跨整個(gè)數(shù)據(jù)中心加速而構(gòu)建的開源軟件。Dynamo的性能數(shù)據(jù)相當(dāng)震撼:在現(xiàn)有Hopper架構(gòu)上,Dynamo可讓標(biāo)準(zhǔn)Llama模型性能翻倍。而對(duì)于DeepSeek等專門的推理模型,NVIDIA Dynamo的智能推理優(yōu)化還能將每個(gè)GPU生成的token數(shù)量提升30倍以上。 黃仁勛演示加了Dynamo的Blackwell能超過25倍的HopperDynamo的這些改進(jìn)主要得益于分布化。它將LLM的不同計(jì)算階段(理解用戶查詢和生成最佳響應(yīng))分配到不同GPU,使每個(gè)階段都能獨(dú)立優(yōu)化,提高吞吐量并加快響應(yīng)速度。 Dynamo的系統(tǒng)架構(gòu) 比如在輸入處理階段,也就是預(yù)填充階段,Dynamo能夠高效地分配GPU資源來(lái)處理用戶輸入。系統(tǒng)會(huì)利用多組GPU并行處理用戶查詢,希望GPU處理的更分散、更快。Dynamo用FP4模式調(diào)用多個(gè)GPU同時(shí)并行“閱讀”和“理解”用戶的問題,其中一組GPU處理“第二次世界大戰(zhàn)”的背景知識(shí)、另一組處理“起因“相關(guān)的歷史資料、第三組處理“經(jīng)過“的時(shí)間線和事件,這一階段像是多個(gè)研究助理同時(shí)查閱大量資料。 而在生成輸出tokens,也就是解碼階段,則需要讓GPU更專注和連貫。比起GPU數(shù)量,這個(gè)階段更需要更大的帶寬去吸取前一階段的思考信息,因此也需要更多的緩存讀取。Dynamo優(yōu)化了GPU間通信和資源分配,確保連貫且高效的響應(yīng)生成。它一方面充分利用了NVL72架構(gòu)的高帶寬NVLink通信能力,最大化令牌生成效率。另一方面通過“Smart Router”將請(qǐng)求定向到已緩存相關(guān)KV(鍵值)的GPU上,這可以避免重復(fù)計(jì)算,極大地提高了處理速度。由于避免了重復(fù)計(jì)算,一些GPU資源被釋放出來(lái)Dynamo可以將這些空閑資源動(dòng)態(tài)分配給新的傳入請(qǐng)求。 這一套架構(gòu)和Kimi的Mooncake架構(gòu)非常類似,但在底層infra上英偉達(dá)做了更多支持。Mooncake大概可以提升5倍左右,但Dynamo在推理上提升的更明顯。 比如Dynamo的幾項(xiàng)重要?jiǎng)?chuàng)新中,“GPU Planner”能夠根據(jù)負(fù)載動(dòng)態(tài)調(diào)整GPU分配,“低延遲通信庫(kù)”優(yōu)化了GPU間數(shù)據(jù)傳輸,而“內(nèi)存管理器”則智能地將推理數(shù)據(jù)在不同成本級(jí)別的存儲(chǔ)設(shè)備間移動(dòng),進(jìn)一步降低運(yùn)營(yíng)成本。而智能路由器,LLM感知型路由系統(tǒng),將請(qǐng)求定向到最合適的GPU,減少重復(fù)計(jì)算。這一系列能力都使得GPU的負(fù)載達(dá)到最佳化。 利用這一套軟件推理系統(tǒng)能夠高效擴(kuò)展到大型GPU集群,最高可以使單個(gè)AI查詢無(wú)縫擴(kuò)展到多達(dá)1000個(gè)GPU,以充分利用數(shù)據(jù)中心資源。 而對(duì)于GPU運(yùn)營(yíng)商來(lái)講,這個(gè)改進(jìn)使得每百萬(wàn)令牌成本顯著下降,而產(chǎn)能大幅提升。同時(shí)單用戶每秒獲得更多token,響應(yīng)更快,用戶體驗(yàn)改善。 用Dynamo,讓服務(wù)器達(dá)到吞吐量和應(yīng)答速度間的黃金收益線 與CUDA作為GPU編程的底層基礎(chǔ)不同,Dynamo是一個(gè)更高層次的系統(tǒng),專注于大規(guī)模推理負(fù)載的智能分配和管理。它負(fù)責(zé)推理優(yōu)化的分布式調(diào)度層,位于應(yīng)用程序和底層計(jì)算基礎(chǔ)設(shè)施之間。但就像CUDA十多年前徹底改變了GPU計(jì)算格局,Dynamo也可能成功開創(chuàng)推理軟硬件效率的新范式。 Dynamo完全開源,支持從PyTorch到Tensor RT的所有主流框架。開源了也照樣是護(hù)城河。和CUDA一樣,它只對(duì)英偉達(dá)的GPU有效果,是NVIDIA AI推理軟件堆棧的一部分。 用這個(gè)軟件升級(jí),NVIDIA構(gòu)筑了自己反擊Groq等專用推理AISC芯片的城防。必須軟硬搭配,才能主導(dǎo)推理基礎(chǔ)設(shè)施。 2)Llama Nemotron新模型秀高效,但還是打不過DeepSeek 雖然在服務(wù)器利用方面,Dynamo 確實(shí)相當(dāng)驚艷,但在訓(xùn)練模型方面英偉達(dá)還和真內(nèi)行有點(diǎn)差距。 英偉達(dá)在這次GTC上用一款新模型Llama Nemotron,主打高效、準(zhǔn)確。它是由Llama系列模型衍生而來(lái)。經(jīng)過英偉達(dá)特別微調(diào),相較于Llama本體,這款模型經(jīng)過算法修剪優(yōu)化,更加輕量級(jí),僅有48B。它還具有了類似o1的推理能力。與Claude 3.7和Grok 3一樣,Llama Nemotron模型內(nèi)置了推理能力開關(guān),用戶可選擇是否開啟。這個(gè)系列分為三檔:入門級(jí)的Nano、中端的Super和旗艦Ultra,每一款都針對(duì)不同規(guī)模的企業(yè)需求。 Llama Nemotron的具體數(shù)據(jù)說到高效,這一模型的微調(diào)數(shù)據(jù)集完全英偉達(dá)自己生成的合成數(shù)據(jù)組成,總數(shù)約60B token。相比DeepSeek V3用130萬(wàn)H100小時(shí)完整訓(xùn)練,這個(gè)僅有DeepSeek V3 1/15參數(shù)量的模型只是微調(diào)就用了36萬(wàn)H100小時(shí)。訓(xùn)練效率比DeepSeek差一個(gè)等級(jí)。 在推理上效率上,Llama Nemotron Super 49B模型確實(shí)比上一代模型表現(xiàn)要好得多,其token吞吐量能達(dá)到Llama 3 70B 的5倍,在單個(gè)數(shù)據(jù)中心GPU下它可以每秒吞吐3000 token以上。但在DeepSeek 開源日最后一天公布的數(shù)據(jù)中,每個(gè)H800 節(jié)點(diǎn)在預(yù)填充期間平均吞吐量約為73.7k tokens/s 輸入(包括緩存命中)或在解碼期間約為14.8k tokens/s 輸出。兩者差距還是很明顯的。 從性能上看,49B的Llama Nemotron Super 在各項(xiàng)指標(biāo)中都超過了70B的經(jīng)DeepSeek R1蒸餾過的Llama 70B模型。不過考慮到最近Qwen QwQ 32B模型之類的小參數(shù)高能模型頻繁發(fā)布,Llama Nemotron Super 估計(jì)在這些能和R1本體掰手腕的模型里難以出彩。 最要命的是,這個(gè)模型,等于實(shí)錘了DeepSeek也許比英偉達(dá)更懂在訓(xùn)練過程中調(diào)教GPU。 3)新模型只是英偉達(dá)AI Agent生態(tài)的前菜,NVIDA AIQ才是正餐 英偉達(dá)為什么要開發(fā)一個(gè)推理模型呢?這主要是為了老黃看中的AI下一個(gè)爆點(diǎn)——AI Agent做準(zhǔn)備。自從OpenAI、Claude等大廠逐步通過DeepReasearch、MCP建立起了Agent的基礎(chǔ)后,英偉達(dá)明顯也認(rèn)為Agent時(shí)代到來(lái)了。 NVIDA AIQ項(xiàng)目就是英偉達(dá)的嘗試。它直接提供了一個(gè)以Llama Nemotron推理模型為核心的規(guī)劃者的AI Agent現(xiàn)成工作流。這一項(xiàng)目歸屬于英偉達(dá)的Blueprint(藍(lán)圖)層級(jí),它是指一套預(yù)配置的參考工作流、是一個(gè)個(gè)模版模板,幫助開發(fā)者更容易地整合NVIDIA的技術(shù)和庫(kù)。而AIQ就是英偉達(dá)提供的Agent模版。 NVIDA AIQ的架構(gòu)和Manus一樣,它集成網(wǎng)絡(luò)搜索引擎及其他專業(yè)AI代理等外部工具,這讓這個(gè)Agent本身可以既能搜索,又能使用各種工具。通過Llama Nemotron推理模型的規(guī)劃,反思和優(yōu)化處理方案,去完成用戶的任務(wù)。除此之外,它還支持多Agent的工作流架構(gòu)搭建。 基于這套模版做的servicenow系統(tǒng) 比Manus更進(jìn)一步的是,它具有一個(gè)復(fù)雜的針對(duì)企業(yè)文件的RAG系統(tǒng)。這一系統(tǒng)包括提取、嵌入、向量存儲(chǔ)、重排到最終通過LLM處理的一系列步驟,能保證企業(yè)數(shù)據(jù)為Agent所用。 在此之上,英偉達(dá)還推出了AI數(shù)據(jù)平臺(tái),把AI推理模型接到企業(yè)數(shù)據(jù)的系統(tǒng)上,形成一個(gè)針對(duì)企業(yè)數(shù)據(jù)的DeepReasearch。使得存儲(chǔ)技術(shù)的重大演進(jìn),使得存儲(chǔ)系統(tǒng)不再僅是數(shù)據(jù)的倉(cāng)庫(kù),而是擁有主動(dòng)推理和分析能力的智能平臺(tái)。 AI Data Platform的構(gòu)成 另外,AIQ非常強(qiáng)調(diào)可觀察性和透明度機(jī)制。這對(duì)于安全和后續(xù)改進(jìn)來(lái)講非常重要。開發(fā)團(tuán)隊(duì)能夠?qū)崟r(shí)監(jiān)控Agent的活動(dòng),并基于性能數(shù)據(jù)持續(xù)優(yōu)化系統(tǒng)。 整體來(lái)講NVIDA AIQ是個(gè)標(biāo)準(zhǔn)的Agent工作流模版,提供了各種Agent能力。算是進(jìn)化到推理時(shí)代的,更傻瓜的Dify類Agent構(gòu)筑軟件。 人形機(jī)器人基礎(chǔ)模型發(fā)布 英偉達(dá)要做具身生態(tài)全閉環(huán) 1)Cosmos,讓具身智能理解世界 如果說專注Agent還是投注現(xiàn)在,那英偉達(dá)在具身智能上的布局完全算得上是整合未來(lái)了。 模型、數(shù)據(jù)、算力這模型三要素英偉達(dá)都給安排齊了。 先從模型開始說,本次GTC放出了今年1月公布的具身智能基礎(chǔ)模型Cosmos的升級(jí)版。Cosmos是一個(gè)能通過現(xiàn)在畫面,去預(yù)測(cè)未來(lái)畫面的模型。它可以從文本/圖像輸入數(shù)據(jù),生成詳細(xì)的視頻,并通過將其的當(dāng)前狀態(tài)(圖像/視頻)與動(dòng)作(提示/控制信號(hào))相結(jié)合來(lái)預(yù)測(cè)場(chǎng)景的演變。因?yàn)檫@需要對(duì)世界的物理因果規(guī)律有理解,所以英偉達(dá)稱Cosmos是世界基礎(chǔ)模型(WFM)。 Cosmos的基本架構(gòu) 而對(duì)于具身智能而言,預(yù)測(cè)機(jī)器的行為會(huì)給外部世界帶來(lái)什么影響是最核心的能力。只有這樣,模型才能去根據(jù)預(yù)測(cè)規(guī)劃行為,所以世界模型就成了具身智能的基礎(chǔ)模型。有了這個(gè)基礎(chǔ)的行為/時(shí)間-物理世界改變的世界預(yù)測(cè)模型,通過具體的如自動(dòng)駕駛、機(jī)器人任務(wù)的數(shù)據(jù)集微調(diào),這個(gè)模型就可以滿足各種具有物理形態(tài)的具身智能的實(shí)際落地需要了。 整個(gè)模型包含三部分能力,第一部分Cosmos Transfer 將結(jié)構(gòu)化的視頻文字輸入轉(zhuǎn)換為可控的真實(shí)感視頻輸出,憑空用文字產(chǎn)生大規(guī)模合成數(shù)據(jù)。這解決了當(dāng)前具身智能最大的瓶頸——數(shù)據(jù)不足問題。而且這種生成是一種“可控”生成,這意味著用戶可以指定特定參數(shù)(如天氣條件、物體屬性等),模型會(huì)相應(yīng)調(diào)整生成結(jié)果,使數(shù)據(jù)生成過程更加可控和有針對(duì)性。整個(gè)流程還可以由Ominiverse和Cosmos結(jié)合。 Cosmos建立在Ominiverse上的現(xiàn)實(shí)模擬 第二部分Cosmos Predict 能夠從多模態(tài)輸入生成虛擬世界狀態(tài),支持多幀生成和動(dòng)作軌跡預(yù)測(cè)。這意味著,給定起始和結(jié)束狀態(tài),模型可以生成合理的中間過程。這是核心物理世界認(rèn)知和構(gòu)建能力。 第三部分是Cosmos Reason,它是個(gè)開放且可完全定制的模型,具有時(shí)空感知能力,通過思維鏈推理理解視頻數(shù)據(jù)并預(yù)測(cè)交互結(jié)果。這是規(guī)劃行為和預(yù)測(cè)行為結(jié)果的提升能力。 有了這三部分能力逐步疊加,Cosmos就可以做到從現(xiàn)實(shí)圖像token+文字命令提示token輸入到機(jī)器動(dòng)作token輸出的完整行為鏈路。 這一基礎(chǔ)模型應(yīng)該確實(shí)效果不俗。推出僅兩個(gè)月,1X、Agility Robotics、Figure AI這三家頭部公司都開始用起來(lái)了。大語(yǔ)言模型沒領(lǐng)先,但具身智能英偉達(dá)確實(shí)在第一梯隊(duì)里。 2)Isaac GR00T N1,世界第一個(gè)人形機(jī)器人基礎(chǔ)模型 有了Cosmos,英偉達(dá)自然而然用這套框架微調(diào)訓(xùn)練了專用于人型機(jī)器人的基礎(chǔ)模型Isaac GR00T N1。 Isaac GR00T N1的雙系統(tǒng)架構(gòu)它采用雙系統(tǒng)架構(gòu),有快速反應(yīng)的“系統(tǒng)1“和深度推理的“系統(tǒng)2“。它的全面微調(diào),使得其能處理抓取、移動(dòng)、雙臂操作等通用任務(wù)。而且可以根據(jù)具體機(jī)器人進(jìn)行完全定制,機(jī)器人開發(fā)者可用真實(shí)或合成數(shù)據(jù)進(jìn)行后訓(xùn)練。這使得這一模型實(shí)際上可以被部署在各種各樣形狀各異的機(jī)器人中。 比如說英偉達(dá)與Google DeepMind和迪士尼合作開發(fā)Newton物理引擎,就用了Isaac GR00T N1作為底座驅(qū)動(dòng)了一個(gè)非常不常見的小迪士尼BDX機(jī)器人?梢娖渫ㄓ眯灾畯(qiáng)。Newton作為物理引擎非常細(xì)膩,因此足夠建立物理獎(jiǎng)勵(lì)系統(tǒng),以在虛擬環(huán)境中訓(xùn)練具身智能。 黃仁勛與BDX機(jī)器人臺(tái)上“激情”互動(dòng) 4)數(shù)據(jù)生成,雙管齊下 英偉達(dá)結(jié)合NVIDIA Omniverse和上面提到的NVIDIA Cosmos Transfer世界基礎(chǔ)模型,做出了Isaac GR00T Blueprint。它能從少量人類演示中生成大量合成動(dòng)作數(shù)據(jù),用于機(jī)器人操作訓(xùn)練。NVIDIA使用Blueprint的首批組件,在僅11小時(shí)內(nèi)生成了78萬(wàn)個(gè)合成軌跡,相當(dāng)于6,500小時(shí)(約9個(gè)月)的人類演示數(shù)據(jù)。Isaac GR00T N1的相當(dāng)一部分?jǐn)?shù)據(jù)就來(lái)自于此,這些數(shù)據(jù)使得GR00T N1的性能比僅使用真實(shí)數(shù)據(jù)提高了40%。 孿生模擬系統(tǒng)針對(duì)每個(gè)模型,靠著Omniverse這套純虛擬系統(tǒng),以及Cosmos Transfer這套真實(shí)世界圖像生成系統(tǒng),英偉達(dá)都能提供大量的高質(zhì)量數(shù)據(jù)。這模型的第二個(gè)方面,英偉達(dá)也覆蓋了。 3)三位一體算力體系,打造從訓(xùn)練到端的機(jī)器人計(jì)算帝國(guó) 從去年開始,老黃就在GTC上強(qiáng)調(diào)一個(gè)「三臺(tái)計(jì)算機(jī)」的概念:一臺(tái)是DGX,就是大型GPU的服務(wù)器,它用來(lái)訓(xùn)練AI,包括具身智能。另一臺(tái)AGX,是NVIDIA為邊緣計(jì)算和自主系統(tǒng)設(shè)計(jì)的嵌入式計(jì)算平臺(tái),它用來(lái)具體在端側(cè)部署AI,比如作為自動(dòng)駕駛或機(jī)器人的核心芯片。第三臺(tái)就是數(shù)據(jù)生成計(jì)算機(jī)Omniverse+Cosmos。 具身智能的三大計(jì)算體系這套體系在本次GTC中又被老黃重提,且特別提到靠著這套算力系統(tǒng),能誕生十億級(jí)的機(jī)器人。從訓(xùn)練到部署,算力都用英偉達(dá)。這一部分也閉環(huán)了。 結(jié)語(yǔ) 如果單純對(duì)比上一代Blackwell芯片,Blackwell Ultra在硬件上確實(shí)匹配不上之前的“核彈”、“王炸”這些形容詞,甚至有些擠牙膏的味道。 但如果從路線圖規(guī)劃的角度來(lái)看,這些又都在黃仁勛的布局之中,明年、后年的Rubin架構(gòu),從芯片工藝,到晶體管,再到機(jī)架的集成度,GPU互聯(lián)和機(jī)柜互聯(lián)等規(guī)格都會(huì)有大幅度提升,用中國(guó)人習(xí)慣說的叫“好戲還在后頭”。 對(duì)比硬件層面上的畫餅充饑,這兩年英偉達(dá)在軟件層面上可以說是狂飆突進(jìn)。 縱觀英偉達(dá)的整個(gè)軟件生態(tài),Meno、Nim、Blueprint三個(gè)層級(jí)的服務(wù)把模型優(yōu)化、模型封裝到應(yīng)用構(gòu)建的全棧解決方案都包括進(jìn)去了。云服務(wù)公司的生態(tài)位英偉達(dá)AI全部重合。加上這次新增的Agent,AI infra這塊餅,英偉達(dá)是除了基礎(chǔ)模型這一塊之外,所有部分都要吃進(jìn)去。 軟件這部分,老黃的胃口,和英偉達(dá)的股價(jià)一樣大。 而在機(jī)器人市場(chǎng),英偉達(dá)的野心更大。模型,數(shù)據(jù),算力三要素都抓在手里。沒趕上基礎(chǔ)語(yǔ)言模型的頭把交椅,基礎(chǔ)具身智能補(bǔ)齊。影影綽綽,一個(gè)具身智能版的壟斷巨頭已經(jīng)在地平線上露頭了。 這里面,每個(gè)環(huán)節(jié),每個(gè)產(chǎn)品都對(duì)應(yīng)著一個(gè)潛在的千億級(jí)市場(chǎng)。早年孤注一擲的好運(yùn)賭王黃仁勛,靠著GPU壟斷得來(lái)的錢,開始做一場(chǎng)更大的賭局。 如果這場(chǎng)賭局里,軟件或者機(jī)器人市場(chǎng)任意一方面通吃,那英偉達(dá)就是AI時(shí)代的谷歌,食物鏈上的頂級(jí)壟斷者。 不過看看英偉達(dá)GPU的利潤(rùn)率,我們還是期待這樣的未來(lái)別來(lái)了。 還好,這對(duì)于老黃這輩子來(lái)講,也是他從沒操盤過的大賭局,勝負(fù)難料。 本文來(lái)源:騰訊科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選