首頁 > 科技要聞 > 科技> 正文

粉碎摩爾定律后,黃仁勛又要打破 Scaling Law 的墻

愛范兒 整合編輯:太平洋科技 發(fā)布于:2025-03-20 16:34

剛剛擊破摩爾定律的英偉達(dá),卻要撞上 scaling laws 的墻?

相當(dāng)一部分評論家和分析師是這么認(rèn)為的。即便你不同意,也不能怪他們,畢竟在英特爾的身上,大家剛剛目睹了摩爾定律似乎「失效」了。

在最近兩次財報電話會議(25Q3、Q4)中,每次都有不止一位分析師向英偉達(dá) C-level 拋出同一類問題:神經(jīng)網(wǎng)絡(luò)的 scaling law 是否不再起到作用了?

他們真正想問的是:英偉達(dá)還能否續(xù)寫連續(xù)兩個財年的瘋狂增長?

這就是在業(yè)界甚囂塵上的 scaling law 撞墻猜測。簡而言之,機(jī)器學(xué)習(xí)的 scaling law 的指的是隨著模型大。▍(shù)量)、數(shù)據(jù)集、訓(xùn)練成本這三大要素的提升,大模型的性能也會有所提升(具體細(xì)節(jié)不展開)。

而許多分析師看到 DeepSeek 震驚世界的成果之后,得出一種新的猜測,認(rèn)為進(jìn)一步訓(xùn)練天量參數(shù)和超大數(shù)據(jù)集的大語言模型的意義沒那么大了,蒸餾現(xiàn)有超大模型的性能也很不錯,完全事半功倍。

而放在英偉達(dá)的語境下,考慮到它是 GPT 技術(shù)催生和領(lǐng)導(dǎo)的大語言模型爆發(fā)的最大受益者,最近連續(xù)幾個季度的收入又過分嚴(yán)重依賴數(shù)據(jù)中心;現(xiàn)在大模型的蒸餾新玩法出現(xiàn),似乎不再需要那么多 Hopper、Blackwell,以及英偉達(dá)早已畫好路線圖的新架構(gòu)顯卡,進(jìn)而直接導(dǎo)致英偉達(dá)圖形計算方案產(chǎn)品的市場需求從高位滑落,最近兩個財年的瘋長神話不再續(xù)寫。

CEO 黃仁勛理解這種「恐慌」,畢竟公司股票在過去一年里給太多人賺了太多錢。但他不理解人們?yōu)槭裁磿?scaling law 不再適用的想法。

在和軟銀創(chuàng)始人孫正義的談話中,黃仁勛提到,只要投入足夠的計算資源,采用更復(fù)雜的算法,AI 的智能水平還能夠繼續(xù)提升。上一財務(wù)季度的電話會議里,黃仁勛又提出了一個關(guān)于 scaling law 的新思考框架,具體來說有三個部分:預(yù)訓(xùn)練 scaling、后訓(xùn)練 scaling、推理 (包括模型推理 inference 和思維推理 reason)scaling。

而在英偉達(dá) Geforce 技術(shù)大會(GTC)上,他進(jìn)一步闡釋了這個新的 scaling law 框架:

通過 DeepSeek,人們用上了能夠推理 (reason),具有思維鏈的 AI。這和 ChatGPT 有本質(zhì)的區(qū)別。ChatGPT 回答很多復(fù)雜問題的時候答案都是錯的,因為答案是一次性生成的,token 是一個接一個吐出來的。

而現(xiàn)在 AI 能夠推理,每個 token 都返回到上一步重新處理,一次又一次的重復(fù),最終形成一個思維鏈 (chain of thought)」

「我們不只是 token 吞吐量提升了 10 倍,同時也需要 10 倍更快的計算(注:中和更多 token 消耗的時間)。最后的結(jié)果是,我們需要 10 x 10 = 100 倍更多的算力!」

事實上在黃仁勛看來,任何人如果理解計算機(jī)科學(xué)領(lǐng)域的最基本悖論——延遲和吞吐量——就不會說出 scaling law 不再適用那些話。

在基于強化學(xué)習(xí),具有思維鏈 (chain of thoughts) 能力的大模型的推理過程中,每個新 token 都會在產(chǎn)生之后不斷地被送回上一步重新處理,用黃仁勛自己的比喻叫做「token 的自我懷疑」。他說,「如果你想要聰明的 AI,你就需要高效率地生成 token。如果你花了太長的時間去生成這些 token,你的客戶最后就不用你了。所以你的 token 速度很重要!

為了證明自己的觀點,黃仁勛拿出傳統(tǒng)大語言模型代表 Llama 3.3 70B 和 DeepSeek R1 671B(37B 激活),讓它們回答同一個復(fù)雜問題。

前者生成了 439 個 token,但給出的答案根本沒法用,黃仁勛說「400 多個 token 白白浪費了」。后者打開了標(biāo)志性的「深度思考」模式,結(jié)果生成了高達(dá) 8559 個 token,得到的答案令人滿意。

但和所用算力相比,答案滿意與否已經(jīng)沒那么重要了:

具有思維鏈的 R1 推理模型的 token 吞吐量是傳統(tǒng)模型 20 倍,現(xiàn)場演示的用時也比傳統(tǒng)模型長了兩倍,即便如此都要用到 150 倍的算力。如果換做消費級使用場景下,想要在足夠快、能留住用戶的時間窗口內(nèi),輸出經(jīng)過深思熟慮的可靠結(jié)果,需要的算力只會成倍增加。

怎么訓(xùn)練的模型也不太重要了。模型想要在真正的商業(yè)和消費應(yīng)用中高效地進(jìn)行推理/思考,同樣需要大量的算力。早在之前的財報會上黃仁勛就說過,人們目前看得見和用得上的消費級產(chǎn)品,比如搜索、生成、推薦功能,還只是大模型能力的九牛一毛。未來的推理/思考型模型將要消耗掉的算力,將令人難以置信。

他不得不在自己的主場 GTC 上,完整展現(xiàn)自己對于這件事的「思維鏈」,甚至在臺上瘋狂做數(shù)學(xué)題,算 token 秒速、單機(jī)架功耗,再把它們合到一起算出每兆瓦秒 token 吞吐性能,推導(dǎo)出新架構(gòu)產(chǎn)品能讓客戶多賺多少錢。發(fā)布會兩個多小時的觀感,70% 說服分析師,30% 面向開發(fā)者和企業(yè)伙伴。

黃仁勛的技術(shù)前瞻性的確獨一無二,特別是帶領(lǐng)公司研發(fā) CUDA 技術(shù)走上 GPGPU 道路,使得基于圖形計算架構(gòu)的通用加速計算成為可能。而我們也看到了早年的這些決策,在最近兩年里以數(shù)據(jù)中心業(yè)務(wù)的形態(tài)貢獻(xiàn)了英偉達(dá)高達(dá) 90% 的收入,幫助公司實現(xiàn)高達(dá) 56% 的凈利潤。

但歸根結(jié)底,黃仁勛是圖形加速計算布道者,更是顯卡銷冠。他需要繼續(xù)不遺余力地抬高英偉達(dá)驅(qū)動的 GPU 數(shù)據(jù)中心——2025 年已經(jīng)換了一個新名字,叫做 AI 工廠——在企業(yè)客戶心目中的價值認(rèn)知和必要性心智,才能續(xù)寫英偉達(dá)的股價神話。

本屆 GTC 上發(fā)布了很多核彈級的新 AI 加速計算方案,軟硬兼施,包括最新 Blackwell Ultra 架構(gòu) + NVLink72 互聯(lián)技術(shù)的服務(wù)器機(jī)架產(chǎn)品和超算集群產(chǎn)品、Dynamo 分布式推理大模型環(huán)境部署軟件、AI 超算單機(jī) DGX Spark/Station、數(shù)字-光纖調(diào)制解調(diào)模組等、Groot N1 人形機(jī)器人基礎(chǔ)模型等。

這些產(chǎn)品和技術(shù)的意義很大,對于不同規(guī)模場景的企業(yè)建設(shè)自己的 AI 工廠,訓(xùn)練自己垂直領(lǐng)域的獨家超大模型和機(jī)器人,能帶來很可觀的效能提升,最終帶來更高的收入。

但現(xiàn)場黃仁勛反復(fù)采用的一種敘事邏輯,有些耐人尋味:

英偉達(dá)在大量的企業(yè)級 AI 大模型訓(xùn)練和部署展示中,一而再、再而三地強調(diào)大量預(yù)先模擬和測試的必要性。

具體來說,未來的千行百業(yè)在應(yīng)用 AI 技術(shù)的過程中,需要做大量的、反復(fù)的模擬和測試工作。比如一個在工廠流水線工作的機(jī)器人,在真人教會他如何擺弄工具之前或者同時,他可以在大模型里跑成百上千次模擬,包括動作模擬、物理引擎模擬,甚至 GPU 虛擬出的不同環(huán)境場景下的重復(fù)模擬。

而這些模擬測試的內(nèi)容,毫無意外,也是在英偉達(dá)圖形計算方案驅(qū)動的服務(wù)器里進(jìn)行的。英偉達(dá)的 Omniverse 機(jī)器人 AI 操作系統(tǒng)和 Cosmos 真實世界基礎(chǔ)大模型,正是專為這些模擬測試背后的大模型訓(xùn)練和部署工作而生的。

也就是說,在英偉達(dá)看來,不止訓(xùn)練大模型,部署和推理大模型,在現(xiàn)實世界的千行百業(yè)應(yīng)用大模型之前,還要進(jìn)行大量的訓(xùn)練-推理-再訓(xùn)練-再推理……不斷循環(huán)往復(fù)的強化學(xué)習(xí)過程。每多強化一點,需要的算力都呈指數(shù)級提升。

黃仁勛打的大概就是這個算盤:從 Hopper 架構(gòu)升級到 Blackwell,token 吞吐效率已經(jīng)幾何提升,轉(zhuǎn)換到客戶的每 token 收入翻了 40 倍。而如果再升級到 2027 年的 Rubin 架構(gòu),甚至 2028 年的 Feynman 架構(gòu),想都不敢想。

The more you buy, the more you save?
The more you buy, the more you(we) make!
好在黃仁勛還算有良心,直接把這些未來 2-3 年內(nèi)的新架構(gòu)的命名、技術(shù)細(xì)節(jié)、預(yù)估提升水平都提前告訴好大家了。這樣客戶在籌劃修建自己的 AI 數(shù)據(jù)中心的時候,可以充分考慮預(yù)算、需要性能、工期等客觀因素,來準(zhǔn)確地選購自己需要的英偉達(dá)顯卡。

毋庸置疑的是,英偉達(dá)需要持續(xù)炒熱 GPU 架構(gòu)革新的意義,加快新架構(gòu)發(fā)布的節(jié)奏,甚至在幾乎一己之力打破了英特爾的摩爾定律之后,又創(chuàng)造了自己每年一升級的 tick-tock 規(guī)則。

只有客戶的心智被規(guī)訓(xùn)成「永遠(yuǎn)認(rèn)為自己需要更好的顯卡」,就像每年總?cè)滩蛔Q新 iPhone 那樣,英偉達(dá)才能有希望保持收入繼續(xù)增長,即便最近兩年的增速已經(jīng)如此瘋狂。

就像大會開場前的暖場對談里所說的:在任何經(jīng)濟(jì)里,賣水的永遠(yuǎn)會成功。

最后,有一個疑惑縈繞在腦海里:

順著英偉達(dá)的邏輯,總有一天,而且應(yīng)該不會太久,這個世界上被用于訓(xùn)練和優(yōu)化所有大模型的數(shù)據(jù),全都來自于別的大模型甚至這個大模型自己。

機(jī)器都 scale up 了,人是不是就該 out 了?

本文來源:愛范兒

愛范兒

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部