“為了計算和人類的未來,我捐出世界上第一臺 DGX-1 。 ” 2016 年 8 月,英偉達創(chuàng)始人黃仁勛,帶著一臺裝載了 8 塊 P100 芯片的超級計算機 DGX-1 ,來到了 OpenAI 的辦公大樓。 在現(xiàn)場人員到齊后,老黃拿出記號筆,在 DGX-1 的機箱上寫下這句話。 與其一同前往的還有特斯拉和 OpenAI 的創(chuàng)始人,埃隆馬斯克。 這次 OpenAI 之行,老黃不為別的,就是為了把這臺剛出爐的超算送給 OpenAI ,給他們的人工智能項目研究加一波速。 這臺 DGX-1 價值超過百萬,是英偉達超過 3000 名員工,花費三年時間打造。 這臺 DGX-1 ,能把 OpenAI 一年的訓(xùn)練時間,壓縮到短短一個月。而這,是他對人工智能未來的豪賭,加的一波注。七年之后,在前不久的 GTC 大會上,老黃穿著皮衣,拿著芯片,整個宣講不離 AI 。 似乎是在告訴各位, AI 的時代,我英偉達,就要稱王了,當(dāng)年的豪賭,他贏了! 這么說吧,在去年經(jīng)歷一波礦難之后,不少人都以為曾靠著礦潮狂賺一筆的英偉達,會在礦難之下市值暴跌,一蹶不振。 但實際情況卻有點微妙。。。英偉達的股價在跌了大半年之后,從十月份開始,一路上漲,到現(xiàn)在,整個英偉達市值已經(jīng)漲回到了 6500 億美元,是 AMD 的 4 倍,英特爾的 6 倍。 瞧瞧,這還是當(dāng)年那個求著各位買顯卡的老黃嘛? 而讓英偉達的股價瘋漲的,那便是他們從十多年前就開始押注的 AI 計算。 給大家一個數(shù)據(jù),從 15 年后,英偉達的 GPU 在超算中心的市場份額就一路上漲,這幾年穩(wěn)居 90% 左右。 在獨立 GPU 市場上,英偉達的市場占有率也一度超過 80% 。 另外,包括 YouTube 、Cat Finder 、 AlphaGo 、 GPT-3 、 GPT-4 在內(nèi), AI 歷史上那些叫得出名的玩意,幾乎都是在英偉達的硬件上整出來的。 英偉達的硬件,仿佛就是新時代的內(nèi)燃機,載著 AI 時代不斷前進。 差友們可能會有點疑問,為什么在 AI 爆發(fā)的時代,好像就只有老黃有好處,其它的顯卡生產(chǎn)商們的顯卡不能訓(xùn)練 AI 嘛?能訓(xùn)練,但只能訓(xùn)練一點點。 為啥?這就不得不提到英偉達從 2006 年就開始著手開發(fā)一個東西—— CUDA ( 統(tǒng)一計算設(shè)備架構(gòu) )。 差評君簡單解釋一下它是干嘛的,當(dāng)你想要計算一些比較龐大的運算問題時,通過 CUDA 編程,你就能充分利用 GPU 的并行處理能力,從而大幅提升計算性能。 差評君說一個聽來的比喻。 CPU 就好比是個數(shù)學(xué)教授, GPU 就是 100 個小學(xué)生,放一道高數(shù)題下來那 100 個小學(xué)生可能會懵逼;但是放 100 道四則口算題下來,那 100 個小學(xué)生同時做肯定比數(shù)學(xué)教授快多了。 深度學(xué)習(xí)就是上面的例子中那 100 道口算題,那個讓 GPU 處理器并行運算的 “ 工具 ” 就叫 CUDA 。 一般來說,使用 CUDA 和不使用 CUDA ,兩者在計算速度上往往有數(shù)倍到數(shù)十倍的差距。 既然 CUDA 這么有用,為什么其它的 GPU 廠商不去搞個競品呢?不是不去搞啊,而是他們真的沒想到! 在早期, GPU 的作用只是為了加速圖形渲染,各大廠商們認(rèn)為它就是一個圖形專用計算芯片,并沒有想到把 GPU 用在其它通用計算方面。至于拿來做深度學(xué)習(xí)?以那個年代的 AI 能力,一是沒有太大的必要,二是也沒有人覺得它有用。 英偉達深度學(xué)習(xí)團隊的布萊恩在聊到 CUDA 時這么說道: “ 在 CUDA 推出十年以來,整個華爾街一直在問英偉達,為什么你們做了這項投入,卻沒有人使用它?他們對我們的市值估值為 0 美元。 ” 不過說沒人用也是過于嚴(yán)重了。 其實早在 2012 年,多倫多大學(xué)的 Alex Krizhevsky 就在 ImageNet 計算機視覺挑戰(zhàn)賽中,利用 GPU 驅(qū)動的深度學(xué)習(xí)擊敗了其它對手,當(dāng)時他們使用的顯卡是 GTX580 。 在這之后又經(jīng)過了 4 年,那些搞深度學(xué)習(xí)的人才突然意識到, GPU 的這種設(shè)計結(jié)構(gòu)方式,在訓(xùn)練 AI 的速度上,真的是 CPU 不能比的。而擁有了 CUDA 原生支持的英偉達 GPU ,更是首要之選。 到現(xiàn)在,資本們已經(jīng)看到了 AI 的重要之處,為什么大家都還在卷 AI 模型,而不去卷老黃的市場呢? 原因在于,它們已經(jīng)很難再拿到 AI 加速芯片的入場券了。在人工智能產(chǎn)業(yè)上,整個深度學(xué)習(xí)的框架已經(jīng)是老黃的形狀了。 AI 發(fā)展的數(shù)十年間,英偉達通過對 CUDA 開發(fā)和社區(qū)的持續(xù)投入, CUDA 和各類 AI 框架深度綁定。 當(dāng)今使用排行靠前的各類 AI 框架,就沒有不支持 CUDA 的,也就是說你想要讓你的深度學(xué)習(xí)跑的快?買張支持 CUDA 的高性能卡是最好的選擇,說人話就是——買 N 卡吧。 當(dāng)然,在 CUDA 大力發(fā)展期間,也有其它公司在嘗試著打破英偉達這種接近壟斷的局面。 2008 蘋果就提過出 OpenCL 規(guī)范,這是一個統(tǒng)一的開放 API ,旨在為各種不同的 GPU 型號提供一個規(guī)范,用以開發(fā)類似 CUDA 的通用計算軟件框架。 但是,通用就意味著不一定好用。 因為各大廠商 GPU 的型號繁而復(fù)雜,為了適應(yīng)各種硬件,驅(qū)動版本也多如牛毛,質(zhì)量參差不齊。而且缺少對應(yīng)的廠商進行針對性的優(yōu)化,所以,無論是哪一個版本的 OpenCL ,在同等算力下,都比不過使用 CUDA 的速度。 而且恰恰是因為 OpenCL 的通用性,想要開發(fā)支持 OpenCL 的框架,要比開發(fā)CUDA 的復(fù)雜不少。原因還是同一個,缺少官方的支持,看看英偉達對CUDA開發(fā)的工具支持吧,CUDA Toolkit,NVIDIA GPU Computing SDK以及NSight等等。 OpenCL這邊,就略顯寒酸了。。。 這就導(dǎo)致如今能支持 OpenCL 的深度學(xué)習(xí)框架寥寥無幾。 舉個很簡單的例子,當(dāng)下最火的框架 PyTorch ,就連官方都沒有專門對OpenCL進行支持,還得靠著第三方開源項目才能用。 那同為顯卡供應(yīng)商的 AMD ,在面對老黃如日中天的 CUDA 時,除了 OpenCL ,有沒有自己的解決辦法呢? 方法確實是有,但效果也確實不咋的。2016 年 AMD 發(fā)布了全新的開放計算平臺—— ROCm ,對標(biāo)的就是英偉達的 CUDA ,最關(guān)鍵的一點是,它還在源碼級別上對 CUDA 程序進行支持。 你看,就算是老黃的死對頭 AMD ,想的也不是另起爐灶,而是降低自己適配 CUDA 的門檻。。。 但是,時至今日, ROCm 依然還是只支持 Linux 平臺,可能也是用的人太少了,有點擺爛的味道,畢竟,既然你支持 CUDA ,那我為什么要費盡心力去給你的 ROCm 專門編寫一套支持框架呢? 同年,谷歌也有了行動,但畢竟不是芯片制造商,谷歌只是推出了自己的 TPU 平臺,專門針對自家的 TensorFlow 框架進行優(yōu)化,當(dāng)然原生支持的最好的也只有 TensorFlow 了。 至于英特爾那邊,也推出了一個 OneAPI ,對標(biāo)老黃的 CUDA ,不過由于起步較晚,現(xiàn)在還處于發(fā)展生態(tài)的環(huán)節(jié),未來會怎樣還不太好說。 所以靠著先發(fā)優(yōu)勢還有原生支持,導(dǎo)致現(xiàn)在的深度學(xué)習(xí),基本上離不開英偉達的 GPU 和他的 CUDA 。 最近大火的 ChatGPT ,就用了老黃的 HGX 主板和 A100 芯片,而老黃對此也是很有自信的說道: “ 現(xiàn)在唯一可以實際處理 ChatGPT 的 GPU ,那就只有我們家的 HGX A100 。 ” 沒錯,沒有其它可用的了,這就是老黃的有恃無恐。 而隨著 OpenAI 對大模型 AI 的成功驗證,各家巨頭對大模型 AI 的紛紛入局,英偉達的卡已經(jīng)立馬成了搶手貨。 所以如今的 AI 創(chuàng)業(yè)公司,出現(xiàn)了一件很有意思的現(xiàn)象,在他們的項目報告上,往往會搭上一句我們擁有多少塊英偉達的 A100 。 當(dāng)大家在 AI 行業(yè)紛紛投資淘金時,英偉達就這樣靠著給大家賣水——提供 AI 加速卡,大賺特賺,關(guān)鍵還在于,只有它賣的水能解渴。 因為它的硬件以及工具集,已經(jīng)能影響到整個 AI 產(chǎn)業(yè)的戰(zhàn)局和發(fā)展速度了。 更可怕的是,英偉達的優(yōu)勢已經(jīng)形成了一種壁壘,這壁壘厚到就連全球第二大 GPU 廠商 AMD 都沒有辦法擊穿。 所以在 AI 大浪滔天的現(xiàn)在,能整出屬于自己的 AI 大模型固然重要,但差評君卻覺得,啥時候能有自己的英偉達和 CUDA 也同樣不可小覷。 當(dāng)然,這條路也更難。 最后,差評君覺得在未來,我們需要抓緊突破的,絕對不只是對人工智能大模型相關(guān)的研究,更為重要的是整個計算芯片的設(shè)計,制造,以及 AI 生態(tài)的建設(shè)。 新的工業(yè)革命已經(jīng)到來, AI 技術(shù)的發(fā)展不僅加速了人類生產(chǎn)力的發(fā)展,也加速了那些落后產(chǎn)能的淘汰,現(xiàn)在各行各業(yè)都處在變革的前夕。 強者越強,弱者無用。雖然這句話很殘酷,但在AI 領(lǐng)域,如果不奮力追上,可能真的已經(jīng)不需要 “ 弱者 ” 了。 文章來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選