DeepSeek給美國(guó)造成的威脅,還在加劇。 就在昨天,DeepSeek的日活數(shù)已經(jīng)達(dá)到ChatGPT的23%,每日應(yīng)用下載量接近500萬(wàn)! a16z聯(lián)創(chuàng)Marc Andreessen發(fā)文 誰(shuí)能想到,做出DeepSeek關(guān)鍵貢獻(xiàn)的人才,本來(lái)是可能留在美國(guó)的。 最近哈佛大學(xué)教授曝出這一驚人事實(shí):DeepSeek多模態(tài)團(tuán)隊(duì)的第4位工程師,本來(lái)可以拿到英偉達(dá)的全職offer。 然而最終,他選擇歸國(guó)加入DeepSeek,由此的后果就是,美國(guó)在AI領(lǐng)域的主導(dǎo)地位被動(dòng)搖,相關(guān)公司市值蒸發(fā)一萬(wàn)億,全球AI格局也被徹底掀翻。 這種結(jié)果是陰錯(cuò)陽(yáng)差,還是一種必然? 美國(guó)錯(cuò)失DeepSeek,讓「錢學(xué)森」再次回國(guó) 近日,政治學(xué)家、哈佛大學(xué)教授、前國(guó)防計(jì)劃助理部長(zhǎng)Graham Allison,在X上提問(wèn):「誰(shuí)曾錯(cuò)失了DeepSeek」? 他在X痛心發(fā)帖稱,DeepSeek已刷新對(duì)美國(guó)AI地位的認(rèn)知,而美國(guó)原本有機(jī)會(huì)留住DeepSeek的關(guān)鍵員工之一潘梓正(Zizheng Pan):
潘梓正,是DeepSeek多模態(tài)團(tuán)隊(duì)的第4位多工程師,在開發(fā)DeepSeek的R1模型方面發(fā)揮了重要作用。 回國(guó)之前,他在英偉達(dá)實(shí)習(xí)過(guò)4個(gè)月,而且拿到了英偉達(dá)的全職邀約。 Graham Allison認(rèn)為潘梓正之所以如此,是因?yàn)楣韫裙疚茨茉诿绹?guó)為他提供這樣做的機(jī)會(huì)。 這種「人才流失」,讓Graham Allison痛心疾首,甚至將潘梓正回國(guó)提升到錢學(xué)森歸國(guó)的高度! 像錢學(xué)森、黃仁勛以及馬斯克這樣的的超級(jí)人才可以用腳投票,可以在任何地方施展才華、大張宏圖。 他認(rèn)為,美國(guó)應(yīng)該盡力避免這樣的「人才流失」:
英偉達(dá)憾失人才英偉達(dá)的高級(jí)研究科學(xué)家禹之鼎,在得知DeepSeek超越ChatGPT登頂App Store后,分享了當(dāng)時(shí)的實(shí)習(xí)生潘梓正回國(guó)的選擇,對(duì)他現(xiàn)在取得的成就感到高興,并分享了對(duì)AI競(jìng)爭(zhēng)的觀點(diǎn):
潘梓正是DeepSeek-VL2的共同一作 在DeepSeek超越ChatGPT登頂App Store下載榜第一時(shí),潘梓正在X上分享了自己的感受: 潘梓正2024年全職加入DeepSeek,擔(dān)任研究員。他曾在英偉達(dá)AI算法組擔(dān)任研究實(shí)習(xí)生。 2021年,潘梓正加入蒙納士大學(xué)(Monash University)ZIP Lab攻讀計(jì)算機(jī)科學(xué)博士,導(dǎo)師是Bohan Zhuang教授和Jianfei Cai教授。在此之前,他分別獲得阿德萊德大學(xué)(University of Adelaide)計(jì)算機(jī)科學(xué)碩士和哈爾濱工業(yè)大學(xué)(威海)軟件工程學(xué)士學(xué)位。 在博士期間,潘梓正的研究興趣主要集中在深度神經(jīng)網(wǎng)絡(luò)的效率方面,包括模型部署、Transformer架構(gòu)優(yōu)化、注意力機(jī)制、 推理加速和內(nèi)存高效的訓(xùn)練。 Lex Fridman硬核播客,揭秘中國(guó)AI新星如何撼動(dòng)全球格局 就在最近,Lex Fridman放出了一期長(zhǎng)達(dá)5小時(shí)的播客,邀請(qǐng)了AI2的模型訓(xùn)練專家Nathan Lambert和Semianalysis硬件專家Dylan Patel。 在這期信息量爆棚的談話中,他們?nèi)叹劢笵eepSeek,討論了這顆中國(guó)AI新星如何撼動(dòng)全球格局、MoE架構(gòu)+MLA的技術(shù)雙刃、DeepSeek開源倒逼行業(yè)開放進(jìn)程、中國(guó)式極限優(yōu)化之道的硬件魔術(shù)等。 DeepSeek到底用沒(méi)用OpenAI數(shù)據(jù)這次,幾位大佬的談話內(nèi)容可謂相當(dāng)犀利,直指問(wèn)題核心。 比如這個(gè)關(guān)鍵問(wèn)題:DeepSeek究竟用沒(méi)用OpenAI的數(shù)據(jù)? 此前,OpenAI公開表示,DeepSeek使用了自家的模型蒸餾。 《金融時(shí)報(bào)》干脆說(shuō),「OpenAI有證據(jù)表明DeepSeek用了他們的模型來(lái)進(jìn)行訓(xùn)練」 這在道德和法律上站得住腳嗎? 雖然OpenAI的服務(wù)條款規(guī)定,不許用戶使用自家模型的輸出來(lái)構(gòu)建競(jìng)爭(zhēng)對(duì)手。但這個(gè)所謂的規(guī)則,其實(shí)正是OpenAI虛偽的體現(xiàn)。 Lex Fridman表示:他們和大多數(shù)公司一樣,本來(lái)就是在未經(jīng)許可的情況下,使用互聯(lián)網(wǎng)上的數(shù)據(jù)進(jìn)行訓(xùn)練,并從中受益的。 大佬們一致認(rèn)為,OpenAI聲稱DeepSeek用其模型訓(xùn)練,就是在試圖轉(zhuǎn)移話題、讓自己獨(dú)贏。 而且,過(guò)去幾天還有很多人把DeepSeek的模型蒸餾到Llama中,因前者在推理上運(yùn)行很復(fù)雜,而Llama很容易提供服務(wù),這違法嗎? DeepSeek的訓(xùn)練成本,為何如此之低Dylan Patel表示,DeepSeek的成本涉及兩項(xiàng)關(guān)鍵的技術(shù):一個(gè)是MoE,一個(gè)就是MLA(多頭潛注意力)。 MOE架構(gòu)的優(yōu)勢(shì)在于,一方面,模型可以將數(shù)據(jù)嵌入到更大的參數(shù)空間中,另一方面,在訓(xùn)練或推理時(shí),模型只需要激活其中一部分參數(shù),從而大大提升效率。 DeepSeek模型擁有超過(guò)6000億個(gè)參數(shù),相比之下,Llama 405B有4050億參數(shù)。從參數(shù)規(guī)模上看,DeepSeek模型擁有更大的信息壓縮空間,可以容納更多的世界知識(shí)。 但與此同時(shí),DeepSeek模型每次只激活約370億個(gè)參數(shù)。也就是說(shuō),在訓(xùn)練或推理過(guò)程中,只需要計(jì)算370億個(gè)參數(shù)。相比之下,Llama 405B模型每次推理卻需要激活4050億個(gè)參數(shù)。 MLA主要用于減少推理過(guò)程中的內(nèi)存占用,在訓(xùn)練過(guò)程也是如此,它利用了一些巧妙的低秩近似數(shù)學(xué)技巧。 Nathan Lambert表示,深入研究潛注意力的細(xì)節(jié),會(huì)發(fā)現(xiàn)DeepSeek在模型實(shí)現(xiàn)方面下了很大功夫。 因?yàn),除了注意力機(jī)制,語(yǔ)言模型還有其他組件,例如用于擴(kuò)展上下文長(zhǎng)度的嵌入。DeepSeek采用的是旋轉(zhuǎn)位置編碼(RoPE)。 將RoPE與傳統(tǒng)的MoE結(jié)合使用,需要進(jìn)行一系列操作,例如,將兩個(gè)注意力矩陣進(jìn)行復(fù)數(shù)旋轉(zhuǎn),這涉及到矩陣乘法。 DeepSeek的MLA架構(gòu)由于需要一些巧妙的設(shè)計(jì),因此實(shí)現(xiàn)的復(fù)雜性大大增加。而他們成功地將這些技術(shù)整合在一起,這表明DeepSeek在高效語(yǔ)言模型訓(xùn)練方面走在了前沿。 Dylan Patel表示,DeepSeek想方設(shè)法提高模型訓(xùn)練效率。其中一個(gè)方法就是不直接調(diào)用NVIDIA的NCCL庫(kù),而是自行調(diào)度GPU之間的通信。 DeepSeek的獨(dú)特之處在于,他們通過(guò)調(diào)度特定的SM(流式多處理器)來(lái)管理GPU通信。 DeepSeek會(huì)精細(xì)地控制哪些SM核心負(fù)責(zé)模型計(jì)算,哪些核心負(fù)責(zé)allreduce或allgather通信,并在它們之間進(jìn)行動(dòng)態(tài)切換。這需要極其高深的編程技巧。 DeepSeek為何如此便宜在所有聲稱提供R1服務(wù)的公司中,定價(jià)都遠(yuǎn)高于DeepSeek API,而且大多服務(wù)無(wú)法正常工作,吞吐量極低。 讓大佬們震驚的是,一方面中國(guó)取得了這種能力,另一方面價(jià)格如此之低。(R1的價(jià)格,比o1便宜27倍) 訓(xùn)練為什么便宜,上文已經(jīng)提到。為什么推理成本也這么低呢? 首先,就是DeepSeek在模型架構(gòu)上的創(chuàng)新。MLA這種全新的注意力機(jī)制,跟Transformer注意力機(jī)制不同。 這種多頭潛注意力,可以將注意力機(jī)制的內(nèi)存占用減少大約80%到90%,尤其有助于處理長(zhǎng)上下文。 而且,DeepSeek和OpenAI的服務(wù)成本有巨大差異,部分原因是OpenAI的利潤(rùn)率非常高,推理的毛利率超過(guò)了75%。 因?yàn)镺penAI目前是虧損的,在訓(xùn)練上花費(fèi)了太多,因此推理的利潤(rùn)率很高。 接下來(lái)亮點(diǎn)來(lái)了,幾位大佬放飛想象,猜測(cè)這會(huì)不會(huì)是一種陰謀論:DeepSeek精心策劃了這次發(fā)布和定價(jià),做空英偉達(dá)和美國(guó)公司的股票,配合星際之門的發(fā)布…… 但這種猜測(cè)立馬遭到了反駁,Dylan Patel表示,他們只是趕在農(nóng)歷新年前把產(chǎn)品盡快發(fā)布而已,并沒(méi)有沒(méi)有打算搞個(gè)大的,否則為什么選在圣誕節(jié)后一天發(fā)布V3呢? 中國(guó)的工業(yè)能力,已經(jīng)遠(yuǎn)超美國(guó)美國(guó)無(wú)疑在GPU等芯片領(lǐng)域領(lǐng)先于中國(guó)。 不過(guò),對(duì)GPU出口管制,就能完全阻止中國(guó)嗎?不太可能。 Dylan Patel認(rèn)為,美國(guó)政府也清楚地認(rèn)識(shí)到這一點(diǎn), 而Nathan Lambert認(rèn)為中國(guó)會(huì)制造自己的芯片。 中國(guó)可能擁有更多的人才、更多的STEM畢業(yè)生、更多的程序員。美國(guó)當(dāng)然也可以利用世界各地的人才,但這未必能讓美國(guó)有額外的優(yōu)勢(shì)。 真正重要的是計(jì)算能力。 中國(guó)擁有的電力總和,數(shù)量已經(jīng)驚人。中國(guó)的鋼鐵廠,其規(guī)模相當(dāng)于整個(gè)美國(guó)工業(yè)的總和,此外還有需要龐大電力的鋁廠。 即使美國(guó)的星際之門真的建成,達(dá)到2吉瓦電力,仍小于中國(guó)最大的工業(yè)設(shè)施。 就這么說(shuō)吧,如果中國(guó)建造世界上最大的數(shù)據(jù)中心,只要有芯片,馬上就能做到。所以這只是一個(gè)時(shí)間問(wèn)題,而不是能力問(wèn)題。 現(xiàn)在,發(fā)電、輸電、變電站以及變壓器等構(gòu)建數(shù)據(jù)中心所需的東西,都將制約美國(guó)構(gòu)建越來(lái)越大的訓(xùn)練系統(tǒng),以及部署越來(lái)越多的推理計(jì)算能力。 相比之下,如果中國(guó)繼續(xù)堅(jiān)信Scaling Law,就像納德拉、扎克伯格和劈柴等美國(guó)高管那樣,甚至可以比美國(guó)更快地實(shí)現(xiàn)。 因此,為了減緩中國(guó)AI技術(shù)的發(fā)展,確保AGI無(wú)法被大規(guī)模訓(xùn)練,美國(guó)出臺(tái)了一系列禁令——通過(guò)限制GPU、光刻機(jī)等關(guān)鍵要素的出口,意圖「封殺」整個(gè)半導(dǎo)體產(chǎn)業(yè)。 OpenAI o3-Mini能追上DeepSeek R1嗎?接下來(lái),幾位大佬對(duì)幾個(gè)明星推理模型進(jìn)行了實(shí)測(cè)。 有趣的是,谷歌的Gemini Flash Thinking,無(wú)論從價(jià)格還是性能上來(lái)看都優(yōu)于R1,而且在去年12月初就發(fā)布了,然而卻無(wú)人關(guān)心…… 對(duì)此,幾位大佬的體感是,它的行為模式不如o1那樣富有表現(xiàn)力,應(yīng)用場(chǎng)景較窄。o1在特定任務(wù)上可能不是最完美,但靈活性和通用性更強(qiáng)。 Lex Frieman則表示,自己個(gè)人非常喜歡R1的一點(diǎn),是它會(huì)展示完整的思維鏈token。 在開放式的哲學(xué)問(wèn)題中,我們作為能欣賞智能、推理和反思能力的人類,閱讀R1的原始思維鏈token,會(huì)感受到一種獨(dú)特的美感。 這種非線性的思維過(guò)程,類似于詹姆斯·喬伊斯的意識(shí)流小說(shuō)《尤利西斯》和《芬尼根的守靈夜》,令人著迷。 相比之下,o3-mini給人的感覺(jué)是聰明、快速,但缺乏亮點(diǎn),往往比較平庸,缺乏深度和新意。 從下圖中可以看到,從GPT-3到GPT-3.5,再到Llama,推理成本呈指數(shù)級(jí)下降趨勢(shì)。 DeepSeek R1是第一個(gè)達(dá)到如此低成本的推理模型,這個(gè)成就很了不起,不過(guò),它的成本水平并沒(méi)有超出專家們預(yù)期的范圍。 而在未來(lái),隨著模型架構(gòu)的創(chuàng)新、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更先進(jìn)的訓(xùn)練技術(shù),以及更高效的推理系統(tǒng)和硬件(比如新一代GPU和ASIC芯片),AI模型的推理成本還會(huì)持續(xù)下降。 最終,這將解鎖AGI的潛力。 誰(shuí)將贏得AGI競(jìng)賽最后,幾位大佬預(yù)測(cè)了一番,誰(shuí)將是AGI競(jìng)賽的最終贏家。 谷歌似乎是領(lǐng)跑者,因?yàn)閾碛谢A(chǔ)設(shè)施優(yōu)勢(shì)。 但在輿論場(chǎng)上,OpenAI似乎是領(lǐng)先者。它在商業(yè)化方面已經(jīng)走在了最前面,擁有目前AI領(lǐng)域最高的收入。 目前,誰(shuí)究竟在AI領(lǐng)域賺到錢了,有人盈利了嗎? 大佬們盤了盤后發(fā)現(xiàn),從財(cái)務(wù)報(bào)表上看,微軟在AI領(lǐng)域已經(jīng)實(shí)現(xiàn)了盈利,但在基礎(chǔ)設(shè)施方面已經(jīng)投入了巨額資本支出。谷歌、亞馬遜也是如此。 Meta獲取的巨額利潤(rùn)來(lái)自于推薦系統(tǒng),并非來(lái)自Llama等大模型。 Anthropic和OpenAI顯然還沒(méi)盈利,否則就不需要繼續(xù)融資了。不過(guò)單從營(yíng)收和成本來(lái)看,GPT-4已經(jīng)開始盈利了,因?yàn)樗挠?xùn)練成本只有幾億美元。 最終,誰(shuí)都無(wú)法預(yù)料,OpenAI是否會(huì)突然隕落。不過(guò)目前,各家公司還會(huì)繼續(xù)融資,因?yàn)橐坏〢GI到來(lái),AI帶來(lái)的回報(bào)難以估量。 人們可能并不需要OpenAI花費(fèi)數(shù)十億美元,去研發(fā)「下一個(gè)最先進(jìn)的模型」,只需要ChatGPT級(jí)別的AI服務(wù)就足夠了。 推理、代碼生成、AI智能體、計(jì)算機(jī)使用,這些都是AI未來(lái)真正有價(jià)值的應(yīng)用領(lǐng)域。誰(shuí)不發(fā)力,誰(shuí)就可能被市場(chǎng)淘汰。 參考資料: https://youtu.be/_1f-o0nqpEI https://x.com/GrahamTAllison/status/1885442402833621426 https://x.com/ZhidingYu/status/1883958911839133894 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。