正如大家所知,“東方神秘力量”DeepSeek近期在中國、美國的科技圈受到廣泛關(guān)注,甚至被認(rèn)為是大模型行業(yè)最大“黑馬”。
近期,中國 AI 大模型創(chuàng)業(yè)公司DeepSeek(深度求索)正式發(fā)布 DeepSeek-R1大模型,稱在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。
這一消息震動了全球 AI 圈,也讓美國 AI 公司研究人員吃驚于中國竟趕超了美國大模型技術(shù)。
一位Meta的工程師在美國科技公司員工社區(qū)Blind中這樣寫道,“Meta的生成式AI部門正處于恐慌中。這一切始于DeepSeek,它使得 Llama 4 在基準(zhǔn)測試中已經(jīng)落后。雪上加霜的是:那個不知名的中國公司,僅有550萬美元的訓(xùn)練預(yù)算。工程師們正在瘋狂地剖析DeepSeek,并試圖從中復(fù)制一切可能的東西!
鈦媒體AGI了解到,截至發(fā)稿前,DeepSeek移動端在蘋果 App Store應(yīng)用商店排行第八,超越Google Gemini、Microsoft Copilot等美國生成式 AI 產(chǎn)品,下載熱度僅次于ChatGPT。同時,OpenAI、字節(jié)跳動、阿里通義以及智譜、Kimi月之暗面等國內(nèi)外團(tuán)隊(duì)都在積極研究DeepSeek,OpenAI和字節(jié)跳動都在考慮與DeepSeek展開研究合作。
達(dá)沃斯世界經(jīng)濟(jì)論壇期間,Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)直言,DeepSeekAI大模型性能大致與美國最好的模型相當(dāng)。他認(rèn)為,過去十年來,美國可能一直在 AI 競賽中領(lǐng)先于中國,但DeepSeek的AI大模型發(fā)布可能會“改變一切”。
值得細(xì)品的是Alexandr Wang說的另一段話:“DeepSeek大約有5萬張H100計算卡,他們顯然不能談?wù)撨@件事,因?yàn)檫@違反了美國實(shí)施的出口管制。我認(rèn)為這是真的,我認(rèn)為他們的籌碼比其他人預(yù)期的要多,但也會繼續(xù)前進(jìn)。他們將受到芯片控制和出口管制的限制!
Alexandr Wang暗示DeepSeek將會受到美國管制。
DeepSeek創(chuàng)始人、頭部量化私募幻方量化創(chuàng)始人梁文鋒曾表示,DeepSeek面臨的主要制約因素不是資金,而是高端算力的使用權(quán),這些芯片對于訓(xùn)練先進(jìn)AI模型至關(guān)重要。
隨著AMD證實(shí)DeepSeek正在使用最強(qiáng) AI 芯片之一的MI300X進(jìn)行大模型訓(xùn)練,對于中國 AI 如何突破圍欄實(shí)施大模型訓(xùn)練,將成為關(guān)鍵話題。
DeepSeek 朝美國硅谷開的“這一槍”用時4年
如果你在 AI 圈,對于DeepSeek和梁文鋒已經(jīng)有很多文章進(jìn)行介紹了。總結(jié)來說有幾點(diǎn):
1、梁文鋒是典型的“小鎮(zhèn)做題家”:出生于廣東湛江的五(三)線城市、17歲考入浙江大學(xué),2010年碩士畢業(yè)于浙江大學(xué)信息與通信工程專業(yè)。
2、碩士畢業(yè)后,梁文鋒就帶領(lǐng)團(tuán)隊(duì)開始使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動量化交易。2010年,他和浙江大學(xué)校友創(chuàng)立了雅克比投資。
3、2015年6月,30歲的梁文鋒與“股東出軌女下屬”的徐進(jìn)聯(lián)合創(chuàng)辦杭州幻方科技有限公司(幻方量化、High-Flyer),依靠數(shù)學(xué)與人工智能進(jìn)行量化投資,立志成為世界頂級的量化對沖基金。
4、2021年,幻方量化管理規(guī)模已突破了1000億元,同一年,梁文鋒開始找尋“副業(yè)”,找供應(yīng)商買了數(shù)千張英偉達(dá)GPU顯卡(當(dāng)時應(yīng)該買的是RTX4090、A100、L40等),發(fā)力AI技術(shù)。而到2023年,幻方量化管理總規(guī)模已降到400多億元。
5、2023年初,幻方量化曾宣布自身擁有1萬張英偉達(dá)A100 GPU卡,后來我們了解到,當(dāng)時幻方量化說了假話,它當(dāng)時僅擁有數(shù)千張A100卡而已,剩下則是消費(fèi)卡、老款顯卡,還有用云服務(wù)方式租用A100顯卡。業(yè)內(nèi)人士將其視為,一個億萬富翁尋找新愛好時的“古怪行為”。
6、DeepSeek熱潮很大程度上與國內(nèi)媒體所謂“中國大模型企業(yè)超越美國”這類東升西降的熱捧是分不開。其實(shí),DeepSeek技術(shù)并未稀奇到“驚嘆”程度,DeepSeek V1版本的時候很粗糙,當(dāng)時大量使用GPT的開源數(shù)據(jù),甚至一度調(diào)用過GPT-3.5 API接口。如今的“AI界的拼多多”,本身是AI infra技術(shù)和團(tuán)隊(duì) AI 技術(shù)能力強(qiáng)。因此,媒體用DeepSeek單一模型證實(shí)中國 AI 技術(shù)超越美國,是邏輯上的“以偏概全”錯誤,DeepSeek是 AI 技術(shù)迭代的受益者,但這并不代表它在技術(shù)上具備了超越OpenAI等領(lǐng)先企業(yè)的實(shí)力。
7、DeepSeek的實(shí)例進(jìn)一步表明,AI技術(shù)并不存在明顯的“護(hù)城河”,模型技術(shù)的超越已成為常態(tài),“六小虎”并不是唯一頭部。然而,AI算力規(guī)模的增長以及長期的模型迭代是否能夠真正超越OpenAI,才是決定AI大模型發(fā)展的關(guān)鍵因素。
8、DeepSeek不融資、短期沒有上市意愿,良好的現(xiàn)金流促使DeepSeek招聘大量 AI 研究人才,形成所謂“研究院”氛圍,只負(fù)責(zé)前沿,不負(fù)責(zé)商業(yè),甚至團(tuán)隊(duì)非常懂基礎(chǔ)設(shè)施和芯片原理。此外,他還從對沖基金行業(yè)帶走了最好的團(tuán)隊(duì)加入DeepSeek。
正如圖靈獎得主、Meta AI首席科學(xué)家楊立昆(Yann LeCun)所說,“給那些看到 DeepSeek 的表現(xiàn)后,覺得‘中國在 AI 方面正在超越美國’的人,你們的解讀是錯的。正確的解讀應(yīng)該是,‘開源模型正在超越專有模型’!
事實(shí)上,從購買千張GPU搭建 AI 算力開始,DeepSeek大模型超越OpenAI之路用時4年。
去年 12 月底,DeepSeek發(fā)布的DeepSeek-V3開源基礎(chǔ)模型性能,與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓(xùn)練成本極低。整個訓(xùn)練在2048塊英偉達(dá)H800 GPU集群上完成,僅花費(fèi)約557.6萬美元,不到其他頂尖模型訓(xùn)練成本的十分之一。
GPT-4o等模型的訓(xùn)練成本約為1億美元,至少在萬個GPU量級的計算集群上訓(xùn)練,而且使用的是性能更為優(yōu)越的H100 GPU。例如,同為頂尖大模型,去年發(fā)布的Llama 3.1在訓(xùn)練過程中使用了16,384塊H100 GPU,消耗了DeepSeek-V3 11倍的計算資源,成本超過6000萬美元。
如今,盡管DeepSeek現(xiàn)在尚未公布訓(xùn)練推理模型R1的完整成本,但它公布了API的定價,每百萬輸入 tokens 1 元-4元人民幣,每百萬輸出 tokens 16 元。這個收費(fèi)大約是 OpenAI o1運(yùn)行成本的三十分之一。
成本進(jìn)一步降低的同時,DeepSeek R1的技術(shù)關(guān)鍵點(diǎn)在于其創(chuàng)新的訓(xùn)練方法——DeepSeek-R1-Zero路線,該路線直接將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于基礎(chǔ)模型,無需依賴監(jiān)督微調(diào)(SFT)和已標(biāo)注數(shù)據(jù)。通過建立簡單的準(zhǔn)確性獎勵和格式要求規(guī)則,DeepSeek R1在無監(jiān)督數(shù)據(jù)的情況下實(shí)現(xiàn)自我進(jìn)化,獲得強(qiáng)大的推理能力。在AIME 2024基準(zhǔn)測試中,DeepSeek R1-Zero展現(xiàn)了高達(dá)86.7%的準(zhǔn)確率,證明了直接強(qiáng)化學(xué)習(xí)在訓(xùn)練高級推理模型中的有效性。
艾倫人工智能研究所科學(xué)家內(nèi)森·蘭伯特(Nathan Lambert)表示,R1的論文是推理模型研究不確定性中的一個重要轉(zhuǎn)折點(diǎn),因?yàn)榈侥壳盀橹,AI 推理模型一直是工業(yè)研究的一個重要領(lǐng)域,但缺乏一篇具有開創(chuàng)性的論文。
據(jù)知識分子,中山大學(xué)集成電路學(xué)院助理教授王美琪表示,直接強(qiáng)化學(xué)習(xí)方法與 DeepSeek 團(tuán)隊(duì)在多版模型迭代中的一系列工程優(yōu)化技術(shù)(如簡化獎懲模型設(shè)計等)相結(jié)合,有效降低了大模型的訓(xùn)練成本。直接強(qiáng)化學(xué)習(xí)避免了大量人工標(biāo)注數(shù)據(jù)的工作,而獎懲模型的簡化設(shè)計等則減少了對計算資源的需求。
“DeepSeek 的運(yùn)行方式就像DeepMind早期一樣,”一位 AI 投資者表示,它純粹專注于研究和工程,而非商業(yè)化。
英偉達(dá)高級研究科學(xué)家Jim Fan直言,“DeepSeek是本年度開源大語言模型領(lǐng)域的最大黑馬。”
算力需求仍是大模型資源“困境” 美國出口管制影響不小
對于DeepSeek,英國《自然》雜志認(rèn)為,盡管美國對華半導(dǎo)體出口管制進(jìn)行限制,但中國公司還是成功制造了DeepSeek R1。但西雅圖 AI 研究員 Francois Chollet認(rèn)為,“高效利用資源比單純的計算規(guī)模更重要。”
梁文鋒此前也指出,對于DeepSeek來說,算力更高的先進(jìn) AI 芯片對于訓(xùn)練先進(jìn)AI模型至關(guān)重要。
如今,Alexander Wang直言不諱地表達(dá)美國政府需要為了領(lǐng)先優(yōu)勢對DeepSeek的 AI 芯片進(jìn)行調(diào)查和管制。
Alexandr Wang出生于1997年,他于19歲那年從美國麻省理工學(xué)院輟學(xué),創(chuàng)立的AI公司Scale AI估值超百億美元,獲得了包括Y Combinator、英偉達(dá)、AMD風(fēng)投、亞馬遜、Meta等巨頭科技公司投資,該公司為OpenAI、谷歌和 Meta等提供訓(xùn)練數(shù)據(jù)。
此前,Alexandr Wang發(fā)文表達(dá)對中國 AI 追趕美國的擔(dān)憂。他認(rèn)為,DeepSeek-V3的發(fā)布給外界的教訓(xùn)是,在美國人休息時,中國人在工作,并以更便宜、更快、更強(qiáng)的產(chǎn)品迎頭趕上。
OpenAI 首席財務(wù)官 Sarah Friar也認(rèn)為,中美之間的 AI 競爭不是簡單的口水戰(zhàn),這是一場真實(shí)的競爭,雙方正在大力投資這一領(lǐng)域!拔覀円呀(jīng)看到特朗普政府愿意積極參與,無論是從經(jīng)濟(jì)角度,還是從監(jiān)管和商業(yè)競爭的角度。我們很期待開始實(shí)質(zhì)性的合作。”
當(dāng)前,美國出口管制成為中國 AI 行業(yè)發(fā)展的關(guān)鍵因素之一。
北京時間1月15日晚,美國商務(wù)部工業(yè)和安全局 (BIS) 修訂了《出口管制條例》(EAR),在實(shí)體清單中分兩批,共增加了25個中國實(shí)體,包括智譜旗下9個實(shí)體等。
這是首個中國AI大模型公司被美國列入“實(shí)體清單”。
對此,智譜發(fā)聲明回應(yīng)稱,“美國商務(wù)部工業(yè)和安全局(BIS)擬將智譜及子公司增列至出口管制實(shí)體清單。這一決定缺乏事實(shí)依據(jù),我們對此表示強(qiáng)烈反對。鑒于智譜掌握全鏈路大模型核心技術(shù)的事實(shí),被列入實(shí)體清單不會對公司業(yè)務(wù)產(chǎn)生實(shí)質(zhì)影響。智譜有能力也將更專注地為我們的用戶和伙伴提供世界一流的大模型技術(shù)、產(chǎn)品和服務(wù)。同時公司將繼續(xù)參與全球人工智能競爭,堅持最高安全標(biāo)準(zhǔn)和公平、透明、可持續(xù)原則,推動人工智能技術(shù)發(fā)展!
在此之前,曠視、依圖、云從、摩爾線程等大量 AI 公司被列入美國“實(shí)體清單”,對于一些 AI 軟件公司來說有一定影響——無法再訓(xùn)練出萬億規(guī)模大模型。
然而,DeepSeek、字節(jié)跳動等中國企業(yè)的出現(xiàn)和發(fā)力 AI 領(lǐng)域,讓美國意識到管制無法阻止中國對標(biāo)OpenAI,持續(xù)推進(jìn) AI 技術(shù)領(lǐng)先。
《福布斯》發(fā)文指出,DeepSeek讓世界認(rèn)識到,“中國并未退出這場(人工智能的)競賽。”
“如果最好的開源技術(shù)來自中國,美國開發(fā)人員將在這些技術(shù)的基礎(chǔ)上構(gòu)建他們的系統(tǒng)。從長遠(yuǎn)來看,這可能會讓中國成為研發(fā) AI 的中心!薄都~約時報》稱。
不過,DeepSeek依然面臨競爭對手囤積大量算力挑戰(zhàn)。本周,特朗普宣布,OpenAI與甲骨文、日本軟銀集團(tuán)共同創(chuàng)立一家5000億美金投資新計劃公司“星際之門”,立即在美國至少投資 1000 億美元用于 AI 基礎(chǔ)設(shè)施。同時,馬斯克的 xAI 也正在大規(guī)模擴(kuò)展其超級計算機(jī),以容納超過100萬個 GPU,以幫助訓(xùn)練其 Grok AI 模型。
這時我就想起了百度創(chuàng)始人、CEO李彥宏的話:“開源模型會越來越落后”。
如今看來,DeepSeek證明開源并未落后,甚至給中國 AI 超越美國的目標(biāo)帶來更多的希望。但是,DeepSeek能否因此面臨美國政府的針對性限制,最終導(dǎo)致模型訓(xùn)練和算力層面面臨制約,依然存在巨大不確定性。
“當(dāng)前,DeepSeek 擁有中國最大的先進(jìn)計算集群之一,”梁文鋒的商業(yè)合作伙伴對外稱,“他們現(xiàn)在有足夠的資源容量,但不會太久! 本文來源:鈦媒體 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選