首頁 > 科技要聞 > 科技> 正文

“3萬張卡”、60億投入后,DeepSeek發(fā)了5000億紅包

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2025-03-11 15:04

DeepSeek在春節(jié)期間的驚艷表現(xiàn),成為中、美科技競爭的新變量。在技術(shù)方面,DeepSeek成功地摸索出了一套在“算力受限”的條件下,提升算力效率、實(shí)現(xiàn)大模型性能大幅躍升的路徑;對(duì)行業(yè)而言,DeepSeek自信地用開源的方式賦能各行各業(yè);而對(duì)用戶來說,其免費(fèi)商業(yè)模式也意外地推動(dòng)了“AI技術(shù)平權(quán)”和“AI普惠”。

DeepSeek在全球AI產(chǎn)業(yè)掀起的技術(shù)、資本風(fēng)暴,伴隨而來的是企業(yè)和用戶們瘋狂涌入帶來的“潑天”流量。

朱嘉明教授在騰訊科技的《AGI之路系列直播》里曾提到,人工智能未來的發(fā)展將會(huì)出現(xiàn)分叉:一種是更前沿、尖端、高成本的路線,旨在研究人類未知的領(lǐng)域;一種是走向低成本、大規(guī)模的大眾化路線,DeepSeek就是這種大眾路線的最佳踐行者——他們不僅選擇了大眾路線,也想把更多的人帶上這條路。

相比出圈爆火,DeepSeek做了一件更值得被記錄在大模型開源史上的事情——通過連續(xù)五天的發(fā)布,將其一路走來的方法論、“武功秘籍”公之于人,這其中包括:

開源針對(duì)Hopper架構(gòu)GPU(例如H100或H800)加速M(fèi)LA機(jī)制計(jì)算的FlashMLA內(nèi)

開源加速M(fèi)oE模型高效通信和并行處理,實(shí)現(xiàn)H800帶寬翻倍的DeepEP代碼庫

開源采用CUDA編寫,適用于矩陣和MoE模型計(jì)算,支持FP8精度的高性能通用矩陣乘法庫DeepGEMM

開源V3/R1訓(xùn)練中采用的計(jì)算與通信重疊的雙向管道/流水線并行算法DualPipe,用以提升資源利用率

開源利用SSD和RDMA網(wǎng)絡(luò)帶寬設(shè)計(jì)的并行文件系統(tǒng)3FS文件系統(tǒng),用以提升模型訓(xùn)推效率

現(xiàn)在,我們完全可以將DeepSeek稱之為 “OpenSeek” 。

DeepSeek“開源五日”這套動(dòng)作,給外界的觀感是將CUDA、Hopper架構(gòu)吃透了,甚至可以說DeepSeek的工程師,可能比英偉達(dá)的多數(shù)研究員更懂CUDA和Hopper,但相關(guān)研究的本質(zhì)還是因?yàn)椤八懔κ芟蕖迸c成本高企。

那么問題來了,春節(jié)之后的這段時(shí)間,DeepSeek在用戶和市場份額上的走勢如何,其算力現(xiàn)狀是什么,他們究竟需要什么量級(jí)的算力,資本支出在什么量級(jí),會(huì)給產(chǎn)業(yè)上下游帶來什么樣的機(jī)會(huì)?

DeepSeek接入潮的負(fù)效應(yīng):移動(dòng)端日活減半

根據(jù)SensorTower數(shù)據(jù),截至2025年2月24日,DeepSeek移動(dòng)端近30天的平均日活為950萬,2月24日日活接近700萬,對(duì)比2月初1500萬的峰值數(shù)據(jù),數(shù)據(jù)接近砍半。

圖片圖片

日活用戶大幅度減少,與過去一段時(shí)間越來越多的終端廠商、云廠以及企業(yè)私有化部署所組成的“接入潮”有關(guān)。

此前,由于用戶扎堆導(dǎo)致DeepSeek官方服務(wù)頻繁異常,第三方接入后,大量用戶被分流至外部場景當(dāng)中。

圖片

但同時(shí),低頻用戶的熱情逐漸消退,也是DeepSeek月活下降的一個(gè)重要原因。所以,在多數(shù)對(duì)大模型感興趣的人都已下載的情況下,到2月24日,DeepSeek的日下載量下滑至75萬左右。相比之下,1月28日,DeepSeek在移動(dòng)端創(chuàng)下了531萬的峰值紀(jì)錄。

面對(duì)如此的流量下滑之勢,DeepSeek的未來是否值得擔(dān)心?答案是否定的。

如果DeepSeek擔(dān)心用戶分流而反噬自己,就不會(huì)選擇開源核心模型和硬件效率提升的相關(guān)方法論,也更不會(huì)在行業(yè)里率先發(fā)起降價(jià)潮,你看最近他們又開始降價(jià)了,至少現(xiàn)在看,流量變現(xiàn)不是其最核心的目標(biāo)。

當(dāng)然,還要考慮另一重因素,我們所看到的流量下滑只是移動(dòng)端趨勢的反應(yīng),一是網(wǎng)頁端、API接入的數(shù)據(jù)沒有披露,二是用戶使用頻次這類更細(xì)分的數(shù)據(jù)還未可知。

2000萬日活的入場券:預(yù)估需要2.78萬張GPU

相對(duì)其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多頭注意力)架構(gòu)具備顯著成本優(yōu)勢。

單Token激活參數(shù)僅37B(670B全參數(shù)的5.5%),KV Cache對(duì)顯存的需求,降低至傳統(tǒng)架構(gòu)的1/3~1/15,理論上顯存只需要14GB,而H800和A800這些特供版的顯存都是80GB。

注:KV Cache:將需要重復(fù)計(jì)算的結(jié)果進(jìn)行緩存,需要緩存的值為歷史token對(duì)應(yīng)的KV值,用以避免重復(fù)計(jì)算。

另外,DeepSeek R1/V3還采用了8位(而不是16位的格式)的FP8數(shù)據(jù)格式,使得所需的顯存進(jìn)一步減少。

具體到部署方面,除了常見的IDC集群部署外,業(yè)界也為DeepSeek提供了開源的經(jīng)濟(jì)型部署方案。例如清華KTransformers團(tuán)隊(duì)針對(duì)參數(shù)存儲(chǔ)進(jìn)行優(yōu)化,使用單卡4090運(yùn)行壓縮版671B DeepSeek。所以,這段時(shí)間很多人在談?wù)摯蟊妼用娴摹癆I技術(shù)平權(quán)”,實(shí)際上在行業(yè)層面,DeepSeek以及清華KTransformers這樣的外部團(tuán)隊(duì)的探索,以及陸續(xù)的開源動(dòng)作,也可以歸結(jié)為一種由算力瓶頸驅(qū)動(dòng)的算法平權(quán)

前面提到,DeepSeek移動(dòng)端大概950萬,如果網(wǎng)頁端+API也按照這個(gè)數(shù)據(jù)計(jì)算(實(shí)際上從辦公的角度看,web端流量應(yīng)該更高),保守一點(diǎn),我們假設(shè)其日活2000萬,那么這個(gè)量級(jí)的流量,需要多少模型,需要多少算力?

我們假設(shè)平均每個(gè)用戶每天10次問答,單次平均消耗10秒鐘,即1/8640天,這意味著2000萬日活對(duì)應(yīng)的單日推理請(qǐng)求總計(jì)2億次,如果排隊(duì)的話,總耗時(shí)為2億×1/8640,即1個(gè)模型跑23148天,顯然這種策略不合理,但可以換一種理解方式,部署23148個(gè)模型并行跑1天。

考慮到推理集群、時(shí)差等因素需要設(shè)置一定量的冗余,在23148個(gè)模型的基礎(chǔ)上,取1.2作為系數(shù)估算(實(shí)際系數(shù)與服務(wù)和客戶活動(dòng)曲線有關(guān)),即實(shí)際部署的并行模型數(shù)約為2.78萬。

回到模型本身,DeepSeek R1模型一共有256個(gè)專家,根據(jù)用戶群的需求動(dòng)態(tài)調(diào)整細(xì)粒度專家的分布,這意味需要同時(shí)運(yùn)行2.78萬個(gè)DeepSeek R1模型副本,以對(duì)應(yīng)2000萬日活,人均10次問答(平均每次10秒)的推理需求按照DeepSeek論文給出的優(yōu)化部署方案,每個(gè)模型的共享專家與8個(gè)細(xì)粒度專家常駐一個(gè)GPU(更精準(zhǔn)的描述是Prefill 1+9,Decode 1+2,不影響推算結(jié)果),最終需要2.78萬張GPU。

可能會(huì)有人問:單一GPU不能同時(shí)處理多個(gè)查詢請(qǐng)求嗎,實(shí)際場景中必須要這么多模型并行嗎?

正常情況下,單張GPU同一時(shí)刻只能運(yùn)行一個(gè)模型,類似人腦同一時(shí)間只能處理一個(gè)對(duì)話。對(duì)單個(gè)GPU來說,多個(gè)并行查詢其實(shí)是時(shí)分復(fù)用排隊(duì)或眾核并行計(jì)算(不能處理太大計(jì)算)的方式,原則上一次對(duì)話,由集群分配給一個(gè)GPU或一組GPU盡快算完,然后處理下一個(gè)客戶的一次對(duì)話,這樣才會(huì)有大量GPU同時(shí)計(jì)算同時(shí)服務(wù)不同客戶。

注:數(shù)據(jù)根據(jù)前述假設(shè)和常規(guī)占用率估算,僅供參考,與實(shí)際數(shù)量不一定符合

養(yǎng)一個(gè)大模型團(tuán)隊(duì)——60億元

2021年,DeepSeek母公司幻方量化在美國對(duì)華芯片出口管制生效前,前瞻性地采購了10000張英偉達(dá)A100 GPU。

受管制之后,英偉達(dá)連續(xù)為市場推出了H800、H20等多個(gè)特供版本,幻方量化也通過正規(guī)渠道采購了部分特供版以及其他型號(hào)合規(guī)的GPU,但具體數(shù)量未公開。

一個(gè)消息可以佐證這個(gè)推測——2024年,幻方旗下AI公司DeepSeek在訓(xùn)練大模型時(shí)使用了2048塊英偉達(dá)H800 GPU集群,運(yùn)行55天完成模型訓(xùn)練。

考慮到高強(qiáng)度部署和高強(qiáng)度訓(xùn)練接近占滿GPU(這里假設(shè)上述2048塊H800 GPU為白天訓(xùn)練時(shí)專用,夜間會(huì)調(diào)度更多部署用途GPU給訓(xùn)練),則幻方實(shí)際的卡數(shù)即2.78萬張(A100+H20)+2048張H800,總計(jì)29848張,大概在3萬張卡左右的規(guī)模。

圖片

注意,這些只是比較保守的預(yù)估,與國外技術(shù)媒體SemiAnalysis對(duì)DeepSeek GPU數(shù)量的預(yù)估在同一數(shù)量級(jí)。

3萬張卡的對(duì)于一家創(chuàng)企來說,規(guī)模已經(jīng)相當(dāng)大了。作為對(duì)比,硅谷的這些小巨頭們,像xAI Grok 3、OpenAI GPT4.5這些單一模型的訓(xùn)練,就用到了10萬張、20萬張GPU。

就算基于性價(jià)比考慮,用于客戶服務(wù)的GPU估計(jì)主要為A100、H20,我們假設(shè)兩者按比例平均后批量采購價(jià)約為10萬元,2.78萬張大概為27.8億人民幣,另外2048張卡為H800,單卡按30萬人民幣計(jì)算,成本約為6億人民幣。

也就是說,幻方量化在GPU成本上的投入,總計(jì)應(yīng)該不低于33.8億人民幣,再考慮到CPU、基礎(chǔ)設(shè)施建設(shè)等相關(guān)費(fèi)用,預(yù)計(jì)硬件成本至少約為38億人民幣。

在這種規(guī)模的硬件投入以及API價(jià)格比OpenAI、kimi國內(nèi)外的同類型產(chǎn)品便宜的情況下,還能做到545%的利潤率,確實(shí)非常出彩。不過這個(gè)利潤率只是單純的從API服務(wù)角度計(jì)算而來,未直接包含硬件折舊、人力、工程等諸多成本。

目前DeepSeek團(tuán)隊(duì)規(guī)模約150人(新希望集團(tuán)董事長劉永好也在近期采訪中確認(rèn)和梁文鋒談話時(shí)被告知公司160人左右),主要從中國頂尖高校(如北大、浙大、清華)招聘,對(duì)核心研發(fā)人員提供年薪超934萬人民幣(約130萬美元,網(wǎng)傳消息),遠(yuǎn)超國內(nèi)同行水平。若以人均年薪500萬人民幣保守估算,僅人力成本年支出已達(dá)7.5億人民幣。

另外,綜合成本計(jì)算還要將數(shù)據(jù)成本、水電及管理費(fèi)用計(jì)算在內(nèi),假設(shè)水電和管理費(fèi)用為1.5億,則DeepSeek的研發(fā)成本顯著高于行業(yè)早期估算的557.6萬美元。

綜合計(jì)算,硬件、人力成本差不多47億人民幣左右,如果疊加配套軟件環(huán)境開發(fā)、數(shù)據(jù)獲取等隱性支出,其總研發(fā)投入應(yīng)超過60億。

給國產(chǎn)算力帶來5000億的機(jī)會(huì)

這兩天,一些MaaS服務(wù)商在說接入DeepSeek虧錢的事情,忽略這種極端案例,總體來說,它給國產(chǎn)算力帶來的是一個(gè)巨大的機(jī)會(huì)。

在DeepSeek發(fā)布后,華為昇騰、沐曦等國產(chǎn)芯片廠商迅速完成DeepSeek全模型適配,翻譯過來就是,一些國產(chǎn)芯片也能較好地用于DeepSeek的推理服務(wù),客戶們?cè)谟ミ_(dá)H20之外,多了一個(gè)可選項(xiàng)。

根據(jù)業(yè)內(nèi)傳出來的數(shù)據(jù),DeepSeek爆發(fā)之后,H20 GPU8卡服務(wù)器的價(jià)格由從100萬以內(nèi),沖到了100萬以上,漲價(jià)幅度接近20%,消費(fèi)級(jí)的4090 GPU則大量斷貨。

不過,這場接入潮對(duì)國產(chǎn)芯片的考驗(yàn)不是它們能不能適配DeepSeek,而是有沒有足夠的產(chǎn)能來匹配這波“潑天的富貴”,加入“算力游戲”當(dāng)中。

圖片

除了芯片層面的適配之外,服務(wù)器提供商這波跟進(jìn)的也比較快,華為、新華三推出不同配置的DeepSeek大模型一體機(jī)服務(wù)器,支持從滿血版到蒸餾版不同尺寸模型的推理服務(wù)。

到目前為止,已經(jīng)有幾十家的服務(wù)器提供商推出了相關(guān)的一體機(jī)產(chǎn)品,根據(jù)配置的差異,價(jià)格落在10萬-100萬這個(gè)區(qū)間。對(duì)于那些掌握私有化數(shù)據(jù)金礦的企業(yè)來說,這類一體機(jī)提供了API、模型服務(wù)商和云廠之外,更符合其私有化部署和安全策略的選擇。

關(guān)于其市場規(guī)模,浙商證券在研報(bào)中如此說道——2025年至2027年,DeepSeek一體機(jī)在央國企市場將達(dá)到1236、2937、5208億元。注意下,這還只是央國企市場。

所以,DeepSeek的爆火出圈,除了振奮了國產(chǎn)大模型的信心外,也為大模型的普及、落地進(jìn)行了一場全球性的科普,同時(shí)給更多的上下游廠商帶來新的機(jī)會(huì),這也是開頭我們所說的開源——它的能量、力量的表現(xiàn)。

你看,黃仁勛在2025財(cái)年第四季度財(cái)報(bào)電話會(huì)議上就說,“感謝DeepSeek,它開源了一個(gè)絕對(duì)世界級(jí)的推理模型”,對(duì)于享受這波紅利的國產(chǎn)廠商而言,更是如此。

本文來源:騰訊科技

騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢不可擋

    作為美國百年家電品牌,HamiltonBeach漢美馳在美國市場處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國家庭的必需品,就像我們中國家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國的銷量超過3000萬臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國內(nèi)市場的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國市場有些什么樣的判斷?他們的優(yōu)勢有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國營銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 二維碼 回到頂部