DeepSeek在春節(jié)期間的驚艷表現(xiàn),成為中、美科技競爭的新變量。在技術(shù)方面,DeepSeek成功地摸索出了一套在“算力受限”的條件下,提升算力效率、實現(xiàn)大模型性能大幅躍升的路徑;對行業(yè)而言,DeepSeek自信地用開源的方式賦能各行各業(yè);而對用戶來說,其免費商業(yè)模式也意外地推動了“AI技術(shù)平權(quán)”和“AI普惠”。 DeepSeek在全球AI產(chǎn)業(yè)掀起的技術(shù)、資本風(fēng)暴,伴隨而來的是企業(yè)和用戶們瘋狂涌入帶來的“潑天”流量。 朱嘉明教授在騰訊科技的《AGI之路系列直播》里曾提到,人工智能未來的發(fā)展將會出現(xiàn)分叉:一種是更前沿、尖端、高成本的路線,旨在研究人類未知的領(lǐng)域;一種是走向低成本、大規(guī)模的大眾化路線,DeepSeek就是這種大眾路線的最佳踐行者——他們不僅選擇了大眾路線,也想把更多的人帶上這條路。 相比出圈爆火,DeepSeek做了一件更值得被記錄在大模型開源史上的事情——通過連續(xù)五天的發(fā)布,將其一路走來的方法論、“武功秘籍”公之于人,這其中包括: 開源針對Hopper架構(gòu)GPU(例如H100或H800)加速MLA機制計算的FlashMLA內(nèi)核 開源加速MoE模型高效通信和并行處理,實現(xiàn)H800帶寬翻倍的DeepEP代碼庫 開源采用CUDA編寫,適用于矩陣和MoE模型計算,支持FP8精度的高性能通用矩陣乘法庫DeepGEMM 開源V3/R1訓(xùn)練中采用的計算與通信重疊的雙向管道/流水線并行算法DualPipe,用以提升資源利用率 開源利用SSD和RDMA網(wǎng)絡(luò)帶寬設(shè)計的并行文件系統(tǒng)3FS文件系統(tǒng),用以提升模型訓(xùn)推效率 現(xiàn)在,我們完全可以將DeepSeek稱之為 “OpenSeek” 。 DeepSeek“開源五日”這套動作,給外界的觀感是將CUDA、Hopper架構(gòu)吃透了,甚至可以說DeepSeek的工程師,可能比英偉達的多數(shù)研究員更懂CUDA和Hopper,但相關(guān)研究的本質(zhì)還是因為“算力受限”與成本高企。 那么問題來了,春節(jié)之后的這段時間,DeepSeek在用戶和市場份額上的走勢如何,其算力現(xiàn)狀是什么,他們究竟需要什么量級的算力,資本支出在什么量級,會給產(chǎn)業(yè)上下游帶來什么樣的機會? DeepSeek接入潮的負(fù)效應(yīng):移動端日活減半 根據(jù)SensorTower數(shù)據(jù),截至2025年2月24日,DeepSeek移動端近30天的平均日活為950萬,2月24日日活接近700萬,對比2月初1500萬的峰值數(shù)據(jù),數(shù)據(jù)接近砍半。 日活用戶大幅度減少,與過去一段時間越來越多的終端廠商、云廠以及企業(yè)私有化部署所組成的“接入潮”有關(guān)。 此前,由于用戶扎堆導(dǎo)致DeepSeek官方服務(wù)頻繁異常,第三方接入后,大量用戶被分流至外部場景當(dāng)中。 但同時,低頻用戶的熱情逐漸消退,也是DeepSeek月活下降的一個重要原因。所以,在多數(shù)對大模型感興趣的人都已下載的情況下,到2月24日,DeepSeek的日下載量下滑至75萬左右。相比之下,1月28日,DeepSeek在移動端創(chuàng)下了531萬的峰值紀(jì)錄。 面對如此的流量下滑之勢,DeepSeek的未來是否值得擔(dān)心?答案是否定的。 如果DeepSeek擔(dān)心用戶分流而反噬自己,就不會選擇開源核心模型和硬件效率提升的相關(guān)方法論,也更不會在行業(yè)里率先發(fā)起降價潮,你看最近他們又開始降價了,至少現(xiàn)在看,流量變現(xiàn)不是其最核心的目標(biāo)。 當(dāng)然,還要考慮另一重因素,我們所看到的流量下滑只是移動端趨勢的反應(yīng),一是網(wǎng)頁端、API接入的數(shù)據(jù)沒有披露,二是用戶使用頻次這類更細(xì)分的數(shù)據(jù)還未可知。 2000萬日活的入場券:預(yù)估需要2.78萬張GPU 相對其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多頭注意力)架構(gòu)具備顯著成本優(yōu)勢。 單Token激活參數(shù)僅37B(670B全參數(shù)的5.5%),KV Cache對顯存的需求,降低至傳統(tǒng)架構(gòu)的1/3~1/15,理論上顯存只需要14GB,而H800和A800這些特供版的顯存都是80GB。 注:KV Cache:將需要重復(fù)計算的結(jié)果進行緩存,需要緩存的值為歷史token對應(yīng)的KV值,用以避免重復(fù)計算。 另外,DeepSeek R1/V3還采用了8位(而不是16位的格式)的FP8數(shù)據(jù)格式,使得所需的顯存進一步減少。 具體到部署方面,除了常見的IDC集群部署外,業(yè)界也為DeepSeek提供了開源的經(jīng)濟型部署方案。例如清華KTransformers團隊針對參數(shù)存儲進行優(yōu)化,使用單卡4090運行壓縮版671B DeepSeek。所以,這段時間很多人在談?wù)摯蟊妼用娴摹癆I技術(shù)平權(quán)”,實際上在行業(yè)層面,DeepSeek以及清華KTransformers這樣的外部團隊的探索,以及陸續(xù)的開源動作,也可以歸結(jié)為一種由算力瓶頸驅(qū)動的算法平權(quán)。 前面提到,DeepSeek移動端大概950萬,如果網(wǎng)頁端+API也按照這個數(shù)據(jù)計算(實際上從辦公的角度看,web端流量應(yīng)該更高),保守一點,我們假設(shè)其日活2000萬,那么這個量級的流量,需要多少模型,需要多少算力? 我們假設(shè)平均每個用戶每天10次問答,單次平均消耗10秒鐘,即1/8640天,這意味著2000萬日活對應(yīng)的單日推理請求總計2億次,如果排隊的話,總耗時為2億×1/8640,即1個模型跑23148天,顯然這種策略不合理,但可以換一種理解方式,部署23148個模型并行跑1天。 考慮到推理集群、時差等因素需要設(shè)置一定量的冗余,在23148個模型的基礎(chǔ)上,取1.2作為系數(shù)估算(實際系數(shù)與服務(wù)和客戶活動曲線有關(guān)),即實際部署的并行模型數(shù)約為2.78萬。 回到模型本身,DeepSeek R1模型一共有256個專家,根據(jù)用戶群的需求動態(tài)調(diào)整細(xì)粒度專家的分布,這意味需要同時運行2.78萬個DeepSeek R1模型副本,以對應(yīng)2000萬日活,人均10次問答(平均每次10秒)的推理需求。按照DeepSeek論文給出的優(yōu)化部署方案,每個模型的共享專家與8個細(xì)粒度專家常駐一個GPU(更精準(zhǔn)的描述是Prefill 1+9,Decode 1+2,不影響推算結(jié)果),最終需要2.78萬張GPU。 可能會有人問:單一GPU不能同時處理多個查詢請求嗎,實際場景中必須要這么多模型并行嗎? 正常情況下,單張GPU同一時刻只能運行一個模型,類似人腦同一時間只能處理一個對話。對單個GPU來說,多個并行查詢其實是時分復(fù)用排隊或眾核并行計算(不能處理太大計算)的方式,原則上一次對話,由集群分配給一個GPU或一組GPU盡快算完,然后處理下一個客戶的一次對話,這樣才會有大量GPU同時計算同時服務(wù)不同客戶。 注:數(shù)據(jù)根據(jù)前述假設(shè)和常規(guī)占用率估算,僅供參考,與實際數(shù)量不一定符合 養(yǎng)一個大模型團隊——60億元 2021年,DeepSeek母公司幻方量化在美國對華芯片出口管制生效前,前瞻性地采購了10000張英偉達A100 GPU。 受管制之后,英偉達連續(xù)為市場推出了H800、H20等多個特供版本,幻方量化也通過正規(guī)渠道采購了部分特供版以及其他型號合規(guī)的GPU,但具體數(shù)量未公開。 一個消息可以佐證這個推測——2024年,幻方旗下AI公司DeepSeek在訓(xùn)練大模型時使用了2048塊英偉達H800 GPU集群,運行55天完成模型訓(xùn)練。 考慮到高強度部署和高強度訓(xùn)練接近占滿GPU(這里假設(shè)上述2048塊H800 GPU為白天訓(xùn)練時專用,夜間會調(diào)度更多部署用途GPU給訓(xùn)練),則幻方實際的卡數(shù)即2.78萬張(A100+H20)+2048張H800,總計29848張,大概在3萬張卡左右的規(guī)模。 注意,這些只是比較保守的預(yù)估,與國外技術(shù)媒體SemiAnalysis對DeepSeek GPU數(shù)量的預(yù)估在同一數(shù)量級。 3萬張卡的對于一家創(chuàng)企來說,規(guī)模已經(jīng)相當(dāng)大了。作為對比,硅谷的這些小巨頭們,像xAI Grok 3、OpenAI GPT4.5這些單一模型的訓(xùn)練,就用到了10萬張、20萬張GPU。 就算基于性價比考慮,用于客戶服務(wù)的GPU估計主要為A100、H20,我們假設(shè)兩者按比例平均后批量采購價約為10萬元,2.78萬張大概為27.8億人民幣,另外2048張卡為H800,單卡按30萬人民幣計算,成本約為6億人民幣。 也就是說,幻方量化在GPU成本上的投入,總計應(yīng)該不低于33.8億人民幣,再考慮到CPU、基礎(chǔ)設(shè)施建設(shè)等相關(guān)費用,預(yù)計硬件成本至少約為38億人民幣。 在這種規(guī)模的硬件投入以及API價格比OpenAI、kimi國內(nèi)外的同類型產(chǎn)品便宜的情況下,還能做到545%的利潤率,確實非常出彩。不過這個利潤率只是單純的從API服務(wù)角度計算而來,未直接包含硬件折舊、人力、工程等諸多成本。 目前DeepSeek團隊規(guī)模約150人(新希望集團董事長劉永好也在近期采訪中確認(rèn)和梁文鋒談話時被告知公司160人左右),主要從中國頂尖高校(如北大、浙大、清華)招聘,對核心研發(fā)人員提供年薪超934萬人民幣(約130萬美元,網(wǎng)傳消息),遠(yuǎn)超國內(nèi)同行水平。若以人均年薪500萬人民幣保守估算,僅人力成本年支出已達7.5億人民幣。 另外,綜合成本計算還要將數(shù)據(jù)成本、水電及管理費用計算在內(nèi),假設(shè)水電和管理費用為1.5億,則DeepSeek的研發(fā)成本顯著高于行業(yè)早期估算的557.6萬美元。 綜合計算,硬件、人力成本差不多47億人民幣左右,如果疊加配套軟件環(huán)境開發(fā)、數(shù)據(jù)獲取等隱性支出,其總研發(fā)投入應(yīng)超過60億。 給國產(chǎn)算力帶來5000億的機會 這兩天,一些MaaS服務(wù)商在說接入DeepSeek虧錢的事情,忽略這種極端案例,總體來說,它給國產(chǎn)算力帶來的是一個巨大的機會。 在DeepSeek發(fā)布后,華為昇騰、沐曦等國產(chǎn)芯片廠商迅速完成DeepSeek全模型適配,翻譯過來就是,一些國產(chǎn)芯片也能較好地用于DeepSeek的推理服務(wù),客戶們在英偉達H20之外,多了一個可選項。 根據(jù)業(yè)內(nèi)傳出來的數(shù)據(jù),DeepSeek爆發(fā)之后,H20 GPU8卡服務(wù)器的價格由從100萬以內(nèi),沖到了100萬以上,漲價幅度接近20%,消費級的4090 GPU則大量斷貨。 不過,這場接入潮對國產(chǎn)芯片的考驗不是它們能不能適配DeepSeek,而是有沒有足夠的產(chǎn)能來匹配這波“潑天的富貴”,加入“算力游戲”當(dāng)中。 除了芯片層面的適配之外,服務(wù)器提供商這波跟進的也比較快,華為、新華三推出不同配置的DeepSeek大模型一體機服務(wù)器,支持從滿血版到蒸餾版不同尺寸模型的推理服務(wù)。 到目前為止,已經(jīng)有幾十家的服務(wù)器提供商推出了相關(guān)的一體機產(chǎn)品,根據(jù)配置的差異,價格落在10萬-100萬這個區(qū)間。對于那些掌握私有化數(shù)據(jù)金礦的企業(yè)來說,這類一體機提供了API、模型服務(wù)商和云廠之外,更符合其私有化部署和安全策略的選擇。 關(guān)于其市場規(guī)模,浙商證券在研報中如此說道——2025年至2027年,DeepSeek一體機在央國企市場將達到1236、2937、5208億元。注意下,這還只是央國企市場。 所以,DeepSeek的爆火出圈,除了振奮了國產(chǎn)大模型的信心外,也為大模型的普及、落地進行了一場全球性的科普,同時給更多的上下游廠商帶來新的機會,這也是開頭我們所說的開源——它的能量、力量的表現(xiàn)。 你看,黃仁勛在2025財年第四季度財報電話會議上就說,“感謝DeepSeek,它開源了一個絕對世界級的推理模型”,對于享受這波紅利的國產(chǎn)廠商而言,更是如此。 本文來源:騰訊科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選