這可能是迄今為止海外對(duì) DeepSeek 最全面的一份分析報(bào)告,來自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。 從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對(duì)比,人均年薪千萬的頂尖人才,還指出目前 DeepSeek 的成本估算是錯(cuò)誤的,推測其擁有 大約有 5 萬塊Hopper GPU…… 關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。 圖靈獎(jiǎng)得主楊立昆最近再次發(fā)表了關(guān)于 DeepSeek 的觀點(diǎn),他指出硅谷某些圈子的通病,是認(rèn)定別處的創(chuàng)新都是靠作弊得來的。 而科技要快速進(jìn)步,恰恰需要讓更多人才參與并共享創(chuàng)新成果。在 DeepSeek 的開源模型上,我們也看到了這種愿景。 報(bào)告原文: https://semianalysis.com/2025/01/31/deepseek-debates/ APPSO 整理了這篇分析報(bào)告中的關(guān)鍵要點(diǎn): 推測 DeepSeek 大約有5萬塊 Hopper GPU,在 GPU 上的投資總額超過 5 億美元 廣為討論的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費(fèi),這只是模型總成本的一部分。 DeepSeek 團(tuán)隊(duì)目前約 150 人,從北大浙大等中國高校招聘人才,年薪可達(dá)千萬 多頭潛在注意力(MLA) 是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng)新,將每次查詢所需的 KV 緩存減少了約 93.3% 在推理性能上 R1 與 o1 不相上下,而 o3 的能力明顯高于 R1 和 o1 DeepSeek 風(fēng)暴席卷全球 過去一周,DeepSeek 成為了全世界人們唯一熱議的話題。 目前,DeepSeek 的日活(據(jù)悉超過 1900萬)已經(jīng)遠(yuǎn)高于 Claude、Perplexity 甚至 Gemini。 然而,對(duì)于長期關(guān)注 AI 行業(yè)的人,這個(gè)消息不算新鮮。我們已經(jīng)討論 DeepSeek 數(shù)月,對(duì)這家公司并不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認(rèn)為 DeepSeek 極具才華,而美國更廣泛的公眾并不在意。 當(dāng)世界終于關(guān)注到這家公司,其中狂熱的輿論并沒有完全反映它的真實(shí)情況。 我們想強(qiáng)調(diào)的是,輿論已經(jīng)發(fā)生了轉(zhuǎn)變。上個(gè)月,當(dāng) Scaling Laws (擴(kuò)展定律)被打破時(shí),我們就已揭穿了這個(gè)神話;如今,算法改進(jìn)的速度過快,而這在某種程度上對(duì)英偉達(dá)和 GPU 不利。 現(xiàn)在大家討論的是,DeepSeek 效率如此之高,以至于我們不再需要更多的計(jì)算資源,而由于模型的變革,出現(xiàn)了巨大的產(chǎn)能過剩。 雖然杰文斯悖論(Jevonʼs Paradox)也被過度炒作,但它更接近現(xiàn)實(shí),因?yàn)檫@些模型已經(jīng)引發(fā)了需求,對(duì) H100 和 H200 的定價(jià)產(chǎn)生了實(shí)質(zhì)性的影響。 編者注:杰文斯悖論簡單來說就是,當(dāng)某種資源的使用效率提高后,雖然單次使用時(shí)消耗更少,但因?yàn)槌杀窘档、使用更方便,反而可能讓人們用得更多,?dǎo)致整體消耗量反而上升。 5 萬塊 Hopper GPU 幻方量化是一家中國對(duì)沖基金,也是最早在其交易算法中采用 AI 的先行者。他們早早就意識(shí)到 AI 在金融以外領(lǐng)域的潛力以及擴(kuò)展能力的重要性,因此不斷增加 GPU 的供應(yīng)。 經(jīng)過使用數(shù)千個(gè) GPU 集群進(jìn)行模型實(shí)驗(yàn)后,幻方量化在 2021 年,在任何出口限制出臺(tái)之前,就投資了 10000 個(gè) A100 GPU。 這筆投資得到了回報(bào)。隨著幻方量化的不斷進(jìn)步,他們意識(shí)到是時(shí)候在 2023 年 5 月剝離出 「DeepSeek」,以更專注地追求進(jìn)一步的 AI 能力。 當(dāng)時(shí)由于外部投資者對(duì) AI 缺乏興趣(主要擔(dān)心商業(yè)模式問題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek 經(jīng)常共享資源,包括人力和計(jì)算資源。 如今,DeepSeek 已經(jīng)發(fā)展成為一項(xiàng)嚴(yán)肅且協(xié)同的重要項(xiàng)目,絕非很多媒體所稱的「副業(yè)項(xiàng)目」。 我們相信 即使考慮到出口管制因素,他們在 GPU 上的投資總額超過 5 億美元 。 我們認(rèn)為,他們大約擁有 50000 個(gè) Hopper GPU,但這并不等同于擁有 50000 個(gè) H100 GPU。 英偉達(dá)根據(jù)不同法規(guī)要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中國大模型公司使用。需要注意的是,H800 的計(jì)算能力與 H100 相同,但其網(wǎng)絡(luò)帶寬較低。 這些 GPU 在 幻方量化和 DeepSeek 之間共享,并在地理上有所分布。它們被用于交易、推理、訓(xùn)練和研究。 我們的分析顯示,DeepSeek 的服務(wù)器資本支出總額約為 16 億美元,其中與運(yùn)營這些集群相關(guān)的成本高達(dá) 9.44 億美元。 同樣,由于資源集中化是一大挑戰(zhàn),所有 AI 實(shí)驗(yàn)室和超大規(guī)模云服務(wù)商都擁有比單次訓(xùn)練運(yùn)行所使用的 GPU 數(shù)量要多得多,用于研究和訓(xùn)練的任務(wù)。 年薪近千萬,在中國高校挖頂尖人才 DeepSeek 完全從中國招聘人才,不拘泥于以往的資歷,而是高度重視能力與好奇心。DeepSeek 定期在北京大學(xué)、浙江等頂尖高校舉辦招聘活動(dòng),許多員工均畢業(yè)于這些院校。 崗位職責(zé)并完全固定,招聘時(shí)會(huì)有一定靈活性,招聘廣告甚至宣稱可以無限制調(diào)用 10000 多個(gè) GPU 。 這些職位競爭極為激烈, 據(jù)稱對(duì)有潛力的候選人提供的薪資超過 130 萬美元(約合 934 萬人民幣),遠(yuǎn)高于中國大型科技公司和 AI 實(shí)驗(yàn)室(如 Moonshot)等競爭對(duì)手。 目前 DeepSeek 約有 150 名員工,但正在迅速擴(kuò)張。 歷史證明,一家資金充足且專注的小型初創(chuàng)公司往往能夠突破界限。 DeepSeek 不具備像 Google 那樣的官僚主義,由于其自籌資金,能夠迅速推進(jìn)新想法。 然而,與 Google 類似,DeepSeek(在大多數(shù)情況下)自建數(shù)據(jù)中心,而不依賴外部方或供應(yīng)商。這為進(jìn)一步實(shí)驗(yàn)提供了更大空間,使他們能夠在整個(gè)技術(shù)棧上實(shí)現(xiàn)創(chuàng)新。 我們認(rèn)為,他們是當(dāng)今唯一最優(yōu)秀的「開源權(quán)重」實(shí)驗(yàn)室,超越了 Meta 的 Llama 項(xiàng)目、Mistral 以及其他競爭者。 DeepSeek 的極低成本被誤讀了 DeepSeek 的價(jià)格與效率引發(fā)了硅谷科技圈地震的關(guān)鍵。 然而,關(guān)于 DeepSeek V3 的訓(xùn)練成本為 600 萬美元這個(gè)廣為流傳的數(shù)字,其實(shí)是片面的。這相當(dāng)于只關(guān)注產(chǎn)品物料清單中的某一部分,并將其視為全部成本。預(yù)訓(xùn)練成本僅僅是總成本中很小的一部分。 我們認(rèn)為,預(yù)訓(xùn)練所支出的成本,遠(yuǎn)遠(yuǎn)不能代表模型所花費(fèi)的總成本。 我們相信 DeepSeek 在硬件上的支出遠(yuǎn)超過 5 億美元。他們?yōu)榱碎_發(fā)新的架構(gòu)創(chuàng)新,在模型開發(fā)過程中,花費(fèi)了大量資金用于測試新思路、新架構(gòu)和消融實(shí)驗(yàn)。 多頭潛在注意力(Multi-Head Latent Attention) —— DeepSeek 的一項(xiàng)關(guān)鍵創(chuàng)新,耗時(shí)數(shù)月開發(fā),花費(fèi)了整個(gè)團(tuán)隊(duì)的大量人力和 GPU 計(jì)算時(shí)間。 論文中提到的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費(fèi),這只是模型總成本的一部分。研發(fā)費(fèi)用以及硬件本身的總體擁有成本等重要部分并未包含在內(nèi)。 作為參考,Claude 3.5 Sonnet 的訓(xùn)練成本達(dá)數(shù)千萬美元,如果那就是 Anthropic 的全部成本,那么他們就沒必要從 Google 融資數(shù)十億、從亞馬遜融資數(shù)十億美元。因?yàn)檫@是他們進(jìn)行實(shí)驗(yàn)、提出新架構(gòu)、收集和清洗數(shù)據(jù)、支付員工工資的必要成本。 那么,DeepSeek 是如何獲得如此大規(guī)模的集群的呢?出口管制的滯后是關(guān)鍵,我們會(huì)在下文將詳細(xì)討論。 V3 讓性能差距縮小的秘訣 毫無疑問,V3 是一款令人印象深刻的模型,但值得強(qiáng)調(diào)的是,它的「令人印象深刻」是相對(duì)于什么而言。 許多人將 V3 與 GPT-4o 進(jìn)行比較,并強(qiáng)調(diào) V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月發(fā)布的。以當(dāng)下 AI 的發(fā)展速度,算法改進(jìn)方面那個(gè)時(shí)候和現(xiàn)在已是天壤之別。此外,我們并不驚訝在經(jīng)過一定時(shí)間后,用更少的計(jì)算資源就能實(shí)現(xiàn)相當(dāng)或更強(qiáng)的能力。 推理成本大幅下降正是 AI 改進(jìn)的標(biāo)志。 舉個(gè)例子,一些可以在筆記本電腦上運(yùn)行的小模型,其性能可與需要超級(jí)計(jì)算機(jī)訓(xùn)練,以及需要大量 GPU 推理的 GPT-3 相媲美。換句話說,算法改進(jìn)使得用更少的計(jì)算資源即可訓(xùn)練和推理具備相同性能的模型,而這種模式在業(yè)內(nèi)以及出現(xiàn)了多次。 這一次世界終于注意到了,是因?yàn)樗鼇碜灾袊囊患覍?shí)驗(yàn)室,但小模型性能提升并不是什么新鮮事。 目前行業(yè)的趨勢是,AI 實(shí)驗(yàn)室在投入的絕對(duì)資金上不斷增加,以獲取更高的智能水平。 據(jù)估算, 算法效率每年進(jìn)步 4 倍,即每過一年,用于達(dá)到相同性能的計(jì)算資源減少 4 倍。 Anthropic 的 CEO Dario 認(rèn)為,算法進(jìn)步甚至?xí),可以?shí)現(xiàn) 10 倍的提升。 就 GPT-3 質(zhì)量的推理價(jià)格而言,成本已經(jīng)下降了 1200 倍。 在研究 GPT-4 的成本時(shí),我們也看到了類似的下降趨勢,盡管處于曲線的較早階段。時(shí)間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。 在這種情況下,我們看到算法改進(jìn)和優(yōu)化使得成本降低 10 倍,同時(shí)性能提升 10 倍。 需要說明的是,DeepSeek 的獨(dú)特之處在于他們率先實(shí)現(xiàn)了這種成本和性能水平。 雖然 Mistral 和 Llama 模型也曾在開源模型上做過類似的事情,但 DeepSeek 做到的程度獨(dú)樹一幟。如果到了年底,成本再下降 5 倍,也請不要感到驚訝。 R1 憑什么迅速追上 OpenAI o1 大家熱議的另一個(gè)話題,是 R1 能夠達(dá)到與 o1 相當(dāng)?shù)男Ч,?o1 僅在 9 月發(fā)布。 僅僅幾個(gè)月時(shí)間,DeepSeek 是如何如此迅速地趕上的呢? 問題的關(guān)鍵在于,推理能力形成了一種全新的范式。 推理范式迭代速度更快,且以較少的計(jì)算資源即可獲得顯著收益。正如我們在擴(kuò)展定律報(bào)告中提到的,以往的范式依賴于預(yù)訓(xùn)練,而這這種方式不僅成本越來越高,且已經(jīng)難以取得穩(wěn)健的進(jìn)步。 新的推理范式,專注于通過合成數(shù)據(jù)生成和在現(xiàn)有模型上進(jìn)行后訓(xùn)練中的強(qiáng)化學(xué)習(xí)來提升推理能力,從而以更低的成本實(shí)現(xiàn)更快的進(jìn)步。 較低的入門門檻加上易于優(yōu)化,使得 DeepSeek 能夠比過去更快地復(fù)制 o1 方法。隨著各方探索如何在這一新范式下進(jìn)一步擴(kuò)展,我們預(yù)計(jì)不同模型在匹配性能的時(shí)間差距將會(huì)拉大。 需要注意的是,R1 論文中沒有提及所使用的計(jì)算資源。這絕非偶然 —— 為了生成用于后訓(xùn)練的合成數(shù)據(jù),R1 需要大量的計(jì)算資源,更不用說強(qiáng)化學(xué)習(xí)了。 R1 是一款非常優(yōu)秀的模型,但它披露的一些基準(zhǔn)測試也具有誤導(dǎo)性。R1 特意沒有提及那些它并不領(lǐng)先的基準(zhǔn)測試,雖然在推理性能上 R1 與 o1 不相上下,但在每項(xiàng)指標(biāo)上它并不都是明顯的贏家,在許多情況下甚至不如 o1。 這里我們還沒有提到 o3。o3 的能力明顯高于 R1 和 o1。實(shí)際上,OpenAI 最近分享了 o3 的結(jié)果( ),其基準(zhǔn)測試的擴(kuò)展呈垂直趨勢。 這似乎再次證明了「深度學(xué)習(xí)遭遇瓶頸」,但這個(gè)瓶頸不同以往。 與 Google 的推理模型不相上下 盡管 R1 的炒作熱潮不斷,但很多人忽略了,一家市值 2.5 萬億美元的美國公司在上個(gè)月以更低的價(jià)格發(fā)布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。 該模型已經(jīng)可以使用,并且通過 API 即使擁有更長的上下文長度,其成本仍遠(yuǎn)低于 R1。 在已公布的基準(zhǔn)測試中,F(xiàn)lash 2.0 Thinking 超越了 R1,盡管基準(zhǔn)測試并不能說明全部情況。Google 只發(fā)布了 3 個(gè)基準(zhǔn)測試,因此情況不夠全面。不過,我們認(rèn)為 Google 的模型非常穩(wěn)健,在許多方面可以與 R1 相當(dāng),但卻未獲得太多關(guān)注。 這可能是由于 Google 營銷策略平平、用戶體驗(yàn)較差,但同時(shí) R1 也作為一項(xiàng)來自中國的黑馬出現(xiàn)。 需要明確的是,這些都不會(huì)削弱 DeepSeek 非凡成就的價(jià)值。DeepSeek 作為一家快速運(yùn)作、資金充足、聰明且專注的初創(chuàng)公司,這正是它在推理模型方面超越 Meta 等巨頭的原因。 讓美國科技圈瘋狂復(fù)制的 MLA 創(chuàng)新 DeepSeek 實(shí)現(xiàn)了許多領(lǐng)先的 AI 公司都未達(dá)到的技術(shù)創(chuàng)新。我們預(yù)計(jì),接下來 DeepSeek 發(fā)布的任何技術(shù)進(jìn)展,都將幾乎立刻被西方實(shí)驗(yàn)室復(fù)制。 這些技術(shù)突破是什么?大多數(shù)架構(gòu)上的成就都與 V3 相關(guān),而 V3 也是 R1 的基礎(chǔ)模型。下面讓我們詳細(xì)介紹這些創(chuàng)新。 訓(xùn)練(預(yù)訓(xùn)練與后訓(xùn)練) DeepSeek V3 利用 Multi-Token Prediction (MTP) 實(shí)現(xiàn)了前所未見的規(guī)模,這是一種新增的注意力模塊,可預(yù)測接下來的多個(gè) token,而非單一 token。 它在訓(xùn)練過程中顯著提高了模型性能,并且在推理時(shí)可以被移除。這就是一種利用較低計(jì)算資源實(shí)現(xiàn)性能提升的算法創(chuàng)新。 還有一些額外的考量,比如在訓(xùn)練中采用 FP8 精度,但領(lǐng)先的美國實(shí)驗(yàn)室已經(jīng)使用 FP8 訓(xùn)練有一段時(shí)間了。 DeepSeek V3 還是一種專家混合模型,即由眾多專注于不同任務(wù)的小專家組成的大模型,表現(xiàn)出強(qiáng)大的涌現(xiàn)能力。 MoE 模型曾面臨的一個(gè)難題,是如何確定哪個(gè) token 應(yīng)該分配給哪個(gè)子模型或「專家」。DeepSeek 實(shí)現(xiàn)了一個(gè)「門控網(wǎng)絡(luò)」(gating network),能以平衡的方式將 token 路由到合適的專家,而不會(huì)影響模型性能。 這意味著路由效率非常高,在訓(xùn)練過程中每個(gè) token 相對(duì)于整個(gè)模型的規(guī)模僅需修改少量參數(shù)。 這提高了訓(xùn)練效率,同時(shí)也降低了推理成本。 盡管有人擔(dān)心專家混合模型(MoE)帶來的效率提升,可能會(huì)減少投資,但 Dario 指出,更強(qiáng)大 AI 模型所帶來的經(jīng)濟(jì)效益非?捎^,因此任何節(jié)約的成本都會(huì)迅速再投資于構(gòu)建更大規(guī)模的模型。 MoE 的效率提升不僅沒有減少總體投資,反而會(huì)加速 AI 的規(guī)模擴(kuò)大。目前硅谷的主流科技公司都在正全力以赴地將模型擴(kuò)展到更多計(jì)算資源,并在算法上提高效率。 R1 背后的基礎(chǔ)模型 V3 就 R1 而言,其極大地受益于擁有一個(gè)強(qiáng)大的基礎(chǔ)模型(V3),這部分得益于強(qiáng)化學(xué)習(xí)(RL)。 RL 主要聚焦兩個(gè)點(diǎn):格式化(以確保輸出連貫)以及有用性和安全性(以確保模型實(shí)用)。 推理能力是在對(duì)模型進(jìn)行合成數(shù)據(jù)微調(diào)時(shí)產(chǎn)生的。正如我們在擴(kuò)展定律文章中提到的,這正是 o1 所經(jīng)歷的過程。 需要注意的是,R1 論文中沒有提及計(jì)算資源的使用情況,這是因?yàn)樘岬剿糜?jì)算資源的數(shù)量會(huì)透露他們擁有的 GPU 數(shù)量遠(yuǎn)超過其對(duì)外宣傳的規(guī)模。 如此大規(guī)模的強(qiáng)化學(xué)習(xí)需要大量計(jì)算資源,尤其是在生成合成數(shù)據(jù)的場景。 此外,DeepSeek 使用的一部分?jǐn)?shù)據(jù)似乎來自 OpenAI 的模型(尚未證實(shí)),我們認(rèn)為這將對(duì)從輸出中進(jìn)行蒸餾的政策產(chǎn)生影響。根據(jù)服務(wù)條款這是違規(guī)的,但未來一種新的趨勢可能會(huì)采取類似 KYC(了解你的客戶)的方式來阻止數(shù)據(jù)蒸餾。 談到蒸餾,也許 R1 論文中最值得關(guān)注的部分,是能夠通過用推理模型的輸出對(duì)非推理小模型進(jìn)行微調(diào),將其轉(zhuǎn)變?yōu)榫邆渫评砟芰Φ哪P汀?/span> 數(shù)據(jù)集策劃共包含 80 萬個(gè)樣本,現(xiàn)在任何人都可以利用 R1 的思維鏈(CoT)輸出創(chuàng)建自己的數(shù)據(jù)集,并借助這些輸出構(gòu)建推理模型。 我們可能會(huì)看到更多小模型展示出推理能力,從而提升小模型的性能。 多頭潛在注意力(MLA) 正如我們在前文提到,多頭潛在注意力(MLA) 是 DeepSeek 在推理成本上大幅降低的關(guān)鍵創(chuàng)新。 因?yàn)榕c標(biāo)準(zhǔn)注意力機(jī)制相比,MLA 將每次查詢所需的 KV 緩存減少了約 93.3%。KV 緩存是 Transformer 模型中的一種內(nèi)存機(jī)制,用于暫時(shí)保存代表對(duì)話上下文的數(shù)據(jù),從而減少重復(fù)計(jì)算。 隨著對(duì)話上下文的增長,KV 緩存也會(huì)增加,進(jìn)而帶來巨大的內(nèi)存壓力。因此大幅減少每次查詢所需的 KV 緩存,就能降低每次查詢所需的硬件量,從而降低了整體成本。 不過我們認(rèn)為 DeepSeek 是以成本價(jià)提供推理服務(wù)以搶占市場份額,而并非真正盈利。 Google Gemini Flash 2.0 Thinking 仍然更便宜,且 Google 不太可能以成本價(jià)提供該服務(wù)。MLA 尤其引起了許多領(lǐng)先的美國實(shí)驗(yàn)室的關(guān)注。 MLA 于 2024 年 5 月在 DeepSeek V2 中首次發(fā)布,由于 H20 的內(nèi)存帶寬和容量相比 H100 更高,DeepSeek 在推理工作負(fù)載上也獲得了更多效率提升。他們還宣布與華為建立合作關(guān)系,但迄今為止在昇騰計(jì)算方面的應(yīng)用還很少。 我們認(rèn)為,MLA 對(duì)利潤率帶來的影響,對(duì)整個(gè) AI 生態(tài)系統(tǒng)都意義重大。 R1 沒有在技術(shù)層面削弱 o1 的優(yōu)勢 在利潤率方面,我們有一個(gè)關(guān)鍵發(fā)現(xiàn):R1 并未削弱 o1 在技術(shù)上的優(yōu)勢,反而以更低的成本提供了相似的能力。 這一結(jié)果合理且具有啟示意義,促使我們構(gòu)建了一個(gè)面向未來的定價(jià)機(jī)制框架。能力越強(qiáng),利潤率越高,這一邏輯與半導(dǎo)體制造行業(yè)的發(fā)展路徑頗為相似。 當(dāng)臺(tái)積電首次突破至新的工藝節(jié)點(diǎn),推出前所未有的產(chǎn)品時(shí),便能獲得強(qiáng)大的定價(jià)權(quán)。而處于技術(shù)追趕階段的競爭者,如三星和英特爾,則更多依靠在成本和性能之間尋求平衡,通常以低于市場領(lǐng)導(dǎo)者的價(jià)格進(jìn)行競爭。 對(duì)于芯片制造商(在這里可類比為 AI 實(shí)驗(yàn)室)而言,優(yōu)勢在于可以靈活調(diào)整產(chǎn)能。如果某個(gè)新模型具備更優(yōu)的成本效益,企業(yè)可以快速增加其產(chǎn)能,同時(shí)逐步減少對(duì)舊模型的支持。 這種產(chǎn)能調(diào)整機(jī)制不僅符合當(dāng)前 AI 實(shí)驗(yàn)室的運(yùn)作模式,也與半導(dǎo)體行業(yè)長期以來的經(jīng)驗(yàn)契合。 技術(shù)的競爭就是定價(jià)權(quán)爭奪 這或許預(yù)示著未來 AI 競賽的發(fā)展軌跡。 率先進(jìn)入新能力層級(jí)的企業(yè)將掌握顯著的定價(jià)溢價(jià),而跟隨者則只能依靠微薄的利潤勉強(qiáng)維持。 那些在能力上落后的產(chǎn)品仍會(huì)存在,前提是它們能滿足特定的使用場景,但每一代產(chǎn)品中能夠趕超領(lǐng)先者的參與者會(huì)越來越少。 我們已經(jīng)在見證,R1 已經(jīng)達(dá)到了領(lǐng)先的能力水平,卻以零利潤的價(jià)格銷售。 這種鮮明的價(jià)格差異引發(fā)人們的疑問:憑什么 OpenAI 的產(chǎn)品這么昂貴?因?yàn)樗麄兊漠a(chǎn)品定價(jià)基于最前沿的技術(shù),并從中獲取相應(yīng)的溢價(jià)收益。 我們認(rèn)為,未來的技術(shù)發(fā)展速度將超過半導(dǎo)體制造業(yè)目前的快速節(jié)奏。 追求最新能力意味著持續(xù)的定價(jià)權(quán)——以ChatGPT Pro為例,而能力滯后的產(chǎn)品則必須通過降低價(jià)格來維持市場,利潤主要依賴于底層的算力和代幣基礎(chǔ)設(shè)施。 在當(dāng)前這個(gè)快速迭代的技術(shù)周期中,追求卓越能力的動(dòng)力只會(huì)加速產(chǎn)品的更新?lián)Q代。只要企業(yè)能夠持續(xù)拓展能力、開發(fā)具有新價(jià)值的功能,就理應(yīng)享有定價(jià)權(quán);反之,在開放市場中,產(chǎn)品同質(zhì)化的趨勢會(huì)迅速顯現(xiàn)。 在這個(gè)背景下,人們對(duì)當(dāng)前局勢存在著根本性的誤解。我們所描述的情景,頗有幾分類似于超高速發(fā)展的半導(dǎo)體制造業(yè)——這是全球資本密集度最高的行業(yè)。沒有哪個(gè)行業(yè)在研發(fā)上的投入超過半導(dǎo)體制造業(yè),但最接近這一現(xiàn)實(shí)的AI模型供應(yīng)鏈,卻常常被視為不利的參照對(duì)象。 將 AI token與杰文斯悖論進(jìn)行比較,可以發(fā)現(xiàn)深刻的歷史相似性。 最初,人們對(duì)晶體管能否持續(xù)微縮存在疑慮;一旦這一趨勢被確認(rèn),整個(gè)行業(yè)便全力以赴推動(dòng) CMOS 技術(shù)向極限縮放,并在此基礎(chǔ)上構(gòu)建關(guān)鍵功能。 如今,我們正處于將多鏈思維模型和能力整合的初期階段,這與晶體管微縮的早期時(shí)代頗為相似。盡管從技術(shù)角度來看,這可能是一個(gè)充滿動(dòng)蕩的時(shí)期,但對(duì)于英偉達(dá)而言卻是一個(gè)好消息。 免費(fèi)又強(qiáng)大推理模型能一直持續(xù)嗎 事實(shí)上市場一直在尋找一種新的破局點(diǎn),而這正是它所選擇的。 如果 DeepSeek 愿意以 0 或甚至負(fù)利潤率運(yùn)營,那么其產(chǎn)品價(jià)格確實(shí)可能被壓低到如此程度。 然而,對(duì)于前沿 Token 服務(wù)的定價(jià)彈性顯然要高得多。鑒于 DeepSeek 正處于新一輪融資之中,他們有強(qiáng)烈的動(dòng)力去追求這一策略。 在推理領(lǐng)域的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)上,DeepSeek 打破了 OpenAI 占主導(dǎo)地位的利潤率。這種領(lǐng)先地位能否持續(xù)? 我們認(rèn)為不會(huì)——畢竟,一個(gè)開源實(shí)驗(yàn)室現(xiàn)在已經(jīng)展示了曾被認(rèn)為僅屬于閉源實(shí)驗(yàn)室的能力。雖然這是一個(gè)關(guān)鍵性的發(fā)展,但必須認(rèn)識(shí)到 DeepSeek 仍然是一個(gè)快速跟隨者。 我們確實(shí)認(rèn)為,一個(gè)更強(qiáng)大的開放實(shí)驗(yàn)室(目前 DeepSeek 是最杰出的代表),將極大地惠及新興云服務(wù)提供商和基礎(chǔ)設(shè)施供應(yīng)商。 無論模型是開源還是閉源,計(jì)算資源的集中化依然至關(guān)重要。然而,如果建立在這些計(jì)算資源之上的上層服務(wù)開始免費(fèi)提供產(chǎn)品,那么計(jì)算本身的內(nèi)在價(jià)值很可能會(huì)上升。 更多資本將流向計(jì)算基礎(chǔ)設(shè)施,而不是封閉模型供應(yīng)商,這標(biāo)志著支出正向硬件轉(zhuǎn)移。軟件公司也將從這一動(dòng)態(tài)中大幅受益。 本文來源:APPSO
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選