這可能是迄今為止海外對 DeepSeek 最全面的一份分析報告,來自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。 從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對比,人均年薪千萬的頂尖人才,還指出目前 DeepSeek 的成本估算是錯誤的,推測其擁有 大約有 5 萬塊Hopper GPU…… 關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。 圖靈獎得主楊立昆最近再次發(fā)表了關(guān)于 DeepSeek 的觀點,他指出硅谷某些圈子的通病,是認(rèn)定別處的創(chuàng)新都是靠作弊得來的。 而科技要快速進(jìn)步,恰恰需要讓更多人才參與并共享創(chuàng)新成果。在 DeepSeek 的開源模型上,我們也看到了這種愿景。 報告原文: https://semianalysis.com/2025/01/31/deepseek-debates/ APPSO 整理了這篇分析報告中的關(guān)鍵要點: 推測 DeepSeek 大約有5萬塊 Hopper GPU,在 GPU 上的投資總額超過 5 億美元 廣為討論的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費,這只是模型總成本的一部分。 DeepSeek 團(tuán)隊目前約 150 人,從北大浙大等中國高校招聘人才,年薪可達(dá)千萬 多頭潛在注意力(MLA) 是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng)新,將每次查詢所需的 KV 緩存減少了約 93.3% 在推理性能上 R1 與 o1 不相上下,而 o3 的能力明顯高于 R1 和 o1 DeepSeek 風(fēng)暴席卷全球 過去一周,DeepSeek 成為了全世界人們唯一熱議的話題。 目前,DeepSeek 的日活(據(jù)悉超過 1900萬)已經(jīng)遠(yuǎn)高于 Claude、Perplexity 甚至 Gemini。 然而,對于長期關(guān)注 AI 行業(yè)的人,這個消息不算新鮮。我們已經(jīng)討論 DeepSeek 數(shù)月,對這家公司并不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認(rèn)為 DeepSeek 極具才華,而美國更廣泛的公眾并不在意。 當(dāng)世界終于關(guān)注到這家公司,其中狂熱的輿論并沒有完全反映它的真實情況。 我們想強(qiáng)調(diào)的是,輿論已經(jīng)發(fā)生了轉(zhuǎn)變。上個月,當(dāng) Scaling Laws (擴(kuò)展定律)被打破時,我們就已揭穿了這個神話;如今,算法改進(jìn)的速度過快,而這在某種程度上對英偉達(dá)和 GPU 不利。 現(xiàn)在大家討論的是,DeepSeek 效率如此之高,以至于我們不再需要更多的計算資源,而由于模型的變革,出現(xiàn)了巨大的產(chǎn)能過剩。 雖然杰文斯悖論(Jevonʼs Paradox)也被過度炒作,但它更接近現(xiàn)實,因為這些模型已經(jīng)引發(fā)了需求,對 H100 和 H200 的定價產(chǎn)生了實質(zhì)性的影響。 編者注:杰文斯悖論簡單來說就是,當(dāng)某種資源的使用效率提高后,雖然單次使用時消耗更少,但因為成本降低、使用更方便,反而可能讓人們用得更多,導(dǎo)致整體消耗量反而上升。 5 萬塊 Hopper GPU 幻方量化是一家中國對沖基金,也是最早在其交易算法中采用 AI 的先行者。他們早早就意識到 AI 在金融以外領(lǐng)域的潛力以及擴(kuò)展能力的重要性,因此不斷增加 GPU 的供應(yīng)。 經(jīng)過使用數(shù)千個 GPU 集群進(jìn)行模型實驗后,幻方量化在 2021 年,在任何出口限制出臺之前,就投資了 10000 個 A100 GPU。 這筆投資得到了回報。隨著幻方量化的不斷進(jìn)步,他們意識到是時候在 2023 年 5 月剝離出 「DeepSeek」,以更專注地追求進(jìn)一步的 AI 能力。 當(dāng)時由于外部投資者對 AI 缺乏興趣(主要擔(dān)心商業(yè)模式問題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek 經(jīng)常共享資源,包括人力和計算資源。 如今,DeepSeek 已經(jīng)發(fā)展成為一項嚴(yán)肅且協(xié)同的重要項目,絕非很多媒體所稱的「副業(yè)項目」。 我們相信 即使考慮到出口管制因素,他們在 GPU 上的投資總額超過 5 億美元 。 我們認(rèn)為,他們大約擁有 50000 個 Hopper GPU,但這并不等同于擁有 50000 個 H100 GPU。 英偉達(dá)根據(jù)不同法規(guī)要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中國大模型公司使用。需要注意的是,H800 的計算能力與 H100 相同,但其網(wǎng)絡(luò)帶寬較低。 這些 GPU 在 幻方量化和 DeepSeek 之間共享,并在地理上有所分布。它們被用于交易、推理、訓(xùn)練和研究。 我們的分析顯示,DeepSeek 的服務(wù)器資本支出總額約為 16 億美元,其中與運營這些集群相關(guān)的成本高達(dá) 9.44 億美元。 同樣,由于資源集中化是一大挑戰(zhàn),所有 AI 實驗室和超大規(guī)模云服務(wù)商都擁有比單次訓(xùn)練運行所使用的 GPU 數(shù)量要多得多,用于研究和訓(xùn)練的任務(wù)。 年薪近千萬,在中國高校挖頂尖人才 DeepSeek 完全從中國招聘人才,不拘泥于以往的資歷,而是高度重視能力與好奇心。DeepSeek 定期在北京大學(xué)、浙江等頂尖高校舉辦招聘活動,許多員工均畢業(yè)于這些院校。 崗位職責(zé)并完全固定,招聘時會有一定靈活性,招聘廣告甚至宣稱可以無限制調(diào)用 10000 多個 GPU 。 這些職位競爭極為激烈, 據(jù)稱對有潛力的候選人提供的薪資超過 130 萬美元(約合 934 萬人民幣),遠(yuǎn)高于中國大型科技公司和 AI 實驗室(如 Moonshot)等競爭對手。 目前 DeepSeek 約有 150 名員工,但正在迅速擴(kuò)張。 歷史證明,一家資金充足且專注的小型初創(chuàng)公司往往能夠突破界限。 DeepSeek 不具備像 Google 那樣的官僚主義,由于其自籌資金,能夠迅速推進(jìn)新想法。 然而,與 Google 類似,DeepSeek(在大多數(shù)情況下)自建數(shù)據(jù)中心,而不依賴外部方或供應(yīng)商。這為進(jìn)一步實驗提供了更大空間,使他們能夠在整個技術(shù)棧上實現(xiàn)創(chuàng)新。 我們認(rèn)為,他們是當(dāng)今唯一最優(yōu)秀的「開源權(quán)重」實驗室,超越了 Meta 的 Llama 項目、Mistral 以及其他競爭者。 DeepSeek 的極低成本被誤讀了 DeepSeek 的價格與效率引發(fā)了硅谷科技圈地震的關(guān)鍵。 然而,關(guān)于 DeepSeek V3 的訓(xùn)練成本為 600 萬美元這個廣為流傳的數(shù)字,其實是片面的。這相當(dāng)于只關(guān)注產(chǎn)品物料清單中的某一部分,并將其視為全部成本。預(yù)訓(xùn)練成本僅僅是總成本中很小的一部分。 我們認(rèn)為,預(yù)訓(xùn)練所支出的成本,遠(yuǎn)遠(yuǎn)不能代表模型所花費的總成本。 我們相信 DeepSeek 在硬件上的支出遠(yuǎn)超過 5 億美元。他們?yōu)榱碎_發(fā)新的架構(gòu)創(chuàng)新,在模型開發(fā)過程中,花費了大量資金用于測試新思路、新架構(gòu)和消融實驗。 多頭潛在注意力(Multi-Head Latent Attention) —— DeepSeek 的一項關(guān)鍵創(chuàng)新,耗時數(shù)月開發(fā),花費了整個團(tuán)隊的大量人力和 GPU 計算時間。 論文中提到的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費,這只是模型總成本的一部分。研發(fā)費用以及硬件本身的總體擁有成本等重要部分并未包含在內(nèi)。 作為參考,Claude 3.5 Sonnet 的訓(xùn)練成本達(dá)數(shù)千萬美元,如果那就是 Anthropic 的全部成本,那么他們就沒必要從 Google 融資數(shù)十億、從亞馬遜融資數(shù)十億美元。因為這是他們進(jìn)行實驗、提出新架構(gòu)、收集和清洗數(shù)據(jù)、支付員工工資的必要成本。 那么,DeepSeek 是如何獲得如此大規(guī)模的集群的呢?出口管制的滯后是關(guān)鍵,我們會在下文將詳細(xì)討論。 V3 讓性能差距縮小的秘訣 毫無疑問,V3 是一款令人印象深刻的模型,但值得強(qiáng)調(diào)的是,它的「令人印象深刻」是相對于什么而言。 許多人將 V3 與 GPT-4o 進(jìn)行比較,并強(qiáng)調(diào) V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月發(fā)布的。以當(dāng)下 AI 的發(fā)展速度,算法改進(jìn)方面那個時候和現(xiàn)在已是天壤之別。此外,我們并不驚訝在經(jīng)過一定時間后,用更少的計算資源就能實現(xiàn)相當(dāng)或更強(qiáng)的能力。 推理成本大幅下降正是 AI 改進(jìn)的標(biāo)志。 舉個例子,一些可以在筆記本電腦上運行的小模型,其性能可與需要超級計算機(jī)訓(xùn)練,以及需要大量 GPU 推理的 GPT-3 相媲美。換句話說,算法改進(jìn)使得用更少的計算資源即可訓(xùn)練和推理具備相同性能的模型,而這種模式在業(yè)內(nèi)以及出現(xiàn)了多次。 這一次世界終于注意到了,是因為它來自中國的一家實驗室,但小模型性能提升并不是什么新鮮事。 目前行業(yè)的趨勢是,AI 實驗室在投入的絕對資金上不斷增加,以獲取更高的智能水平。 據(jù)估算, 算法效率每年進(jìn)步 4 倍,即每過一年,用于達(dá)到相同性能的計算資源減少 4 倍。 Anthropic 的 CEO Dario 認(rèn)為,算法進(jìn)步甚至?xí),可以實現(xiàn) 10 倍的提升。 就 GPT-3 質(zhì)量的推理價格而言,成本已經(jīng)下降了 1200 倍。 在研究 GPT-4 的成本時,我們也看到了類似的下降趨勢,盡管處于曲線的較早階段。時間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。 在這種情況下,我們看到算法改進(jìn)和優(yōu)化使得成本降低 10 倍,同時性能提升 10 倍。 需要說明的是,DeepSeek 的獨特之處在于他們率先實現(xiàn)了這種成本和性能水平。 雖然 Mistral 和 Llama 模型也曾在開源模型上做過類似的事情,但 DeepSeek 做到的程度獨樹一幟。如果到了年底,成本再下降 5 倍,也請不要感到驚訝。 R1 憑什么迅速追上 OpenAI o1 大家熱議的另一個話題,是 R1 能夠達(dá)到與 o1 相當(dāng)?shù)男Ч?o1 僅在 9 月發(fā)布。 僅僅幾個月時間,DeepSeek 是如何如此迅速地趕上的呢? 問題的關(guān)鍵在于,推理能力形成了一種全新的范式。 推理范式迭代速度更快,且以較少的計算資源即可獲得顯著收益。正如我們在擴(kuò)展定律報告中提到的,以往的范式依賴于預(yù)訓(xùn)練,而這這種方式不僅成本越來越高,且已經(jīng)難以取得穩(wěn)健的進(jìn)步。 新的推理范式,專注于通過合成數(shù)據(jù)生成和在現(xiàn)有模型上進(jìn)行后訓(xùn)練中的強(qiáng)化學(xué)習(xí)來提升推理能力,從而以更低的成本實現(xiàn)更快的進(jìn)步。 較低的入門門檻加上易于優(yōu)化,使得 DeepSeek 能夠比過去更快地復(fù)制 o1 方法。隨著各方探索如何在這一新范式下進(jìn)一步擴(kuò)展,我們預(yù)計不同模型在匹配性能的時間差距將會拉大。 需要注意的是,R1 論文中沒有提及所使用的計算資源。這絕非偶然 —— 為了生成用于后訓(xùn)練的合成數(shù)據(jù),R1 需要大量的計算資源,更不用說強(qiáng)化學(xué)習(xí)了。 R1 是一款非常優(yōu)秀的模型,但它披露的一些基準(zhǔn)測試也具有誤導(dǎo)性。R1 特意沒有提及那些它并不領(lǐng)先的基準(zhǔn)測試,雖然在推理性能上 R1 與 o1 不相上下,但在每項指標(biāo)上它并不都是明顯的贏家,在許多情況下甚至不如 o1。 這里我們還沒有提到 o3。o3 的能力明顯高于 R1 和 o1。實際上,OpenAI 最近分享了 o3 的結(jié)果( ),其基準(zhǔn)測試的擴(kuò)展呈垂直趨勢。 這似乎再次證明了「深度學(xué)習(xí)遭遇瓶頸」,但這個瓶頸不同以往。 與 Google 的推理模型不相上下 盡管 R1 的炒作熱潮不斷,但很多人忽略了,一家市值 2.5 萬億美元的美國公司在上個月以更低的價格發(fā)布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。 該模型已經(jīng)可以使用,并且通過 API 即使擁有更長的上下文長度,其成本仍遠(yuǎn)低于 R1。 在已公布的基準(zhǔn)測試中,F(xiàn)lash 2.0 Thinking 超越了 R1,盡管基準(zhǔn)測試并不能說明全部情況。Google 只發(fā)布了 3 個基準(zhǔn)測試,因此情況不夠全面。不過,我們認(rèn)為 Google 的模型非常穩(wěn)健,在許多方面可以與 R1 相當(dāng),但卻未獲得太多關(guān)注。 這可能是由于 Google 營銷策略平平、用戶體驗較差,但同時 R1 也作為一項來自中國的黑馬出現(xiàn)。 需要明確的是,這些都不會削弱 DeepSeek 非凡成就的價值。DeepSeek 作為一家快速運作、資金充足、聰明且專注的初創(chuàng)公司,這正是它在推理模型方面超越 Meta 等巨頭的原因。 讓美國科技圈瘋狂復(fù)制的 MLA 創(chuàng)新 DeepSeek 實現(xiàn)了許多領(lǐng)先的 AI 公司都未達(dá)到的技術(shù)創(chuàng)新。我們預(yù)計,接下來 DeepSeek 發(fā)布的任何技術(shù)進(jìn)展,都將幾乎立刻被西方實驗室復(fù)制。 這些技術(shù)突破是什么?大多數(shù)架構(gòu)上的成就都與 V3 相關(guān),而 V3 也是 R1 的基礎(chǔ)模型。下面讓我們詳細(xì)介紹這些創(chuàng)新。 訓(xùn)練(預(yù)訓(xùn)練與后訓(xùn)練) DeepSeek V3 利用 Multi-Token Prediction (MTP) 實現(xiàn)了前所未見的規(guī)模,這是一種新增的注意力模塊,可預(yù)測接下來的多個 token,而非單一 token。 它在訓(xùn)練過程中顯著提高了模型性能,并且在推理時可以被移除。這就是一種利用較低計算資源實現(xiàn)性能提升的算法創(chuàng)新。 還有一些額外的考量,比如在訓(xùn)練中采用 FP8 精度,但領(lǐng)先的美國實驗室已經(jīng)使用 FP8 訓(xùn)練有一段時間了。 DeepSeek V3 還是一種專家混合模型,即由眾多專注于不同任務(wù)的小專家組成的大模型,表現(xiàn)出強(qiáng)大的涌現(xiàn)能力。 MoE 模型曾面臨的一個難題,是如何確定哪個 token 應(yīng)該分配給哪個子模型或「專家」。DeepSeek 實現(xiàn)了一個「門控網(wǎng)絡(luò)」(gating network),能以平衡的方式將 token 路由到合適的專家,而不會影響模型性能。 這意味著路由效率非常高,在訓(xùn)練過程中每個 token 相對于整個模型的規(guī)模僅需修改少量參數(shù)。 這提高了訓(xùn)練效率,同時也降低了推理成本。 盡管有人擔(dān)心專家混合模型(MoE)帶來的效率提升,可能會減少投資,但 Dario 指出,更強(qiáng)大 AI 模型所帶來的經(jīng)濟(jì)效益非?捎^,因此任何節(jié)約的成本都會迅速再投資于構(gòu)建更大規(guī)模的模型。 MoE 的效率提升不僅沒有減少總體投資,反而會加速 AI 的規(guī)模擴(kuò)大。目前硅谷的主流科技公司都在正全力以赴地將模型擴(kuò)展到更多計算資源,并在算法上提高效率。 R1 背后的基礎(chǔ)模型 V3 就 R1 而言,其極大地受益于擁有一個強(qiáng)大的基礎(chǔ)模型(V3),這部分得益于強(qiáng)化學(xué)習(xí)(RL)。 RL 主要聚焦兩個點:格式化(以確保輸出連貫)以及有用性和安全性(以確保模型實用)。 推理能力是在對模型進(jìn)行合成數(shù)據(jù)微調(diào)時產(chǎn)生的。正如我們在擴(kuò)展定律文章中提到的,這正是 o1 所經(jīng)歷的過程。 需要注意的是,R1 論文中沒有提及計算資源的使用情況,這是因為提到所用計算資源的數(shù)量會透露他們擁有的 GPU 數(shù)量遠(yuǎn)超過其對外宣傳的規(guī)模。 如此大規(guī)模的強(qiáng)化學(xué)習(xí)需要大量計算資源,尤其是在生成合成數(shù)據(jù)的場景。 此外,DeepSeek 使用的一部分?jǐn)?shù)據(jù)似乎來自 OpenAI 的模型(尚未證實),我們認(rèn)為這將對從輸出中進(jìn)行蒸餾的政策產(chǎn)生影響。根據(jù)服務(wù)條款這是違規(guī)的,但未來一種新的趨勢可能會采取類似 KYC(了解你的客戶)的方式來阻止數(shù)據(jù)蒸餾。 談到蒸餾,也許 R1 論文中最值得關(guān)注的部分,是能夠通過用推理模型的輸出對非推理小模型進(jìn)行微調(diào),將其轉(zhuǎn)變?yōu)榫邆渫评砟芰Φ哪P汀?/span> 數(shù)據(jù)集策劃共包含 80 萬個樣本,現(xiàn)在任何人都可以利用 R1 的思維鏈(CoT)輸出創(chuàng)建自己的數(shù)據(jù)集,并借助這些輸出構(gòu)建推理模型。 我們可能會看到更多小模型展示出推理能力,從而提升小模型的性能。 多頭潛在注意力(MLA) 正如我們在前文提到,多頭潛在注意力(MLA) 是 DeepSeek 在推理成本上大幅降低的關(guān)鍵創(chuàng)新。 因為與標(biāo)準(zhǔn)注意力機(jī)制相比,MLA 將每次查詢所需的 KV 緩存減少了約 93.3%。KV 緩存是 Transformer 模型中的一種內(nèi)存機(jī)制,用于暫時保存代表對話上下文的數(shù)據(jù),從而減少重復(fù)計算。 隨著對話上下文的增長,KV 緩存也會增加,進(jìn)而帶來巨大的內(nèi)存壓力。因此大幅減少每次查詢所需的 KV 緩存,就能降低每次查詢所需的硬件量,從而降低了整體成本。 不過我們認(rèn)為 DeepSeek 是以成本價提供推理服務(wù)以搶占市場份額,而并非真正盈利。 Google Gemini Flash 2.0 Thinking 仍然更便宜,且 Google 不太可能以成本價提供該服務(wù)。MLA 尤其引起了許多領(lǐng)先的美國實驗室的關(guān)注。 MLA 于 2024 年 5 月在 DeepSeek V2 中首次發(fā)布,由于 H20 的內(nèi)存帶寬和容量相比 H100 更高,DeepSeek 在推理工作負(fù)載上也獲得了更多效率提升。他們還宣布與華為建立合作關(guān)系,但迄今為止在昇騰計算方面的應(yīng)用還很少。 我們認(rèn)為,MLA 對利潤率帶來的影響,對整個 AI 生態(tài)系統(tǒng)都意義重大。 R1 沒有在技術(shù)層面削弱 o1 的優(yōu)勢 在利潤率方面,我們有一個關(guān)鍵發(fā)現(xiàn):R1 并未削弱 o1 在技術(shù)上的優(yōu)勢,反而以更低的成本提供了相似的能力。 這一結(jié)果合理且具有啟示意義,促使我們構(gòu)建了一個面向未來的定價機(jī)制框架。能力越強(qiáng),利潤率越高,這一邏輯與半導(dǎo)體制造行業(yè)的發(fā)展路徑頗為相似。 當(dāng)臺積電首次突破至新的工藝節(jié)點,推出前所未有的產(chǎn)品時,便能獲得強(qiáng)大的定價權(quán)。而處于技術(shù)追趕階段的競爭者,如三星和英特爾,則更多依靠在成本和性能之間尋求平衡,通常以低于市場領(lǐng)導(dǎo)者的價格進(jìn)行競爭。 對于芯片制造商(在這里可類比為 AI 實驗室)而言,優(yōu)勢在于可以靈活調(diào)整產(chǎn)能。如果某個新模型具備更優(yōu)的成本效益,企業(yè)可以快速增加其產(chǎn)能,同時逐步減少對舊模型的支持。 這種產(chǎn)能調(diào)整機(jī)制不僅符合當(dāng)前 AI 實驗室的運作模式,也與半導(dǎo)體行業(yè)長期以來的經(jīng)驗契合。 技術(shù)的競爭就是定價權(quán)爭奪 這或許預(yù)示著未來 AI 競賽的發(fā)展軌跡。 率先進(jìn)入新能力層級的企業(yè)將掌握顯著的定價溢價,而跟隨者則只能依靠微薄的利潤勉強(qiáng)維持。 那些在能力上落后的產(chǎn)品仍會存在,前提是它們能滿足特定的使用場景,但每一代產(chǎn)品中能夠趕超領(lǐng)先者的參與者會越來越少。 我們已經(jīng)在見證,R1 已經(jīng)達(dá)到了領(lǐng)先的能力水平,卻以零利潤的價格銷售。 這種鮮明的價格差異引發(fā)人們的疑問:憑什么 OpenAI 的產(chǎn)品這么昂貴?因為他們的產(chǎn)品定價基于最前沿的技術(shù),并從中獲取相應(yīng)的溢價收益。 我們認(rèn)為,未來的技術(shù)發(fā)展速度將超過半導(dǎo)體制造業(yè)目前的快速節(jié)奏。 追求最新能力意味著持續(xù)的定價權(quán)——以ChatGPT Pro為例,而能力滯后的產(chǎn)品則必須通過降低價格來維持市場,利潤主要依賴于底層的算力和代幣基礎(chǔ)設(shè)施。 在當(dāng)前這個快速迭代的技術(shù)周期中,追求卓越能力的動力只會加速產(chǎn)品的更新?lián)Q代。只要企業(yè)能夠持續(xù)拓展能力、開發(fā)具有新價值的功能,就理應(yīng)享有定價權(quán);反之,在開放市場中,產(chǎn)品同質(zhì)化的趨勢會迅速顯現(xiàn)。 在這個背景下,人們對當(dāng)前局勢存在著根本性的誤解。我們所描述的情景,頗有幾分類似于超高速發(fā)展的半導(dǎo)體制造業(yè)——這是全球資本密集度最高的行業(yè)。沒有哪個行業(yè)在研發(fā)上的投入超過半導(dǎo)體制造業(yè),但最接近這一現(xiàn)實的AI模型供應(yīng)鏈,卻常常被視為不利的參照對象。 將 AI token與杰文斯悖論進(jìn)行比較,可以發(fā)現(xiàn)深刻的歷史相似性。 最初,人們對晶體管能否持續(xù)微縮存在疑慮;一旦這一趨勢被確認(rèn),整個行業(yè)便全力以赴推動 CMOS 技術(shù)向極限縮放,并在此基礎(chǔ)上構(gòu)建關(guān)鍵功能。 如今,我們正處于將多鏈思維模型和能力整合的初期階段,這與晶體管微縮的早期時代頗為相似。盡管從技術(shù)角度來看,這可能是一個充滿動蕩的時期,但對于英偉達(dá)而言卻是一個好消息。 免費又強(qiáng)大推理模型能一直持續(xù)嗎 事實上市場一直在尋找一種新的破局點,而這正是它所選擇的。 如果 DeepSeek 愿意以 0 或甚至負(fù)利潤率運營,那么其產(chǎn)品價格確實可能被壓低到如此程度。 然而,對于前沿 Token 服務(wù)的定價彈性顯然要高得多。鑒于 DeepSeek 正處于新一輪融資之中,他們有強(qiáng)烈的動力去追求這一策略。 在推理領(lǐng)域的一個關(guān)鍵轉(zhuǎn)折點上,DeepSeek 打破了 OpenAI 占主導(dǎo)地位的利潤率。這種領(lǐng)先地位能否持續(xù)? 我們認(rèn)為不會——畢竟,一個開源實驗室現(xiàn)在已經(jīng)展示了曾被認(rèn)為僅屬于閉源實驗室的能力。雖然這是一個關(guān)鍵性的發(fā)展,但必須認(rèn)識到 DeepSeek 仍然是一個快速跟隨者。 我們確實認(rèn)為,一個更強(qiáng)大的開放實驗室(目前 DeepSeek 是最杰出的代表),將極大地惠及新興云服務(wù)提供商和基礎(chǔ)設(shè)施供應(yīng)商。 無論模型是開源還是閉源,計算資源的集中化依然至關(guān)重要。然而,如果建立在這些計算資源之上的上層服務(wù)開始免費提供產(chǎn)品,那么計算本身的內(nèi)在價值很可能會上升。 更多資本將流向計算基礎(chǔ)設(shè)施,而不是封閉模型供應(yīng)商,這標(biāo)志著支出正向硬件轉(zhuǎn)移。軟件公司也將從這一動態(tài)中大幅受益。 本文來源:APPSO
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選