首頁 > 科技要聞 > 科技> 正文

Anthropic CEO 最新萬字長文:不認為 DeepSeek 本身是對手,美國要加強芯片出口管制

愛范兒 整合編輯:太平洋科技 發(fā)布于:2025-01-31 10:30

今天凌晨,Anthropic CEO Dario Amodei 在 X 平臺發(fā)布了一篇萬字長文,回應了近期圍繞在 DeepSeek 的諸多風波事件。

在這篇博客中,Amodei 表示不認為 DeepSeek 本身是對手,但同時卻又喊話美國要加強芯片出口管制。

面對 Amodei 疑似「破防」的行為,X 網(wǎng)友在評論區(qū)貼臉輸出:


附上原文編譯:

幾周前,我曾提出應加強美國對華芯片出口管制。如今,中國 AI 公司 DeepSeek 竟然在某些方面以更低成本接近了美國最前沿的 AI 模型。

在這篇文章中,我不會討論 DeepSeek 是否真的威脅到 Anthropic 等美國 AI 企業(yè)(盡管我認為,關(guān)于中國 AI 取代美國領(lǐng)導地位的某些說法被夸大了)¹。

相反,我想探討一個問題:DeepSeek 的技術(shù)突破是否削弱了對芯片出口管制的必要性?我的答案是否定的。事實上,我認為這反而更加凸顯了出口管制的重要性²。

出口管制的核心目標是確保國家在 AI 發(fā)展中保持領(lǐng)先。需要明確的是,管制政策并不是為了回避中美 AI 競爭。

最終,如果美國及其他國家希望在 AI 領(lǐng)域占據(jù)主導地位,就必須擁有比中國更先進的模型。但與此同時,我們也不應該在可以避免的情況下,讓中國政府獲得技術(shù)優(yōu)勢。

AI 發(fā)展的三大核心動態(tài)

在討論政策問題之前,我想先介紹 AI 系統(tǒng)的三個關(guān)鍵發(fā)展動態(tài),這對理解 AI 產(chǎn)業(yè)至關(guān)重要:

1. 縮放規(guī)律(Scaling Laws)

AI 領(lǐng)域的一個核心規(guī)律是,隨著訓練規(guī)模的擴大,模型的表現(xiàn)會持續(xù)平穩(wěn)提升。我和我的聯(lián)合創(chuàng)始人在 OpenAI 工作時,就曾率先記錄并驗證過這一現(xiàn)象。簡單來說,在其他條件相同的情況下,增加訓練計算量(compute)會讓 AI 在各種認知任務(wù)上的表現(xiàn)更好。例如:

價值 100 萬美元 的 AI 可能能解決 20% 的關(guān)鍵編程任務(wù)

價值 1000 萬美元 的 AI 可能能解決 40%

價值 1 億美元 的 AI 可能能解決 60%

這些差異在實際應用中會帶來巨大影響——計算量增加 10 倍,可能意味著 AI 水平從本科生提升到博士生。因此,各家公司都在投入巨額資金訓練更強的模型。

2. 計算效率提升(Shifting the Curve)

AI 領(lǐng)域不斷涌現(xiàn)出各種大大小小的創(chuàng)新,使得 AI 訓練和推理更加高效。這些創(chuàng)新可能涉及模型架構(gòu)改進(例如對 Transformer 結(jié)構(gòu)的優(yōu)化)、更高效的計算方式(提升硬件利用率)以及新一代 AI 計算芯片。

這些優(yōu)化會整體提升 AI 的訓練效率,也就是「Shifting the Curve」:

如果某項技術(shù)帶來 2 倍的計算提升(Compute Multiplier,CM),那么原本需要 1000 萬美元 訓練出的 40% 代碼解決能力,現(xiàn)在只需要 500 萬美元;原本 1 億美元 的 60% 代碼解決能力,現(xiàn)在只需要 5000 萬美元。

各大 AI 公司不斷發(fā)現(xiàn)這樣的 CM 提升:

小幅優(yōu)化(約 1.2 倍):常見的微調(diào)優(yōu)化

中等優(yōu)化(約 2 倍):架構(gòu)改進或算法優(yōu)化

大幅優(yōu)化(約 10 倍):重大技術(shù)突破

由于 AI 智能水平的提升價值極高,這種效率提升通常不會降低總訓練成本,反而會促使企業(yè)投入更多資金,訓練更強的模型。許多人誤以為 AI 會像傳統(tǒng)產(chǎn)品那樣「先貴后便宜」,但 AI 并不是一個固定質(zhì)量的商品——當計算效率提高后,行業(yè)不會減少計算消耗,而是更快地追求更強的 AI。

在 2020 年,我的團隊發(fā)表了一篇論文,指出算法進步帶來的計算效率提升速度約為每年 1.68 倍。但目前這一速度可能已經(jīng)加快到每年 4 倍,并且這一估算還未考慮硬件進步的影響。

3. 推理成本的降低(Inference Cost Reduction)訓練效率的提升同樣會影響 AI 推理(即模型在運行時的計算成本)。過去幾年,我們已經(jīng)看到 AI 的推理成本持續(xù)下降,同時性能不斷提升。例如 Claude 3.5 Sonnet(發(fā)布于 GPT-4 之后 15 個月),在幾乎所有基準測試上都超越了 GPT-4,但其 API 價格僅為 GPT-4 的 1/10。

3、范式轉(zhuǎn)變(Shifting the Paradigm)

AI 訓練的擴展方式并非一成不變,有時核心擴展對象會發(fā)生變化,或者訓練過程中會引入新的擴展方法。

在 2020-2023 年間,AI 訓練的主要擴展方向是預訓練模型,這些模型主要基于大規(guī);ヂ(lián)網(wǎng)文本數(shù)據(jù)進行訓練,在此基礎(chǔ)上進行少量額外的微調(diào)訓練,以提升特定能力。

進入 2024 年,利用強化學習(Reinforcement Learning, RL)訓練模型生成思維鏈(Chain of Thought, CoT) 成為 AI 訓練的新焦點。

Anthropic、DeepSeek,以及 OpenAI(2024 年 9 月發(fā)布的 o1-preview 模型)等公司發(fā)現(xiàn),這種訓練方式可以顯著提升模型在某些客觀可衡量任務(wù)上的表現(xiàn),特別是在數(shù)學推理、編程競賽、以及類似數(shù)學和編程的復雜邏輯推理。

新的訓練范式采用兩階段方法,先訓練傳統(tǒng)預訓練模型,使其具備基礎(chǔ)能力。其次,通過強化學習(RL) 增強模型的推理能力。

由于這種 RL 訓練方法仍然較新,當前所有公司在 RL 階段的投入都較少,因此仍處于早期規(guī);A段。僅從 10 萬美元擴展到 100 萬美元的訓練投入,就能帶來巨大性能提升。

企業(yè)正在迅速推進 RL 訓練的擴展,預計很快將達到數(shù)億美元甚至數(shù)十億美元級別。目前,我們正處于一個獨特的「交叉點」(crossover point),AI 訓練正在經(jīng)歷重要的范式轉(zhuǎn)變,由于 RL 訓練仍處于早期擴展階段,因此可以在短時間內(nèi)實現(xiàn)快速性能突破。

DeepSeek 的模型

上述三大 AI 發(fā)展動態(tài)可以幫助我們理解 DeepSeek 最近發(fā)布的模型。

大約一個月前,DeepSeek 推出了「DeepSeek-V3」,這是一個純預訓練模型,即前文第 3 點中提到的第一階段模型。隨后,上周他們又發(fā)布了 「R1」,在 V3 的基礎(chǔ)上增加了第二階段訓練。雖然外界無法完全了解這些模型的內(nèi)部細節(jié),但以下是我對這兩次發(fā)布的最佳理解。

DeepSeek-V3 才是 DeepSeek 近期的真正創(chuàng)新,早在一個月前就值得引起關(guān)注(我們當時確實注意到了)。

作為一個純預訓練模型,DeepSeek-V3 在某些關(guān)鍵任務(wù)上的表現(xiàn)接近美國最先進的 AI 模型,但訓練成本要低得多。(不過,我們發(fā)現(xiàn) Claude 3.5 Sonnet 在某些關(guān)鍵任務(wù)上仍然明顯更強,特別是現(xiàn)實世界中的編程能力。)

DeepSeek 團隊能夠做到這一點,主要依賴于一系列真正出色的工程創(chuàng)新,特別是在計算效率優(yōu)化方面,包括「鍵-值緩存」(Key-Value Cache)管理的創(chuàng)新優(yōu)化,提高了模型在推理過程中的效率,以及對「專家混合模型」(Mixture of Experts, MoE)技術(shù)的突破性應用,使其在大規(guī)模 AI 模型中的表現(xiàn)優(yōu)于以往。

然而,我們需要更仔細地分析:

DeepSeek 并沒有「用 600 萬美元⁵完成了美國 AI 公司花費數(shù)十億美元才能做到的事情」。就我能代表的 Anthropic 而言,Claude 3.5 Sonnet 是一個中等規(guī)模的模型,訓練成本為幾千萬美元(具體數(shù)字我不會透露)。此外,關(guān)于 3.5 Sonnet 訓練過程中使用了更大、更昂貴的模型的傳言并不屬實。Sonnet 的訓練是在 9 到 12 個月前進行的,而 DeepSeek 的模型是在去年 11 月至 12 月訓練的。

盡管如此,Sonnet 在許多內(nèi)部和外部評測中仍然明顯領(lǐng)先。因此,更準確的說法應該是:「DeepSeek 以相對較低的成本訓練出了一個接近 7 到 10 個月前的美國模型性能的模型,但成本遠沒有人們所說的那么低!

如果按照過去的趨勢,AI 訓練成本每年大約下降 4 倍,那么在正常情況下——比如 2023 年和 2024 年的成本下降趨勢——我們可以預期,現(xiàn)在的模型訓練成本應該比 3.5 Sonnet 或 GPT-4o 低 3 到 4 倍。而 DeepSeek-V3 的性能仍然遜色于這些美國最前沿的模型——大約差 2 倍(這個估計對 DeepSeek-V3 來說已經(jīng)相當慷慨了)。這意味著,如果 DeepSeek-V3 的訓練成本比一年前的美國頂級模型低 8 倍,那也是正常的,符合趨勢的,并不是什么意外突破。

事實上,DeepSeek-V3 的成本下降幅度甚至比 GPT-4 到 Claude 3.5 Sonnet 的推理價格下降幅度(10 倍)還要小,而 3.5 Sonnet 本身比 GPT-4 還要強。這一切都說明,DeepSeek-V3 既不是技術(shù)上的革命性突破,也沒有改變大語言模型(LLM)的經(jīng)濟模式,它只是符合現(xiàn)有成本下降趨勢的一個正常案例。

不同之處在于,這次率先實現(xiàn)預期成本下降的是一家中國公司。這在歷史上是第一次發(fā)生,因此具有重要的地緣政治意義。不過,美國 AI 公司很快也會跟上這一趨勢,而且它們并不是通過復制 DeepSeek 來實現(xiàn)的,而是因為它們自身也在沿著既定的成本下降曲線前進。

無論是 DeepSeek 還是美國 AI 公司,現(xiàn)在都擁有比訓練它們現(xiàn)有主力模型時更多的資金和芯片。這些額外的芯片被用于研發(fā)新的模型技術(shù),有時也會用于訓練尚未發(fā)布、或者需要多次嘗試才能完善的大型模型。

據(jù)報道(盡管我們無法確認其真實性),DeepSeek 實際上擁有 50000 片 Hopper 代 GPU⁶,而我估計這大約是美國主要 AI 公司 GPU 規(guī)模的 1/2 到 1/3(例如,這個數(shù)量比 xAI 的「Colossus」集群少 2 到 3 倍)⁷。這 50000 片 Hopper GPU 的成本大約在 10 億美元左右。

因此,DeepSeek 作為一家公司(而不僅僅是某個單一模型的訓練費用)的總投入,并沒有與美國 AI 研究實驗室有巨大的差距。

值得注意的是,「擴展曲線」(scaling curve)的分析其實有些過于簡化了。不同的模型各有特點,擅長的領(lǐng)域也不同,而擴展曲線的數(shù)值只是一個粗略的平均值,忽略了許多細節(jié)。

就我所了解的 Anthropic 的模型而言,正如我之前提到的,Claude 在代碼生成和與用戶進行高質(zhì)量互動方面表現(xiàn)極佳,許多人甚至將其用于個人建議或支持。在這些方面,以及其他一些特定任務(wù)上,DeepSeek 根本無法與之相比,而這些差距并不會直接反映在擴展曲線的數(shù)據(jù)中。

上周發(fā)布的 R1 讓公眾高度關(guān)注,并導致英偉達股價下跌約 17%。但從創(chuàng)新或工程角度來看,R1 遠不如 V3 令人興奮。

R1 只是在訓練中增加了第二階段——強化學習(這一點在上一部分的 #3 中有提到),本質(zhì)上是對 OpenAI 在 o1 版本中的方法的復現(xiàn)(兩者的規(guī)模和效果似乎相近)⁸。不過,由于目前仍處于擴展曲線的早期階段,多家公司都有可能訓練出類似的模型,前提是它們有一個強大的預訓練基礎(chǔ)模型。

在 V3 現(xiàn)有的基礎(chǔ)上訓練出 R1 可能成本非常低。因此,我們正處于一個有趣的「交叉點」:在這個階段,多個公司都能訓練出優(yōu)秀的推理能力模型。但這種情況不會持續(xù)太久,隨著模型繼續(xù)沿擴展曲線向上發(fā)展,這種「門檻較低」的窗口期將很快結(jié)束。

芯片出口管制

以上分析其實只是為我真正關(guān)注的話題做鋪墊——對中國的芯片出口管制。結(jié)合前面的事實,我認為當前的情況如下:

AI 訓練的趨勢是,企業(yè)會投入越來越多的資金來訓練更強大的模型。雖然訓練同等智能水平模型的成本在不斷下降,但 AI 模型的經(jīng)濟價值實在太高,因此節(jié)省下來的成本幾乎立即被重新投入,以訓練更強大的模型,而整體支出仍然保持在原來的高額水平。

DeepSeek 研發(fā)的效率優(yōu)化方法,如果美國實驗室還沒有掌握,那么很快也會被美中雙方的實驗室應用于訓練價值數(shù)十億美元的 AI 模型。這些新模型的表現(xiàn)將比原本計劃訓練的多億美元級模型更強,但投入依然會是數(shù)十億美元,并且這個數(shù)字還會持續(xù)上升,直到 AI 智能水平超越幾乎所有人在幾乎所有領(lǐng)域的能力。

要打造這樣比幾乎所有人都更聰明的 AI,需要數(shù)百萬顆芯片、至少數(shù)百億美元的資金,并且最有可能在 2026-2027 年實現(xiàn)。DeepSeek 的最新發(fā)布并不會改變這個趨勢,因為它們的成本下降幅度仍然在預期范圍內(nèi),這一點早已納入行業(yè)的長期計算。

這意味著,到 2026-2027 年,世界可能會出現(xiàn)兩種截然不同的局面,在美國,多家公司肯定會擁有所需的數(shù)百萬顆芯片(成本高達數(shù)百億美元)。問題在于,中國是否也能獲得數(shù)百萬顆芯片⁹。

如果中國能夠獲得數(shù)百萬顆芯片,我們將進入一個雙極世界(bipolar world),即美國和中國都擁有強大的 AI 模型,推動科學技術(shù)以前所未有的速度發(fā)展——我稱之為「數(shù)據(jù)中心里的天才國家」(countries of geniuses in a datacenter)。

但雙極世界未必會長期保持平衡。即使中美 AI 技術(shù)暫時相當,中國可能會投入更多的人才、資金和精力來將 AI 技術(shù)應用于軍事領(lǐng)域。再加上中國龐大的工業(yè)基礎(chǔ)和軍事戰(zhàn)略優(yōu)勢,這可能使中國不僅在 AI 領(lǐng)域取得主導地位,甚至在全球各個領(lǐng)域占據(jù)領(lǐng)先。

如果中國無法獲得數(shù)百萬顆芯片,我們至少暫時會進入一個單極世界(unipolar world),即只有美國及其盟友掌握最先進的 AI 模型。這個單極局面是否會持續(xù)并不確定,但至少有可能出現(xiàn)這樣一種情況:由于 AI 系統(tǒng)可以幫助構(gòu)建更強的 AI,短暫的領(lǐng)先可能會被轉(zhuǎn)化為長期優(yōu)勢¹⁰。在這種情況下,美國及其盟友可能會在全球舞臺上取得決定性并長期的主導地位。

因此,嚴格執(zhí)行的出口管制¹¹是阻止中國獲取數(shù)百萬顆芯片的唯一有效手段,也是決定世界最終是單極還是雙極格局的最重要因素。

DeepSeek 的成功并不意味著出口管制失效。正如我之前所說,DeepSeek 實際上擁有相當可觀的芯片資源,因此他們能夠開發(fā)并訓練出強大的模型并不令人意外。他們在資源上并沒有比美國 AI 公司受到更大的限制,出口管制也并不是促使他們「創(chuàng)新」的主要原因。他們只是非常優(yōu)秀的工程師,而這正說明了中國在 AI 領(lǐng)域是美國的嚴峻競爭對手。

DeepSeek 的成功也并不意味著中國可以一直通過走私獲得所需的芯片,或者出口管制存在無法堵住的漏洞。我認為,出口管制從來就不是為了阻止中國獲得幾萬顆芯片。10 億美元的經(jīng)濟活動可以隱藏,但 100 億美元甚至 10 億美元的活動就難以掩蓋了,而要偷偷運送上百萬顆芯片在物理上也可能極為困難。

我們還可以看看目前 DeepSeek 被報道所擁有的芯片類型。據(jù) SemiAnalysis 分析,DeepSeek 現(xiàn)有的 50000 片 AI 芯片是 H100、H800 和 H20 的混合。

H100 自推出以來就受到出口管制的限制,因此如果 DeepSeek 擁有 H100,那它們必然是通過走私獲得的。(不過,值得注意的是,英偉達曾表示 DeepSeek 的 AI 進展「完全符合出口管制規(guī)定」)。

H800 在 2022 年最初的出口管制政策下仍可出口,但在 2023 年 10 月政策更新后被禁止,因此這些芯片可能是在禁令生效前運送的。

H20 在訓練方面效率較低,但在推理(采樣)方面更高效,目前仍允許出口,但我認為它也應該被禁止。

綜上所述,DeepSeek 擁有的 AI 芯片主要包括目前尚未被禁(但應該被禁)的芯片、在被禁之前獲得的芯片、可能通過走私獲取的少量芯片。

這實際上表明了出口管制正在發(fā)揮作用,并且在不斷調(diào)整優(yōu)化:如果出口管制完全無效,DeepSeek 現(xiàn)在很可能會擁有一整批頂級的 H100 芯片。然而,事實并非如此,這說明政策正在逐步堵住漏洞。如果我們能夠足夠快地加強管控,就可能阻止中國獲得數(shù)百萬顆芯片,從而提高美國維持 AI 領(lǐng)先地位、形成單極世界的可能性。

關(guān)于出口管制和美國國家安全,我想明確一點:

我并不認為 DeepSeek 本身是對手,我也不是專門針對這家公司。從他們接受采訪時的表現(xiàn)來看,DeepSeek 的研究人員看起來像是聰明、充滿好奇心的工程師,他們只是想開發(fā)出有用的技術(shù)。

出口管制是我們最強有力的手段之一,能夠阻止這種情況發(fā)生。有人認為,AI 技術(shù)變得越來越強、性價比越來越高,是一個應該放松出口管制的理由——但這完全沒有道理。

腳注

1 關(guān)于模型蒸餾:在這篇文章中,我不對有關(guān) DeepSeek 是否對西方模型進行蒸餾的報道發(fā)表任何看法。我僅基于 DeepSeek 論文中提供的信息,假設(shè)他們確實按照自己所述的方式訓練了模型。

2 DeepSeek 的發(fā)布并不影響英偉達:事實上,我認為 DeepSeek 模型的發(fā)布顯然不會對英偉達造成負面影響,而英偉達股價因此下跌約 17% 讓我感到困惑。從邏輯上講,DeepSeek 的發(fā)布對英偉達的影響甚至比對其他 AI 公司的影響還要小。但無論如何,我這篇文章的主要目的是為出口管制政策辯護。

3 關(guān)于 R1 訓練方式的細節(jié):更精確地說,R1 是一個預訓練模型,并且僅進行了少量的強化學習(RL)訓練,這種做法在推理范式變革前的模型中很常見。

4 DeepSeek 在某些特定任務(wù)上表現(xiàn)較強:但這些任務(wù)范圍非常有限。

5 關(guān)于 DeepSeek 論文中提到的「600 萬美元訓練成本」:這個數(shù)據(jù)是 DeepSeek 論文中引用的,我在這里暫且接受,并不對其真實性提出質(zhì)疑。不過,我質(zhì)疑的是將此與美國 AI 公司的訓練成本直接對比的合理性。600 萬美元僅指訓練某個具體模型的成本,但 AI 研發(fā)的整體成本要遠遠高于這個數(shù)字。此外,我們也無法完全確定 600 萬美元的真實性——雖然模型規(guī)?梢则炞C,但訓練時使用的 token 數(shù)量等因素卻難以核實。

6 關(guān)于 DeepSeek 現(xiàn)有芯片的更正:在一些采訪中,我曾說 DeepSeek 擁有 「50,000 片 H100」,但這實際上是對相關(guān)報道的不準確概括,在此更正。H100 是目前最知名的 Hopper 架構(gòu)芯片,所以我當時假設(shè)報道所指的就是 H100。但實際上,Hopper 系列還包括 H800 和 H20,DeepSeek 擁有的是這三種芯片的混合,總數(shù)為 50000 片。雖然這個事實并不會改變整體情況,但仍值得澄清。我在討論出口管制時會更詳細地分析 H800 和 H20 的問題。

10 出口管制的目標:這里需要明確一點,目標并不是剝奪中國從 AI 科技進步中獲益的機會——AI 在科學、醫(yī)療、生活質(zhì)量等領(lǐng)域的突破,理應造福所有人。真正的目標是防止這些國家在軍事領(lǐng)域取得主導地位。

本文來源:愛范兒

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部