首頁 > 科技要聞 > 科技> 正文

DeepSeek被誤讀的5個真相,AI大佬親自揭秘

appso 整合編輯:太平洋科技 發(fā)布于:2025-02-06 12:08

讓我們再復習一遍:小紅靠捧,大紅靠命。

DeepSeek 已經(jīng)爆火了一個春節(jié),紅起來自然是非就多。尤其在海外局勢變化錯綜復雜的情況下,DeepSeek 的中國血統(tǒng),給它招來了許多謠言。

Stability AI 曾經(jīng)的研究主管 Tanishq Mathew Abraham 昨天挺身而出,以自己業(yè)內(nèi)人士的身份下場,指出了 DeepSeek 極為特殊的幾點:

1.性能實際上與 OpenAI 的 o1 一樣好,這是一個前沿模型,標志著開源真正趕上了閉源

2.與其他前沿模型相比,DeepSeek 以相對較低的訓練費用完成

3.易于使用的界面,結(jié)合其網(wǎng)站和應(yīng)用程序中可見的思維鏈,吸引了數(shù)百萬新用戶加入

除此之外,他更是針對幾大流行的謠言,寫了長長一篇博文,分析解釋了圍繞在 DeepSeek 四周的(離譜)言論。

以下為博客文章,內(nèi)容有所編輯:

2025 年 1 月 20 日,一家名為 DeepSeek 的中國 AI 公司開源并發(fā)布了他們的推理模型 R1。鑒于 DeepSeek 是一家中國公司,美國及其 AGI 公司存在各種「國家安全擔憂」。由于這一點,關(guān)于它的錯誤信息已經(jīng)廣泛傳播。

這篇文章的目的是反駁自 DeepSeek 發(fā)布以來,許多關(guān)于 DeepSeek 的極端糟糕的 AI 相關(guān)觀點。同時,作為一個在生成式 AI 前沿工作的 AI 研究人員,提供更有平衡性的觀點。

謠言 1:可疑!DeepSeek 是一家突然冒出來的中國公司

完全錯誤,到 2025 年 1 月,幾乎所有生成式 AI 研究人員都已經(jīng)聽說過 DeepSeek。DeepSeek 甚至在完整版發(fā)布前幾個月就發(fā)布了 R1 的預(yù)覽!

任何傳播這種謠言的人,很可能并不從事人工智能工作——如果你不涉足該領(lǐng)域,卻以為自己了解這個領(lǐng)域的一切,是荒謬且極其自負的。

DeepSeek 的首個開源模型 DeepSeek-Coder,于 2023 年 11 月發(fā)布。當時是業(yè)界領(lǐng)先的代碼 LLMs(編者注:專注于理解和生成代碼的語言模型)。正如下面的圖表所示,DeepSeek 在一年內(nèi)持續(xù)發(fā)貨,達到 R1:

這不是一夜之間的成功,他們進步的速度也沒有什么可疑之處。在人工智能發(fā)展如此迅速,且他們擁有一個明顯高效的團隊的情況下,一年內(nèi)取得這樣的進步在我看來是非常合理的。

如果您想知道哪些公司在公眾視野之外,但 AI 領(lǐng)域內(nèi)備受看好,我會推薦關(guān)注 Qwen(阿里巴巴)、YI(零一萬物)、Mistral、Cohere、AI2。

需要注意的是,它們沒有像 DeepSeek 那樣持續(xù)發(fā)布 SOTA 模型,但它們都有潛力發(fā)布出色的模型,正如它們過去所展示的那樣。

謠言 2:撒謊!這個模型的成本不是 600 萬美元

這是一個有趣的問題。這類謠言認為 DeepSeek 想避免承認他們有非法的幕后交易來獲取他們不應(yīng)獲得的計算資源(由于出口管制),從而在關(guān)于模型訓練成本的真實性上撒謊。

首先,600 萬美元這個數(shù)字值得好好研究。它在 DeepSeek-V3 論文中有提及,該論文是在 DeepSeek-R1 論文發(fā)布前一個月發(fā)布的:

DeepSeek-V3 是 DeepSeek-R1 的基礎(chǔ)模型,這意味著 DeepSeek-R1 是 DeepSeek-V3 加上一些額外的強化學習訓練。所以在某種程度上,成本已經(jīng)不準確,因為強化學習訓練的額外成本沒有被計算在內(nèi)。但那可能只會花費幾十萬美元。

好的,那么 DeepSeek-V3 論文中提到的 550 萬美元,是不正確的嗎?基于 GPU 成本、數(shù)據(jù)集大小和模型大小的眾多分析,已經(jīng)得出了類似的估計。

請注意,雖然 DeepSeek V3/R1 是一個 671B 參數(shù)的模型,但它是一個專家混合模型,這意味著模型的任何函數(shù)調(diào)用/前向傳遞只使用約 37B 參數(shù),這是計算訓練成本所使用的值。

然而,DeepSeek 的成本,是基于當前市場價格估計的這些 GPU 的成本。我們實際上并不知道他們的 2048 個 H800 GPU 集群(注意:不是 H100s,這是一個常見的誤解和混淆�。┑某杀尽Mǔ�,連續(xù)的 GPU 集群在批量購入時成本會更低,因此甚至可能更便宜。

但是這里有個問題,這是最終運行的成本。在這成功之前,可能進行了許多在小規(guī)模的實驗和消融,這一部分會需要相當大的成本,但這些并未在此處報告。

除此之外,可能還有許多其他成本,如研究員薪資。SemiAnalysis 報告稱,DeepSeek 的研究員薪資傳聞約為 100 萬美元。這相當于 AGI 前沿實驗室如 OpenAI 或 Anthropic 的高薪水平。

通常,當報道和比較不同模型的訓練成本時,最終的訓練運行成本是最受關(guān)注的。但由于糟糕的論調(diào)和錯誤信息的傳播,人們一直在爭論額外的成本使 DeepSeek 的低成本和高效運營性質(zhì)受到質(zhì)疑。這是極其不公平的。

無論是從消融/實驗的角度,還是從其他 AGI 前沿實驗室的研究人員薪酬的角度來看,成本都非常顯著,但這些通常在這樣的討論中沒有被提及!

謠言 3:這么便宜?所有美國 AGI 公司都在浪費錢,看跌英偉達

我認為這又是一個相當愚蠢的看法。與許多其他 LLM 相比,DeepSeek 在訓練中確實效率更高。是的,許多美國前沿實驗室在計算上效率低下是非�?赡艿�。然而,這并不一定意味著擁有更多的計算資源是壞事。

老實說,每當聽到這樣的觀點,我就清楚地知道他們不懂 scaling laws,也不懂 AGI 公司 CEO(以及任何被視為 AI 專家的人)的心態(tài)。

Scaling laws 表明,只要我們繼續(xù)將更多的計算能力投入到模型中,我們就能獲得更好的性能。當然,AI 擴展的確切方法和方面隨著時間的推移而發(fā)生了變化:最初是模型大小,然后是數(shù)據(jù)集大小,現(xiàn)在是推理時間計算和合成數(shù)據(jù)。

自 2017 年原始 Transformer 以來,更多的計算能力等于更好的性能的整體趨勢似乎仍在持續(xù)。

更高效的模型意味著您可以在給定的計算預(yù)算下獲得更高的性能,但更多的計算資源仍然更好。更高效的模型意味著可以用更少的計算資源做更多的事情,但使用更多的計算資源,可以做到更多!

你可能有自己的關(guān)于 scaling laws 的看法。你可能認為即將出現(xiàn)一個平臺期。你可能認為過去的表現(xiàn)并不能預(yù)示未來的結(jié)果。

但如果所有最大的 AGI 公司都在押注 scaling laws 能夠持續(xù)足夠長的時間,以實現(xiàn) AGI 和 ASI。這是他們的堅定信念,那么唯一合理的行動就是獲取更多的計算能力

現(xiàn)在你可能認為「NVIDIA 的 GPU 很快就會過時,看看 AMD、Cerebras、Graphcore、TPUs、Trainium 等」,blabla。有數(shù)百萬種針對 AI 的硬件產(chǎn)品,都在試圖與 NVIDIA 競爭。其中之一可能在將來獲勝。在這種情況下,也許這些 AGI 公司會轉(zhuǎn)向它們——但這與 DeepSeek 的成功完全無關(guān)。

個人而言,我認為沒有強有力的證據(jù)表明其他公司會撼動 NVIDIA 在 AI 加速芯片領(lǐng)域的統(tǒng)治地位,鑒于 NVIDIA 目前的市場統(tǒng)治地位和持續(xù)的創(chuàng)新水平。

總體而言,我看不出為什么 DeepSeek 意味著你應(yīng)該看跌 NVIDIA。你可能有其他理由看跌 NVIDIA,這些理由可能非常合理且正確,但 DeepSeek 似乎不是我認為合適的理由。

謠言 4:模仿罷了!DeepSeek 沒有做出任何有意義的創(chuàng)新

錯誤。語言模型的設(shè)計和訓練方法有很多創(chuàng)新,其中一些比其他更重要。以下是一些(不是完整的列表,可以閱讀 DeepSeek-V3 和 DeepSeek-R1 論文以獲取更多詳細信息):

多頭潛注意力 (MLA) - LLMs 通常是指利用所謂的多頭注意力(MHA)機制的 Transformer。DeepSeek 團隊開發(fā)了一種 MHA 機制的變體,它既更節(jié)省內(nèi)存,又提供更好的性能。

GRPO 與可驗證獎勵 - 自從 o1 發(fā)布以來,AI 從業(yè)者一直在嘗試復制它。由于 OpenAI 對它的工作方式一直相當保密,大家不得不探索各種不同的方法來實現(xiàn)類似 o1 的結(jié)果。有各種嘗試,如蒙特卡洛樹搜索(谷歌 DeepMind 在圍棋中獲勝所采用的方法),結(jié)果證明不如最初預(yù)期的那樣有希望。

DeepSeek 展示了一個非常簡單的強化學習(RL)管道實際上可以實現(xiàn)類似 o1 的結(jié)果。除此之外,他們還開發(fā)了自己變種的常見 PPO RL 算法,稱為 GRPO,它更高效且性能更好。我想 AI 社區(qū)中的許多人都在想,我們?yōu)槭裁粗皼]有嘗試過這種方法呢?

DualPipe - 在多個 GPU 上訓練 AI 模型時,有許多效率方面需要考慮。你需要弄清楚模型和數(shù)據(jù)集如何在所有 GPU 之間分配,數(shù)據(jù)如何通過 GPU 流動等。你還需要減少 GPU 之間任何數(shù)據(jù)傳輸,因為它非常慢,最好盡可能在每個單獨的 GPU 上處理。

無論如何,有許多設(shè)置此類多 GPU 訓練的方法,DeepSeek 團隊設(shè)計了一種新的、效率更高且速度更快的解決方案,稱為 DualPipe。

我們非常幸運,DeepSeek 完全開源了這些創(chuàng)新,并寫了詳細的介紹,這與美國 AGI 公司不同�,F(xiàn)在,每個人都可以受益,用這些創(chuàng)新的辦法來提高他們自己的 AI 模型訓練

謠言 5:DeepSeek 正在「汲取」ChatGPT 的知識

戴維·薩克斯(美國政府的 AI 和加密巨頭)和 OpenAI 聲稱,DeepSeek 使用一種稱為蒸餾的技術(shù)「汲取」ChatGPT 的知識。

首先,這里的「蒸餾」一詞使用得非常奇怪。通常,蒸餾指的是在所有可能的下一個詞(token)的全概率(logits)上進行訓練,但這個信息甚至不能通過 ChatGPT 暴露出來。

但是好吧,就假設(shè)我們在討論如何使用 ChatGPT 生成的文本進行訓練,盡管這并不是該術(shù)語的典型用法。

OpenAI 及其員工聲稱 DeepSeek 自己使用 ChatGPT 生成文本并在此基礎(chǔ)上進行訓練。他們沒有提供證據(jù),但如果這是真的,那么 DeepSeek 顯然違反了 ChatGPT 的服務(wù)條款。我認為這對一家中國公司來說,法律后果尚不明確,但我對此了解不多。

請注意,這僅限于 DeepSeek 自己生成了用于訓練的數(shù)據(jù)。如果 DeepSeek 使用了來自其他來源的 ChatGPT 生成數(shù)據(jù)(目前有許多公開數(shù)據(jù)集),我的理解是這種「蒸餾」或合成數(shù)據(jù)訓練并未被 TOS 禁止。

盡管如此,在我看來,這并不減少 DeepSeek 的成就。與 DeepSeek 的效率方面相比,作為研究人員,讓我印象更深刻的是他們對 o1 的復制。我非常懷疑對 ChatGPT 進行「蒸餾」有任何幫助,這種懷疑完全是出于 o1 的 CoT 思維過程從未公開過,那么 DeepSeek 如何能夠?qū)W習它呢?

此外,許多 LLMs 確實在 ChatGPT(以及其他 LLM)上進行了訓練,而且在新抓取的任何互聯(lián)網(wǎng)內(nèi)容中自然也會有 AI 文本。

總體而言,認為 DeepSeek 的模型表現(xiàn)良好僅僅是因為它簡單提煉了 ChatGPT 的觀點,是忽略了 DeepSeek 在工程、效率和架構(gòu)創(chuàng)新方面的現(xiàn)實。

應(yīng)該擔心中國在人工智能領(lǐng)域的霸權(quán)嗎?

或許有一點?坦白說,現(xiàn)在和兩個月前相比,中美 AI 競賽在實質(zhì)上并沒有太多變化。相反,外界的反應(yīng)相當激烈,這確實可能通過資金、監(jiān)管等方面的變化影響整體 AI 格局。

中國人一直都在人工智能領(lǐng)域具有競爭力,DeepSeek 現(xiàn)在讓他們變得無法忽視。

關(guān)于開源的典型論點是,由于中國落后,我們不應(yīng)該公開分享我們的技術(shù),讓他們趕上。但顯然,中國已經(jīng)趕上了,他們實際上很久以前就已經(jīng)趕上了,他們在開源方面實際上處于領(lǐng)先地位,因此不清楚進一步收緊我們的技術(shù),實際上的幫助是否有那么大。

請注意,像 OpenAI、Anthropic 和 Google DeepMind 這樣的公司肯定有比 DeepSeek R1 更好的模型。例如,OpenAI 的 o3 模型的基準測試結(jié)果相當令人印象深刻,他們可能已經(jīng)有一個后續(xù)模型正在開發(fā)中。

在此基礎(chǔ)上,隨著像星門項目以及 OpenAI 即將到來的融資輪等重要額外投資,OpenAI 和其他美國前沿實驗室將擁有充足的計算能力,以保持他們的領(lǐng)先地位。

當然,中國將向人工智能發(fā)展投入大量額外資金。所以總的來說,競爭正在升溫!但我認為,美國 AGI 前沿實驗室保持領(lǐng)先的道路仍然相當有希望。

結(jié)論

一方面,一些 AI 人士,尤其是 OpenAI 的一些人,試圖淡化 DeepSeek。而另一方面,一些評論家和自稱專家對 DeepSeek 又反應(yīng)過度。

需要指出的是,OpenAI、Anthropic、Meta、Google、xAI 和 NVIDIA 等并沒有就此完蛋。不,DeepSeek (很可能)沒有在說他們所做的事情上撒謊。

然而無論如何,必須承認的是:DeepSeek 應(yīng)得到認可,R1 是一個令人印象深刻的模型。

原文鏈接:

https://www.tanishq.ai/blog/posts/deepseek-delusions.html

本文來源:Appso

appso

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部