首頁(yè) > 科技要聞 > 科技> 正文

DeepSeek霸榜App Store,中國(guó) AI 引發(fā)美國(guó)科技圈地震的一周

愛(ài)范兒 整合編輯:吳利虹 發(fā)布于:2025-01-26 17:56

過(guò)去一周,來(lái)自中國(guó)的 DeepSeek R1 模型攪動(dòng)整個(gè)海外 AI 圈。

一方面,它以較低的訓(xùn)練成本實(shí)現(xiàn)了媲美 OpenAI o1 性能的效果,詮釋了中國(guó)在工程能力和規(guī)模創(chuàng)新上的優(yōu)勢(shì);另一方面,它也秉持開(kāi)源精神,熱衷分享技術(shù)細(xì)節(jié)。

最近,來(lái)自加州伯克利大學(xué)在讀博士 Jiayi Pan 的研究團(tuán)隊(duì)更是成功地以極低的成本(低于 30 美元)復(fù)現(xiàn)了 DeepSeek R1-Zero 的關(guān)鍵技術(shù)——「頓悟時(shí)刻」。

所以也難怪 Meta CEO 扎克伯格、圖靈獎(jiǎng)得主 Yann LeCun 以及 Deepmind CEO Demis Hassabis 等人都對(duì) DeepSeek 給予了高度評(píng)價(jià)。

隨著 DeepSeek R1 的熱度不斷攀升,今天下午,DeepSeek App 因用戶(hù)訪(fǎng)問(wèn)量激增而短暫出現(xiàn)服務(wù)器繁忙的狀況,甚至一度「崩了」。

OpenAI CEO Sam Altman 剛剛也試圖劇透 o3-mini 使用額度,來(lái)?yè)尰貒?guó)際媒體的頭版頭條——ChatGPT Plus 會(huì)員每天可查詢(xún) 100 次。

然而,鮮為人知的是,在聲名鵲起之前,DeepSeek 母公司幻方量化其實(shí)是國(guó)內(nèi)量化私募領(lǐng)域的頭部企業(yè)之一。

DeepSeek 模型震撼硅谷,含金量還在上升

2024 年 12 月 26 日,DeepSeek 正式發(fā)布了 DeepSeek-V3 大模型。

這款模型在多項(xiàng)基準(zhǔn)測(cè)試表現(xiàn)優(yōu)異,超越業(yè)內(nèi)主流頂尖模型,特別是在知識(shí)問(wèn)答、長(zhǎng)文本處理、代碼生成和數(shù)學(xué)能力等方面。例如,在 MMLU、GPQA 等知識(shí)類(lèi)任務(wù)中,DeepSeek-V3 的表現(xiàn)接近國(guó)際頂尖模型 Claude-3.5-Sonnet。

在數(shù)學(xué)能力方面,更是在 AIME 2024 和 CNMO 2024 等測(cè)試中創(chuàng)造了新的記錄,超越所有已知的開(kāi)源和閉源模型。同時(shí),其生成速度較上代提升了 200%,達(dá)到 60 TPS,大幅改善了用戶(hù)體驗(yàn)。

根據(jù)獨(dú)立評(píng)測(cè)網(wǎng)站 Artificial Analysis 的分析,DeepSeek-V3 在多項(xiàng)關(guān)鍵指標(biāo)上超越了其他開(kāi)源模型,并在性能上與世界頂尖的閉源模型 GPT-4o 和 Claude-3.5-Sonnet 不分伯仲。

DeepSeek-V3 的核心技術(shù)優(yōu)勢(shì)包括:

混合專(zhuān)家(MoE)架構(gòu):DeepSeek-V3 擁有 6710 億參數(shù),但在實(shí)際運(yùn)行中,每個(gè)輸入僅激活 370 億參數(shù),這種選擇性激活的方式大大降低了計(jì)算成本,同時(shí)保持了高性能。

多頭潛在注意力(MLA):該架構(gòu)在 DeepSeek-V2 中已經(jīng)得到驗(yàn)證,能夠?qū)崿F(xiàn)高效的訓(xùn)練和推理。

無(wú)輔助損失的負(fù)載平衡策略:這一策略旨在最小化因負(fù)載平衡對(duì)模型性能產(chǎn)生的負(fù)面影響。

多tokens預(yù)測(cè)訓(xùn)練目標(biāo):該策略提升了模型的整體性能。

高效的訓(xùn)練框架:采用 HAI-LLM 框架,支持 16-way Pipeline Parallelism(PP)、64-way Expert Parallelism(EP)和 ZeRO-1 Data Parallelism(DP),并通過(guò)多種優(yōu)化手段降低了訓(xùn)練成本。

更重要的是,DeepSeek-V3 的訓(xùn)練成本僅為 558 萬(wàn)美元,遠(yuǎn)低于如訓(xùn)練成本高達(dá) 7800 萬(wàn)美元的 GPT-4。并且,其 API 服務(wù)價(jià)格也延續(xù)了過(guò)往親民的打法。

輸入 tokens 每百萬(wàn)僅需 0.5元(緩存命中)或 2 元(緩存未命中),輸出 tokens 每百萬(wàn)僅需 8 元。

《金融時(shí)報(bào)》將其描述為「震驚國(guó)際科技界的黑馬」,認(rèn)為其性能已與資金雄厚的 OpenAI 等美國(guó)競(jìng)爭(zhēng)對(duì)手模型相媲美。Maginative 創(chuàng)始人 Chris McKay 更進(jìn)一步指出,DeepSeek-V3 的成功或?qū)⒅匦露x AI 模型開(kāi)發(fā)的既定方法。

換句話(huà)說(shuō),DeepSeek-V3 的成功也被視為對(duì)美國(guó)算力出口限制的直接回應(yīng),這種外部壓力反而刺激了中國(guó)的創(chuàng)新。

DeepSeek 創(chuàng)始人梁文鋒,低調(diào)的浙大天才

DeepSeek 的崛起讓硅谷寢食難安,這個(gè)攪動(dòng)全球 AI 行業(yè)模型的背后創(chuàng)始人梁文鋒則完美詮釋了中國(guó)傳統(tǒng)意義上天才的成長(zhǎng)軌跡——少年功成,歷久彌新。

一個(gè)好的 AI 公司領(lǐng)導(dǎo)者,需要既懂技術(shù)又懂商業(yè),既要有遠(yuǎn)見(jiàn)又要?jiǎng)?wù)實(shí),既要有創(chuàng)新勇氣又要有工程紀(jì)律。這種復(fù)合型人才本身就是稀缺資源。

17 歲考入浙江大學(xué)信息與電子工程學(xué)專(zhuān)業(yè),30 歲創(chuàng)辦幻方量化(Hquant),開(kāi)始帶領(lǐng)團(tuán)隊(duì)探索全自動(dòng)量化交易。梁文鋒的故事印證了天才總會(huì)在正確的時(shí)間做對(duì)的事。

2010 年:隨著滬深 300 股指期貨推出,量化投資迎來(lái)發(fā)展機(jī)遇,幻方團(tuán)隊(duì)乘勢(shì)而上,自營(yíng)資金迅速增長(zhǎng)。

2015 年:梁文鋒與校友共同創(chuàng)立幻方量化,次年推出首個(gè) AI 模型,上線(xiàn)深度學(xué)習(xí)生成的交易倉(cāng)位。

2017 年:幻方量化宣稱(chēng)實(shí)現(xiàn)投資策略全面 AI 化。

2018 年:確立 AI 為公司主要發(fā)展方向。

2019 年:資金管理規(guī)模突破百億元,成為國(guó)內(nèi)量化私募「四巨頭」一。

2021 年:幻方量化成為國(guó)內(nèi)首家突破千億規(guī)模的量化私募大廠(chǎng)。

你不能只在成功的時(shí)候才想起這家公司在過(guò)去幾年坐冷板凳的日子。不過(guò),就像量化交易公司轉(zhuǎn)型 AI,看似意外,實(shí)則順理成章 —— 因?yàn)樗鼈兌际菙?shù)據(jù)驅(qū)動(dòng)的技術(shù)密集型行業(yè)。

黃仁勛只想賣(mài)游戲顯卡,賺我們這些臭打游戲的三瓜兩棗,卻沒(méi)想到成了全球最大的 AI 軍火庫(kù),幻方踏進(jìn) AI 領(lǐng)域也是何其相似。這種演進(jìn)比當(dāng)下許多行業(yè)生搬硬套 AI 大模型更有生命力。

幻方量化在量化投資過(guò)程中積累了大量數(shù)據(jù)處理和算法優(yōu)化經(jīng)驗(yàn),同時(shí)擁有大量 A100 芯片,為 AI 模型訓(xùn)練提供了強(qiáng)大硬件支持。從 2017 年開(kāi)始,幻方量化大規(guī)模布局 AI 算力,搭建「螢火一號(hào)」「螢火二號(hào)」等高性能計(jì)算集群,為 AI 模型訓(xùn)練提供強(qiáng)大算力支持。

2023 年,幻方量化正式成立 DeepSeek,專(zhuān)注于 AI 大模型研發(fā)。DeepSeek 繼承了幻方量化在技術(shù)、人才和資源方面的積累,迅速在 AI 領(lǐng)域嶄露頭角。

在接受《暗涌》的深度訪(fǎng)談中,DeepSeek 創(chuàng)始人梁文鋒同樣展現(xiàn)出獨(dú)特的戰(zhàn)略視野。

不同于大多數(shù)選擇復(fù)制 Llama 架構(gòu)的中國(guó)公司,DeepSeek 直接從模型結(jié)構(gòu)入手,只為瞄準(zhǔn) AGI 的宏偉目標(biāo)。

梁文鋒毫不諱言當(dāng)前的差距當(dāng)前中國(guó) AI 與國(guó)際頂尖水平存在顯著差距,在模型結(jié)構(gòu)、訓(xùn)練動(dòng)力學(xué)和數(shù)據(jù)效率上的綜合差距導(dǎo)致需要投入 4 倍的算力才能達(dá)到同等效果。

▲圖片來(lái)自央視新聞截圖

這種直面挑戰(zhàn)的態(tài)度源于梁文鋒在幻方多年的經(jīng)驗(yàn)積累。

他強(qiáng)調(diào),開(kāi)源不僅是技術(shù)分享,更是一種文化表達(dá),真正的護(hù)城河在于團(tuán)隊(duì)的持續(xù)創(chuàng)新能力。DeepSeek 獨(dú)特的組織文化鼓勵(lì)自下而上的創(chuàng)新,淡化層級(jí),重視人才的熱情和創(chuàng)造力。

團(tuán)隊(duì)主要由頂尖高校的年輕人組成,采用自然分工模式,讓員工自主探索和協(xié)作。在招聘時(shí)更看重員工的熱愛(ài)和好奇心,而非傳統(tǒng)意義上的經(jīng)驗(yàn)和背景。

對(duì)于行業(yè)前景,梁文鋒認(rèn)為 AI 正處于技術(shù)創(chuàng)新的爆發(fā)期,而非應(yīng)用爆發(fā)期。他強(qiáng)調(diào),中國(guó)需要更多原創(chuàng)技術(shù)創(chuàng)新,不能永遠(yuǎn)處于模仿階段,需要有人站到技術(shù)前沿。

即使 OpenAI 等公司目前處于領(lǐng)先地位,但創(chuàng)新的機(jī)會(huì)仍然存在。

卷翻硅谷,Deepseek 讓海外 AI 圈坐立不安

盡管業(yè)界對(duì) DeepSeek 的評(píng)價(jià)不盡相同,但我們也搜集了一些業(yè)內(nèi)人士的評(píng)價(jià)。

英偉達(dá) GEAR Lab 項(xiàng)目負(fù)責(zé)人 Jim Fan 對(duì) DeepSeek-R1 給予了高度評(píng)價(jià)。

他指出這代表著非美國(guó)公司正在踐行 OpenAI 最初的開(kāi)放使命,通過(guò)公開(kāi)原始算法和學(xué)習(xí)曲線(xiàn)等方式實(shí)現(xiàn)影響力,順便還內(nèi)涵了一波 OpenAI。

DeepSeek-R1 不僅開(kāi)源了一系列模型,還披露了所有訓(xùn)練秘密。它們可能是首個(gè)展示 RL 飛輪重大且持續(xù)增長(zhǎng)的開(kāi)源項(xiàng)目。

影響力既可以通過(guò)『ASI 內(nèi)部實(shí)現(xiàn)』或『草莓計(jì)劃』等傳說(shuō)般的項(xiàng)目實(shí)現(xiàn),也可以簡(jiǎn)單地通過(guò)公開(kāi)原始算法和 matplotlib 學(xué)習(xí)曲線(xiàn)來(lái)達(dá)成。

華爾街頂級(jí)風(fēng)投 A16Z 創(chuàng)始人 Marc Andreesen 則認(rèn)為 DeepSeek R1 是他所見(jiàn)過(guò)的最令人驚奇和令人印象深刻的突破之一,作為開(kāi)源,這是給世界的一份意義深遠(yuǎn)的禮物。

騰訊前高級(jí)研究員、北京大學(xué)人工智能方向博士后盧菁從技術(shù)積累的角度進(jìn)行分析。他指出 DeepSeek 并非突然爆火,它承接了上一代模型版本中的很多創(chuàng)新,相關(guān)模型架構(gòu)、算法創(chuàng)新經(jīng)過(guò)迭代驗(yàn)證,震動(dòng)行業(yè)也有其必然性。

圖靈獎(jiǎng)得主、Meta 首席 AI 科學(xué)家 Yann LeCun 則提出了一個(gè)新的視角:

「給那些看到 DeepSeek 的表現(xiàn)后,覺(jué)得「中國(guó)在 AI 方面正在超越美國(guó)」的人,你們的解讀是錯(cuò)的。正確的解讀應(yīng)該是,「開(kāi)源模型正在超越專(zhuān)有模型」!

Deepmind CEO Demis Hassabis 的評(píng)價(jià)則透露出一絲憂(yōu)慮:

「它(DeepSeek)取得的成就令人印象深刻,我認(rèn)為我們需要考慮如何保持西方前沿模型的領(lǐng)先地位,我認(rèn)為西方仍然領(lǐng)先,但可以肯定的是,中國(guó)具有極強(qiáng)的工程和規(guī)模化能力!

微軟 CEO Satya Nadella 在瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇上表示,DeepSeek 切實(shí)有效地開(kāi)發(fā)出了一款開(kāi)源模型,不僅在推理計(jì)算方面表現(xiàn)出色,而且超級(jí)計(jì)算效率極高。

他強(qiáng)調(diào),微軟必須以最高度的重視來(lái)應(yīng)對(duì)中國(guó)的這些突破性進(jìn)展。

Meta CEO 扎克伯格評(píng)價(jià)則更加深入,他認(rèn)為 DeepSeek 展現(xiàn)出的技術(shù)實(shí)力和性能令人印象深刻,并指出中美之間的 AI 差距已經(jīng)微乎其微,中國(guó)的全力沖刺使得這場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈。

來(lái)自競(jìng)爭(zhēng)對(duì)手的反應(yīng)或許是對(duì) DeepSeek 最好的認(rèn)可。據(jù) Meta 員工在匿名職場(chǎng)社區(qū) TeamBlind 上的爆料,DeepSeek-V3 和 R1 的出現(xiàn)讓 Meta 的生成式 AI 團(tuán)隊(duì)陷入了恐慌。

Meta 的工程師們正在爭(zhēng)分奪秒地分析 DeepSeek 的技術(shù),試圖從中復(fù)制任何可能的技術(shù)。

原因在于 DeepSeek-V3 的訓(xùn)練成本僅為 558 萬(wàn)美元,這個(gè)數(shù)字甚至不及 Meta 某些高管的年薪。如此懸殊的投入產(chǎn)出比,讓 Meta 管理層在解釋其龐大的 AI 研發(fā)預(yù)算時(shí)倍感壓力。

國(guó)際主流媒體對(duì) DeepSeek 的崛起也給予了高度關(guān)注。

《金融時(shí)報(bào)》指出,DeepSeek 的成功顛覆了「AI 研發(fā)必須依賴(lài)巨額投入」的傳統(tǒng)認(rèn)知,證明精準(zhǔn)的技術(shù)路線(xiàn)同樣能實(shí)現(xiàn)卓越的研究成果。更重要的是,DeepSeek 團(tuán)隊(duì)對(duì)技術(shù)創(chuàng)新的無(wú)私分享,讓這家更注重研究?jī)r(jià)值的公司成為了一個(gè)格外強(qiáng)勁的競(jìng)爭(zhēng)對(duì)手。

《經(jīng)濟(jì)學(xué)人》表示,認(rèn)為中國(guó) AI 技術(shù)在成本效益方面的快速突破,已經(jīng)開(kāi)始動(dòng)搖美國(guó)的技術(shù)優(yōu)勢(shì),這可能會(huì)影響美國(guó)未來(lái)十年的生產(chǎn)力提升和經(jīng)濟(jì)增長(zhǎng)潛力。

《紐約時(shí)報(bào)》則從另一個(gè)角度切入,DeepSeek-V3 在性能上與美國(guó)公司的高端聊天機(jī)器人相當(dāng),但成本大大降低。

這表明即使在芯片出口管制的情況下,中國(guó)公司也能通過(guò)創(chuàng)新和高效利用資源來(lái)競(jìng)爭(zhēng)。并且,美國(guó)政府的芯片限制政策可能適得其反,反而推動(dòng)了中國(guó)在開(kāi)源 AI 技術(shù)領(lǐng)域的創(chuàng)新突破。

DeepSeek「報(bào)錯(cuò)家門(mén)」,自稱(chēng)是 GPT-4

在一片贊譽(yù)聲中,DeepSeek 也面臨著一些爭(zhēng)議。

不少外界人士認(rèn)為 DeepSeek可能在訓(xùn)練過(guò)程中使用了 ChatGPT 等模型的輸出數(shù)據(jù)作為訓(xùn)練材料,通過(guò)模型蒸餾技術(shù),這些數(shù)據(jù)中的「知識(shí)」被遷移到 DeepSeek 自己的模型中。

這種做法在 AI 領(lǐng)域并非罕見(jiàn),但質(zhì)疑者關(guān)注的是 DeepSeek 是否在未充分披露的情況下使用了 OpenAI 模型的輸出數(shù)據(jù)。這似乎在 DeepSeek-V3 的自我認(rèn)知上也有所體現(xiàn)。

早前就有用戶(hù)發(fā)現(xiàn),當(dāng)詢(xún)問(wèn)模型的身份時(shí),它會(huì)將自己誤認(rèn)為是 GPT-4。

高質(zhì)量數(shù)據(jù)一直是 AI 發(fā)展的重要因素,就連 OpenAI 也難以避免數(shù)據(jù)獲取的爭(zhēng)議,其從互聯(lián)網(wǎng)大規(guī)模爬取數(shù)據(jù)的做法同樣因此吃了許多版權(quán)官司,截至目前,OpenAI 與紐約時(shí)報(bào)的一審裁決尚未靴子落地,又再添新案。

所以 DeepSeek 也因此遭到了 Sam Altman 和 John Schulman 的公開(kāi)內(nèi)涵。

「復(fù)制你知道行得通的東西是(相對(duì))容易的。當(dāng)你不知道它是否行得通時(shí),做一些新的、有風(fēng)險(xiǎn)的、困難的事情是非常困難的!

不過(guò),DeepSeek 團(tuán)隊(duì)在 R1 的技術(shù)報(bào)告中明確表示未使用 OpenAI 模型的輸出數(shù)據(jù),并表示通過(guò)強(qiáng)化學(xué)習(xí)和獨(dú)特的訓(xùn)練策略實(shí)現(xiàn)了高性能。

例如,采用了多階段訓(xùn)練方式,包括基礎(chǔ)模型訓(xùn)練、強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練、微調(diào)等,這種多階段循環(huán)訓(xùn)練方式有助于模型在不同階段吸收不同的知識(shí)和能力。

省錢(qián)也是技術(shù)活,DeepSeek 背后技術(shù)的可取之道

DeepSeek-R1 技術(shù)報(bào)告里提到一個(gè)值得關(guān)注的發(fā)現(xiàn),那就是 R1 zero 訓(xùn)練過(guò)程里出現(xiàn)的「aha moment(頓悟時(shí)刻)」。在模型的中期訓(xùn)練階段,DeepSeek-R1-Zero 開(kāi)始主動(dòng)重新評(píng)估初始解題思路,并分配更多時(shí)間優(yōu)化策略(如多次嘗試不同解法)。

換句話(huà)說(shuō),通過(guò) RL 框架,AI 可能自發(fā)形成類(lèi)人推理能力,甚至超越預(yù)設(shè)規(guī)則的限制。并且這也將有望為開(kāi)發(fā)更自主、自適應(yīng)的 AI 模型提供方向,比如在復(fù)雜決策(醫(yī)療診斷、算法設(shè)計(jì))中動(dòng)態(tài)調(diào)整策略。

與此同時(shí),許多業(yè)內(nèi)人士正試圖深入解析 DeepSeek 的技術(shù)報(bào)告。OpenAI 前聯(lián)創(chuàng) Andrej Karpathy 則在 DeepSeek V3 發(fā)布后曾表示:

DeepSeek(這家中國(guó)的 AI 公司)今天讓人感到輕松,它公開(kāi)發(fā)布了一個(gè)前沿級(jí)的語(yǔ)言模型(LLM),并且在極低的預(yù)算下完成了訓(xùn)練(2048個(gè)GPU,持續(xù) 2 個(gè)月,花費(fèi) 600 萬(wàn)美元)。

作為參考,這種能力通常需要 16K 個(gè) GPU 的集群來(lái)支持,而現(xiàn)在這些先進(jìn)的系統(tǒng)大多都使用大約 100K 個(gè) GPU。例如,Llama 3(405B參數(shù))使用了 3080 萬(wàn)個(gè) GPU 小時(shí),而 DeepSeek-V3 似乎是一個(gè)更強(qiáng)大的模型,僅用了 280 萬(wàn)個(gè) GPU 小時(shí)(約為 Llama 3 的 1/11 計(jì)算量)。

如果這個(gè)模型在實(shí)際測(cè)試中也表現(xiàn)出色(例如,LLM 競(jìng)技場(chǎng)排名正在進(jìn)行,我的快速測(cè)試表現(xiàn)不錯(cuò)),那么這將是一個(gè)在資源受限的情況下,展現(xiàn)出研究和工程能力的非常令人印象深刻的成果。

那么,這是不是意味著我們不再需要大型 GPU 集群來(lái)訓(xùn)練前沿 LLM 了?并非如此,但它表明,你必須確保自己使用的資源不浪費(fèi),這個(gè)案例展示了數(shù)據(jù)和算法優(yōu)化仍然能帶來(lái)很大進(jìn)展。此外,這份技術(shù)報(bào)告也非常精彩和詳細(xì),值得一讀。

面對(duì) DeepSeek V3 被質(zhì)疑使用 ChatGPT 數(shù)據(jù)的爭(zhēng)議,Karpathy 則表示,大語(yǔ)言模型本質(zhì)上并不具備人類(lèi)式的自我意識(shí),模型是否能正確回答自己身份,完全取決于開(kāi)發(fā)團(tuán)隊(duì)是否專(zhuān)門(mén)構(gòu)建了自我認(rèn)知訓(xùn)練集,如果沒(méi)有特意訓(xùn)練,模型會(huì)基于訓(xùn)練數(shù)據(jù)中最接近的信息作答。

此外,模型將自己識(shí)別為 ChatGPT 并非問(wèn)題所在,考慮到ChatGPT相關(guān)數(shù)據(jù)在互聯(lián)網(wǎng)上的普遍性,這種回答實(shí)際上反映了一種自然的「鄰近知識(shí)涌現(xiàn)」現(xiàn)象。

Jim Fan 在閱讀 DeepSeek-R1 的技術(shù)報(bào)告過(guò)后則指出:

這篇論文的最重要觀(guān)點(diǎn)是:完全由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),完全沒(méi)有任何監(jiān)督學(xué)習(xí)(SFT)的參與,這種方法類(lèi)似于AlphaZero——通過(guò)「冷啟動(dòng)(Cold Start)」從零開(kāi)始掌握圍棋、將棋和國(guó)際象棋,而不需要模仿人類(lèi)棋手的下法。– 使用基于硬編碼規(guī)則計(jì)算的真實(shí)獎(jiǎng)勵(lì),而不是那些容易被強(qiáng)化學(xué)習(xí)“破解”的學(xué)習(xí)型獎(jiǎng)勵(lì)模型。– 模型的思考時(shí)間隨著訓(xùn)練進(jìn)程的推進(jìn)穩(wěn)步增加,這不是預(yù)先編程的,而是一種自發(fā)的特性。– 出現(xiàn)了自我反思和探索行為的現(xiàn)象。– 使用 GRPO 代替 PPO:GRPO 去除了 PPO 中的評(píng)論員網(wǎng)絡(luò),轉(zhuǎn)而使用多個(gè)樣本的平均獎(jiǎng)勵(lì)。這是一種簡(jiǎn)單的方法,可以減少內(nèi)存使用。值得注意的是,GRPO 是由 DeepSeek 團(tuán)隊(duì)在 2024 年 2 月發(fā)明的,真的是一個(gè)非常強(qiáng)大的團(tuán)隊(duì)。

同一天 Kimi 也發(fā)布了類(lèi)似的研究成果時(shí),Jim Fan 發(fā)現(xiàn)兩家公司的研究殊途同歸:

都放棄了 MCTS 等復(fù)雜樹(shù)搜索方法,轉(zhuǎn)向更簡(jiǎn)單的線(xiàn)性化思維軌跡,采用傳統(tǒng)的自回歸預(yù)測(cè)方式

都避免使用需要額外模型副本的價(jià)值函數(shù),降低了計(jì)算資源需求,提高了訓(xùn)練效率

都摒棄密集的獎(jiǎng)勵(lì)建模,盡可能依靠真實(shí)結(jié)果作為指導(dǎo),確保了訓(xùn)練的穩(wěn)定性

但兩者也存在顯著差異:

DeepSeek 采用 AlphaZero 式的純 RL 冷啟動(dòng)方法,Kimi k1.5 選擇 AlphaGo-Master 式的預(yù)熱策略,使用輕量級(jí) SFT

DeepSeek 以 MIT 協(xié)議開(kāi)源,Kimi 則在多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色,論文系統(tǒng)設(shè)計(jì)細(xì)節(jié)上更為豐富,涵蓋 RL 基礎(chǔ)設(shè)施、混合集群、代碼沙箱、并行策略

不過(guò),在這個(gè)快速迭代的 AI 市場(chǎng)中,領(lǐng)先優(yōu)勢(shì)往往稍縱即逝。其他模型公司必將迅速汲取 DeepSeek 的經(jīng)驗(yàn)并加以改進(jìn),或許很快就能迎頭趕上。

大模型價(jià)格戰(zhàn)的發(fā)起者

很多人都知道 DeepSeek 有一個(gè)名為「AI 屆拼多多」的稱(chēng)號(hào),卻并不知道這背后的含義其實(shí)源于去年打響的大模型價(jià)格戰(zhàn)。

2024 年 5 月 6 日,DeepSeek 發(fā)布了 DeepSeek-V2 開(kāi)源 MoE 模型,通過(guò)如 MLA(多頭潛在注意力機(jī)制)和 MoE(混合專(zhuān)家模型)等創(chuàng)新架構(gòu),實(shí)現(xiàn)了性能與成本的雙重突破。

推理成本被降至每百萬(wàn) token 僅 1 元人民幣,約為當(dāng)時(shí) Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。這種技術(shù)突破使得 DeepSeek 能夠在不貼錢(qián)的情況下,提供極具性?xún)r(jià)比的服務(wù),同時(shí)也給其他廠(chǎng)商帶來(lái)了巨大的競(jìng)爭(zhēng)壓力。

DeepSeek-V2 的發(fā)布引發(fā)了連鎖反應(yīng),字節(jié)跳動(dòng)、百度、阿里、騰訊、智譜 AI 紛紛跟進(jìn),大幅下調(diào)其大模型產(chǎn)品的價(jià)格。這場(chǎng)價(jià)格戰(zhàn)的影響力甚至跨越太平洋,引起了硅谷的高度關(guān)注。

DeepSeek 也因此被冠以「AI 屆的拼多多」之稱(chēng)。

面對(duì)外界的質(zhì)疑,DeepSeek 創(chuàng)始人梁文鋒在接受暗涌的采訪(fǎng)時(shí)回應(yīng)稱(chēng):

「搶用戶(hù)并不是我們的主要目的。我們降價(jià)一方面是因?yàn)槲覀冊(cè)谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來(lái)了;另一方面,我們也覺(jué)得無(wú)論是 API 還是 AI,都應(yīng)該是普惠的、人人可以用得起的東西!

事實(shí)上,這場(chǎng)價(jià)格戰(zhàn)的意義遠(yuǎn)超競(jìng)爭(zhēng)本身,更低的準(zhǔn)入門(mén)檻讓更多企業(yè)和開(kāi)發(fā)者得以接觸和應(yīng)用前沿 AI,同時(shí)也倒逼整個(gè)行業(yè)重新思考定價(jià)策略,正是在這個(gè)時(shí)期,DeepSeek 開(kāi)始進(jìn)入公眾視野,嶄露頭角。

千金買(mǎi)馬骨,雷軍挖角 AI 天才少女

幾周前,DeepSeek 還出現(xiàn)了一個(gè)引人注目的人事變動(dòng)。

據(jù)第一財(cái)經(jīng)報(bào)道,雷軍花千萬(wàn)年薪以千萬(wàn)年薪成功挖角了羅福莉,并委以小米 AI 實(shí)驗(yàn)室大模型團(tuán)隊(duì)負(fù)責(zé)人重任。

羅福莉于 2022 年加入幻方量化旗下的 DeepSeek,在 DeepSeek-V2 和最新的 R1 等重要報(bào)告中都能看到她的身影。

再后來(lái),一度專(zhuān)注于 B 端的 DeepSeek 也開(kāi)始布局 C 端,推出移動(dòng)應(yīng)用。截至發(fā)稿前,DeepSeek 的移動(dòng)應(yīng)用在蘋(píng)果 App Store 免費(fèi)版應(yīng)用最高排到第二,展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。

一連串的小高潮讓 DeepSeek 聲名鵲起,但同時(shí)也在疊加著更高的高潮,1 月 20 日晚,擁有 660B 參數(shù)的超大規(guī)模模型 DeepSeek R1 正式發(fā)布。

這款模型在數(shù)學(xué)任務(wù)上表現(xiàn)出色,如在 AIME 2024 上獲得 79.8% 的 pass@1 得分,略超 OpenAI-o1;在 MATH-500 上得分高達(dá)97.3%,與 OpenAI-o1 相當(dāng)。

編程任務(wù)方面,如 Codeforces 上獲得 2029 Elo 評(píng)級(jí),超越 96.3%的人類(lèi)參與者。在 MMLU、MMLU-Pro 和 GPQA Diamond 等知識(shí)基準(zhǔn)測(cè)試中,DeepSeek R1 得分分別為 90.8%、84.0% 和 71.5%,雖略低于 OpenAI-o1,但優(yōu)于其他閉源模型。

在最新公布的大模型競(jìng)技場(chǎng) LM Arena 的綜合榜單中,DeepSeek R1 排名第三,與 o1 并列。

在「Hard Prompts」(高難度提示詞)、「Coding」(代碼能力)和「Math」(數(shù)學(xué)能力)等領(lǐng)域,DeepSeek R1 位列第一。

在「Style Control」(風(fēng)格控制)方面,DeepSeek R1 與 o1 并列第一。

在「Hard Prompt with Style Control」(高難度提示詞與風(fēng)格控制結(jié)合)的測(cè)試中,DeepSeek R1 也與 o1 并列第一。

在開(kāi)源策略上,R1 采用 MIT License,給予用戶(hù)最大程度的使用自由,支持模型蒸餾,可將推理能力蒸餾到更小的模型,如 32B 和 70B 模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo) o1-mini 的效果,開(kāi)源力度甚至超越了此前一直被詬病的 Meta。

DeepSeek R1 的橫空出世,讓國(guó)內(nèi)用戶(hù)首次能夠免費(fèi)使用到媲美 o1 級(jí)別的模型,打破了長(zhǎng)期存在的信息壁壘。其在小紅書(shū)等社交平臺(tái)掀起的討論熱潮,堪比發(fā)布之初的 GPT-4 。

走出海去,去內(nèi)卷

回望 DeepSeek 的發(fā)展軌跡,其成功密碼清晰可見(jiàn),實(shí)力是基礎(chǔ),但品牌認(rèn)知才是護(hù)城河。

在與《晚點(diǎn)》的對(duì)話(huà)中,MiniMax CEO 閆俊杰深入分享了他對(duì) AI 行業(yè)的思考和公司戰(zhàn)略的轉(zhuǎn)變。他強(qiáng)調(diào)了兩個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn):一是認(rèn)識(shí)到技術(shù)品牌的重要性,二是理解開(kāi)源策略的價(jià)值。

閆俊杰認(rèn)為在 AI 領(lǐng)域,技術(shù)進(jìn)化速度比當(dāng)前成就更重要,而開(kāi)源可以通過(guò)社區(qū)反饋加速這一進(jìn)程;其次,強(qiáng)大的技術(shù)品牌對(duì)吸引人才、獲取資源至關(guān)重要。

以 OpenAI 為例,盡管后期遭遇管理層動(dòng)蕩,但其早期樹(shù)立的創(chuàng)新形象和開(kāi)源精神已為其積攢了第一波好印象。即便 Claude 后續(xù)在技術(shù)上已勢(shì)均力敵,逐步蠶食 OpenAI 的 B 端用戶(hù),但憑借著用戶(hù)的路徑依賴(lài),OpenAI 依然在 C 端用戶(hù)上遙遙領(lǐng)先。

在 AI 領(lǐng)域,真正的競(jìng)爭(zhēng)舞臺(tái)永遠(yuǎn)在全球,走出海去,去內(nèi)卷,去宣傳也是一條不折不扣的好路。

這股出海浪潮早已在業(yè)內(nèi)激起漣漪,更早時(shí)候的 Qwen、面壁智能、以及最近 DeepSeek R1、kimi v1.5、豆包 v1.5 Pro 都早已在海外鬧起了不小的動(dòng)靜。

2025 年雖被冠上了智能體元年,AI 眼鏡元年等諸多標(biāo)簽,但今年也將是中國(guó) AI 企業(yè)擁抱全球市場(chǎng)的重要元年,走出去將成為繞不開(kāi)的關(guān)鍵詞。

并且,開(kāi)源策略也是一步好棋,吸引了大量技術(shù)博主和開(kāi)發(fā)者自發(fā)成為 DeepSeek 的「自來(lái)水」,科技向善,不該只是口號(hào),從「AI for All」的口號(hào)到真正的技術(shù)普惠,DeepSeek 走出了一條比 OpenAI 更純粹的道路。

如果說(shuō) OpenAI 讓我們看到了 AI 的力量,那么 DeepSeek 則讓我們相信:

這股力量終將惠及每個(gè)人。

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部