首頁 > 科技要聞 > 科技> 正文

省錢也是技術(shù)活:解密DeepSeek的極致壓榨術(shù)

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2025-02-04 00:15

沒有GPU Poor,只有卷得不夠多。

DeepSeek-V3的橫空出世,用一組驚人的數(shù)據(jù)完美詮釋了這句話。

當(dāng)o1、Claude、Gemini和Llama 3等模型還在為數(shù)億美元的訓(xùn)練成本苦惱時(shí),DeepSeek-V3用557.6萬美元的預(yù)算,在2048個(gè)H800 GPU集群上僅花費(fèi)3.7天/萬億tokens的訓(xùn)練時(shí)間,就達(dá)到了足以與它們比肩的性能

這個(gè)數(shù)字意味著什么?每萬億tokens僅需180K個(gè)H800 GPU小時(shí),總計(jì)278萬 GPU小時(shí)的訓(xùn)練成本。而Llama 3.1的訓(xùn)練使用了16,384塊Nvidia H100 GPU,總計(jì)2100多萬GPU小時(shí),翻了十倍。

通過671B的總參數(shù)量,在每個(gè)token激活37B參數(shù)的精準(zhǔn)控制下,DeepSeek-V3用14.8萬億高質(zhì)量多樣化token,構(gòu)建出了一個(gè)能夠超越所有開源模型,直逼GPT-4和Claude-3.5的AI巨人。

推特上贊嘆一片。

OpenAI早期成員安德烈·卡帕西(Andrej Karpathy)就表示DeepSeek-V3的出現(xiàn)也許意味著不需要大型GPU集群來訓(xùn)練前沿的大語言模型。它表明大模型在數(shù)據(jù)和算法方面仍有很大的提升空間。

Scale AI創(chuàng)始人亞歷山大·王 (Alexander Wang)更表示,DeepSeek-V3帶來的辛酸教訓(xùn)是:當(dāng)美國休息時(shí),中國在工作,以更低的成本、更快的速度迎頭趕上,變得更強(qiáng)。

更多人認(rèn)為,這是來自東方的魔法。但實(shí)際上這個(gè)魔法叫工程科學(xué)。

因?yàn)槲覀兛赐闐eepSeek 53頁的技術(shù)報(bào)告,發(fā)現(xiàn)它驚人的低訓(xùn)練價(jià)格和其強(qiáng)悍的能力全部有跡可循。

在預(yù)訓(xùn)練階段,對(duì)性能影響有限的地方,他們選擇了極致壓縮;在后訓(xùn)練階段,對(duì)模型擅長的領(lǐng)域,他們又傾注全力提升。

在之前大家贊許爭論之聲未止,但“魔法”的面紗卻沒人掀開。

騰訊科技就幫你們抽取出其中最核心的那一部分,用更平實(shí)的語句解釋DeepSeek-V3的“省錢高效”背后的技術(shù)路徑。

訓(xùn)練的省錢法門:

能壓都?jí)海豢辙D(zhuǎn)

傳統(tǒng)之中,大模型訓(xùn)練降低成本主要靠兩招:壓縮、并行和提升硬件使用效率。

DeepSeek-V3這次所用的方法基本上就是猛揮這三板斧。

壓縮:從結(jié)構(gòu)到量化

壓縮很容易理解,就是把大的東西壓縮成小的。

對(duì)于模型訓(xùn)練來講,壓縮之后,運(yùn)算單元(GPU和CPU)需要進(jìn)行的運(yùn)算數(shù)據(jù)量就會(huì)減少,運(yùn)算速率必然會(huì)提升。另一個(gè)重要影響是,內(nèi)存占用和緩存會(huì)減少,這樣訓(xùn)練同樣大小的模型所需要的硬件規(guī)模也可以大幅減少。

而在訓(xùn)練模型的過程中,內(nèi)存占比最高的就是向量數(shù)據(jù)。

DeepSeek-V3這次一次用了兩種方法去壓縮向量數(shù)據(jù),一是MLA多層注意力架構(gòu),另一個(gè)就是FP8混合精度訓(xùn)練。

多層注意力MLA

多層注意力(Multi-Layer Attention, MLA)架構(gòu)設(shè)計(jì)的核心在于在Transformer架構(gòu)中引入動(dòng)態(tài)層聚合機(jī)制。傳統(tǒng)Transformer中每一層都需要完整的計(jì)算和存儲(chǔ),其中的Key和Value矩陣往往占用大量內(nèi)存空間。而MLA通過動(dòng)態(tài)合并相鄰層的特征來減少計(jì)算量。

MLA通過壓縮和復(fù)用前序?qū)拥腒、V來減少內(nèi)存占用和計(jì)算量。具體來說,將連續(xù)幾層的K、V進(jìn)行合并壓縮成一組共享表示。

打個(gè)比方,如果把注意力機(jī)制比作圖書檢索系統(tǒng),傳統(tǒng)方法相當(dāng)于為每本書都建立完整的索引卡片(Key)和內(nèi)容摘要(Value),而DeepSeek的方法則像是建立了一個(gè)智能的分類系統(tǒng),不記具體信息,而是記一個(gè)簡單的"標(biāo)簽"(壓縮的Key/Value),需要時(shí)再從標(biāo)簽還原出詳細(xì)信息。就像把"計(jì)算機(jī)技術(shù),三樓右側(cè)第二排"簡化成"C2-3"這樣的編碼。

在這個(gè)過程中,DeepSeek使用了低秩壓縮技術(shù)(可以理解為將高維矩陣壓縮為若干個(gè)低維矩陣的乘積),將KV壓縮到512維度,遠(yuǎn)小于原始維度。通過Key/Value的低秩壓縮使得的訓(xùn)練內(nèi)存占用減少了20-30%。

在Query端的優(yōu)化對(duì)訓(xùn)練效率也非常有意義。Query可以理解為用戶的檢索請(qǐng)求,傳統(tǒng)方法會(huì)為每個(gè)請(qǐng)求都分配大量計(jì)算資源。DeepSeek通過對(duì)Query的低秩壓縮,減少了計(jì)算過程中的激活內(nèi)存占用。雖然這種優(yōu)化對(duì)推理階段的影響相對(duì)較小,但在訓(xùn)練過程中發(fā)揮了重要作用,顯著提升了訓(xùn)練效率。這就像是優(yōu)化了圖書檢索系統(tǒng)的查詢處理機(jī)制,使得系統(tǒng)能夠更快速地處理大量并發(fā)的檢索請(qǐng)求。

而DeepSeek-V3巧妙的找到了一些平衡,讓這些壓縮技術(shù)幾乎沒有影響模型的性能。

FP8 混合精度訓(xùn)練框架

MLA方法是從DeepSeek V2開始就采用的方法,本次只是進(jìn)行了優(yōu)化調(diào)整。而在DeepSeek-V3里引入了一種 FP8 混合精度訓(xùn)練框架,并首次在超大規(guī)模模型上驗(yàn)證了其有效性。

FP8就是用8個(gè)二進(jìn)制位來表示數(shù)字的格式,相比傳統(tǒng)的32位(FP32)和16位(FP16)格式,精度低了很多,但是占用空間小,計(jì)算快。

就像用"約350人"代替"準(zhǔn)確的358人",犧牲一些精度來換取效率。雖然不夠精確,但在很多場景下已經(jīng)夠用了,而且能大大提升運(yùn)算速度和節(jié)省內(nèi)存。

DeepSeek在采用FP8格式時(shí),采用了"混合精度"的方案。在訓(xùn)練時(shí),它的大部分核心計(jì)算內(nèi)核均采用 FP8 精度實(shí)現(xiàn)。包括前向傳播、激活反向傳播和 權(quán)重反向傳播都用了 FP8 作為輸入,并輸出 BF16 或 FP32 格式的結(jié)果。這一設(shè)計(jì)理論上使計(jì)算速度相較于原始的 BF16 方法提升了一倍。此外,DeepSeek中的向量激活值以 FP8 格式存儲(chǔ),供反向傳播使用,從而顯著降低了內(nèi)存消耗。

針對(duì)某些對(duì)低精度計(jì)算敏感算子和一些低成本算子,比如嵌入模塊、輸出頭、MoE 門控模塊、歸一化算子以及注意力算子保留了FP16乃至FP32的精度。這樣能保證數(shù)據(jù)的精確性。同時(shí)為了保證數(shù)值穩(wěn)定性,DeepSeek還將主權(quán)重、權(quán)重梯度和優(yōu)化器狀態(tài)以更高精度存儲(chǔ)。

就像一個(gè)精打細(xì)算的主廚:日常備菜用普通的廚具就夠了,但到了關(guān)鍵的烹飪步驟,就會(huì)換上最好的刀具。

在模型訓(xùn)練中,大部分的前向運(yùn)算都使用FP8來處理,這樣可以大大節(jié)省顯存和計(jì)算資源,讓整個(gè)訓(xùn)練過程跑得更快。但他們也很清楚哪些地方不能。罕热缱詈蟮恼{(diào)味、擺盤(對(duì)應(yīng)嵌入模塊、輸出頭等),就一定要用精密的工具(FP16或FP32精度)。

過去使用FP8模式的時(shí)候,最大的困難出現(xiàn)誤差累計(jì)。就像普通計(jì)算器(Tensor Cores的FP8)只能顯示到小數(shù)點(diǎn)后兩位,而科學(xué)計(jì)算器(CUDA核心的FP32)能顯示到小數(shù)點(diǎn)后六位。當(dāng)你需要加很多個(gè)小數(shù)時(shí),用普通計(jì)算器會(huì)逐漸累積誤差,最后結(jié)果可能差異很大。

(DeepSeek 提出的誤差積累解決方法)

DeepSeek發(fā)現(xiàn)了一個(gè)巧妙的解決方案:不等到最后再算總和,而是每加128個(gè)數(shù)就把當(dāng)前結(jié)果轉(zhuǎn)移到科學(xué)計(jì)算器上繼續(xù)計(jì)算。為了讓這個(gè)過程不影響速度,他們利用了H800 GPU的特點(diǎn):就像有兩個(gè)收銀員,當(dāng)一個(gè)在結(jié)算購物籃的時(shí)候,另一個(gè)可以繼續(xù)掃描新商品。這樣在提高精度的同時(shí),基本不影響處理速度。

這一策略使得模型訓(xùn)練速度大幅提升,畢竟核心計(jì)算能提升100%的速度,而顯存使用減少也非常明顯。并且模型最終的效果精度損失能做到小于0.25%,幾乎無損。

并行:對(duì)硬件的極限使用

要實(shí)現(xiàn)更快的訓(xùn)練速度,最有效的方法就是增加并行計(jì)算的規(guī)模,讓更多的計(jì)算單元同時(shí)處理不同的數(shù)據(jù)或任務(wù)。而在并行中,需要解決的問題就是盡可能的有效利用計(jì)算資源,讓它們都高負(fù)載的工作。

在系統(tǒng)架構(gòu)層面,DeepSeek就使用了專家并行訓(xùn)練技術(shù),通過將不同的專家模塊分配到不同的計(jì)算設(shè)備上同時(shí)進(jìn)行訓(xùn)練,提升了訓(xùn)練過程中的計(jì)算效率。

但這種簡單的并行還遠(yuǎn)不夠。DeepSeek這次對(duì)算力做的是極限壓榨:如果把訓(xùn)練過程當(dāng)成一個(gè)工廠的話,他們主要做的就是不讓流水線上沒有閑人,再加上盡可能優(yōu)化工序,讓工件(數(shù)據(jù))進(jìn)入流水線時(shí)直接就可以被操作(計(jì)算)。

DualPipe跨節(jié)點(diǎn)通信

優(yōu)化流水線流程的主要模式是DeepSeek創(chuàng)新的DualPipe方法。

在計(jì)算和通信重疊方面,DualPipe采用了類似于"多任務(wù)并行處理"的思路。

就像現(xiàn)代計(jì)算機(jī)能夠在下載文件的同時(shí)處理文檔一樣,DualPipe讓模型在進(jìn)行計(jì)算的同時(shí),后臺(tái)已經(jīng)開始準(zhǔn)備下一步需要的數(shù)據(jù)傳輸。這種設(shè)計(jì)確保了通信開銷被很大程度地隱藏在計(jì)算過程中,極大提升了整體效率。

傳統(tǒng)的訓(xùn)練信息流水線并行就像一條產(chǎn)品裝配線,每個(gè)工位按順序處理任務(wù)。當(dāng)數(shù)據(jù)包從一個(gè)階段傳遞到下一個(gè)階段時(shí),往往會(huì)產(chǎn)生等待時(shí)間,這就是所謂的"流水線氣泡"。這些氣泡會(huì)導(dǎo)致計(jì)算資源的浪費(fèi),就像流水線上的工人不得不等待上游工序完成才能開始工作。此外,不同節(jié)點(diǎn)之間的數(shù)據(jù)傳輸時(shí)間也會(huì)成為性能瓶頸,就像工位之間傳遞零件的時(shí)間過長會(huì)影響整體生產(chǎn)效率。

而DualPipe引入了雙重流水線的概念,就像在同一條生產(chǎn)線上同時(shí)處理兩批產(chǎn)品。當(dāng)一個(gè)計(jì)算階段在等待數(shù)據(jù)傳輸時(shí),可以立即切換到處理另一批數(shù)據(jù),這樣就能充分利用原本的空閑時(shí)間。

(DualPipe示意圖,在圖中由共享黑色邊框包圍的兩個(gè)單元格具有相互重疊的計(jì)算和通信。)

這是讓流水線上沒有“閑人”。

除此之外,還要盡量壓縮取件到操作的過程。

因?yàn)镈eepSeek對(duì)流水線的特殊設(shè)計(jì),使得通信和計(jì)算的過程可以重疊。當(dāng)一個(gè)節(jié)點(diǎn)在進(jìn)行當(dāng)前批次數(shù)據(jù)的計(jì)算時(shí),系統(tǒng)已經(jīng)開始準(zhǔn)備下一批次需要的專家參數(shù)傳輸。當(dāng)前向計(jì)算完成時(shí),下一步需要的數(shù)據(jù)已經(jīng)就位,幾乎不會(huì)產(chǎn)生等待時(shí)間。大部分?jǐn)?shù)據(jù)傳輸時(shí)間被"隱藏"在了計(jì)算過程中,就像在無縫銜接的裝配線上,零件的運(yùn)送時(shí)間對(duì)整體生產(chǎn)效率幾乎沒有影響。

DualPipe正是通過精確控制這種重疊過程,實(shí)現(xiàn)了在大規(guī)模分布式訓(xùn)練中接近零通信開銷的理想狀態(tài)。

根據(jù)DeepSeek 的技術(shù)報(bào)告,DualPipe算法減少了50%的計(jì)算氣泡,有效隱藏了通信開銷?绻(jié)點(diǎn)通信優(yōu)化則提升了帶寬利用率,減少了20%的通信開銷。

這就基本相對(duì)傳統(tǒng)方式提高了一倍的算力使用效能。

無輔助損失的負(fù)載均衡策略

無輔助損失的負(fù)載均衡策略是DeepSeek-V3一個(gè)讓訓(xùn)練過程中工人各展所能的調(diào)整。

負(fù)載均衡策略在V2時(shí)代已經(jīng)被引入,但在這一代更進(jìn)一步。

在專家混合系統(tǒng)(MoE)中,負(fù)載均衡一直是個(gè)關(guān)鍵挑戰(zhàn)。因?yàn)镸oE有很多專家模型,怎么能讓該上的專家不閑著,沒人無事可做對(duì)訓(xùn)練和模型效率都很關(guān)鍵。

傳統(tǒng)方法通常需要引入額外的輔助損失項(xiàng)來平衡專家的使用,就像在工廠中人為設(shè)置配額來確保各條生產(chǎn)線的負(fù)載均衡。這種方法不僅增加了訓(xùn)練的復(fù)雜性,還可能影響模型的本地優(yōu)化目標(biāo)。

DeepSeek的創(chuàng)新在于實(shí)現(xiàn)了無輔助損失的自然均衡。系統(tǒng)會(huì)根據(jù)專家的歷史利用率動(dòng)態(tài)調(diào)整其"接收容量"。當(dāng)某個(gè)專家持續(xù)過載時(shí),系統(tǒng)會(huì)自動(dòng)降低其接收新任務(wù)的概率;反之,對(duì)于利用率低的專家,系統(tǒng)會(huì)提高其接收任務(wù)的機(jī)會(huì)。既考慮專業(yè)匹配度,也考慮當(dāng)前的工作負(fù)荷。這種自適應(yīng)機(jī)制確保了長期來看的負(fù)載平衡。這更像是市場經(jīng)濟(jì),而非計(jì)劃經(jīng)濟(jì)。

(最上面兩條線,上面是有負(fù)載均衡,下面的是無負(fù)載均衡的情況。從圖中可以看出,采用無負(fù)載均衡策略的專家層負(fù)載更均勻,也更積極)

這個(gè)改進(jìn)讓訓(xùn)練過程更穩(wěn)定,大家都有機(jī)會(huì)訓(xùn)練,也提高了訓(xùn)練效率。

底層通信優(yōu)化

對(duì)于模型訓(xùn)練來講,底層通訊也是個(gè)大問題,很多時(shí)候硬件間通訊不暢就會(huì)使得訓(xùn)練產(chǎn)線出現(xiàn)局部停工,無活兒可干的事兒。

DeepSeek在這方面也做了相當(dāng)?shù)膬?yōu)化,專門開發(fā)了高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核。這就像是在高速公路系統(tǒng)中建立了更智能的紅綠燈調(diào)度系統(tǒng),能夠充分利用InfiniBand和NVLink這些高速通道的帶寬。這些優(yōu)化確保了數(shù)據(jù)在不同計(jì)算節(jié)點(diǎn)之間的傳輸始終保持在最高效率。

以上這些還不是DeepSeek在訓(xùn)練上采用的所有提效手段,只是相對(duì)大膽創(chuàng)新的部分。目前其他訓(xùn)練在架構(gòu)中常用的移除LayerNorm中的bias項(xiàng)、在FFN后引入scale因子、采用RoPE相對(duì)位置編碼等方式,DeepSeek-V3也都有所采用。而在訓(xùn)練策略上,DeepSeek還采用了ALiBi位置編碼預(yù)訓(xùn)練、Flash Attention 2實(shí)現(xiàn)、序列長度動(dòng)態(tài)擴(kuò)展等已有先進(jìn)技術(shù)。

DeepSeek-V3這回真的可以說是在訓(xùn)練工程上無所不用其極?偨Y(jié)下來,最重要的包括以下這么幾個(gè)方面。

不管是MLA、FP8和Daulpipe算法,都是非常大膽的使用當(dāng)下降低訓(xùn)練成本的前沿技術(shù)。這些基礎(chǔ)技術(shù)方向都已經(jīng)是主流認(rèn)知的可能性,但DeepSeek做到了經(jīng)過精心調(diào)教優(yōu)化設(shè)計(jì),使其可用,且發(fā)揮最大的能力。

既然GPU少,那就卷工程,DeepSeek這回確實(shí)是用東亞魔法打破西方壟斷。

超強(qiáng)性能的秘密:努力偏科

DeepSeek-V3的能力確實(shí)相當(dāng)驚艷,相較于其他頂尖開源模型如LLama 3.1 405B,Qwen2.5 72B,在數(shù)據(jù)上都更勝一籌。甚至在和Claude 3.5 Sonnet和GPT-4o這兩個(gè)最頂尖模型的比較上都有多項(xiàng)數(shù)據(jù)更強(qiáng)。

尤其在數(shù)學(xué)推理、代碼生成和長文本處理等方面達(dá)到了業(yè)界領(lǐng)先水平。在GSM8K數(shù)學(xué)推理測試中取得92.1%的高分,在HumanEval代碼評(píng)估中以88.3%的成績超越GPT-4,同時(shí)還具備32K的長文本處理能力。

但從Benchmark本身和DeepSeek的技術(shù)報(bào)告中,我們也可以看出DeepSeek-V3在一些層面上是有偏科的。它的創(chuàng)意生成相對(duì)薄弱,開放性任務(wù)表現(xiàn)一般,結(jié)構(gòu)化思維的能力遠(yuǎn)高于發(fā)散思維。甚至在專業(yè)領(lǐng)域比通用領(lǐng)域表現(xiàn)的更好。

那DeepSeek-V3為什么這么強(qiáng)呢?

首先是基礎(chǔ)。DeepSeek-V3 的總參數(shù)量有671B,每個(gè)token激活37B參數(shù)。整體參數(shù)總量比Llama 3.1 405B還高,也遠(yuǎn)超Qwen 2.5的72B。在Scaling Law尚未碰壁的情況下,參數(shù)大小上的優(yōu)勢依然是實(shí)實(shí)在在的。

而且在上面的訓(xùn)練過程中,我們看到DeepSeek-V3雖然全力壓縮數(shù)據(jù),但在工程中盡可能的降低了對(duì)模型質(zhì)量的影響。

這就是DeepSeek的底子。但能讓它更上一層樓的還有其他幾個(gè)關(guān)鍵因素。

數(shù)據(jù)精篩

首先是數(shù)據(jù),高效的數(shù)據(jù)選擇就意味著快速的性能提升。

DeepSeek-V3在數(shù)據(jù)處理方面展現(xiàn)可以說是精益求精,卷到極致。其數(shù)據(jù)處理策略涵蓋了從原始數(shù)據(jù)采集到最終訓(xùn)練集構(gòu)建的完整流程。

根據(jù)DeepSeek 的技術(shù)報(bào)告,在訓(xùn)練V3的過程中,DeepSeek用了14.8萬億tokens的預(yù)訓(xùn)練。而作為對(duì)比Llama 3.1用了15萬億tokens,而Qwen 2.5的訓(xùn)練則使用了18萬億token。

首先在數(shù)據(jù)源的選擇上,DeepSeek-V3采用了更多元化的數(shù)據(jù)獲取策略。基礎(chǔ)訓(xùn)練數(shù)據(jù)來源于經(jīng)過嚴(yán)格篩選的CommonCrawl語料庫,這確保了數(shù)據(jù)的廣泛性和代表性。除此之外,研發(fā)團(tuán)隊(duì)還特別重視專業(yè)領(lǐng)域數(shù)據(jù)的引入,包括大規(guī)模的代碼數(shù)據(jù)集、數(shù)學(xué)推理數(shù)據(jù)、科學(xué)文獻(xiàn)等。

在數(shù)據(jù)清洗環(huán)節(jié),DeepSeek采用了專有的數(shù)據(jù)過濾算法,實(shí)施了多層次的質(zhì)量控制。這個(gè)過程首先對(duì)原始數(shù)據(jù)進(jìn)行重復(fù)內(nèi)容的識(shí)別和刪除,確保數(shù)據(jù)的唯一性。隨后,通過智能算法篩除低質(zhì)量內(nèi)容,包括格式錯(cuò)誤的數(shù)據(jù)、不完整的文本片段以及不符合規(guī)范的內(nèi)容。這種嚴(yán)格的數(shù)據(jù)清洗流程不僅提高了訓(xùn)練數(shù)據(jù)的質(zhì)量,也為模型的最終表現(xiàn)奠定了良好基礎(chǔ)。

數(shù)據(jù)處理的技術(shù)實(shí)現(xiàn)上,DeepSeek-V3采用了一系列先進(jìn)的處理方法。首先是統(tǒng)一的tokenizer設(shè)計(jì),確保了數(shù)據(jù)處理的一致性。其次是動(dòng)態(tài)序列長度調(diào)整機(jī)制,這使得模型能夠更好地處理不同長度的輸入。通過數(shù)據(jù)混合采樣策略和課程學(xué)習(xí)方法,他們也優(yōu)化了訓(xùn)練過程中的數(shù)據(jù)使用效率。

MTP技術(shù)

然后是架構(gòu)革新。

DeepSeek引入的多token預(yù)測(MTP)技術(shù)堪稱一個(gè)Game Changer。這項(xiàng)技術(shù)實(shí)際上是Meta在今年4月30號(hào)提出的,DeepSeek對(duì)新技術(shù)的應(yīng)用甚至快過Meta自己。

簡單講這也是一種并行優(yōu)化。

傳統(tǒng)語言模型一次只預(yù)測一個(gè)token的范式。它就像是讓模型從"一字一句"地朗讀,進(jìn)化為"整句整段"地理解和生成。在訓(xùn)練過程中,模型不再局限于預(yù)測序列中的下一個(gè)token,而是學(xué)會(huì)同時(shí)預(yù)測多個(gè)連續(xù)位置的token。這種并行預(yù)測機(jī)制不僅提高了訓(xùn)練效率,還讓模型能夠更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時(shí),模型整體性能提升2-3%。

在推理階段,MTP的優(yōu)勢更加明顯。傳統(tǒng)模型生成文本時(shí)就像是在"一筆一劃"地寫字,而MTP則像是"提前打草稿",可以同時(shí)生成多個(gè)token。通過創(chuàng)新的推測解碼機(jī)制,模型能夠基于當(dāng)前上下文同時(shí)預(yù)測多個(gè)可能的token序列。即使某些預(yù)測不準(zhǔn)確需要回退,整體效率仍然顯著提升。這種并行生成機(jī)制使推理速度提升了1.8倍,還顯著降低了計(jì)算開銷。

DeepSeek-R1蒸餾

除了在數(shù)據(jù)選擇上更多引入了專業(yè)數(shù)據(jù)之外,還要提到后訓(xùn)練過程中,DeepSeek對(duì)R1的蒸餾使用。這一方面提升了模型的能力,也讓它有點(diǎn)偏科。

DeepSeek R1 系列模型是DeepSeek在復(fù)現(xiàn)GPT-o1上的最新嘗試。它在今年11月21日才發(fā)布Preview版本,就已經(jīng)用在對(duì)DeepSeek-V3的蒸餾上了。

這一模型本身使用強(qiáng)化學(xué)習(xí)訓(xùn)練,推理過程包含大量反思和驗(yàn)證,思維鏈長度可達(dá)數(shù)萬字。在編程和數(shù)學(xué)能力方面甚至在幾項(xiàng)指標(biāo)上超越了GPT-o1-preview。

通過從DeepSeek-R1系列模型中蒸餾推理能力,即從R1模型中提取關(guān)鍵的推理模式和解題策略作為數(shù)據(jù)微調(diào)DeepSeek主干模型,并采用循序漸進(jìn)課程學(xué)習(xí)等先進(jìn)方法,DeepSeek-V3模形式化思維能力得到了大幅強(qiáng)化。此外,在蒸餾過程中,V3還學(xué)會(huì)了對(duì)結(jié)構(gòu)化數(shù)據(jù)處理和長序列計(jì)算進(jìn)行了優(yōu)化。

從數(shù)據(jù)上看,僅僅通過R1蒸餾,就可以給DeepSeek V2.5帶來數(shù)學(xué)和編程上近20%的大幅提升。

但就像GPT-o1顯示出的情況一樣,這部分強(qiáng)化學(xué)習(xí)加成很難能夠泛化到數(shù)學(xué)和編程之外,因此DeepSeek-V3的偏科在所難免。

因此,DeepSeek-V3很強(qiáng),但仍然還有很大優(yōu)化的空間。

DeepSeek-V3,

工程的奇跡也是重要的價(jià)值

在外網(wǎng)關(guān)于DeepSeek-V3的一片贊許聲中,其實(shí)也有相當(dāng)?shù)膽岩芍暋?/span>

Sam Altman就疑似嘲諷DeepSeek-V3缺乏真正創(chuàng)新的方法,而僅僅是復(fù)制有效的東西。

這一評(píng)價(jià)其實(shí)并不算特別中肯。確實(shí),DeepSeek-V3所采用的核心技術(shù)中,多層注意力MLA技術(shù)存在已久、MTP技術(shù)來自今年4月Meta的論文,而R1的蒸餾和探索也是受到OpenAI和谷歌的啟發(fā)。

但在底層工程并行技術(shù)上,DeepSeek實(shí)際上做了很多創(chuàng)新。比如無輔助損失負(fù)載均衡來自DeepSeek八月的論文,Daulpipe也是DeepSeek的新嘗試。

至少在工程面上,DeepSeek的創(chuàng)新力并不差。

另一個(gè)有影響力的批評(píng)來自于FutureLabs未來實(shí)驗(yàn)室首席專家胡延平。

他發(fā)微博表示,當(dāng)前大模型發(fā)展面臨雙螺旋式的演化。一條是向上攀升的性能曲線,追求更深層的理解和推理能力;另一條是向下延伸的基礎(chǔ)曲線,著重提升效率和落地能力。DeepSeek-V3在這個(gè)維度上似乎仍未完全突破天花板。

但他卻忽視了一個(gè)基本事實(shí):在深度學(xué)習(xí)時(shí)代,規(guī)模效應(yīng)本身就是算法創(chuàng)新的催化劑。

當(dāng)下AI之所以難以滲透落地,很大的原因正是因?yàn)槌杀具不夠低。尤其是在模型進(jìn)入強(qiáng)化學(xué)習(xí)時(shí)代后,o1的成本更是高的難以讓人向下進(jìn)入日常。

而這正是DeepSeek-V3所做的嘗試價(jià)值所在。它展示了一種新的可能性:在工程實(shí)現(xiàn)和理論創(chuàng)新之間找到平衡點(diǎn)。它不是在追隨OpenAI或Anthropic的路徑,而是開創(chuàng)了一條符合現(xiàn)實(shí)約束的技術(shù)進(jìn)化道路。

在AI領(lǐng)域,過分強(qiáng)調(diào)"形而上"的理論創(chuàng)新,同時(shí)輕視工程實(shí)現(xiàn)的突破,這種傾向某種程度上正是阻礙AI真正落地的絆腳石。

之前提到的Meta四月發(fā)布的論文技術(shù)和DeepSeek本身在八月的論文提到的技術(shù),包括11月發(fā)布的R1模型,它們的能力都被運(yùn)用到了年底發(fā)布的這個(gè)最新模型之中。

DeepSeek至少做到了,以最快的速度將理論轉(zhuǎn)化為現(xiàn)實(shí)。

本文來源:騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部