首頁 > 科技要聞 > 科技> 正文

榨干每一塊 GPU!DeepSeek 開源第二天,送上降本增效神器

appso 整合編輯:太平洋科技 發(fā)布于:2025-02-26 16:24

DeepSeek 開源周來到第二天,繼續(xù)為 AI 大模型的基礎(chǔ)建設(shè)添磚加瓦——真正的 open ai,毋庸置疑。

DeepSeek 帶來了 DeepEP,一個專為混合專家系統(tǒng)(MoE)和專家并行(EP)定制的通信庫。

它的設(shè)計靈感來自 DeepSeek-V3 論文里的群組限制門控算法(group-limited gating),這個算法能幫助大模型更高效地分配任務(wù)給不同的「專家」,降本增效從未如此簡單。

DeepEP 的亮點頗多:

高效優(yōu)化的全員協(xié)作通道

專為訓(xùn)練和推理預(yù)填充設(shè)計的高吞吐核心

專為推理解碼設(shè)計的低延遲核心

原生支持FP8智能壓縮傳輸

靈活調(diào)控GPU資源,實現(xiàn)邊計算邊傳輸

DeepEP 在 Mixture-of-Experts (MoE) 模型的通信技術(shù)上有所突破,特別是在 GPU 內(nèi)核優(yōu)化方面。它顯著提升 MoE 模型的性能和效率,適用于大規(guī)模 AI 訓(xùn)練和推理。

計算資源分配能力再上一層樓

隨著 AI 模型規(guī)模的不斷擴大,從數(shù)十億參數(shù)到數(shù)萬億參數(shù),高效的通信將成為關(guān)鍵瓶頸。DeepSeek 這次帶來的 DeepEP ,主打低延遲內(nèi)核,其支持 FP8 的特性特別適合資源受限或?qū)崟r性要求高的場景。

特別是在處理 MoE 分派和組合的通信模式上,DeepEP 針對高吞吐量和低延遲的 GPU 內(nèi)核,專門優(yōu)化了 MoE 模型中數(shù)據(jù)路由和輸出的整合過程。

優(yōu)化之后的 MoE 模型的通信性能,支持低精度操作(如 FP8),并提供了針對非對稱域帶寬轉(zhuǎn)發(fā)的內(nèi)核。這使得在分布式 GPU 環(huán)境中,MoE 模型的訓(xùn)練和推理更加高效和可擴展,尤其是在多節(jié)點集群中,能夠顯著降低通信開銷并提高整體性能。

MoE 「混合專家」,就是讓 AI 模型里匯聚了不同的專家,負責(zé)不同的任務(wù)。更形象點說,一個超大型 AI 模型就像班級大掃除時的值日團隊,每個同學(xué)要干的活不同,有人擦玻璃,有人掃地,有人搬桌子,等等等等。

但現(xiàn)實中總有人動作快,有人動作慢。桌子沒搬好,去幫忙拖地;玻璃先擦了,又會有灰塵落在地上;ハ鄥f(xié)調(diào)的過程不通暢,會導(dǎo)致效率低下。

為了解決這種協(xié)作卡頓的問題,就需要有一個高效智能的分工計劃。就像班主任把值日生分成不同小組,讓擦玻璃快的同學(xué)專注擦玻璃,掃地的同學(xué)專注掃地,大家各司其職不互相拖后腿,并且及時觀察誰的活兒提前干完了,誰的工作量超了。

這就是「專家小組分工」group-limited gating:不讓擦玻璃的同學(xué)被迫掃地,從根源上減少人力資源浪費。

而在大模型里,這就是不讓計算資源浪費。DeepEP 能根據(jù)任務(wù)量動態(tài)調(diào)節(jié) GPU 的計算資源(SM 數(shù)量控制)。任務(wù)多的時候,就讓 GPU 里更多計算單元一起工作;任務(wù)少的時候自動減少功耗,既省電又不耽誤效率,特別適合需要快速處理海量數(shù)據(jù)的場景。

「降本增效」,是這次 DeepEP 送出的一份大禮。

高速通道+無縫換乘,數(shù)據(jù)秒達

除了資源分配,AI 模型里的「專家」,也就是計算機里的 GPU 芯片,需要頻繁傳遞數(shù)據(jù)。數(shù)據(jù)傳遞慢會導(dǎo)致 GPU 算完一波任務(wù)后「干瞪眼」。

DeepEP 的跨域帶寬優(yōu)化,相當(dāng)于給 GPU 配了專屬直升機送貨,把等待時間進一步壓縮,自然能榨出更多算力。

還是回到剛才班級大掃除的例子,普通的 GPU 之間傳輸數(shù)據(jù)慢、互相等,就好像擦玻璃的同學(xué)需要水桶,但桶在掃地的同學(xué)手里,只能等對方用完再傳,中間浪費時間。甚至要去隔壁班借,得穿過走廊、爬樓梯,還可能被其他班級的人堵住。

在數(shù)據(jù)傳輸上,也會出現(xiàn)類似的問題。而 DeepEP 的內(nèi)核,優(yōu)化了非對稱域帶寬轉(zhuǎn)發(fā)(如 NVLink 到 RDMA),這使得它特別適合現(xiàn)代高性能計算(HPC)環(huán)境中的多節(jié)點分布式訓(xùn)練

同一服務(wù)器內(nèi) GPU 用 NVLink,傳輸速度 150GB/s,幾乎零等待?绶⻊(wù)器用 RDMA 網(wǎng)絡(luò),速度蹭蹭加快。還有無縫帶寬轉(zhuǎn)發(fā),避免數(shù)據(jù)堆積或丟失。

如果說傳統(tǒng)的 AI 訓(xùn)練中,GPU 跑了 10 個小時,4 個小時在等數(shù)據(jù)、等同步,實際工作時間只有 6 小時。那么 DeepEP,能夠把等待時間壓縮到 1 小時,GPU 干活 9 小時,相當(dāng)于多了 3 小時算力,真正「榨干」每一塊 GPU。

這對于很多應(yīng)用場景,尤其是依賴 MoE 架構(gòu)的大型語言模型,都有非常大的價值。DeepEP 可以顯著提升這些模型的訓(xùn)練和推理效率,適用于自然語言處理任務(wù),如翻譯、摘要生成和問答系統(tǒng)。

在代碼生成領(lǐng)域也有應(yīng)用,DeepEP 的高效通信可以加速這些模型的開發(fā)和部署,特別是在處理復(fù)雜編程任務(wù)時。

甚至是在推薦系統(tǒng)中,MoE 可以讓不同專家處理不同用戶偏好,DeepEP 的優(yōu)化可以提高系統(tǒng)在分布式環(huán)境中的性能,適用于電商平臺或媒體流媒體服務(wù)。

「降本增效」的關(guān)鍵大招,DeepSeek都傾囊相授了,真· open ai。

本文來源:Appso

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部