DeepSeek開源周第一天,降本大法公開—— FlashMLA,直接突破H800計算上限。 網(wǎng)友:這怎么可能??
它是為Hopper GPU開發(fā)的高效MLA解碼內(nèi)核,專門針對可變長度序列進行了優(yōu)化,目前已經(jīng)投入生產(chǎn)。 MLA,正是DeepSeek提出的創(chuàng)新注意力架構。從V2開始,MLA使得DeepSeek在系列模型中實現(xiàn)成本大幅降低,但是計算、推理性能仍能與頂尖模型持平。 按照官方介紹來說,F(xiàn)lashMLA使用之后,H800可以達到3000GB/s內(nèi)存,實現(xiàn)580TFLOPS計算性能。 網(wǎng)友們紛紛點贊:向工程團隊致以崇高的敬意,從Hopper的張量核中擠出了每一個FLOP。這就是我們將 LLM 服務推向新前沿的方式! 已經(jīng)有網(wǎng)友用上了。 開源第一天:FlashMLA 目前GitHub頁面已經(jīng)更新。短短一小時,Star星數(shù)已經(jīng)超過1.2k。 此次已經(jīng)發(fā)布: 支持BF16; 分頁KV緩存,塊大小為 64 快速啟動: 環(huán)境要求: Hopper GPU CUDA 12.3 及以上版本 PyTorch 2.0 及以上版本 在項目的最后,它還表示,這是受到了FlashAttention 2&3和英偉達CUTLASS項目的啟發(fā)。 FlashAttention是能實現(xiàn)快速且內(nèi)存高效的精確注意力,主流大模型都有在用。最新的第三代,可以讓H100利用率飆升至75%。訓練速度提升1.5-2倍,F(xiàn)P16下計算吞吐量高達740TFLOPs/s,達理論最大吞吐量75%,更充分利用計算資源,此前只能做到35%。 核心作者是Tri Dao,普林斯頓大牛,Together AI的首席科學家。 而英偉達CUTLASS是CUDA C++ 模板抽象的集合,用于在 CUDA 內(nèi)實現(xiàn)高性能矩陣-矩陣乘法 (GEMM) 和所有級別和規(guī)模的相關計算。 MLA,DeepSeek基本架構 最后再來說說,MLA,多頭潛在注意力機制,DeepSeek系列模型的基本架構,旨在優(yōu)化Transformer模型的推理效率與內(nèi)存使用,同時保持模型性能。 它通過低秩聯(lián)合壓縮技術,將多頭注意力中的鍵(Key)和值(Value)矩陣投影到低維潛在空間,從而顯著減少鍵值緩存(KV Cache)的存儲需求。這種方法在長序列處理中尤為重要,因為傳統(tǒng)方法需要存儲完整的KV矩陣,而MLA通過壓縮僅保留關鍵信息。 V2版本中,這一創(chuàng)新性架構把顯存占用降到了過去最常用的MHA架構的5%-13%,實現(xiàn)了成本大幅降低。它的推理成本僅為Llama 370B的1/7、GPT-4 Turbo的1/70。 而在V3,這一降本提速就更為明顯,直接讓DeepSeek吸引全球目光。 也就在今天,DeepSeek-R1 在HuggingFace上獲得了超過10000個贊,成為該平臺近150萬個模型之中最受歡迎的大模型。 HuggingFace CEO發(fā)文公布了這一喜訊。 The whale is making waves!鯨魚正在掀起波浪! 好了期待一下,接下來的四天會發(fā)些什么呢? GitHub鏈接: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選