首頁(yè) > 科技要聞 > 科技> 正文

國(guó)產(chǎn)AI一夜刷屏海外!2000塊GPU打造GPT-4o平替, AI大佬紛紛點(diǎn)贊

appso 整合編輯:太平洋科技 發(fā)布于:2024-12-30 18:08

一夜之間,中國(guó)大模型在國(guó)際上狠狠秀了一波肌肉。

近日,國(guó)產(chǎn)大模型廠商 DeepSeek 宣布 DeepSeek-V3 首個(gè)版本上線并同步開(kāi)源。

多項(xiàng)基準(zhǔn)測(cè)試成績(jī)顯示,DeepSeek-V3 超越 Qwen2.5-72B 和 Llama-3.1-405B 等其他開(kāi)源模型,并在性能上與 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

一手技術(shù)報(bào)告中提到,該模型的預(yù)訓(xùn)練階段也就用 2048 塊 GPU 訓(xùn)練了 2 個(gè)月,并且只花費(fèi)了 557.6 萬(wàn)美元。

低成本創(chuàng)造高價(jià)值。

堪稱國(guó)貨之光的 DeepSeek-V3 更是直接炸出了一大堆海外專業(yè) AI 人士的背書。

醒醒,Deepseek,你現(xiàn)在是真的火了。

附上體驗(yàn)地址:chat.deepseek.com

DeepSeek-V3 上手實(shí)測(cè),這次真的不一樣

先來(lái)看看 DeepSeek 官方交出的亮眼成績(jī)單:

百科知識(shí):DeepSeek-V3 在知識(shí)類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。

長(zhǎng)文本:在長(zhǎng)文本測(cè)評(píng)中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現(xiàn)超越其他模型。

代碼:DeepSeek-V3 在算法類代碼場(chǎng)景(Codeforces),遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非 o1 類模型;并在工程類代碼場(chǎng)景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

數(shù)學(xué):在美國(guó)數(shù)學(xué)競(jìng)賽(AIME 2024, MATH)和全國(guó)高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過(guò)了所有開(kāi)源閉源模型。

中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測(cè)評(píng) C-Eval 和代詞消歧等評(píng)測(cè)集上表現(xiàn)相近,但在事實(shí)知識(shí) C-SimpleQA 上更為領(lǐng)先。

DeepSeek-V3 發(fā)布之后,瞬間在海內(nèi)外引起了巨大的反響。

前 Google Search 成員 Deedy 直接放話,DeepSeek V3 代表了全球最強(qiáng)的開(kāi)源大模型,沒(méi)跑了。

DeepSeek-V3 的高效益也得到了前 OpenAI 大神 Andrej Karpathy 的蓋章印證:

「(DeepSeek)這是否意味著開(kāi)發(fā)前沿級(jí) LLM 不需要大型 GPU 集群?并非如此,但你必須確保對(duì)資源的高效利用。這次的成果是一個(gè)很好的例證,說(shuō)明在數(shù)據(jù)和算法方面仍有大量?jī)?yōu)化空間可以挖掘!

Meta AI 研究科學(xué)家田淵棟興奮地連發(fā)兩條推文:

「閱讀報(bào)告,發(fā)現(xiàn)他們從零開(kāi)始對(duì) H800 進(jìn)行的驚人破解

FP8 預(yù)訓(xùn)練、MoE、在非常有限的預(yù)算下實(shí)現(xiàn)強(qiáng)勁性能、通過(guò) CoT 蒸餾進(jìn)行引導(dǎo)啟動(dòng)……哇,這真是了不起的工作 」

X 網(wǎng)友 Tom Dörr 玩了一圈后直呼 Deepseek V3 太聰明了,甚至不需要解釋就懂我在說(shuō)啥,感覺(jué)機(jī)器里藏個(gè)鬼似的」

別急,還有高手。

有網(wǎng)友直接將 4/8個(gè)M4 Mac mini 堆疊在一起來(lái)跑 DeepSeek-V3。還有開(kāi)發(fā)者使用 DeepSeek-V3 三下五除二就做出了一個(gè)小游戲。

對(duì)比國(guó)外的 ChatGPT、Claude 之流,DeepSeek-V3 人人免費(fèi),且國(guó)內(nèi)現(xiàn)在就能用。我已經(jīng)替大伙簡(jiǎn)單上手體驗(yàn)了。

真的,DeepSeek-V3 響應(yīng)速度之快還是出乎我的意料。

前代 v2.5 版本每秒能生成 20 個(gè) token(可以理解為差不多 7-8 個(gè)漢字),而新版本 v3 直接提速到每秒 60 個(gè) token,速度直接飆升到了原來(lái)的 3 倍。

打個(gè)比方,v2.5 就像是正常人說(shuō)話的節(jié)奏,而 v3 的速度已經(jīng)像是一個(gè)訓(xùn)練有聲的播音員在快速播報(bào)了。

不過(guò),DeepSeek-V3 并不支持多模態(tài)輸入輸出,估計(jì)還得再耐心等待。而體驗(yàn)下來(lái),「9.8 和 9.11 哪個(gè)大」和「strawberry 里有多少個(gè) r」已經(jīng)難不倒它了。

繼續(xù)上點(diǎn)強(qiáng)度。

「我有 6 個(gè)雞蛋,碎了 2 個(gè),煎了 2 個(gè),吃了 2 個(gè),還剩下幾個(gè)?」

DeepSeek-V3 快是快了,但還是掉進(jìn)了腦筋急轉(zhuǎn)彎的陷阱(2 個(gè)),而 GPT-4o 則成功作答(4 個(gè)),這一回合,GPT-4o 完勝。

最近情商測(cè)試題在 X 平臺(tái)很火,我們也試了試。

看得出來(lái),GPT-4o 和 DeepSeek-V3 似乎都很喜歡「42」這個(gè)數(shù)字。

很好,邏輯題也都沒(méi)有繞暈 GPT-4o 和 DeepSeek-V3。

「如果明天是晴天,那么我今天會(huì)去郊外露營(yíng),如果我今天去郊外露營(yíng),那么明天一定是晴天嗎?」

至于 DeepSeek-V3 會(huì)不會(huì)偏科,我們也試著讓 GPT-4o 給它以及 Claude-3.5-Sonnet 出一道數(shù)學(xué)題。

「設(shè)函數(shù) f(x,y)=x3+3xy23xy3+2yf(x,y)=x3+3xy2−3x−y3+2y。
求函數(shù)在點(diǎn) (1,1)(1,1) 處的梯度,并判斷該點(diǎn)是否為極值點(diǎn),若是極值點(diǎn),請(qǐng)判斷其為極大值點(diǎn)、極小值點(diǎn)還是鞍點(diǎn)!

片刻之后,DeepSeek-V3 以及 Claude-3.5-Sonnet 分別給出了各自的答案。

誰(shuí)說(shuō) AI 只能燒錢,DeepSeek-V3 究竟做對(duì)了什么?

翻開(kāi) DeepSeek-V3 的技術(shù)報(bào)告,我通篇只看到了創(chuàng)新二字。

DeepSeek-V3 為自研 MoE 模型,671B 參數(shù),激活 37B,在 14.8T token 上進(jìn)行了預(yù)訓(xùn)練。

MoE 架構(gòu)不難理解,就像一個(gè)公司有不同部門的專家(如財(cái)務(wù)、技術(shù)、市場(chǎng)等),每個(gè)專家都精通自己的領(lǐng)域,但不需要處理所有工作。

MoE 模型中的每個(gè)「專家」也是如此,專門處理特定類型的任務(wù),遇上任務(wù)時(shí),能夠智能地調(diào)動(dòng)最合適的專家來(lái)解決特定問(wèn)題。

基于其前身 DeepSeek-V2 的高效性,該模型集成了多頭潛在注意力(Multi-head Latent Attention, MLA)和 DeepSeekMoE 架構(gòu),從而實(shí)現(xiàn)了高效推理和成本優(yōu)化的訓(xùn)練。

關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

報(bào)告中還提到 DeepSeek-V3 引入了兩個(gè)關(guān)鍵創(chuàng)新。

一種無(wú)需輔助損失的負(fù)載平衡策略,以及一種多 Token 預(yù)測(cè)(Multi-Token Prediction, MTP)的訓(xùn)練目標(biāo)。

兩千塊 GPU,兩個(gè)月時(shí)間,DeepSeek 用最優(yōu)雅的方式證明了技術(shù)創(chuàng)新的重要性。

具體而言,該模型在 14.8 萬(wàn)億多樣且高質(zhì)量的 Token 上完成預(yù)訓(xùn)練, 隨后通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)階段進(jìn)一步優(yōu)化性能。

預(yù)訓(xùn)練階段在 2048 個(gè) H800 GPU 的集群上耗時(shí)不到兩個(gè)月,總計(jì) 266.4 萬(wàn)個(gè) GPU 小時(shí)。

通過(guò)優(yōu)化算法、框架與硬件的協(xié)同設(shè)計(jì),DeepSeek-V3 的總訓(xùn)練成本為 557.6 萬(wàn)美元,并且這一成本還包括預(yù)訓(xùn)練、上下文長(zhǎng)度擴(kuò)展及后續(xù)訓(xùn)練階段。

技術(shù)報(bào)告的貢獻(xiàn)與致謝名單,清一色中文姓名

更多細(xì)節(jié)歡迎查詢技術(shù)報(bào)告:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

對(duì)于開(kāi)發(fā)者而言,DeepSeek-V3 API 服務(wù)定價(jià)也將調(diào)整為每百萬(wàn)輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬(wàn)輸出 tokens 8 元。

更重要的是,追求普惠 AGI 的 DeepSeek 率先開(kāi)放了采用 FP8 訓(xùn)練的 DeepSeek-V3 原生權(quán)重。

得益于開(kāi)源社區(qū)的支持,SGLang 和 LMDeploy 已經(jīng)第一時(shí)間支持了 V3 模型的原生 FP8 推理,同時(shí) TensorRT-LLM 和 MindIE 則實(shí)現(xiàn)了 BF16 推理。

此外,為方便社區(qū)適配和拓展應(yīng)用場(chǎng)景,DeepSeek 官方還提供了從 FP8 到 BF16 的轉(zhuǎn)換腳本。

模型權(quán)重下載和更多本地部署信息請(qǐng)參考:
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

可以說(shuō),今年的圣誕老人來(lái)自中國(guó)的 DeepSeek。

而這份源自中國(guó)的圣誕禮物,讓全球見(jiàn)證了 AI 的中國(guó)速度。

海外有 Meta,中國(guó)有 DeepSeek、智譜、面壁等國(guó)產(chǎn)廠商,中國(guó)在開(kāi)源社區(qū)的存在感也因此在不斷攀升。

更多的廠商為中國(guó)開(kāi)源盛世傾注一份心力的同時(shí),也是在呼吁這種純粹和利他性的回歸。

如果說(shuō)今天凌晨 ChatGPT 的再度宕機(jī)提醒我們 AI 模型多元化的重要性,那么下一次,我們將多出一個(gè)可靠的選擇。

那就是來(lái)自中國(guó)的 DeepSeek-V3。

One more thing

最近,ChatGPT o3 聊天記錄編造器爆火,我們也跟風(fēng)生成了一個(gè)聊天界面。

o3 都這么說(shuō)了,這下真不能不信了(手動(dòng)狗頭)。


附上體驗(yàn)地址:https://chatgpt-meme-generator.vercel.app/

本文來(lái)源:Appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部