首頁 > 科技要聞 > 科技> 正文

DeepSeek除夕放大招,連特朗普都點(diǎn)贊

鈦媒體 整合編輯:吳利虹 發(fā)布于:2025-01-28 13:50

DeepSeek除夕放大招,這絕對是 AI 行業(yè)最難眠的一夜了。

1月28日凌晨,人工智能社區(qū)Hugging Face顯示,DeepSeek剛剛發(fā)布了開源多模態(tài)人工智能模型Janus-Pro,擁有10億和70億參數(shù)規(guī)模,僅使用128顆英偉達(dá)A100進(jìn)行訓(xùn)練1周。其中,Janus-Pro-7B在GenEval和DPG-Bench基準(zhǔn)測試中擊敗了OpenAI的DALL-E 3和Stable Diffusion。

簡單來說,Janus-Pro模型既能讓AI讀圖(基于SigLIP-L),又能讓AI生圖(借鑒LlamaGen),分1.5B和7B兩個(gè)大小。要知道,GPT-4o的圖片生成多模態(tài)模型至今沒開放。

它到底有多么厲害?你看看DeepSeek給的案例:它能解答圖片在杭州西湖,也能根據(jù)提示詞生成惟妙惟肖的圖片。

最近幾天,DeepSeek爆火引發(fā)資本市場關(guān)注。1月27日美股收盤,英偉達(dá)(NASDAQ:NVDA)股價(jià)暴跌17%,收于118.58美元,市值蒸發(fā)近6000億美元(約合4.3萬億元人民幣)。CNBC稱,這是“美國公司有史以來的最大跌幅”。

對此,英偉達(dá)方面回應(yīng)稱:“DeepSeek是一項(xiàng)卓越的人工智能進(jìn)展,也是測試時(shí)擴(kuò)展的絕佳范例。DeepSeek的研究展示了如何運(yùn)用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。推理過程需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)。如今我們有三條擴(kuò)展定律:持續(xù)適用的預(yù)訓(xùn)練和后訓(xùn)練定律,以及新的測試時(shí)擴(kuò)展定律!

128顆英偉達(dá)A100訓(xùn)練1周

Janus-Pro性能超OpenAI

事實(shí)上,DeepSeek一直在研發(fā)多模態(tài)生成式AI模型。

2024年前后,DeepSeek推出Janus,這是一種統(tǒng)一理解和生成的開源多模態(tài)模型(MLLM),它將視覺編碼解耦,以實(shí)現(xiàn)多模態(tài)理解和生成。

Janus基于DeepSeek-LLM-1.3b-base 構(gòu)建,該庫在大約5000億個(gè)文本標(biāo)記的語料庫上進(jìn)行訓(xùn)練。對于多模態(tài)理解,它使用SigLIP-L作為視覺編碼器,支持384x384圖像輸入。

2024年11月13日,JanusFlow 發(fā)布,這是一種用于圖像生成的具有校正流的新型統(tǒng)一模型,也是一個(gè)功能強(qiáng)大的框架,引入了一種極簡架構(gòu),將自回歸語言模型與最先進(jìn)的生成模型方法蒸餾相結(jié)合,它將圖像理解和生成統(tǒng)一到一個(gè)模型中.

DeepSeek認(rèn)為,蒸餾方式可以直接在大型語言模型框架內(nèi)進(jìn)行訓(xùn)練,無需進(jìn)行復(fù)雜的架構(gòu)修改。

2025年開年,Janus全面升級到高級版Janus-Pro。

具體來說,Janus-Pro是一種新穎的自回歸框架,它將多模態(tài)理解和生成統(tǒng)一起來,將視覺編碼解耦,以實(shí)現(xiàn)多模態(tài)理解和生成。它通過將視覺編碼解耦為單獨(dú)的路徑來解決以前方法的局限性,同時(shí)仍然使用單一、統(tǒng)一的轉(zhuǎn)換器架構(gòu)進(jìn)行處理。

這種解耦不僅緩解了視覺編碼器在理解和生成中的角色沖突,還增強(qiáng)了框架的靈活性。

不過,Janus-Pro架構(gòu)與Janus相同,總體體系結(jié)構(gòu)的核心設(shè)計(jì)原理,是將視覺編碼解析以進(jìn)行多模式的理解和生成,應(yīng)用獨(dú)立的編碼方法將原始輸入轉(zhuǎn)換為功能,然后由統(tǒng)一自回歸Transformer處理。為了進(jìn)行多模式理解,我們使用siglip 編碼器從圖像中提取高維語義特征。將這些特征從2-D網(wǎng)格平坦為1-D序列,并使用理解適配將這些圖像特征映射到LLM的輸入空間中。

對于視覺生成任務(wù),Janus-Pro使用的VQ令牌將圖像轉(zhuǎn)換為離散ID。將ID序列平坦為1-D之后,我們使用一代適配器將與每個(gè)ID相對應(yīng)的代碼簿嵌入到LLM的輸入空間中。然后,團(tuán)隊(duì)將這些特征序列加和形成多模式特征序列,然后將其送入LLM進(jìn)行處理。除了LLM中的內(nèi)置預(yù)測頭外,團(tuán)隊(duì)還利用一個(gè)隨機(jī)初始化的預(yù)測頭來進(jìn)行視覺生成任務(wù)中的圖像預(yù)測。整個(gè)模型遵循自回歸框架。

Janus-Pro基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構(gòu)建,超越了之前的統(tǒng)一模型,并且達(dá)到或超過了特定任務(wù)模型的性能。Janus-Pro 的簡單性、高靈活性和有效性使其成為下一代統(tǒng)一多模態(tài)模型的有力候選者。

值得一提的是訓(xùn)練,DeepSeek稱,“我們在單個(gè)訓(xùn)練步驟中根據(jù)指定的比率混合所有數(shù)據(jù)類型。我們的 Janus 使用 HAI-LLM 進(jìn)行訓(xùn)練和評估,這是一個(gè)構(gòu)建在 PyTorch 之上的輕量級且高效的分布式訓(xùn)練框架。整個(gè)訓(xùn)練過程在 1.5B/7B 模型的 16/32 個(gè)節(jié)點(diǎn)的集群上花費(fèi)了大約 7/14 天,每個(gè)節(jié)點(diǎn)配備 8 個(gè) Nvidia A100 (40GB) GPU。”

也就是說,Janus-Pro最多用了256張英偉達(dá)A100 GPU卡訓(xùn)練了14天,最少用128張英偉達(dá)A100訓(xùn)練7天,整個(gè)模型訓(xùn)練投入僅數(shù)萬美金,這與數(shù)據(jù)規(guī)模、蒸餾方法等創(chuàng)新模式是分不開的。

對外展示的多個(gè)基準(zhǔn)測試顯示,Janus-Pro 卓越的多模態(tài)理解能力,并顯著提高了文本到圖像的指令跟蹤性能。具體來說,Janus-Pro-7B在多模態(tài)理解基準(zhǔn)MMBench 上取得了79.2的分?jǐn)?shù),超越了Janus (69.4)、TokenFlow (68.9)等最先進(jìn)的統(tǒng)一多模態(tài)模型,和MetaMorph (75.2)。此外,在文本到圖像指令跟蹤排行榜 GenEval中,Janus-Pro-7B 得分為 0.80,優(yōu)于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。

目前,Janus-Pro相關(guān)代碼已經(jīng)放在了GitHub當(dāng)中。

此外,值得提醒的是,DeepSeek已經(jīng)限制新用戶注冊了,僅支持+86手機(jī)用戶,也就是鎖區(qū)了,建議海外的朋友需要買虛擬號注冊。

“近期DeepSeek線上服務(wù)受到大規(guī)模惡意攻擊,為持續(xù)提供服務(wù),暫時(shí)限制了+86手機(jī)號以外的注冊方式,已注冊用戶可以正常登錄,感謝理解和支持!盌eepSeek稱。

AI算力格局加速演進(jìn)

DeepSeek的模型證明了一個(gè)重要觀點(diǎn):打造出色的AI模型,未必需要昂貴的高端芯片;進(jìn)一步表明AI技術(shù)并不存在明顯的“護(hù)城河”,模型技術(shù)的超越已成為常態(tài)。

據(jù)論文顯示,DeepSeek-V3開源基礎(chǔ)模型性能與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓(xùn)練成本極低。整個(gè)訓(xùn)練在2048塊英偉達(dá)H800 GPU集群上完成,僅花費(fèi)約557.6萬美元,不到其他頂尖模型訓(xùn)練成本的十分之一。而GPT-4o等模型的訓(xùn)練成本約為1億美元、至少在萬個(gè)H100 GPU量級的計(jì)算集群上訓(xùn)練;Llama 3.1在訓(xùn)練成本超過6000萬美元。

因此,這個(gè)發(fā)現(xiàn)對以高端AI芯片著稱的英偉達(dá)來說無疑是個(gè)重大打擊,其面臨更多質(zhì)疑。

1月27日,DeepSeek暴擊華爾街,引發(fā)AI概念股的估值泡沫破裂擔(dān)憂,歐美科技股市值或蒸發(fā)1.2萬億美元、Meta緊急組建多個(gè)小組研究復(fù)制DeepSeek的數(shù)據(jù)和技術(shù),英偉達(dá)最深跌超18%,市值蒸發(fā)規(guī)模創(chuàng)美國股市史上最大,歐美芯片制造商以及為AI和數(shù)據(jù)中心供電的全產(chǎn)業(yè)鏈公司齊跌。

其中,英偉達(dá)迎來自 2020 年 3 月 16 日以來在市場上表現(xiàn)最差的一天,當(dāng)日跌去17%。

上周,在英偉達(dá)超越蘋果之后再次成為市值最高的上市公司,但周一股價(jià)下跌導(dǎo)致科技股占比較高的納斯達(dá)克指數(shù)下跌 3.1%,英偉達(dá)也降至市值第三高的上市公司,僅次于蘋果和微軟。

此次拋售的原因是人們擔(dān)心DeepSeek在全球AI領(lǐng)域競爭加劇。去年12月下旬,DeepSeek 推出了一款免費(fèi)的開源大型語言模型,據(jù)稱該模型僅用了兩個(gè)月的時(shí)間和不到 600 萬美元就構(gòu)建完成,使用的是Nvidia 的低性能芯片H800芯片組。

Cantor分析師在周一的一份報(bào)告中表示,DeepSeek 最新技術(shù)的發(fā)布已經(jīng)引起了“人們對其對計(jì)算需求影響的極大擔(dān)憂,并因此擔(dān)心GPU支出將達(dá)到峰值”。

對于英偉達(dá)來說,此次損失是該公司去年9月2790億美元損失的兩倍多,這是當(dāng)時(shí)歷史上最大的單日市值損失,超過了Meta在2022年的2320億美元的損失。在此之前,最大跌幅是蘋果在 2020 年的 1820 億美元。此外,當(dāng)前英偉達(dá)的市值跌幅是可口可樂的兩倍多,并超過了Oracle(甲骨文)和Netflix(奈飛)的市值。

對此,英偉達(dá)予以回應(yīng),并否認(rèn)Scale創(chuàng)始人、CEO亞歷山大·王(Alexandr Wang)的質(zhì)疑。

Alexandr Wang表示:“DeepSeek大約有5萬張H100計(jì)算卡,他們顯然不能談?wù)撨@件事,因?yàn)檫@違反了美國實(shí)施的出口管制。我認(rèn)為這是真的,我認(rèn)為他們的籌碼比其他人預(yù)期的要多,但也會繼續(xù)前進(jìn)。他們將受到芯片控制和出口管制的限制。”

英偉達(dá)回應(yīng)稱,DeepSeek的研究展示了如何運(yùn)用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。

華泰證券表示,DeepSeek V3訓(xùn)練成本相當(dāng)于Llama3系列的7%,對當(dāng)前世代AI大模型的降本做出了重要貢獻(xiàn);同時(shí),目前北美四大AI公司主要通過擴(kuò)大GPU集群規(guī)模的方式探索下一代大模型,DeepSeek的方式是否在下一代模型研發(fā)中有效還有待觀察。此外,DeepSeek這次的成功顯示,在Scaling Law放緩的大背景下,中美在大模型技術(shù)上的差距有望縮小。

分析師Holger Zschaepitz表示:“中國的DeepSeek可能代表了對美國股市最大的威脅,因?yàn)樵摴舅坪跻詷O低的價(jià)格建立了一個(gè)突破性的 AI 模型,而無需依賴最先進(jìn)的芯片,這引發(fā)了對數(shù)百億美元資本支出是否有用的質(zhì)疑,這些資金正被投入到這個(gè)行業(yè)中!

最新消息是,美國總統(tǒng)特朗普已經(jīng)表示,拜登的《芯片法案》激勵(lì)措施“荒謬”,預(yù)計(jì)他將對進(jìn)口芯片征收高額關(guān)稅。此外,他還提到DeepSeek AI技術(shù)是“積極的(positive)”表現(xiàn)。

“……想出一種更快、更便宜的 AI 方法,這很好。如果它是事實(shí),而且是真的,我認(rèn)為這是積極的,雖然沒有人知道,但我認(rèn)為這是積極的!碧乩势毡硎尽

本文來源:鈦媒體

鈦媒體

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部