首頁 > 科技要聞 > 科技> 正文

滾燙Deepseek一夜刀掉英偉達4萬億,除夕開源多模態(tài)新模型:7B超越DALL-E 3和StableDiffusion

量子位 整合編輯:吳利虹 發(fā)布于:2025-01-28 12:44

DeepSeek大爆出圈,現(xiàn)在連夜發(fā)布新模型——

多模態(tài)Janus-Pro-7B,發(fā)布即開源。

在GenEval和DPG-Bench基準測試中擊敗了DALL-E 3和Stable Diffusion。

想必大家這幾天完全被DeepSeek刷屏了吧。

它長時間霸榜熱搜第一,甚至AI第一股英偉達直接被干崩了——最大跌幅近17%,一夜蒸發(fā)5890億美元(約合人民幣4.24萬億元),創(chuàng)下美股單日跌幅最大紀錄。

而Deepseek神話還在繼續(xù),春節(jié)假期中全國人民都開始體驗了,Deepseek服務器還一度卡到宕機。

值得一提,同一夜,阿里旗下大模型通義千問Qwen也更新了自己的開源家族:

視覺語言模型Qwen2.5-VL,包括3B、7B 和 72B三種尺寸。

真~今夜杭州都不睡,起舞競速大模型。

DeepSeek連夜發(fā)布新模型

先來看看DeepSeek新模型,這其實是此前Janus、JanusFlow的高級版本和延續(xù)。

一作為博士畢業(yè)于北大的陳小康。

具體來說,它基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base構建的,是一個統(tǒng)一理解和生成的多模態(tài)大模型。整個模型采用自回歸框架。

它通過將視覺編碼解耦為單獨的路徑來解決以前方法的局限性,同時仍然使用單一、統(tǒng)一的轉換器架構進行處理。

這種解耦不僅緩解了視覺編碼器在理解和生成中的角色沖突,還增強了框架的靈活性。

對于多模態(tài)理解,它使用SigLIP-L作為視覺編碼器,支持 384 x 384 圖像輸入。對于圖像生成,Janus-Pro使用LIamaGen中的VQ標記器,將圖像轉換為離散的ID,下采樣率為16。

ID序列被扁平化為一維后,他們使用生成適配器將每個ID對應的代碼庫嵌入映射到 LLM 的輸入空間中。然后,將這些特征序列連接起來,形成一個多模態(tài)特征序列,隨后將其輸入 LLM 進行處理。

除了 LLM 內置的預測頭,還在視覺生成任務中使用隨機初始化的預測頭進行圖像預測。

相較于前一個版本Janus的三個訓練階段,團隊發(fā)現(xiàn)這一訓練策略并不理想,會大大降低計算效率。

對此,他們做了兩處大的修改。

第一階段Stage I的長時間訓練:增加了第一階段的訓練步驟,以便在 ImageNet 數(shù)據集上進行充分的訓練。研究結果表明,即使在 LLM 參數(shù)固定的情況下,模型也能有效地模擬像素依賴性,并根據類別名稱生成合理的圖像。

第二階段Stage II:的集中訓練:在第二階段,放棄了 ImageNet 數(shù)據,直接利用常規(guī)文本到圖像數(shù)據來訓練模型,以生成基于密集描述的圖像。

此外在第三階段的監(jiān)督微調過程中,還調整了不同類型數(shù)據集的數(shù)據比例,將多模態(tài)數(shù)據、純文本數(shù)據和文本圖像數(shù)據的比例從 7:3:10 調整為 5:1:4。

通過略微降低文本到圖像數(shù)據的比例發(fā)現(xiàn),這一調整可以讓在保持強大的視覺生成能力的同時,提高多模態(tài)理解性能。

最終結果顯示,實現(xiàn)了與現(xiàn)有視覺理解生成SOTA模型持平的水準。


GenEval基準


DPG-Bench基準

與上一個版本 Janus相比,它可以為簡短提示提供更穩(wěn)定的輸出,具有更好的視覺質量、更豐富的細節(jié)以及生成簡單文本的能力。

更多多模態(tài)理解和視覺生成能力的定性結果。

DeepSeek征服全球用戶

想必這兩天一定是被DeepSeek刷屏了——

是科技圈非科技圈、七大姑八大姨都擱那討論的程度。

像同為杭州六小龍的游戲科學,其創(chuàng)始人CEO、《黑神話:悟空》制作人也專門發(fā)微博支持:頂級科技成果,六大突破

還有DeepSeek自稱MOSS,也被流浪地球導演郭帆注意到了。

好好好,DeepSeek是不是直接預訂下一部主角了(Doge)。

而這故事的一開始,正是前幾天剛剛開源的推理模型R1,以其低廉的成本、免費的使用以及完全不輸o1的性能,征服了全球用戶,直接引發(fā)行業(yè)地震。

僅僅花費560萬美元訓練的R1,相當于Meta GenAI團隊任一高管的薪資,在很多AI基準測試中已經達到甚至超越OpenAI o1模型。

而且DeepSeek是真的免費,而ChatGPT雖然在免費榜上,但要是想解鎖它的完全體,還是要掏上200美元。

于是乎,大家開始紛紛轉向DeepSeek來“構建一切”,也就迅速登頂美區(qū)蘋果應用商店免費App排行第一,超越了ChatGPT和Meta的Threads等熱門應用。

用戶量的激增也導致DeepSeek服務器多次宕機,官方不得不緊急維護。

而聚焦于行業(yè)內,大家對于DeepSeek的關注,在于如何在有限的資源成本情況下,實現(xiàn)與OpenAI持平的水準。

相比于國外動輒百億千億美元成本、幾十上百萬張卡這種粗放的模式,用DeepSeek很多技術細節(jié)都放在如何降低成本開銷上。

比如蒸餾。R1總共開源了6個在R1數(shù)據上的蒸餾小模型,蒸餾版Qwen-1.5B都能在部分任務上超過GPT-4o。

還有就是純強化學習,拋棄SFT環(huán)節(jié),通過數(shù)千次的強化學習來提升模型的推理能力,然后在AIME 2024上的得分與OpenAI-o1-0912的表現(xiàn)相當。

也正因為這樣,讓人不免想到OpenAI前幾天砸5000億美元建數(shù)據中心以及英偉達長時間以來在高端GPU的壟斷地位。

拿5000億美元建數(shù)據中心,是有必要的嗎?

大規(guī)模的AI算力投資,是有必要的嗎?

這樣的討論,在資本市場得到了響應。美股開盤后,英偉達股價暴跌17%,創(chuàng)下自2020年3月以來最大跌幅,市值蒸發(fā)近6000億美元,老黃自己的個人財富一夜之間也縮水了超130億美元。

博通、AMD等芯片巨頭也紛紛大幅下跌。

對此,英偉達公開回應稱,DeepSeek是一項卓越的人工智能進展,也是測試時擴展的絕佳范例。DeepSeek的研究展示了如何運用該技術,借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。推理過程需要大量英偉達 GPU和高性能網絡。如今我們有三條擴展定律:持續(xù)適用的預訓練和后訓練定律,以及新的測試時擴展定律。

同樣被動搖的還有Meta、OpenAI。

Meta內部甚至成立了專門的研究小組,試圖剖析DeepSeek的技術細節(jié),以改進其Llama系列模型,并且新年計劃中預算4000億起步搞AI,年底AI算力將達130萬卡。

奧特曼也緊急透露新模型o3-mini即將免費上線ChatGPT的消息,試圖挽回一點市場熱度。

現(xiàn)在有了新模型發(fā)布,關于DeepSeek的討論還在繼續(xù)。

DeepSeek新版本疑似很快發(fā)布,時間是2025年2月25日。

杭州昨夜不眠

同一個夜晚,同一個杭州。

就在DeepSeek新模型發(fā)布不久,Qwen也更新了自己的開源家族:

Qwen2.5-VL。

這個標題怎么有三體那味了。

它有3B、7B 和 72B三種尺寸,可以支持視覺理解事物、Agent、理解長視頻并且捕捉事件,結構化輸出等等。

ps,最后,繼杭州六小龍之后,廣東AI三杰也出現(xiàn)了。

(杭州六小龍分別是游戲科學、DeepSeek、宇樹科技、云深處科技、強腦科技和群核科技)

他們分別是湛江人梁文鋒(DeepSeek創(chuàng)始人),汕頭人楊植麟(月之暗面、Kimi創(chuàng)始人)以及AI學術大佬廣州人何愷明。

文章來源:量子位

網友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部