首頁 > 科技要聞 > 科技> 正文

DeepSeek除夕狂飆大招:開源多模態(tài)掀翻全場!256張A100訓(xùn)兩周碾壓DALL-E 3

新智元 整合編輯:吳利虹 發(fā)布于:2025-01-28 13:26

全世界矚目之際,DeepSeek在除夕又有了新的動作。

就在昨夜,DeepSeek正式發(fā)布了集理解與生成于一體的多模態(tài)大模型Janus-Pro。

目前,相關(guān)代碼和模型已完全開源。

論文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
開源項目:https://github.com/deepseek-ai/Janus

Janus-Pro采用了創(chuàng)新性自回歸框架,并實現(xiàn)了多模態(tài)理解與生成的統(tǒng)一,是對去年發(fā)布的前代模型Janus的全面升級。

它通過將視覺編碼解耦為獨立的通道,克服了先前方法的局限性,同時仍然使用單一且統(tǒng)一的Transformer架構(gòu)進(jìn)行處理。

這種解耦不僅緩解了視覺編碼器在理解和生成方面的固有角色沖突,還顯著提升了框架的靈活性。結(jié)果顯示,升級后的Janus-Pro在多模態(tài)理解和文生圖能力上都實現(xiàn)了顯著突破,同時文生圖的穩(wěn)定性也得到了提升。

與此同時,DeepSeek在訓(xùn)練上一如既往地只用了非常少的算力——

1.5B和7B這兩款模型,分別在配備16/32個計算節(jié)點的集群上進(jìn)行,每個節(jié)點裝配8張Nvidia A100(40GB)GPU,總訓(xùn)練時間約為7/14天。

網(wǎng)友實測

對于DeepSeek的又一個暴擊,外媒VentureBeat評論道:「Janus-Pro-7B的發(fā)布,讓它的影響力再次得到擴大的同時,強化了這一敘事——DeepSeek作為創(chuàng)新者,已經(jīng)顛覆了AI世界的既定秩序。」

網(wǎng)友們紛紛預(yù)言,DeepSeek Janus-Pro-7B模型對整個AI世界生態(tài)系統(tǒng)來說,又將造成巨震。

甚至1B模型可以直接在WebGPU的瀏覽器中就可以運行。本地運行模型,只需訪問網(wǎng)站即可!

但在實際效果上,很多網(wǎng)友實測發(fā)現(xiàn)Janus-Pro的生圖效果并不總是很理想。

當(dāng)然,也有實測效果比較好的例子。

類似的,在圖像理解方面,表現(xiàn)也是有好有壞。

完整論文解讀

具體而言,Janus-Pro在以下三個方面進(jìn)行了改進(jìn):(1)采用了優(yōu)化后的訓(xùn)練策略,(2)擴充了訓(xùn)練數(shù)據(jù)集,以及(3)實現(xiàn)了模型規(guī)模的進(jìn)一步擴展。

Janus作為一個創(chuàng)新性模型,最初在1B參數(shù)規(guī)模上完成了驗證。但由于訓(xùn)練數(shù)據(jù)量受限且模型容量相對不足,導(dǎo)致它存在一些局限性,主要表現(xiàn)在短提示詞圖像生成效果欠佳以及文本生圖質(zhì)量不夠穩(wěn)定等方面。

針對這些問題,DeepSeek團隊推出了升級版本Janus-Pro,在訓(xùn)練策略、數(shù)據(jù)規(guī)模和模型容量三個維度上都實現(xiàn)了重要突破。

Janus-Pro 系列提供了1B和7B兩種參數(shù)規(guī)模的模型,充分展示了視覺編解碼方法的可擴展性。

多個基準(zhǔn)測試的評估結(jié)果表明,Janus-Pro在多模態(tài)理解能力和文本生圖的指令執(zhí)行性能方面都取得了顯著進(jìn)展。

具體而言,Janus-Pro-7B在多模態(tài)理解基準(zhǔn)測試MMBench上達(dá)到了79.2的評分,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)在內(nèi)的現(xiàn)有最優(yōu)統(tǒng)一多模態(tài)模型。

在GenEval文本生圖指令執(zhí)行能力排行榜上,Janus-Pro-7B獲得了0.80的高分,顯著優(yōu)于Janus(0.61)、DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)的表現(xiàn)。

模型架構(gòu)

Janus-Pro架構(gòu)的核心設(shè)計理念是,實現(xiàn)多模態(tài)理解和生成任務(wù)中視覺編碼的解耦。與Janus保持一致。

具體而言,研究者采用獨立的編碼方法將原始輸入轉(zhuǎn)換為特征,隨后通過統(tǒng)一的自回歸Transformer進(jìn)行處理。

Janus-Pro的架構(gòu)

在多模態(tài)理解方面,研究者采用SigLIP編碼器,從圖像中提取高維語義特征。

這些特征首先從二維網(wǎng)格結(jié)構(gòu)展平為一維序列,然后通過理解適配器將圖像特征映射到大語言模型的輸入空間。

在視覺生成任務(wù)中,他們使用VQ分詞器將圖像轉(zhuǎn)換為離散ID序列。將這些ID序列展平為一維后,通過生成適配器將對應(yīng)的碼本嵌入映射至大語言模型的輸入空間。

隨后,他們將上述特征序列整合為統(tǒng)一的多模態(tài)特征序列,輸入大語言模型進(jìn)行處理。

除了利用大語言模型內(nèi)置的預(yù)測頭外,研究者還在視覺生成任務(wù)中引入了一個隨機初始化的預(yù)測頭用于圖像預(yù)測。

整個模型采用自回歸框架。

優(yōu)化訓(xùn)練策略

Janus的前代版本采用了三階段訓(xùn)練流程——

第一階段專注于適配器和圖像頭的訓(xùn)練;第二階段進(jìn)行統(tǒng)一預(yù)訓(xùn)練,期間除理解編碼器和生成編碼器外的所有組件參數(shù)都會更新;第三階段進(jìn)行監(jiān)督微調(diào),在第二階段基礎(chǔ)上進(jìn)一步解鎖理解編碼器的參數(shù)進(jìn)行訓(xùn)練。

然而,這種訓(xùn)練策略存在某些問題。

在第二階段中,Janus參照PixArt的方法,將文本生圖能力的訓(xùn)練分為兩個部分:首先使用ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練,以圖像類別名稱作為提示詞來生成圖像,目的是構(gòu)建像素依賴關(guān)系;其次使用標(biāo)準(zhǔn)文本生圖數(shù)據(jù)進(jìn)行訓(xùn)練。

在具體實施中,第二階段將66.67%的文本生圖訓(xùn)練步驟分配給了第一部分。

但通過深入實驗,研究者發(fā)現(xiàn)這種策略效果欠佳,且計算效率較低。為此,他們實施了兩項重要改進(jìn):

階段I延長訓(xùn)練時間:增加第一階段的訓(xùn)練步驟,確保充分利用ImageNet數(shù)據(jù)集。研究表明,即使在大語言模型參數(shù)固定的情況下,模型也能有效建立像素依賴關(guān)系,并根據(jù)類別名稱生成高質(zhì)量圖像。

階段II集中重點訓(xùn)練:在第二階段中,摒棄了ImageNet數(shù)據(jù),轉(zhuǎn)而直接使用標(biāo)準(zhǔn)文本生圖數(shù)據(jù)來訓(xùn)練模型,使其能夠基于詳細(xì)文本描述生成圖像。這種優(yōu)化策略使第二階段能夠更高效地利用文本生圖數(shù)據(jù),顯著提升了訓(xùn)練效率和整體表現(xiàn)。

此外,研究者還對第三階段監(jiān)督微調(diào)過程中的數(shù)據(jù)配比進(jìn)行了調(diào)整,將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本生圖數(shù)據(jù)的比例從7:3:10優(yōu)化為5:1:4。

通過適度降低文本生圖數(shù)據(jù)的占比,可以發(fā)現(xiàn),這種調(diào)整既保持了強大的視覺生成能力,又提升了多模態(tài)理解性能。

數(shù)據(jù)Scaling

在多模態(tài)理解和視覺生成兩個方面,團隊顯著擴充了Janus的訓(xùn)練數(shù)據(jù)規(guī)模:

• 多模態(tài)理解

在第二階段預(yù)訓(xùn)練中,他們參考了DeepSeekVL2的方法,新增了約9000萬個訓(xùn)練樣本。這些樣本包括圖像描述數(shù)據(jù)集以及表格、圖表和文檔理解數(shù)據(jù)集。

在第三階段監(jiān)督微調(diào)中,他們進(jìn)一步引入了DeepSeek-VL2的補充數(shù)據(jù)集,包括表情包理解、中文對話數(shù)據(jù)和對話體驗優(yōu)化數(shù)據(jù)集等。

這些數(shù)據(jù)的引入大幅提升了模型的綜合能力,使其能夠更好地處理多樣化任務(wù),并提供更優(yōu)質(zhì)的對話體驗。

• 視覺生成

研究者發(fā)現(xiàn),Janus早期版本使用的真實數(shù)據(jù)存在質(zhì)量不高、噪聲較大等問題,這往往導(dǎo)致文本生圖過程不穩(wěn)定,生成的圖像美感欠佳。

為此,在 Janus-Pro 中,他們引入了約7200萬個人工合成的高質(zhì)量美學(xué)數(shù)據(jù)樣本,使統(tǒng)一預(yù)訓(xùn)練階段的真實數(shù)據(jù)與合成數(shù)據(jù)達(dá)到1:1的均衡比例。這些合成數(shù)據(jù)的提示詞來源于公開資源。

實驗結(jié)果表明,使用合成數(shù)據(jù)不僅加快了模型的收斂速度,還顯著提升了文本生圖的穩(wěn)定性和圖像的美學(xué)質(zhì)量。

模型Scaling

Janus的前代版本通過1.5B參數(shù)規(guī)模的大語言模型,驗證了視覺編碼解耦方法的有效性。在Janus-Pro中,研究者將模型規(guī)模擴展至7B參數(shù)量。

研究發(fā)現(xiàn),在采用更大規(guī)模大語言模型后,無論是多模態(tài)理解還是視覺生成任務(wù)的損失值收斂速度都較小規(guī)模模型有了顯著提升。

這一結(jié)果進(jìn)一步證實了該技術(shù)方案具有優(yōu)秀的可擴展性。

Janus和Janus-Pro的超參數(shù)設(shè)置

對比SOTA

• 多模態(tài)理解性能

在表3中,研究者將本文提出的方法與當(dāng)前最先進(jìn)的統(tǒng)一模型和專用理解模型進(jìn)行了對比。結(jié)果顯示,Janus-Pro實現(xiàn)了整體最優(yōu)性能。

這主要得益于在多模態(tài)理解和生成任務(wù)中實現(xiàn)了視覺編碼的解耦,有效緩解了兩項任務(wù)間的沖突。即便與參數(shù)規(guī)模顯著更大的模型相比,Janus-Pro仍展現(xiàn)出強勁的競爭力。

例如,Janus-Pro-7B在除GQA外的所有基準(zhǔn)測試中,都超越了TokenFlow-XL(13B)的表現(xiàn)。

• 視覺生成性能

研究者在GenEval和DPG-Bench兩個基準(zhǔn)上,評估了視覺生成性能。

如表4所示,Janus-Pro-7B在GenEval測試中達(dá)到了80.0%的整體準(zhǔn)確率,優(yōu)于所有現(xiàn)有的統(tǒng)一模型和專用生成模型,包括Transfusion(63.0%)、SD3-Medium(74.0%)和DALL-E 3(67.0%)。

這一結(jié)果充分證明了,這一方法具有更強的指令執(zhí)行能力。

此外,如表5所示,Janus-Pro在DPG-Bench測試中獲得了84.19分的優(yōu)異成績,領(lǐng)先于所有其他方法。

這表明Janus-Pro在執(zhí)行復(fù)雜的文本生圖指令方面具有卓越的表現(xiàn)。

定性分析

在圖4中,研究者展示了多模態(tài)理解的測試結(jié)果。實驗表明,Janus-Pro在處理不同場景下的輸入時展現(xiàn)出卓越的理解能力,充分體現(xiàn)了其強大的性能優(yōu)勢。

在圖4的下半部分,研究者展示了一系列文本生圖的結(jié)果。

盡管輸出分辨率僅為384×384,但Janus-Pro-7B生成的圖像仍然展現(xiàn)出高度的真實感和豐富的細(xì)節(jié)表現(xiàn)。

特別是在處理具有想象力和創(chuàng)造性的場景時,Janus-Pro-7B能夠準(zhǔn)確理解提示詞中的語義信息,并生成邏輯合理、內(nèi)容連貫的圖像。

然而,Janus-Pro當(dāng)前仍然存在一些局限性。

在多模態(tài)理解方面,由于輸入分辨率被限制在384×384,影響了模型在OCR等需要精細(xì)識別的任務(wù)上的表現(xiàn)。

在文本生圖方面,較低的分辨率以及視覺Token編碼器引入的重建損失,導(dǎo)致生成的圖像雖然語義內(nèi)容豐富,但在細(xì)節(jié)表現(xiàn)上仍有不足。

典型例子是當(dāng)人臉區(qū)域在圖像中占比較小時,往往會出現(xiàn)細(xì)節(jié)欠缺的情況。這些問題有望通過提升圖像分辨率得到改善。

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部