首頁 > 科技要聞 > 科技> 正文

Stable Diffusion 3突然發(fā)布!與Sora同架構(gòu),一切都更逼真了

量子位 整合編輯:黃安莉 發(fā)布于:2024-02-25 11:07

Stable Diffusion 3,它終于來了!

足足醞釀一年之多,相比上一代一共進(jìn)化了三大能力。

來,直接上效果!

首先,是開掛的文字渲染能力。

且看這黑板上的粉筆字:

Go Big or Go Home (不成功便成仁),這個(gè)倒是殺氣騰騰啊~

路牌、公交燈牌的霓虹效果:

還有刺繡上“勾”得快要看到針腳的“晚安”:

作品一擺出,網(wǎng)友就大呼:太精確了。

以至于有人表示:趕緊把中文也安排上啊。

其次,多主題提示能力直接拉滿。

什么意思?你盡管一次性往提示詞中塞入n多“元素”,Stable Diffusion 3:漏一個(gè)算我輸。

吶,仔細(xì)瞅下圖,這里面就有“宇航員”、“穿著芭蕾舞裙的小豬”、“粉色雨傘”、“戴著禮帽的知更鳥”,角落里還有“Stable Diffusion”幾個(gè)大字(可不是什么水印)。

有了這個(gè)能力,一幅作品你想多豐富就有多豐富。

最后,當(dāng)屬圖像質(zhì)量,再次進(jìn)化了一個(gè)度。

光看前面這些圖,就被沖擊到有沒有?!

而各種超清特寫,那是再信手拈來不過的了。

心動(dòng)嗎?目前官方已開放排隊(duì)名單,大伙可以前往官網(wǎng)申請。

咳咳,也不得不說,最近這AI圈可真是相當(dāng)熱鬧啊。

有網(wǎng)友直呼,我的電腦已經(jīng)Hold不住了……

Stable Diffusion 3來了!

全新的Stable Diffusion效果有多好,再給大伙奉送一些。

當(dāng)然,所有出圖均來自官方,比如StabilityAI媒體負(fù)責(zé)人:

不得不說,文字效果實(shí)在最為吸人眼球,各種形式都能呈現(xiàn)得相當(dāng)清楚和“應(yīng)景”。

而看到上面這幅圖,不得不想到“Midjourney尷尬亮相學(xué)術(shù)界:為生物學(xué)論文亂配圖”一事——有了SD3之后,我們是不是可以制作非常專業(yè)的學(xué)術(shù)配圖了?

除了這些,SD3的“酒精水墨畫”也相當(dāng)別出心裁:

動(dòng)漫風(fēng)格:

again,你可以在上面加清晰的文字了。

由于目前需要排隊(duì)申請,大伙還不好實(shí)際測試摸底。

不過有機(jī)智的網(wǎng)友已經(jīng)用相同的提示詞喂給了Midjourney(v 6.0)。

比如開頭的那張“紅蘋果與黑板字”(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk)

最終Midjourney給出的結(jié)果如下:

從這組對比來看,可以說是高下立判——SD3無論是文字拼寫還是質(zhì)量、色彩協(xié)調(diào)性等方面都更勝一籌。

技術(shù)方面,目前,模型可選擇的參數(shù)范圍在800M到8B。

詳細(xì)的技術(shù)報(bào)告還未公布,官方目前只透露主要結(jié)合了擴(kuò)散型transformer架構(gòu)以及flow matching。

前者實(shí)際上同Sora一樣,附上的技術(shù)論文正是22年William Peebles同謝賽寧合寫的DiT。

DiT首次將Transformer與擴(kuò)散模型結(jié)合到了一起,相關(guān)論文被ICCV 2023錄用為Oral論文。

在該研究中,研究者訓(xùn)練了潛在擴(kuò)散模型,用對潛在 patch進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以Gflops衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。

而后者flow matching同樣也是來自22年,由Meta AI以及魏茨曼科學(xué)研究所的科學(xué)家完成。

他們提出了基于連續(xù)歸一化流(CNFs)的生成模型新范式,以及flow matching的概念,這是一種基于回歸固定條件概率路徑的矢量場的免模擬CNFs的方法。結(jié)果發(fā)現(xiàn)使用帶有擴(kuò)散路徑的flow matching,可以訓(xùn)練出來的模型更穩(wěn)健和穩(wěn)定。

不過最近看了這么多視頻生成進(jìn)展,也有網(wǎng)友表示:

你覺得呢?

One More Thing

除此之外,也就在前一天,他們的視頻產(chǎn)品Stable Video正式開放公測。

基于SVD1.1(Stable Video Diffusion 1.1),人人可用。

主要支持文生視頻和圖生視頻兩個(gè)功能。

參考鏈接:

[1]https://stability.ai/news/stable-diffusion-3

[2]https://arxiv.org/abs/2212.09748

[3]https://arxiv.org/abs/2210.02747

[4]https://twitter.com/pabloaumente/status/1760678508173660543

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部