太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

Stable Diffusion 3突然發(fā)布！與Sora同架構(gòu)，一切都更逼真了

量子位整合編輯：黃安莉發(fā)布于：2024-02-25 11:07

Stable Diffusion 3，它終于來了！

足足醞釀一年之多，相比上一代一共進(jìn)化了三大能力。

來，直接上效果！

首先，是開掛的文字渲染能力。

且看這黑板上的粉筆字：

Go Big or Go Home （不成功便成仁），這個(gè)倒是殺氣騰騰啊～

路牌、公交燈牌的霓虹效果：

還有刺繡上“勾”得快要看到針腳的“晚安”：

作品一擺出，網(wǎng)友就大呼：太精確了。

以至于有人表示：趕緊把中文也安排上啊。

其次，多主題提示能力直接拉滿。

什么意思？你盡管一次性往提示詞中塞入n多“元素”，Stable Diffusion 3：漏一個(gè)算我輸。

吶，仔細(xì)瞅下圖，這里面就有“宇航員”、“穿著芭蕾舞裙的小豬”、“粉色雨傘”、“戴著禮帽的知更鳥”，角落里還有“Stable Diffusion”幾個(gè)大字（可不是什么水印）。

有了這個(gè)能力，一幅作品你想多豐富就有多豐富。

最后，當(dāng)屬圖像質(zhì)量，再次進(jìn)化了一個(gè)度。

光看前面這些圖，就被沖擊到有沒有？！

而各種超清特寫，那是再信手拈來不過的了。

心動(dòng)嗎？目前官方已開放排隊(duì)名單，大伙可以前往官網(wǎng)申請。

咳咳，也不得不說，最近這AI圈可真是相當(dāng)熱鬧啊。

有網(wǎng)友直呼，我的電腦已經(jīng)Hold不住了……

Stable Diffusion 3來了！

全新的Stable Diffusion效果有多好，再給大伙奉送一些。

當(dāng)然，所有出圖均來自官方，比如StabilityAI媒體負(fù)責(zé)人：

不得不說，文字效果實(shí)在最為吸人眼球，各種形式都能呈現(xiàn)得相當(dāng)清楚和“應(yīng)景”。

而看到上面這幅圖，不得不想到“Midjourney尷尬亮相學(xué)術(shù)界：為生物學(xué)論文亂配圖”一事——有了SD3之后，我們是不是可以制作非常專業(yè)的學(xué)術(shù)配圖了？

除了這些，SD3的“酒精水墨畫”也相當(dāng)別出心裁：

動(dòng)漫風(fēng)格：

again，你可以在上面加清晰的文字了。

由于目前需要排隊(duì)申請，大伙還不好實(shí)際測試摸底。

不過有機(jī)智的網(wǎng)友已經(jīng)用相同的提示詞喂給了Midjourney（v 6.0）。

比如開頭的那張“紅蘋果與黑板字”（prompt：cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk）

最終Midjourney給出的結(jié)果如下：

從這組對比來看，可以說是高下立判——SD3無論是文字拼寫還是質(zhì)量、色彩協(xié)調(diào)性等方面都更勝一籌。

技術(shù)方面，目前，模型可選擇的參數(shù)范圍在800M到8B。

詳細(xì)的技術(shù)報(bào)告還未公布，官方目前只透露主要結(jié)合了擴(kuò)散型transformer架構(gòu)以及flow matching。

前者實(shí)際上同Sora一樣，附上的技術(shù)論文正是22年William Peebles同謝賽寧合寫的DiT。

DiT首次將Transformer與擴(kuò)散模型結(jié)合到了一起，相關(guān)論文被ICCV 2023錄用為Oral論文。

在該研究中，研究者訓(xùn)練了潛在擴(kuò)散模型，用對潛在 patch進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以Gflops衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。

而后者flow matching同樣也是來自22年，由Meta AI以及魏茨曼科學(xué)研究所的科學(xué)家完成。

他們提出了基于連續(xù)歸一化流（CNFs）的生成模型新范式，以及flow matching的概念，這是一種基于回歸固定條件概率路徑的矢量場的免模擬CNFs的方法。結(jié)果發(fā)現(xiàn)使用帶有擴(kuò)散路徑的flow matching，可以訓(xùn)練出來的模型更穩(wěn)健和穩(wěn)定。

不過最近看了這么多視頻生成進(jìn)展，也有網(wǎng)友表示：

你覺得呢？

One More Thing

除此之外，也就在前一天，他們的視頻產(chǎn)品Stable Video正式開放公測。

基于SVD1.1（Stable Video Diffusion 1.1），人人可用。

主要支持文生視頻和圖生視頻兩個(gè)功能。

參考鏈接：

[1]https://stability.ai/news/stable-diffusion-3

[2]https://arxiv.org/abs/2212.09748

[3]https://arxiv.org/abs/2210.02747

[4]https://twitter.com/pabloaumente/status/1760678508173660543

本文來源：量子位