太平洋科技要聞

OpenAI今天刷屏的視頻模型，是如何做到這么強(qiáng)的？

差評(píng) 整合編輯：吳利虹發(fā)布于：2024-02-17 11:29

2月16日，OpenAI 發(fā)布了新的文生視頻大模型，名為 “ Sora ”。

Sora 模型可以生成最長(zhǎng) 60 秒的高清視頻，生成的畫(huà)面可以很好的展現(xiàn)場(chǎng)景中的光影關(guān)系、各個(gè)物體間的物理遮擋、碰撞關(guān)系，并且鏡頭絲滑可變。

相信大家已經(jīng)在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示視頻，由于生成內(nèi)容的安全問(wèn)題 Sora 還未開(kāi)放測(cè)試，我們無(wú)法獲取更多差異化信息，所以知危編輯部在此不再重復(fù)展示 Sora 模型的效果。

下面，我們想重點(diǎn)探討為何 Sora 模型的效果看起來(lái)遠(yuǎn)超市面上我們見(jiàn)過(guò)的其他文生視頻模型，他們都做了什么？

以防您沒(méi)在朋友圈看到，我們?nèi)苑乓粋€(gè)示例視頻示例視頻的生成提示詞為：一位時(shí)尚的女人走在東京的街道上，街道上到處都是溫暖的發(fā)光霓虹燈和動(dòng)畫(huà)城市標(biāo)志。她身穿黑色皮夾克，紅色長(zhǎng)裙，黑色靴子，背著一個(gè)黑色錢(qián)包。她戴著墨鏡，涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光，營(yíng)造出五顏六色的燈光的鏡面效果。許多行人四處走動(dòng)。

首先，在文生視頻領(lǐng)域，比較成熟的模型思路有循環(huán)網(wǎng)絡(luò)（ RNN ）、生成對(duì)抗網(wǎng)絡(luò)（ GAN ）和擴(kuò)散模型（ Diffusion models ），而本次OpenAI 推出的 Sora 則是一種擴(kuò)散模型。

雖然 GAN 模型之前一直很火，但圖像和視頻生成相關(guān)的領(lǐng)域，現(xiàn)在處于被擴(kuò)散模型統(tǒng)治的階段。因?yàn)閿U(kuò)散模型是有非常卓越的優(yōu)越性的，相較于 GAN，擴(kuò)散模型的生成多樣性和訓(xùn)練穩(wěn)定性都要更好。

而最重要的是，擴(kuò)散模型在圖片和視頻生成上有更高的天花板，因?yàn)?nbsp;GAN 模型從原理上來(lái)看本質(zhì)上是機(jī)器對(duì)人的模仿，而擴(kuò)散模型則更像是機(jī)器學(xué)會(huì)了 “ 成為一個(gè)人 ”。這么說(shuō)或許有些抽象，我們換一個(gè)不嚴(yán)謹(jǐn)?shù)ㄋ缀美斫獾睦樱篏AN 模型像是一個(gè)勤奮的畫(huà)家，但不太受控制，因?yàn)楫?huà)家（生成器）一邊不停對(duì)著先作（訓(xùn)練源）畫(huà)畫(huà)，然后另一邊老師（判別器）也不停打分。

就在大戰(zhàn)無(wú)數(shù)個(gè)回合之后，畫(huà)家和老師瘋狂升級(jí)進(jìn)步，最后直到畫(huà)家畫(huà)出逼真的畫(huà)，但整個(gè)過(guò)程不太好控制，經(jīng)常練著練著就走火入魔，輸出一些誰(shuí)也看不懂的玩意兒。同時(shí)，他的提升過(guò)程本質(zhì)上是對(duì)先作的不斷模仿，所以他還缺乏創(chuàng)造力，導(dǎo)致天花板也潛在會(huì)比較低。而擴(kuò)散模型，則是一個(gè)勤奮且聰明的畫(huà)家，他并不是機(jī)械的仿作，而是在學(xué)習(xí)大量先作的時(shí)候，他學(xué)會(huì)了圖像內(nèi)涵與圖像之間的關(guān)系，他大概知道了圖像上的 “ 美 ” 應(yīng)該是什么樣，圖像的某種 “ 風(fēng)格 ” 應(yīng)該是什么樣，他更像是在思考，他是比 GAN 更有前途的畫(huà)家。

也就是說(shuō)，OpenAI 選擇擴(kuò)散模型這個(gè)范式來(lái)創(chuàng)造文生視頻模型，在當(dāng)下屬于開(kāi)了個(gè)好頭，選擇了一個(gè)有潛力的畫(huà)家來(lái)培養(yǎng)。那么，另一個(gè)疑問(wèn)就出現(xiàn)了，由于大家都知道擴(kuò)散模型的優(yōu)越性，除了 OpenAI 以外，同樣在做擴(kuò)散模型的還有很多友商，為什么 OpenAI 的看起來(lái)更驚艷？因?yàn)?nbsp;OpenAI 有這樣一個(gè)思維：我曾經(jīng)在大語(yǔ)言模型上獲得了非常好的效果、獲得了如此巨大的成功，那我有沒(méi)有可能參考這個(gè)經(jīng)驗(yàn)獲得一次新的成功呢？

答案是可以。

OpenAI 認(rèn)為，之前在大語(yǔ)言模型上的成功，得益于 Token（可以翻譯成令牌、標(biāo)記、詞元都可，翻譯為詞元會(huì)更好理解一些），Token 可以?xún)?yōu)雅的把代碼、數(shù)學(xué)以及各種不同的自然語(yǔ)言進(jìn)行統(tǒng)一進(jìn)而方便規(guī)模巨大的訓(xùn)練。于是，他們創(chuàng)造了對(duì)應(yīng) Token 的 “ Patch ” 概念（塊，如果 Token 翻譯為詞元理解的話，Patch 或許可以被我們翻譯為 “ 圖塊 ” ）用于訓(xùn)練 Sora 這個(gè)視頻模型。

實(shí)際上，在大語(yǔ)言模型中，Token 的應(yīng)用之所以會(huì)如此成功，還得益于 Transformer 架構(gòu)，他與 Token 是搭配著來(lái)的，所以 Sora 作為一個(gè)視頻生成擴(kuò)散模型，區(qū)別于主流視頻生成擴(kuò)散模型采用了 Transformer 架構(gòu)。（主流視頻生成擴(kuò)散模型較多采用 U-Net 架構(gòu) ）也就是說(shuō)，OpenAI 贏在了經(jīng)驗(yàn)與技術(shù)路線的選擇上。

但是，Transformer 架構(gòu)這個(gè) “ 成功密碼 ”人盡皆知，在文字、圖像生成上已經(jīng)成為了主流，為什么別人沒(méi)想著在視頻生成上用，OpenAI 就用了呢？這源自另外一個(gè)問(wèn)題：Transformer 架構(gòu)中全注意力機(jī)制的內(nèi)存需求會(huì)隨著輸入序列長(zhǎng)度而二次方增長(zhǎng)，所以處理視頻這樣的高維信號(hào)時(shí)，計(jì)算成本會(huì)非常非常高。

通俗點(diǎn)說(shuō)，就是雖然用了 Transformer 效果會(huì)好，但所需的計(jì)算資源也是非�？植赖模@么做不是很經(jīng)濟(jì)。當(dāng)然，OpenAI 雖然拿各種融資拿到手軟，但也依然沒(méi)那么財(cái)大氣粗，所以他們并沒(méi)有直接猛砸資源，而是想了另外一種方式來(lái)解決計(jì)算成本高昂的問(wèn)題。這里我們要先引入 “ latent ” （潛）這一概念，它是一種 “ 降維 ” 或者說(shuō)是 “ 壓縮 ”，意在用更少的信息去表達(dá)信息的本質(zhì)。

我們列舉一個(gè)不恰當(dāng)?shù)美斫獾睦�，這就好像我們用一個(gè)三視圖就能保存記錄一個(gè)簡(jiǎn)單的立體物體的結(jié)構(gòu)，而非一定要保存這個(gè)立體本身。OpenAI 為此開(kāi)發(fā)了一個(gè)視頻壓縮網(wǎng)絡(luò)，把視頻先降維到潛空間，然后再去拿這些壓縮過(guò)的視頻數(shù)據(jù)去生成 Patch ，這樣就能使輸入的信息變少，有效減小 Transformer 架構(gòu)帶來(lái)的計(jì)算量壓力。

如此一來(lái)，大部分問(wèn)題就都解決了，OpenAI 成功地把文生視頻模型套進(jìn)了其在過(guò)去取得巨大成功的大語(yǔ)言模型的范式里，所以效果想不好都難。除此之外，OpenAI 在訓(xùn)練上的路線選擇也稍有不同。他們選擇了 “ 原始尺寸、時(shí)長(zhǎng) ” 訓(xùn)練，而非業(yè)內(nèi)常用的 “ 把視頻截取成預(yù)設(shè)標(biāo)準(zhǔn)尺寸、時(shí)長(zhǎng) ” 后再訓(xùn)練。

這樣的訓(xùn)練給 Sora 帶來(lái)了諸多好處：①生成的視頻能更好地自定義時(shí)長(zhǎng)；②生成的視頻能夠更好地自定義視頻尺寸；③視頻會(huì)有更好的取景和構(gòu)圖；前兩點(diǎn)很好理解，第三點(diǎn) OpenAI 給出了范例，他們做了一個(gè)截取尺寸視頻訓(xùn)練和原始尺寸視頻訓(xùn)練的模型對(duì)比：

左側(cè)為截取尺寸視頻訓(xùn)練后模型生成的視頻右側(cè)為原始尺寸視頻訓(xùn)練后模型生成的視頻

另外，為了文生視頻能夠更好地理解用戶(hù)的意圖，達(dá)到更好的生成效果，OpenAI 也在 Sora 模型上加入了一些巧思。

首先，訓(xùn)練 Sora 這樣的文生視頻模型，需要大量含有文本說(shuō)明的視頻素材，所以 OpenAI 利用自家 DALL·E 3 的 re-captioning 功能，給訓(xùn)練用的視頻素材都加上了高質(zhì)量文本描述，他們表示這樣可以提高輸出視頻的整體質(zhì)量。

除了訓(xùn)練端，在輸入端他們也動(dòng)了腦筋，用戶(hù)輸入的提示詞并非直接交給 Sora 進(jìn)行生成的，OpenAI 利用了 GPT 的能力，在用戶(hù)給 Sora 輸入提示詞的時(shí)候，GPT 會(huì)先將用戶(hù)輸入的提示詞進(jìn)行精準(zhǔn)的詳盡擴(kuò)寫(xiě)，然后再將擴(kuò)寫(xiě)后的提示詞交給 Sora，這樣能更好地讓 Sora 遵循提示詞來(lái)生成更精準(zhǔn)的視頻。

好了，到這里，我們對(duì) Sora 模型為什么看起來(lái)更強(qiáng)的簡(jiǎn)要解析就結(jié)束了。從整體來(lái)看，你會(huì)發(fā)現(xiàn) Sora 模型的成功并非偶然，他能有如此驚艷的效果，全都得益于 OpenAI 過(guò)去的工作，包括 GPT、DALL·E 等，有些是直接調(diào)用，有些是借用了思路。

或許我們可以說(shuō)，OpenAI 自己先成為了一個(gè)巨人，然后再站在自己這個(gè)巨人的肩膀上，成為了一個(gè)新的巨人。而相對(duì)應(yīng)的是，無(wú)論國(guó)內(nèi)還是國(guó)外的其他競(jìng)爭(zhēng)對(duì)手，或許會(huì)因?yàn)槲纳�、文生圖上的技術(shù)差，在未來(lái)被甩的更遠(yuǎn)。

所謂 “ 彎道超車(chē) ”、“ 差距只有 X 個(gè)月 ”，或許是不存在的，只是自我安慰。

本文來(lái)源：差評(píng)

OpenAI Sora

差評(píng)

原創(chuàng)欄目