首頁(yè) > 科技要聞 > 科技> 正文

Sora火爆上線系統(tǒng)秒癱,奧特曼直播第三更網(wǎng)友震翻!20秒1080p拍大片再近AGI

新智元 整合編輯:太平洋科技 發(fā)布于:2024-12-10 10:33

OpenAI直播第三彈,Sora終于現(xiàn)身了!

才一上線,網(wǎng)頁(yè)就已經(jīng)瞬間擠爆,F(xiàn)在,所有新用戶注冊(cè)已經(jīng)緊急暫停(不定期)。

奧特曼與Sora團(tuán)隊(duì)負(fù)責(zé)人Bill Peebles、研究副總Aditya Ramesh,以及Rohan Sahai、Joey Flynn開(kāi)啟了短短20分鐘的在線直播。

相較于2月的原版Sora,他們今天帶來(lái)了更高級(jí)的加速版Sora Turbo。

Sora能生成任意長(zhǎng)寬比的視頻,分辨率從480p到1080p,時(shí)長(zhǎng)從5秒到20秒,還可以一次生成多個(gè)方向的視頻版本,讓我們選擇其中最理想的一個(gè)。

包括文本到視頻、圖像到視頻、視頻到視頻的功能。

這次,OpenAI著重介紹了Sora的幾項(xiàng)功能:Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環(huán))、Blend(混合)以及Style presets(風(fēng)格預(yù)設(shè))。

所有新功能一覽:

OpenAI專(zhuān)為Sora設(shè)計(jì)的全新UI

等了大半年,Sora終于不再只是藝術(shù)家們的工具,現(xiàn)在所有的ChatGPT Plus/Pro用戶皆可使用。

唯一區(qū)別是,使用限制不同:Plus用戶每個(gè)月有50次生成額度,Pro用戶可以獲得500次快速生成額度(如果選擇的分辨率更高,則次數(shù)更少)或是無(wú)限次慢速生成額度。

奧特曼本人表示,對(duì)我來(lái)說(shuō),Sora最令人興奮的一點(diǎn)是,它使得與他人共作變得如此容易。這感覺(jué)像是一個(gè)有趣的全新事物!

它就像視頻領(lǐng)域的GPT-1,現(xiàn)在還處于初期階段,但我已經(jīng)覺(jué)得這個(gè)信息流非常吸引人。

Sora團(tuán)隊(duì)研究者自豪地表示,突破視覺(jué)生成的界限,就是在機(jī)器學(xué)習(xí)和人機(jī)交互方面取得突破。

誠(chéng)如這條讀者評(píng)論所言:Sora之所以令人激動(dòng),不止是因?yàn)槲覀儸F(xiàn)在在哪里;更重要的,是想象我們的前進(jìn)方向。可以確信,我們正在經(jīng)歷一個(gè)不平凡的年代。

直播20分鐘,全程高能

在Library中,我們可以查看視頻的所有版本,通過(guò)幾種不同的方式對(duì)此處的視圖進(jìn)行切片。

現(xiàn)場(chǎng),幾位工作人員給我們實(shí)測(cè)了一把Sora的文生視頻功能。

在輸入「長(zhǎng)毛猛犸象走過(guò)沙漠景觀」的prompt,等待一段時(shí)間后,四個(gè)視頻就出現(xiàn)了,我們可以選擇最理想的那個(gè)。

甚至,我們可以把猛犸象變成「機(jī)械猛犸」。

只需要通過(guò)Remix描述希望視頻怎樣更改(無(wú)論是大的更改,還是希望背景中多一些風(fēng)或者沙),接下來(lái)的工作就可以直接交給Sora。

故事版功能,可以讓我們使用時(shí)間軸,在整個(gè)序列中產(chǎn)生一個(gè)包含多個(gè)動(dòng)作的視頻。

在其中,我們可以描述環(huán)境、角色、想要在特定點(diǎn)發(fā)生的動(dòng)作。在prompt中我們寫(xiě)得越少,Sora就會(huì)填充得越多,反之亦然。

比如,我們想要一個(gè)美麗白鶴站在小溪里的場(chǎng)景。

在時(shí)間軸的開(kāi)頭,我們可以直接設(shè)置場(chǎng)景:開(kāi)始白鶴站著,然后將頭進(jìn)入水中,捉出一條魚(yú)。

在幾組動(dòng)作中,需要給Sora足夠的時(shí)間來(lái)連接這些想法

可以看到,Sora非常準(zhǔn)確地理解了研究者的想法。

我們還可以使用Re-cut,將其中的片段剪切到新的故事板中,在留白的地方創(chuàng)建其余的片段,比如一個(gè)結(jié)尾。

接下來(lái)是另一個(gè)功能。

上傳一個(gè)燈塔的圖像后,它被放入第一張卡片,然后Sora創(chuàng)建了一個(gè)全新的卡片。

厲害的地方來(lái)了!Sora已經(jīng)看過(guò)了該圖像,并且還添加進(jìn)了關(guān)于我們希望圖像怎樣動(dòng)的理解。

最終的視頻生成效果果然非常好。

最后,研究者再給我們展示了一個(gè)大驚喜。

通過(guò)Blend功能,Sora甚至還能將兩個(gè)場(chǎng)景完美地混到同一個(gè)視頻中,可以理解為這某種維度上粉碎兩個(gè)視頻,然后組成一個(gè)新的。

研究者強(qiáng)調(diào)說(shuō),這是他此前在其他AI視頻從未見(jiàn)過(guò)的功能!

比如,把猛犸象和機(jī)器象混合。

Sora功能全面介紹

足見(jiàn),Sora具備了令人印象深刻的視頻生成能力。

利用Sora,我們不僅可以制作分辨率最高1080p、時(shí)長(zhǎng)最長(zhǎng) 20 秒的各種格式視頻,并且還可以通過(guò)文本生成新內(nèi)容,或者增強(qiáng)、重混和融合自己的素材。

此外,通過(guò)「精選」和「最新」來(lái)查看社區(qū)的創(chuàng)作,也可以為自己的新想法提供靈感。

這款模型基于DALL·E和GPT模型豐富的經(jīng)驗(yàn)而打造,可以為用戶提供更強(qiáng)大的講故事和創(chuàng)意表達(dá)工具。

與GPT模型類(lèi)似,Sora使用Transformer架構(gòu),解鎖了卓越的擴(kuò)展性能。

此外,它采用了擴(kuò)散模型技術(shù),從看似靜態(tài)噪聲的基礎(chǔ)視頻開(kāi)始,逐步去除噪聲,最終生成完整視頻。

值得注意的是,Sora解決了視頻生成中的一個(gè)關(guān)鍵挑戰(zhàn)——主體一致性。

通過(guò)讓模型同時(shí)預(yù)測(cè)多個(gè)幀,確保即使主體暫時(shí)消失在視野之外,也能保持一致性。

在數(shù)據(jù)標(biāo)注上,Sora核心秘密武器便是DALL·E 3——為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度詳細(xì)的描述性標(biāo)注。

因此,訓(xùn)練后的Sora能夠以前所未有的精度,遵循用戶在生成視頻時(shí)的文本指令。

Sora的能力遠(yuǎn)遠(yuǎn)超出了簡(jiǎn)單文生視頻,它還能將靜態(tài)圖變身動(dòng)畫(huà),添加細(xì)節(jié)。

它還可以擴(kuò)展現(xiàn)有視頻,或填充缺失的幀。

更令人興奮地是,Sora作為理解和模擬真實(shí)世界的模型基礎(chǔ),被OpenAI視為邁向AGI的關(guān)鍵里程碑。

除了20分鐘發(fā)布會(huì)上的內(nèi)容,OpenAI在官網(wǎng)上,也放出了新功能的詳細(xì)介紹和示例。

Storyboard(故事板)

帶有關(guān)鍵幀的時(shí)間軸,是Sora非常亮眼的新功能。在個(gè)人時(shí)間軸上,可以組織和編輯獨(dú)特的視頻序列。

注意:不要上傳帶人物的圖像,否則無(wú)法生成視頻

A vast redlandscape with adocked spaceship in the distance

廣袤的紅色星球景觀中,一艘銀光閃閃的宇宙飛船靜靜?吭谶h(yuǎn)處

Looking out frominside thespaceship, a spacecowboy standscenter frame

透過(guò)宇宙飛船的舷窗向外眺望,一位星際牛仔挺立在畫(huà)面中央

Detailed close up view of astronaut'seyes framed by aknitted fabricmask

特寫(xiě)鏡頭下,宇航員深邃的雙眼透過(guò)織物面罩的框架凝視著前方

Remix(重混)

這個(gè)功能,可以讓我們替換、刪除或重新想象視頻中的元素。

比如,我們先生成一個(gè)場(chǎng)景——打開(kāi)通向圖書(shū)館的大門(mén)。

然后,通過(guò)Remix把門(mén)更換成法式的門(mén)。

再把圖書(shū)館變成一艘宇宙飛船。

接著去掉宇宙飛船,加入?yún)擦謭?chǎng)景。

最后把叢林換成月球表面。

Re-cut(重新剪輯)

這個(gè)功能,能讓我們找到并且選中最佳幀,向任一方向延伸。

比如,選出這段「水獺玩球」視頻中自己最心儀的那幾幀,Sora可以生成在它之前或者之后的幀。

Loop(循環(huán))

通過(guò)這個(gè)功能,Sora可以修剪并創(chuàng)建無(wú)縫的重復(fù)視頻。

Sora會(huì)在開(kāi)頭和結(jié)尾中添加大量幀,來(lái)將它們連接起來(lái)。

Blend(混合)

通過(guò)這個(gè)功能,可以把兩個(gè)完全不同的視頻,融合為一個(gè)無(wú)縫剪輯。

Style presets(風(fēng)格預(yù)設(shè))

這個(gè)功能,可以讓我們充分發(fā)揮想象力,創(chuàng)建想要的風(fēng)格。

比如原始視頻,是兩頭猛犸象在雪地里走路的場(chǎng)景。

我們可以將它轉(zhuǎn)換為紙工藝品風(fēng)。

Earthy tones with muted pastels and pops of color. Soft, diffused lighting enhances handcrafted textures. Everything—characters, objects, and scenery—is transformed into cardboard and paper, complete with visible creases and folds

以大地色調(diào)為基礎(chǔ),配以柔和的粉彩色,并點(diǎn)綴上鮮艷的色彩。柔和的環(huán)境光勾勒出精致的手工質(zhì)感。畫(huà)面中從人物、物件到背景的一切元素,都被重塑成紙板與紙張的質(zhì)地,呈現(xiàn)出自然的折痕與起伏

檔案風(fēng)。

Shot on 100t film, the image quality is grainy and high contrast, with shallow depth of field and cinematic look, epic and dramatic shot, very nostalgic

采用100T膠片拍攝,呈現(xiàn)獨(dú)特的顆粒質(zhì)感和高對(duì)比度效果,配合淺景深營(yíng)造電影感,畫(huà)面富有史詩(shī)感和戲劇性,散發(fā)濃郁的懷舊氛圍

黑白電影風(fēng)。

Shot in high-contrast black and white with deep shadows and selective highlights. Features low-key chiaroscuro lighting, hard shadows, and venetian blind effects. Moody, mysterious, and suspenseful, with a vintage cinematic vibe

采用高反差黑白攝影手法,營(yíng)造出深邃的暗部和精準(zhǔn)的亮部層次。運(yùn)用低調(diào)的明暗對(duì)比打光,呈現(xiàn)出銳利的陰影效果和威尼斯百葉窗光影。整體氛圍充滿憂郁、神秘和懸疑感,完美展現(xiàn)復(fù)古電影的美學(xué)

一大波效果

OpenAI科學(xué)家Noam Brown表示,「Sora,是scale力最直觀的證明之一」。

OpenAI Sora研究員Will Depue展示了一些生成虛構(gòu)歷史影像的demo。

found footage of Genghis Khan on the steppe with his warriors in the 1200s

13世紀(jì)成吉思汗與他的戰(zhàn)士們?cè)诓菰系臍v史影像片段

found footage from Kyoto in the 1600s

17世紀(jì)日本京都的歷史影像記錄

OpenAI COP Kevin Weil總結(jié)了今天的發(fā)布,并給了一個(gè)海馬泡泡的演示。

小狗超人在觀景臺(tái)上瞭望。

一部分網(wǎng)友也迫不及待開(kāi)始試用了,比如秋葉原的十字路口飄著雪花。

一位自信地走向鏡頭的女人。

woman confidently walking towards the camera, there are paparazzis behind her, tokyo high high contrast background

一位女性自信地迎著鏡頭走來(lái),身后跟隨著一群狗仔隊(duì)記者,背景是東京,光影對(duì)比強(qiáng)烈

視頻為什么如此重要?

今年2月,OpenAI搶先推出了自家首個(gè)視頻生成模型Sora。

隨即,他們又放出了首批訪問(wèn)者利用Sora做出的7個(gè)創(chuàng)意的演示,還有一支由Sora制作的MV——Worldweight,引全網(wǎng)圍觀。

直播開(kāi)場(chǎng),奧特曼本人介紹了,視頻對(duì)于OpenAI如此重要的原因,主要有三點(diǎn)。

第一,對(duì)于OpenAI而言,Sora不僅僅是一項(xiàng)技術(shù),更是一種賦能創(chuàng)意人士的工具。在公司的文化基因中,用AI激發(fā)人類(lèi)創(chuàng)造力,也很重要。

通過(guò)Sora,OpenAI看到了一種全新的協(xié)作模式:AI和人類(lèi)共同創(chuàng)造,開(kāi)啟了富有想象力的可能性。

早期測(cè)試中出現(xiàn)的創(chuàng)新性互動(dòng),預(yù)示著AI創(chuàng)意工具將極大地改變我們思考和創(chuàng)意的方式。

其次,文本曾是人機(jī)交互主要形式,但OpenAI堅(jiān)信,這遠(yuǎn)遠(yuǎn)不夠。

僅僅通過(guò)文字來(lái)理解和表達(dá),我們將會(huì)錯(cuò)過(guò)豐富的信息維度。

視頻,作為一種更加立體、生動(dòng)的交互方式,能夠傳遞更多情感、語(yǔ)境、細(xì)節(jié)。

最后,Sora之于OpenAI,不僅僅是一個(gè)視頻生成工具,更是AGI路線圖上的重要里程碑。

通過(guò)學(xué)習(xí)和生成視頻,AI將獲得更豐富、更深入的世界理解。

讓我們拭目以待,看看Sora將為人類(lèi)世界帶去怎樣的驚喜。

參考資料:

https://sora.com/

本文來(lái)源:新智元

新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部