首頁(yè) > 科技要聞 > 科技> 正文

快手「可靈」再進(jìn)化!視頻續(xù)寫可達(dá)3分鐘讓全球網(wǎng)友炸鍋

新智元 整合編輯:太平洋科技 發(fā)布于:2024-06-26 15:14

最近,可靈AI直接讓一位網(wǎng)友的家人群里炸鍋了……

事情是這樣的,這位網(wǎng)友的父親需要做搭橋手術(shù),為了給父親鼓舞,他便試著用可靈AI把爺爺?shù)膬蓮埨险掌原成了視頻。

在下面這個(gè)視頻中,爺爺正在朝鮮戰(zhàn)場(chǎng),擔(dān)任營(yíng)輔導(dǎo)員。穿越時(shí)光隧道,1950年代風(fēng)華正茂的爺爺,對(duì)著他揮了揮手。

這位網(wǎng)友把視頻發(fā)到家人群后,群里直接炸了!

下面這張黑白的合影,是全家唯有的一張全家福。

當(dāng)已經(jīng)故去的人忽然動(dòng)了起來(lái),音容笑貌一如往昔,每個(gè)人都淚目了。

家人們久久不能平靜,即使已過(guò)午夜,群里仍然不斷有消息響起。

用AI還原老照片后,全家人仿佛一起經(jīng)歷了一場(chǎng)尋根之旅,從長(zhǎng)輩口述的「家史」中,每個(gè)人都獲得了更多的自我身份認(rèn)同感。

網(wǎng)友「玨哥」在他的公眾號(hào)「覺得有意思」里表示,在他看來(lái),AI最大的意義就是成為一臺(tái)超級(jí)造夢(mèng)機(jī)器:安排自己做個(gè)美夢(mèng),一覺醒來(lái)就有繼續(xù)去生活的勁頭了。

歪果仁都「饞哭了」

是的,這幾天快手可靈最新上線的圖生視頻和視頻續(xù)寫功能,不僅在國(guó)內(nèi)掀起一波試用的熱潮,還「饞哭」了一眾外國(guó)網(wǎng)友。

如今,X上已經(jīng)鋪滿了可靈生成和續(xù)寫的視頻。

比如這張著名的經(jīng)典表情包,經(jīng)過(guò)可靈的續(xù)寫后終于有了大結(jié)局!

每一步都在意料之外,但似乎又在情理之中(手動(dòng)狗頭)

狗狗吃面也變得活靈活現(xiàn)。

要知道,曾經(jīng)的快手可靈一出世,就讓外國(guó)網(wǎng)友們發(fā)出心悅誠(chéng)服的感嘆:效果居然比Sora還要好!

同樣是吃漢堡,可靈生成的「咬痕」就要比Sora更加逼真

一些申請(qǐng)到試用資格的用戶紛紛表示「真香」。而那些不能親自體驗(yàn)的國(guó)外網(wǎng)友,紛紛「跪求」幫忙生成。

可以說(shuō),可靈給全世界的開發(fā)者們,再次帶來(lái)了來(lái)自中國(guó)的億點(diǎn)點(diǎn)震撼!

作者:溫維斯Wenvis

值得一提的是,由于太過(guò)爆火,快影App截至目前已有累計(jì)超過(guò)20萬(wàn)人排隊(duì)申請(qǐng)。

所以說(shuō),這次可靈的兩大全新功能,究竟強(qiáng)大在哪里?

圖生視頻

首先來(lái)看第一個(gè)功能——圖生視頻。

這一功能直接做到了化靜為動(dòng),讓我們從此可以按需定制視覺敘事。

可靈在文生視頻上的諸多強(qiáng)大功能,也被一一完美融入了,比如創(chuàng)造逼真的運(yùn)動(dòng)場(chǎng)景、精確模擬物理特性、將復(fù)雜概念巧妙融合、輸出電影級(jí)畫質(zhì)、自由調(diào)節(jié)視頻縱橫比等等。

上傳一張圖片,接下來(lái),就是奇跡出現(xiàn)的時(shí)刻。

永遠(yuǎn)面帶謎之微笑的蒙娜麗莎,竟然戴上了墨鏡,瞟向觀眾們的小眼神,更多了一絲調(diào)皮和狡黠。

prompt: 蒙娜麗莎用手戴了眼鏡

構(gòu)建復(fù)雜時(shí)空一絕

業(yè)內(nèi)都知道,模型在轉(zhuǎn)換靜態(tài)圖像為動(dòng)態(tài)視頻時(shí),如何細(xì)膩而準(zhǔn)確地實(shí)現(xiàn)大幅度運(yùn)動(dòng)場(chǎng)景,要克服不少難點(diǎn)。

對(duì)此,可靈充分利用了基礎(chǔ)模型架構(gòu)中的3D時(shí)空聯(lián)合注意力機(jī)制,在構(gòu)建復(fù)雜時(shí)空運(yùn)動(dòng)方面,表現(xiàn)令人驚嘆。

下面這個(gè)由靜圖生成的牧羊犬追球的視頻,自然流暢,效果非常絲滑。

無(wú)論是牧羊犬一下一下晃動(dòng)的耳朵,還是隨風(fēng)飄揚(yáng)的毛發(fā),看起來(lái)都很符合物理規(guī)律。

prompt: 可愛的牧羊犬在奔跑,網(wǎng)球在彈跳,溫馨的氛圍

汽車在公路上飛馳的這段視頻,可靈對(duì)整體畫面的處理效果簡(jiǎn)直堪稱廣告級(jí)大片。

不僅汽車疾速前行的姿態(tài)逼真自然,對(duì)向車道上接連不斷的車流、道路兩旁向后掠去的樹木、虛化處理的隔離帶,無(wú)不模擬出了疾馳的速度感,幾乎挑不出破綻。

prompt:汽車在公路上高速行駛,速度感,廣告片

文本指令控制視頻,女孩一鍵轉(zhuǎn)身

更厲害的是,可靈的圖生視頻模型還融入了強(qiáng)大的提示詞融合技術(shù)。

這就意味著,用戶可以對(duì)模型下達(dá)文本指令,來(lái)人為地掌控視頻中對(duì)象的動(dòng)態(tài)表現(xiàn)了。

比如上傳這張女孩的照片后,普通的模型,可能會(huì)默認(rèn)增加發(fā)絲飄動(dòng)、花朵搖曳、水面閃爍波紋的效果。

但在可靈中,我們可以輸入「轉(zhuǎn)身背對(duì)鏡頭」的提示詞。

模型輸出的視頻中,女孩就開始優(yōu)雅轉(zhuǎn)身,并且增添了轉(zhuǎn)身瞬間微笑、眨眼的細(xì)節(jié),顯得更加自然生動(dòng)。

可靈的這個(gè)新功能,也讓我們的想象力可以充分放飛。

比如小編在看《權(quán)力的游戲》時(shí)經(jīng)常想象的一個(gè)場(chǎng)景——「憤怒的巨龍,漫天飛沙,奇幻風(fēng)格電影」,提示詞輸入后,幻想中的場(chǎng)景瞬間成真了!

巨龍昂首展翅,掀起漫天黃沙,咆哮聲震耳欲聾

這種文本與圖像意義的緊密聯(lián)動(dòng),無(wú)疑對(duì)影視制作等行業(yè)意義重大。(看來(lái)好萊塢導(dǎo)演撤掉8億美元攝影棚,的確是明智的選擇)

從此,視覺敘事可以按需定制,許多行業(yè)必將掀起新的颶風(fēng)。

此外,這個(gè)模型還能支持不同風(fēng)格的圖像輸入,無(wú)論自然寫實(shí),還是風(fēng)格化圖像。

同時(shí),它還兼容各種長(zhǎng)寬比的圖像輸入,可以說(shuō)是為國(guó)內(nèi)各個(gè)短視頻平臺(tái)量身打造。

這張豎版的騎士,黑袍飛舞,光劍仙氣環(huán)繞,氛圍感瞬間拉滿

實(shí)測(cè)效果

憑AI電影《山海奇境》刷屏全網(wǎng)的制作人陳坤,半年之后用可靈的圖生視頻功能重制了一遍《山海奇鏡》的預(yù)告片。

留言區(qū)的網(wǎng)友直呼「有大片的味道」。果然AI一天,人間一年。

這位叫「海軍愛攝影」的網(wǎng)友,直接將自己的攝影作品變成了視頻。

奔跑的女孩與駱駝,黑白的色調(diào),顆粒的老電影質(zhì)感,把攝影作品中包含壓迫感的內(nèi)涵意蘊(yùn)升華到了令人震撼的地步。

當(dāng)世界名畫開始動(dòng)起來(lái),會(huì)給人怎樣的體驗(yàn)?

「JessyJang」用可靈讓我們大開眼界。

無(wú)論是現(xiàn)代藝術(shù)的經(jīng)典之作《The Son of Man》,還是著名油畫《戴珍珠耳環(huán)的少女》《吹笛少年》,都忽然開始活靈活現(xiàn);舾裎执某潜ど系挠彤嫞瓉(lái)是真實(shí)存在的?

B站up主「嗚哩智繪」,用可靈的圖生視頻功能,生成了各個(gè)樣子的戴珍珠耳環(huán)的少女。

人物動(dòng)作、面部表情、手部細(xì)節(jié)、視頻中的光影,都堪稱完美。

「嗚哩智繪」直言:這是「目前我玩過(guò)的最穩(wěn)定好用的圖生視頻」。

網(wǎng)友也表示——

「喜好兒網(wǎng)」則用可靈讓歷史人物活了起來(lái)。

網(wǎng)友們驚呼,可靈做出的愛因斯坦簡(jiǎn)直跟紀(jì)錄片一樣。

up主「鑫訫向榮」直接把語(yǔ)文課本里的插畫都還原了出來(lái)。還記得這些都是哪一課嗎?

up主「花染色體TT」,干脆用可靈做了個(gè)「?jìng)蝜og」。

用幾張12年前的照片,讓記憶中的場(chǎng)面鮮活起來(lái)。此時(shí),距離高考還有16天——

美女的照片,變成視頻后美得更有沖擊力了。

即使混進(jìn)了一些奇怪的東西,看起來(lái)似乎也很自然。

視頻續(xù)寫

其次,是對(duì)算法挑戰(zhàn)更大的「視頻續(xù)寫」。

它不僅要求模型理解視頻的基本元素,以及更深層次的敘事結(jié)構(gòu),還需要?jiǎng)?chuàng)建新的情景,而且在視覺和主題上都要保持連貫。

在這一領(lǐng)域,可靈則成功地把強(qiáng)大的想象力和精細(xì)的可控性發(fā)揮得淋漓盡致。

隨著功能的正式上線,所有視頻立刻在原有基礎(chǔ)上原地「+5秒」!

無(wú)論是文生視頻還是圖生視頻,皆可適用。

這對(duì)于創(chuàng)作者來(lái)說(shuō),視頻續(xù)寫至關(guān)重要。因?yàn)檫@種強(qiáng)大的敘事能力,可以極大地拓展他們的創(chuàng)作邊界。

無(wú)獨(dú)有偶,Runway的Gen-2可支持將視頻時(shí)間最高延續(xù)到18秒,每次點(diǎn)擊「Extend」功能,可完成4秒的視頻,而且能夠保持人物的一致性。

同樣,Pika也支持視頻延續(xù)的功能,而且用戶可以指定想要生成的時(shí)間,與原始視頻無(wú)縫集成。

而上周,初創(chuàng)公司Luma AI發(fā)布的AI視頻模型Dream Machine,直接就定位為「續(xù)寫模型」,還能免費(fèi)試玩。

各種表情包,成為網(wǎng)友們惡搞的對(duì)象,經(jīng)過(guò)Dream Machine的想象,所有的靜圖都有了完美的后續(xù)。

可見,視頻續(xù)寫代表著整個(gè)AI視頻模型發(fā)展未來(lái),打破了傳統(tǒng)視頻編輯的界限。

多次續(xù)寫,最長(zhǎng)可達(dá)3分鐘

更矚目的是,可靈大模型甚至還能連續(xù)多次續(xù)寫,這樣的結(jié)果就是,我們最長(zhǎng)能夠生成長(zhǎng)達(dá)約3分鐘的連貫視頻!

續(xù)寫x1:一個(gè)女人站在雪地里,抬起右手摸了一下帽檐

續(xù)寫x2:女人的手放下,并望向遠(yuǎn)方

深刻理解物理世界,合理且大幅度動(dòng)作無(wú)破綻

可以看出,新生成的部分和原視頻之間,依然保持著運(yùn)動(dòng)連貫性和物理的合理性,這正是基于可靈大模型對(duì)于物理運(yùn)動(dòng)的深入理解。

而這種續(xù)寫,就給巧妙融入大幅度動(dòng)作變化帶來(lái)了可能,讓視頻的生動(dòng)性大大提高。

續(xù)寫x1:宇航員從月球表面跳起來(lái),飛向太空

同樣,在視頻續(xù)寫中也集成了文本控制機(jī)制,因此用戶可以通過(guò)自定義提示詞,為每段視頻注入個(gè)性化的創(chuàng)意。

由此,我們想要的每次場(chǎng)景都可以平滑過(guò)渡,可以說(shuō)是不放過(guò)咱們都任何一個(gè)靈感小火花!

文本控制續(xù)寫,場(chǎng)景轉(zhuǎn)換絲滑

比如這座古堡,我們既可以在場(chǎng)景中讓「太陽(yáng)落下,天空變暗,燈光漸亮」,隨后讓「燈光亮起,霧氣氤氳」。

實(shí)測(cè)效果

而網(wǎng)友們用續(xù)寫功能做出來(lái)的視頻,效果簡(jiǎn)直一個(gè)比一個(gè)炸裂!

網(wǎng)友「石碩Simon」直接用可靈的續(xù)寫功能創(chuàng)作了長(zhǎng)達(dá)1分多鐘的一鏡到底。

多次續(xù)寫的鏡頭,依然保持著令人叫絕的連貫性。

「PlayerKang」生成的59秒奔馳汽車大片,無(wú)論在連續(xù)性、穩(wěn)定性和流暢性上都令人叫絕,已經(jīng)接近了替代商業(yè)廣告片的水平。

「西地宇宙CDVERSE」用可靈的視頻續(xù)寫功能,做出了一套古香古韻的「日出東方」大片。

整個(gè)視頻,是用一張圖片生成的長(zhǎng)鏡頭。

每個(gè)鏡頭中的人物,始終保持著穩(wěn)定。

技術(shù)積累

此次進(jìn)化,可靈文生視頻基礎(chǔ)大模型被無(wú)縫整合到「圖生視頻」和「視頻續(xù)寫」功能中,帶來(lái)了更豐富、靈活的視頻創(chuàng)作體驗(yàn)。

這些能力,都基于快手在AI大模型時(shí)代的不斷布局。

快手先后發(fā)布了,通用大語(yǔ)言模型「快意」,文生圖大模型「可圖」,還有Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等視頻生成關(guān)鍵技術(shù)。

恰逢近日在美國(guó)西雅圖舉行的國(guó)際計(jì)算機(jī)視覺頂會(huì)CVPR 2024上,快手也同步發(fā)布了可靈大模型的圖生視頻和視頻續(xù)寫等最新功能,引起現(xiàn)場(chǎng)的強(qiáng)烈反響。

公開資料顯示,今年快手共有8篇論文入選CVPR 2024,彰顯了其在該領(lǐng)域的深厚研究功底。

除了憑借創(chuàng)新的技術(shù)在CVPR上大放異彩之外,作為一家引領(lǐng)行業(yè)發(fā)展的公司,還要用戰(zhàn)略眼光將技術(shù)落地到應(yīng)用。

就在即將開幕的2024世界人工智能大會(huì)(WAIC)上,快手將舉辦以「新AI·新應(yīng)用·新生態(tài)」為主題的大模型技術(shù)生態(tài)論壇。

屆時(shí),不僅會(huì)發(fā)布最新的大模型技術(shù),還包括快手大模型技術(shù)矩陣全景、應(yīng)用和落地現(xiàn)狀等一系列多維度、多方向的戰(zhàn)略討論。

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部