今年的 AI 視頻生成領(lǐng)域呈現(xiàn)出一種如火如荼的架勢(shì)。 從最初卷生成時(shí)長(zhǎng)到卷畫(huà)面質(zhì)量,再到最近卷起 AI 特效,行業(yè)廠(chǎng)商們開(kāi)卷的方式千奇百怪,但目標(biāo)都是共通的,那就是鉚足了勁地吸納新用戶(hù),留住舊用戶(hù)。 然而,盡管市面上許多視頻模型號(hào)稱(chēng)一鍵生成視頻,但如「默劇」般的成品多少形如雞肋。尤其是我們對(duì) AI 視頻的刺激閾值被一再拔高,音效的缺失就像被捶打的釘子,在用戶(hù)的心里越扎越深。 當(dāng)然,廠(chǎng)商們不是不想徹底解決這顆釘子,只是恰好在等待一個(gè)厚積薄發(fā)的時(shí)機(jī)。 三個(gè)月前,作為國(guó)內(nèi)首個(gè)面向公眾開(kāi)放的視頻生成產(chǎn)品,智譜清影上線(xiàn)清言 App,只需一段指令或圖片,30 秒就能生成 AI 視頻。 三個(gè)月后的今天,智譜清影再次迎來(lái)了一大波重磅升級(jí)。 10s 時(shí)長(zhǎng)、4k、60 幀超高清畫(huà)質(zhì),任意尺寸、更好的任務(wù)動(dòng)作和物理世界模型……除了開(kāi)卷這些基本功,更重要的是,智譜清影也即將在本月上線(xiàn)生成與畫(huà)面匹配的音效了。 附上新清影具體升級(jí)亮點(diǎn): 圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性以及復(fù)雜提示詞語(yǔ)義理解方面能力明顯增強(qiáng); 更強(qiáng)的人物面部表演細(xì)節(jié)、動(dòng)作連貫性和物理特性模擬,提高了視頻的自然度和逼真度; 支持生成 10s、4K、60 幀超高清視頻,支持任意比例的圖像生成視頻; 同一指令/圖片可以一次性生成 4 個(gè)視頻,與畫(huà)面匹配的音效功能將很快在本月上線(xiàn)公測(cè); 并且,當(dāng)人們還在為 AI 開(kāi)源/閉源爭(zhēng)論不休時(shí),智譜卻是國(guó)內(nèi)少有一貫支持開(kāi)源的企業(yè),而在今天,智譜也正式發(fā)布并開(kāi)源最新版本的視頻模型 CogVideoX v1.5。 此次開(kāi)源包括兩個(gè)模型:CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V,后續(xù),CogVideoX v1.5 也將同步上線(xiàn)到清影,并與新推出的 CogSound 音效模型結(jié)合。 代碼: 官方宣布,新清影即日起在智譜清言 App 上線(xiàn)。話(huà)不多說(shuō),直接附上體驗(yàn)地址: https://chatglm.cn/video?lang=zh 4K 60 幀,新清影已經(jīng) next level 了 和藹的老人面帶微笑,面部肌肉細(xì)節(jié)清晰可見(jiàn),沒(méi)有明顯的像素化或模糊現(xiàn)象。 火焰老虎的形象也令人印象深刻,不僅步態(tài)擬真,眼神之中還透露出一種野性的美感,身上的火焰顏色也呈現(xiàn)出豐富的色彩層次和深度。 車(chē)輛急速飛馳,場(chǎng)景轉(zhuǎn)換沒(méi)有卡頓或延遲,即使是快速移動(dòng)的對(duì)象也能保持連貫性,而在速度感和緊張氣氛的營(yíng)造上也有一手。 喵星人在線(xiàn)化身大廚,熟稔地翻炒今天的菜品。 不被演示 demo 的花言巧語(yǔ)所迷惑,上手才是檢驗(yàn)實(shí)際效果的唯一標(biāo)準(zhǔn)。 我們也用圖生視頻功能上手跑了一個(gè)放飛孔明燈的視頻?酌鳠舯会尫,緩緩升入夜空,鏡頭從下往上跟隨,天空也被染上了深邃的藍(lán)色。 又或者,我們「復(fù)活」了靜止的小黃花,微風(fēng)拂來(lái),小黃花在草地上輕輕搖曳。 不過(guò)「新清影」還是需要一定程度的抽卡,這也是目前國(guó)內(nèi)外 AI 視頻模型在穩(wěn)定性上普遍存在的問(wèn)題,在日常使用這類(lèi)產(chǎn)品時(shí),還需要多些耐心。 在我們的測(cè)試中,最讓我們驚喜還是清影的音效生成功能。而這項(xiàng)功能也將在本月晚些時(shí)候上線(xiàn)。 從無(wú)聲到有聲,AI 視頻進(jìn)入有聲電影時(shí)代 1900 年,第一部有聲電影在巴黎放映,直到十年后,這種能夠?qū)⒙曇襞c影像同步的技術(shù)才逐漸成熟,達(dá)到了商業(yè)化的標(biāo)準(zhǔn)。 有聲電影的問(wèn)世,不僅僅終結(jié)了電影自誕生之初的沉默狀態(tài),更重要的是,它將電影從單一的純視覺(jué)藝術(shù)轉(zhuǎn)變?yōu)橐暵?tīng)結(jié)合的全新藝術(shù)形式。 影片上的演員開(kāi)口說(shuō)話(huà),而觀(guān)眾席上也響起對(duì)有聲電影的歡呼聲。 兩者心聲交響,心音共鳴。 如今,歷史的輪回再次上演,從年初的「啞劇」到如今的 AI 音效,如果說(shuō)前者還是局限于 0-1,那么 AI 音效的加入,則標(biāo)志著 1-N 史詩(shī)級(jí)跨越。 基于 GLM-4V 的視頻理解能力,智譜家族的新成員——音效模型 CogSound 能夠準(zhǔn)確識(shí)別并理解視頻背后的語(yǔ)義和情感,并在此基礎(chǔ)上生成與之匹配的音頻內(nèi)容。 例如,爆炸、水流、樂(lè)器、動(dòng)物叫聲以及交通工具聲等。 在影像敘事中,聲音的到來(lái)是一個(gè)關(guān)鍵拐點(diǎn),它不僅使敘事從依賴(lài)文字構(gòu)建的視頻中突圍,而且在觀(guān)念和方法上都帶來(lái)了更廣闊的想象空間。 然而,影視行業(yè)對(duì) AI 的引入無(wú)疑是充滿(mǎn)爭(zhēng)議的。 上個(gè)月,好萊塢演員的罷工風(fēng)波尚未平息,而導(dǎo)演卡梅隆則在出席峰會(huì)時(shí)表示,AI 將會(huì)重新定義電影故事講述,幫助編劇導(dǎo)演探索新的故事線(xiàn),以及敘述手法。 放諸到視頻產(chǎn)業(yè)界,音效模型也有著廣泛的應(yīng)用場(chǎng)景,比如可以生成電影中的大規(guī)模戰(zhàn)斗場(chǎng)景和災(zāi)難場(chǎng)景的聲音,大大縮短制作周期,降低制作成本。 只是,AI 時(shí)代下的視聽(tīng)藝術(shù)究竟應(yīng)該會(huì)是什么樣?歷史上的技術(shù)大爆發(fā)給我們提供了一些思路。 如果說(shuō)工業(yè)革命的機(jī)械化、流水線(xiàn)作業(yè)等方式,讓標(biāo)準(zhǔn)化的大規(guī)模生產(chǎn)成為可能,那么隨著 AI 的到來(lái),通過(guò)學(xué)習(xí)大量的數(shù)據(jù)和模式,能夠模仿人類(lèi)的決策過(guò)程、并且根據(jù)每個(gè)用戶(hù)的具體需求和偏好定制個(gè)性化服務(wù)。 簡(jiǎn)言之,通過(guò)降低使用門(mén)檻,AI 讓每個(gè)普通人都能手捏自己喜歡的個(gè)性化視頻。 法國(guó)新浪潮的代表人物讓-呂克·戈達(dá)爾,也曾探討過(guò)電影技術(shù)變革對(duì)電影語(yǔ)言和藝術(shù)性的影響: 電影不是僅僅在拍攝時(shí)使用聲音和影像,而是在觀(guān)眾心中構(gòu)建某種語(yǔ)言。無(wú)聲電影通過(guò)視覺(jué)創(chuàng)造了更多的可能,而有聲電影則改變了這種創(chuàng)作方式。 而追溯至今年 2 月份,人們關(guān)于 AI 視頻的展望是由 OpenAI 發(fā)布的 Sora 率先拉開(kāi),但很遺憾,直到此時(shí)此刻,該產(chǎn)品卻仿佛陷入「如來(lái)」的狀況,至今未見(jiàn)蹤影。 也正是在這個(gè)期間,我們很高興能夠看到國(guó)內(nèi)廠(chǎng)商在這一賽道上交出了不錯(cuò)的成績(jī)單。 不過(guò),這或許還只是開(kāi)胃小菜,智譜認(rèn)為真正的智能一定是多模態(tài)的,聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)等共同參與了人腦認(rèn)知能力的形成。 構(gòu)建包括文字、圖像和視覺(jué)等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣,能夠進(jìn)一步提高大模型的應(yīng)用和工具能力,也是在邁向 AI 的終極目標(biāo)——AGI。 至此可以說(shuō),我們真正邁入了 AI 有聲電影時(shí)代。 本文來(lái)源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。