在我們熟知的2D圖像和視頻生成技術(shù)蓬勃發(fā)展之際,3D和4D的世界依然是前沿科技的「無(wú)人區(qū)」。 面對(duì)真實(shí)場(chǎng)景中復(fù)雜的物體運(yùn)動(dòng)和視角變化,3D、4D生成一直面臨數(shù)據(jù)和模型設(shè)計(jì)的雙重瓶頸。然而,一項(xiàng)令人振奮的突破即將改變這一現(xiàn)狀! 近日,新加坡國(guó)立大學(xué)(NUS)的研究人員提出了一種全新的生成框架——GenXD,不但能生成極具真實(shí)感的3D場(chǎng)景,還實(shí)現(xiàn)了從相機(jī)視角和物體圖片中「生長(zhǎng)」出逼真的4D動(dòng)態(tài)場(chǎng)景。 項(xiàng)目主頁(yè):https://gen-x-d.github.io/ 論文鏈接:https://arxiv.org/abs/2411.02319 代碼鏈接:https://github.com/HeliosZhao/GenXD GenXD能夠?qū)崿F(xiàn)單圖片靜態(tài)虛擬物體和場(chǎng)景的生成,實(shí)現(xiàn)高質(zhì)量的3D內(nèi)容創(chuàng)作: GenXD也能夠?qū)崿F(xiàn)稀疏圖片場(chǎng)景的重建,作為先驗(yàn)完善3D重建任務(wù): GenXD可以實(shí)現(xiàn)單圖4D生成,生成任意時(shí)刻以及任意視角: GenXD也能夠助力視頻插幀和可控視頻生成,使用多圖和相機(jī)路徑作為控制信號(hào): CamVid-30K 4D數(shù)據(jù)構(gòu)建 圖1 數(shù)據(jù)標(biāo)注 在動(dòng)態(tài)3D任務(wù)的發(fā)展中,缺乏大規(guī)模4D場(chǎng)景數(shù)據(jù)一直是一個(gè)關(guān)鍵瓶頸。這不僅影響到4D生成、動(dòng)態(tài)相機(jī)姿態(tài)估計(jì)等任務(wù),也限制了可控視頻生成等應(yīng)用的進(jìn)展。 為了解決這一難題,研究團(tuán)隊(duì)推出了一個(gè)高質(zhì)量4D數(shù)據(jù)集——CamVid-30K,為未來(lái)的動(dòng)態(tài)3D任務(wù)奠定了堅(jiān)實(shí)基礎(chǔ)。 CamVid-30K數(shù)據(jù)集的創(chuàng)建過(guò)程包括了一系列精細(xì)的步驟。首先,研究人員使用基于運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)的方法來(lái)估計(jì)相機(jī)姿態(tài)。 SfM通過(guò)從多張圖像的投影中重建3D結(jié)構(gòu),其中包括特征檢測(cè)與提取、特征匹配、3D重建與相機(jī)姿態(tài)估計(jì)等關(guān)鍵步驟。 為了確保準(zhǔn)確性,特征匹配僅限于靜態(tài)場(chǎng)景部分,以避免動(dòng)態(tài)物體誤導(dǎo)相機(jī)的運(yùn)動(dòng)估計(jì)。 與之前方法不同的是,CamVid-30K使用了一種實(shí)例分割模型,將所有可能移動(dòng)的像素進(jìn)行分割。 相比早期的運(yùn)動(dòng)分割模塊,該實(shí)例分割方法具備更強(qiáng)的泛化能力,特別是在復(fù)雜場(chǎng)景下更為適用。隨后,利用改進(jìn)的Particle-SfM對(duì)靜態(tài)背景進(jìn)行處理,最終生成精準(zhǔn)的相機(jī)姿態(tài)和稀疏點(diǎn)云信息。 為進(jìn)一步篩選出真正的動(dòng)態(tài)場(chǎng)景,CamVid-30K還引入了運(yùn)動(dòng)強(qiáng)度指標(biāo)來(lái)識(shí)別物體的真實(shí)運(yùn)動(dòng)。通過(guò)對(duì)齊深度投影,將動(dòng)態(tài)物體在3D空間中進(jìn)行重投影,以便檢測(cè)位移,確保所包含的場(chǎng)景具有豐富的動(dòng)態(tài)細(xì)節(jié)。這一過(guò)程確保了CamVid-30K不僅包含相機(jī)的運(yùn)動(dòng)信息,還捕捉到了物體本身的運(yùn)動(dòng),使其成為高質(zhì)量的4D數(shù)據(jù)資源。 模型架構(gòu) 圖2 整體框架 為了實(shí)現(xiàn)更自然的3D和4D場(chǎng)景生成,GenXD使用隱變量擴(kuò)散模型(LDM),生成出符合相機(jī)視角和時(shí)間序列的場(chǎng)景圖像。此外,GenXD提出多視角-時(shí)間層,將3D和時(shí)間信息有效解耦和融合。 對(duì)于相機(jī)視角信息,GenXD使用每個(gè)視角下的Plucker Ray作為控制信號(hào)。而對(duì)于單張或多張圖像信息,GenXD使用掩碼隱變量條件(mask latent conditioning)方式利用圖像信息。 該方法在圖像條件輸入時(shí)具有三大優(yōu)勢(shì):首先,無(wú)需對(duì)模型參數(shù)進(jìn)行修改,便可以支持任意視角輸入;其次,在多視圖生成或視頻生成過(guò)程中,無(wú)需固定條件幀的位置,確保了更大的靈活性;最后,省去了額外的條件嵌入,從而減少了模型參數(shù)量。這種設(shè)計(jì)不僅使得GenXD更高效,還可以處理復(fù)雜的多視角輸入場(chǎng)景。 為了實(shí)現(xiàn)3D和4D的生成,GenXD引入了多視角-時(shí)間模塊,分別對(duì)多視角信息和時(shí)間信息進(jìn)行建模。通過(guò)設(shè)計(jì)多視角層與時(shí)間層,GenXD可以在3D生成時(shí)忽略時(shí)間信息,而在4D生成時(shí)引入多視角與時(shí)間信息的融合。 此外,模型采用了alpha融合策略,利用一個(gè)可學(xué)習(xí)的融合權(quán)重來(lái)控制4D生成的多視角和時(shí)間信息融合效果,從而實(shí)現(xiàn)更精準(zhǔn)的動(dòng)態(tài)場(chǎng)景生成。 此外,為了解決運(yùn)動(dòng)控制的問(wèn)題,GenXD將CamVid-30K數(shù)據(jù)集中提供的運(yùn)動(dòng)強(qiáng)度引入多視角-時(shí)間ResBlock中。這樣,模型可以準(zhǔn)確地表達(dá)物體運(yùn)動(dòng),從而在生成的場(chǎng)景中體現(xiàn)更自然的動(dòng)態(tài)效果。 實(shí)驗(yàn)結(jié)果 GenXD在單視角4D生成,相機(jī)控制的視頻生成,單視角3D生成以及少視角3D重建任務(wù)上均可用,并取得了很好的效果。 單視角4D生成 表1 單視角4D生成 對(duì)于單視角4D生成,GenXD首先生成4D視頻,然后使用生成的視頻優(yōu)化4D高斯?jié)姙R網(wǎng)絡(luò)因此,與過(guò)去基于SDS的方法相比,GenXD有更快的優(yōu)化速度,也有更好的效果。 相機(jī)控制的視頻生成 表2 相機(jī)控制的視頻生成 GenXD也與過(guò)去相機(jī)控制的運(yùn)動(dòng)生成方法進(jìn)行了比較,過(guò)去的方法只能使用單張圖片作為條件,無(wú)法實(shí)現(xiàn)視頻插幀的功能。但單圖條件下,GenXD超越過(guò)去的方法, 若使用多圖作為條件,GenXD的效果可以得到更大的提升。 單視角3D生成 表3 單視角3D生成 圖3 單視角3D生成 GenXD也在3D合成物體生成任務(wù)上進(jìn)行了評(píng)估。在此任務(wù)上,GenXD首先生成360度視頻,并利用此視頻優(yōu)化3D高斯?jié)姙R網(wǎng)絡(luò)。過(guò)去的方法在合成物體3D數(shù)據(jù)集上單獨(dú)訓(xùn)練,而GenXD使用了不同分布的真實(shí)數(shù)據(jù)和4D數(shù)據(jù)。即使如此,GenXD也與過(guò)去的方法有相近的效果。此外,從可視化結(jié)果來(lái)看,GenXD沒(méi)有過(guò)去方法常見(jiàn)的過(guò)度平滑和過(guò)度飽和問(wèn)題。 少視角3D重建 表4 少視角3D重建 圖4 少視角3D重建 GenXD可以使用多張圖片作為條件,生成尺度一致的3D內(nèi)容。因此,GenXD可以將生成的圖片作為補(bǔ)充,提升少視角3D重建的效果。在此項(xiàng)目中,GenXD與兩個(gè)重建網(wǎng)絡(luò)(ZipNeRF和3DGS)相結(jié)合,極大地提升重建的效果。 運(yùn)動(dòng)控制 圖5 運(yùn)動(dòng)控制 數(shù)據(jù)標(biāo)注管線(xiàn)中提出了運(yùn)動(dòng)強(qiáng)度的概念,并且被引入到多視角-時(shí)間ResBlock里進(jìn)行運(yùn)動(dòng)控制。圖5可視化了運(yùn)動(dòng)控制的效果。使用同樣的圖片和相機(jī)條件,增大運(yùn)動(dòng)強(qiáng)度可以提高物體運(yùn)動(dòng)的速度,從而實(shí)現(xiàn)可控生成。 總結(jié) GenXD模型和CamVid-30K數(shù)據(jù)集為3D和4D生成領(lǐng)域帶來(lái)了全新突破。通過(guò)設(shè)計(jì)多視角-時(shí)間模塊并引入掩碼隱變量條件,GenXD不僅能夠解耦相機(jī)和物體的運(yùn)動(dòng),還可以支持任意數(shù)量的條件視圖輸入。 GenXD展示了在各類(lèi)應(yīng)用中的強(qiáng)大適應(yīng)性,且在多項(xiàng)任務(wù)中達(dá)到了與現(xiàn)有方法相當(dāng)或更優(yōu)的表現(xiàn)。這一成果為未來(lái)的3D和4D生成任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),預(yù)示著虛擬世界構(gòu)建與動(dòng)態(tài)場(chǎng)景生成的無(wú)限可能。 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。