太平洋科技要聞

清華系多模態(tài)大模型公司剛剛?cè)诹藬?shù)億元！放話“今年達(dá)到Sora效果”

量子位整合編輯：黃安莉發(fā)布于：2024-03-14 16:17

清華系多模態(tài)大模型公司，又拿錢了！

生數(shù)科技，師出清華朱軍團(tuán)隊(duì)，是國內(nèi)最早布局多模態(tài)大模型的團(tuán)隊(duì)之一。

市場消息傳來，這家公司剛剛完成新一輪數(shù)億元融資。本輪融資由啟明創(chuàng)投領(lǐng)投，達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲繼續(xù)跟投。

生數(shù)方面的說法是，本輪融資將主要用于多模態(tài)基礎(chǔ)大模型的迭代研發(fā)、應(yīng)用產(chǎn)品創(chuàng)新及市場拓展。

此前，生數(shù)已經(jīng)在文生圖、文生3D模型、文生視頻方面都有研究成果對(duì)外釋出。

2022年9月，生數(shù)科技創(chuàng)始成員就提出了基于Transformer的網(wǎng)絡(luò)架構(gòu)U-ViT，這與Sora和Stable Diffusion3背后采用的Diffusion Transformer架構(gòu)DiT，在架構(gòu)思路與實(shí)驗(yàn)路徑上完全一致。

對(duì)此，生數(shù)科技CEO唐家渝表示：

我們積累了完整高效的工程化經(jīng)驗(yàn)，擁有在大規(guī)模GPU集群上實(shí)現(xiàn)高效兼容、低成本的模型訓(xùn)練經(jīng)驗(yàn)，整體上來講，我們追趕Sora肯定比追趕GPT-4輕松很多。

今年一定能達(dá)到Sora目前版本的效果，很難說是三個(gè)月還是半年（笑），但這件事我們的信心還是非常足的。

2022年已提出類DiT架構(gòu)U-ViT

在擴(kuò)散模型方面，生數(shù)科技團(tuán)隊(duì)是國內(nèi)率先開啟該方向研究的團(tuán)隊(duì)，成果涉及骨干網(wǎng)絡(luò)、高速推理算法、大規(guī)模訓(xùn)練等全棧技術(shù)方向。

2022年9月，生數(shù)創(chuàng)始成員提出了基于Transformer的網(wǎng)絡(luò)架構(gòu)U-ViT時(shí)，U-ViT就在千萬至數(shù)億參數(shù)量級(jí)范圍內(nèi)驗(yàn)證了極強(qiáng)的可擴(kuò)展性（scaling up）。

這項(xiàng)工作在CVPR 2023發(fā)表，早于DiT。

2023年3月，團(tuán)隊(duì)又開源了全球首個(gè)基于Diffusion Transformer架構(gòu)（U-ViT）的多模態(tài)擴(kuò)散大模型UniDiffuser，在參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模上與Stable Diffusion直接對(duì)齊。

從架構(gòu)上來看，UniDiffuser比最近公開論文的Stable Diffusion3（采用DiT架構(gòu)）領(lǐng)先了一年。

此外，除了單向的文生圖以外，Unidiffuser支持更通用的圖文任務(wù)，能夠?qū)崿F(xiàn)圖生文、圖文聯(lián)合生成、圖文改寫等多種功能。

持續(xù)進(jìn)行Scale up

在統(tǒng)一化架構(gòu)的思路下，生數(shù)科技持續(xù)進(jìn)行Scale up。

在圖文模型的訓(xùn)練中，其模型參數(shù)量從最早開源版的1B不斷擴(kuò)展至3B、7B、10B及以上，使得模型在美學(xué)性、多元風(fēng)格、語義理解等方面實(shí)現(xiàn)快速穩(wěn)定的提升。

同時(shí)在此基礎(chǔ)上，通過拓展空間維度和時(shí)間維度，逐步實(shí)現(xiàn)3D生成和視頻生成模型的訓(xùn)練。

依托底層U-ViT架構(gòu)的創(chuàng)新嘗試，截至2023年9月，生數(shù)科技推出了基于統(tǒng)一的多模態(tài)多任務(wù)框架的產(chǎn)業(yè)級(jí)通用基礎(chǔ)大模型（閉源版），全鏈路自主訓(xùn)練、自主研發(fā)，在圖像生成、3D生成、視頻生成等多項(xiàng)任務(wù)中位居前列。

目前的成果是，生數(shù)的3D生成，已經(jīng)可實(shí)現(xiàn)高精度與最快10秒級(jí)的模型生成。

此外，生數(shù)團(tuán)隊(duì)還推出全球首個(gè)4D動(dòng)畫生成、可控3D場景編輯等工作。

而視頻生成方面，也已實(shí)現(xiàn)短視頻的編輯與生成能力，在畫面美觀度、連貫性方面實(shí)現(xiàn)了突破。

近期將重點(diǎn)突破長視頻生成能力

在商業(yè)化落地方面，依托于MaaS（模型即服務(wù)）能力，生數(shù)科技在2B、2C端同時(shí)發(fā)力。

一方面以API的形式向B端機(jī)構(gòu)直接提供模型能力，另一方面打造垂類應(yīng)用產(chǎn)品，按照訂閱等形式收費(fèi)。

目前公司已與多家游戲公司、個(gè)人終端廠商、互聯(lián)網(wǎng)平臺(tái)等B端機(jī)構(gòu)開展合作，開放模型服務(wù)，提供AIGC個(gè)性化體驗(yàn)、定制化內(nèi)容生產(chǎn)等方面的能力。

去年，面向藝術(shù)設(shè)計(jì)、游戲制作、影視動(dòng)畫、社交娛樂等創(chuàng)意領(lǐng)域，生數(shù)科技上線了兩款工具產(chǎn)品：

視覺創(chuàng)意設(shè)計(jì)平臺(tái)PixWeaver

3D資產(chǎn)創(chuàng)建工具VoxCraft

而學(xué)術(shù)層面上，團(tuán)隊(duì)于ICML、NeurIPS、ICLR等人工智能頂會(huì)發(fā)表相關(guān)論文近30篇，其中提出的免訓(xùn)練推理算法Analytic-DPM、DPM-Solver等突破性成果，獲得ICLR杰出論文獎(jiǎng)，并被OpenAI、蘋果、Stability.ai等機(jī)構(gòu)采用，并被DALL·E 2、Stable Diffusion等項(xiàng)目采用。

那么，接下來的路是什么？

談到對(duì)未來的規(guī)劃，生數(shù)科技始終堅(jiān)持“原生多模態(tài)”方向。

一邊，是對(duì)產(chǎn)品端持續(xù)迭代；

另一邊，則是在基礎(chǔ)模型層面持續(xù)優(yōu)化，主要是提升語義理解、可控性、美觀度方面的生成效果。

其實(shí)，Sora出現(xiàn)前，生數(shù)內(nèi)部主要聚焦于短視頻，但現(xiàn)在公司會(huì)投入更多資源在長視頻上，架構(gòu)、數(shù)據(jù)使用調(diào)優(yōu)方面，團(tuán)隊(duì)已經(jīng)做過不少探索，也踩過許多坑（很多現(xiàn)在都已經(jīng)解決了）。

但OpenAI砸大錢捧出一個(gè)Sora，驗(yàn)證了這條路的正確性，也打消了團(tuán)隊(duì)的許多顧慮，“目前的視頻生成長度在4-5秒左右，我們近期將重點(diǎn)突破長視頻生成能力……尤其長視頻畫面的連貫性，我們還在做一系列攻克工作”。

本文來源：量子位

清華大模型 Sora

量子位

原創(chuàng)欄目