首頁 > 科技要聞 > 科技> 正文

清華系多模態(tài)大模型公司剛剛?cè)诹藬?shù)億元!放話“今年達到Sora效果”

量子位 整合編輯:黃安莉 發(fā)布于:2024-03-14 16:17

清華系多模態(tài)大模型公司,又拿錢了!

生數(shù)科技,師出清華朱軍團隊,是國內(nèi)最早布局多模態(tài)大模型的團隊之一。

市場消息傳來,這家公司剛剛完成新一輪數(shù)億元融資。本輪融資由啟明創(chuàng)投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續(xù)跟投。

生數(shù)方面的說法是,本輪融資將主要用于多模態(tài)基礎大模型的迭代研發(fā)、應用產(chǎn)品創(chuàng)新及市場拓展。

此前,生數(shù)已經(jīng)在文生圖、文生3D模型、文生視頻方面都有研究成果對外釋出。

2022年9月,生數(shù)科技創(chuàng)始成員就提出了基于Transformer的網(wǎng)絡架構(gòu)U-ViT,這與Sora和Stable Diffusion3背后采用的Diffusion Transformer架構(gòu)DiT,在架構(gòu)思路與實驗路徑上完全一致。

對此,生數(shù)科技CEO唐家渝表示:

我們積累了完整高效的工程化經(jīng)驗,擁有在大規(guī)模GPU集群上實現(xiàn)高效兼容、低成本的模型訓練經(jīng)驗,整體上來講,我們追趕Sora肯定比追趕GPT-4輕松很多。

今年一定能達到Sora目前版本的效果,很難說是三個月還是半年(笑),但這件事我們的信心還是非常足的。

2022年已提出類DiT架構(gòu)U-ViT

在擴散模型方面,生數(shù)科技團隊是國內(nèi)率先開啟該方向研究的團隊,成果涉及骨干網(wǎng)絡、高速推理算法、大規(guī)模訓練等全棧技術(shù)方向。

2022年9月,生數(shù)創(chuàng)始成員提出了基于Transformer的網(wǎng)絡架構(gòu)U-ViT時,U-ViT就在千萬至數(shù)億參數(shù)量級范圍內(nèi)驗證了極強的可擴展性(scaling up)

這項工作在CVPR 2023發(fā)表,早于DiT。

2023年3月,團隊又開源了全球首個基于Diffusion Transformer架構(gòu)(U-ViT)的多模態(tài)擴散大模型UniDiffuser,在參數(shù)量和訓練數(shù)據(jù)規(guī)模上與Stable Diffusion直接對齊。

從架構(gòu)上來看,UniDiffuser比最近公開論文的Stable Diffusion3(采用DiT架構(gòu))領先了一年。

此外,除了單向的文生圖以外,Unidiffuser支持更通用的圖文任務,能夠?qū)崿F(xiàn)圖生文、圖文聯(lián)合生成、圖文改寫等多種功能。

持續(xù)進行Scale up

在統(tǒng)一化架構(gòu)的思路下,生數(shù)科技持續(xù)進行Scale up

在圖文模型的訓練中,其模型參數(shù)量從最早開源版的1B不斷擴展至3B、7B、10B及以上,使得模型在美學性、多元風格、語義理解等方面實現(xiàn)快速穩(wěn)定的提升。

同時在此基礎上,通過拓展空間維度和時間維度,逐步實現(xiàn)3D生成和視頻生成模型的訓練。

依托底層U-ViT架構(gòu)的創(chuàng)新嘗試,截至2023年9月,生數(shù)科技推出了基于統(tǒng)一的多模態(tài)多任務框架的產(chǎn)業(yè)級通用基礎大模型(閉源版),全鏈路自主訓練、自主研發(fā),在圖像生成、3D生成、視頻生成等多項任務中位居前列。

目前的成果是,生數(shù)的3D生成,已經(jīng)可實現(xiàn)高精度與最快10秒級的模型生成。

此外,生數(shù)團隊還推出全球首個4D動畫生成、可控3D場景編輯等工作。

而視頻生成方面,也已實現(xiàn)短視頻的編輯與生成能力,在畫面美觀度、連貫性方面實現(xiàn)了突破。

近期將重點突破長視頻生成能力

在商業(yè)化落地方面,依托于MaaS(模型即服務)能力,生數(shù)科技在2B、2C端同時發(fā)力。

一方面以API的形式向B端機構(gòu)直接提供模型能力,另一方面打造垂類應用產(chǎn)品,按照訂閱等形式收費。

目前公司已與多家游戲公司、個人終端廠商、互聯(lián)網(wǎng)平臺等B端機構(gòu)開展合作,開放模型服務,提供AIGC個性化體驗、定制化內(nèi)容生產(chǎn)等方面的能力。

去年,面向藝術(shù)設計、游戲制作、影視動畫、社交娛樂等創(chuàng)意領域,生數(shù)科技上線了兩款工具產(chǎn)品:

視覺創(chuàng)意設計平臺PixWeaver

3D資產(chǎn)創(chuàng)建工具VoxCraft

而學術(shù)層面上,團隊于ICML、NeurIPS、ICLR等人工智能頂會發(fā)表相關(guān)論文近30篇,其中提出的免訓練推理算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR杰出論文獎,并被OpenAI、蘋果、Stability.ai等機構(gòu)采用,并被DALL·E 2、Stable Diffusion等項目采用。

那么,接下來的路是什么?

談到對未來的規(guī)劃,生數(shù)科技始終堅持“原生多模態(tài)”方向。

一邊,是對產(chǎn)品端持續(xù)迭代;

另一邊,則是在基礎模型層面持續(xù)優(yōu)化,主要是提升語義理解、可控性、美觀度方面的生成效果。

其實,Sora出現(xiàn)前,生數(shù)內(nèi)部主要聚焦于短視頻,但現(xiàn)在公司會投入更多資源在長視頻上,架構(gòu)、數(shù)據(jù)使用調(diào)優(yōu)方面,團隊已經(jīng)做過不少探索,也踩過許多坑(很多現(xiàn)在都已經(jīng)解決了)。

但OpenAI砸大錢捧出一個Sora,驗證了這條路的正確性,也打消了團隊的許多顧慮,“目前的視頻生成長度在4-5秒左右,我們近期將重點突破長視頻生成能力……尤其長視頻畫面的連貫性,我們還在做一系列攻克工作”。

本文來源:量子位

清華   大模型   Sora
量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部