今天,視頻生成領域迎來開源革命! Open-Sora 2.0——全新開源的SOTA(State-of-the-Art)視頻生成模型正式發(fā)布,僅用20萬美元(224張GPU)成功訓練出商業(yè)級11B參數(shù)視頻生成大模型,性能直追HunyuanVideo和30B參數(shù)的Step-Video。 權威評測VBench及用戶偏好測試均證實其卓越表現(xiàn),在多項關鍵指標上媲美動輒數(shù)百萬美元訓練成本的閉源模型。 此次發(fā)布全面開源模型權重、推理代碼及分布式訓練全流程,讓高質量視頻生成真正觸手可及,進一步提升視頻生成的可及性與可拓展性。 GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora 體驗與指標雙在線 震撼視覺:Open-Sora 2.0 Demo先行 觀看宣傳片,體驗Open-Sora 2.0的強大生成能力: 動作幅度可控:可根據(jù)需求設定運動幅度,以更好地展現(xiàn)人物或場景的細膩動作。 畫質與流暢度:提供720p高分辨率和24 FPS流暢視頻,讓最終視頻擁有穩(wěn)定幀率與細節(jié)表現(xiàn)。 支持豐富的場景:從鄉(xiāng)村景色到自然風光場景,Open-Sora 2.0生成的畫面細節(jié)與相機運鏡都有出色的表現(xiàn)。 11B參數(shù)規(guī)模媲美主流閉源大模型 · 媲美HunyuanVide和30B Step-Video Open-Sora 2.0采用11B參數(shù)規(guī)模,訓練后在VBench和人工偏好(Human Preference)評測上都取得與用高昂成本開發(fā)的主流閉源大模型同等水平。 · 用戶偏好評測 在視覺表現(xiàn)、文本一致性和動作表現(xiàn)三個評估維度上,Open Sora在至少兩個指標上超越了開源SOTA HunyuanVideo,以及商業(yè)模型Runway Gen-3 Alpha等。以小成本獲取了好性能。 · VBench 指標表現(xiàn)強勢 根據(jù)視頻生成權威榜單VBench的評測結果,Open-Sora模型的性能進步顯著。 從Open-Sora 1.2升級到2.0版本后,與行業(yè)領先的OpenAI Sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實現(xiàn)了性能的全面追平。 此外,Open-Sora 2.0在VBench評測中取得的分數(shù)已超過騰訊的HunyuanVideo,以更低的成本實現(xiàn)了更高的性能,為開源視頻生成技術樹立了全新標桿! 實現(xiàn)突破:低成本訓練與高效能優(yōu)化 Open Sora自開源以來,憑借其在視頻生成領域的高效與優(yōu)質表現(xiàn),吸引了眾多開發(fā)者的關注與參與。 然而,隨著項目的深入推進,也面臨著高質量視頻生成成本居高不下的問題。 為解決這些挑戰(zhàn),Open Sora團隊展開了一系列卓有成效的技術探索,顯著降低了模型訓練成本。 根據(jù)估算,市面上10B以上的開源視頻模型,動輒需要上百萬美元的單次訓練成本,而Open Sora 2.0將該成本降低了5-10倍。 作為開源視頻生成領域的領導者,Open-Sora不僅繼續(xù)開源了模型代碼和權重,更開源了全流程訓練代碼,成功打造了強大的開源生態(tài)圈。 據(jù)第三方技術平臺統(tǒng)計,Open-Sora的學術論文引用量半年內獲得近百引用,在全球開源影響力排名中穩(wěn)居首位,領先所有開源的I2V/T2V視頻生成項目,成為全球影響力最大的開源視頻生成項目之一。 模型架構 Open-Sora 2.0延續(xù)Open-Sora 1.2的設計思路,繼續(xù)采用3D自編碼器和Flow Matching訓練框架,并通過多桶訓練機制,實現(xiàn)對不同視頻長度和分辨率的同時訓練。 在模型架構上,引入3D全注意力機制,進一步提升視頻生成質量。同時,采用最新的MMDiT架構,更精準地捕捉文本信息與視頻內容的關系,并將模型規(guī)模從1B擴展至11B。 此外,借助開源圖生視頻模型FLUX進行初始化,大幅降低訓練成本,實現(xiàn)更高效的視頻生成優(yōu)化。 高效訓練方法和并行方案全開源 為了追求極致的成本優(yōu)化,Open-Sora 2.0從四個方面著手削減訓練開銷。 首先,通過嚴格的數(shù)據(jù)篩選,確保高質量數(shù)據(jù)輸入,從源頭提升模型訓練效率。 采用多階段、多層次的篩選機制,結合多種過濾器,有效提升視頻質量,為模型提供更精準、可靠的訓練數(shù)據(jù)。 其次,高分辨率訓練的成本遠超低分辨率,達到相同數(shù)據(jù)量時,計算開銷可能高達40倍。 以256px、5秒的視頻為例,其tokens數(shù)量約8千,而768px的視頻tokens數(shù)量接近8萬,相差10倍,再加上注意力機制的平方級計算復雜度,高分辨率訓練的代價極其昂貴。 因此,Open-Sora優(yōu)先將算力投入到低分辨率訓練,以高效學習運動信息,在降低成本的同時確保模型能夠捕捉關鍵的動態(tài)特征。 與此同時,Open-Sora優(yōu)先訓練圖生視頻任務,以加速模型收斂。 相比直接訓練高分辨率視頻,圖生視頻模型在提升分辨率時具備更快的收斂速度,從而進一步降低訓練成本。 在推理階段,除了直接進行文本生視頻(T2V),還可以結合開源圖像模型,通過文本生圖再生視頻(T2I2V),以獲得更精細的視覺效果。 最后,Open-Sora采用高效的并行訓練方案,結合ColossalAI和系統(tǒng)級優(yōu)化,大幅提升計算資源利用率,實現(xiàn)更高效的視頻生成訓練。為了最大化訓練效率,我們引入了一系列關鍵技術,包括: 高效的序列并行和ZeroDP,優(yōu)化大規(guī)模模型的分布式計算效率。 細粒度控制的Gradient Checkpointing,在降低顯存占用的同時保持計算效率。 訓練自動恢復機制,確保99%以上的有效訓練時間,減少計算資源浪費。 高效數(shù)據(jù)加載與內存管理,優(yōu)化I/O,防止訓練阻塞,加速訓練流程。 高效異步模型保存,減少模型存儲對訓練流程的干擾,提高GPU利用率。 算子優(yōu)化,針對關鍵計算模塊進行深度優(yōu)化,加速訓練過程。 這些優(yōu)化措施協(xié)同作用,使Open-Sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高質量視頻生成模型的訓練。 高壓縮比AE帶來更高速度 在訓練完成后,Open-Sora面向未來,進一步探索高壓縮比視頻自編碼器的應用,以大幅降低推理成本。 目前,大多數(shù)視頻模型仍采用4×8×8的自編碼器,導致單卡生成768px、5秒視頻耗時近30分鐘。 為解決這一瓶頸,Open-Sora訓練了一款高壓縮比(4×32×32)的視頻自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提升10倍。 要實現(xiàn)高壓縮比編碼器,需要解決兩個核心挑戰(zhàn):如何訓練高壓縮但仍具備優(yōu)秀重建效果的自編碼器,以及如何利用該編碼器訓練視頻生成模型。 針對前者,Open-Sora團隊在視頻升降采樣模塊中引入殘差連接,成功訓練出一款重建質量媲美當前開源SoTA視頻壓縮模型,且具備更高壓縮比的VAE,自此奠定了高效推理的基礎。 高壓縮自編碼器在訓練視頻生成模型時面臨更高的數(shù)據(jù)需求和收斂難度,通常需要更多訓練數(shù)據(jù)才能達到理想效果。 為解決這一問題,Open-Sora 提出了基于蒸餾的優(yōu)化策略,以提升AE(自編碼器)特征空間的表達能力,并利用已經訓練好的高質量模型作為初始化,減少訓練所需的數(shù)據(jù)量和時間。 此外,Open-Sora還重點訓練圖生視頻任務,利用圖像特征引導視頻生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內達到一定生成效果。 Open-Sora認為,高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關鍵方向。 目前的初步實驗結果已展現(xiàn)出顯著的推理加速效果,希望能進一步激發(fā)社區(qū)對這一技術的關注與探索,共同推動高效、低成本的視頻生成發(fā)展。 加入Open-Sora 2.0,共同推動AI視頻革命 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選