首頁(yè) > 科技要聞 > 科技> 正文

10秒生成4分鐘音樂(lè),8GB顯存就能跑!已登Hugging Face趨勢(shì)榜一

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-16 21:00

Suno、Udio等商用音樂(lè)生成大模型展現(xiàn)出驚人的音樂(lè)生成能力。但現(xiàn)有開(kāi)源的音樂(lè)生成模型要么只能生成人聲或伴奏,要么依賴復(fù)雜的多階段架構(gòu),難以擴(kuò)展到長(zhǎng)音頻生成。

而現(xiàn)在,AI音樂(lè)破局時(shí)刻到了!

近日,西北工業(yè)大學(xué)音頻語(yǔ)音與語(yǔ)言處理實(shí)驗(yàn)室(ASLP@NPU)和香港中文大學(xué)(深圳)的研究團(tuán)隊(duì)提出了一種名為DiffRhythm(中文名:諦韻)的新型音樂(lè)生成AI模型,全diffusion架構(gòu),它能夠在短短10秒內(nèi)生成長(zhǎng)達(dá)4分45秒的不同風(fēng)格完整雙軌高保真歌曲,包含人聲和伴奏!

最低僅需8G顯存,可本地部署到消費(fèi)級(jí)顯卡!

在線Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

Paper: https://arxiv.org/abs/2503.01183

Github: https://github.com/ASLP-lab/DiffRhythm

Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base

這一成果不僅刷新了音樂(lè)生成的速度,還大大簡(jiǎn)化了生成流程,讓音樂(lè)創(chuàng)作變得更加高效和便捷。模型完全采用華為昇騰910B訓(xùn)練,同時(shí)支持N卡。

目前模型和推理代碼全部開(kāi)源。開(kāi)源短短幾天位列Hugging Face Space趨勢(shì)榜第一和總榜第五,受到眾多網(wǎng)友和音樂(lè)愛(ài)好者廣泛好評(píng)。

DiffRhythm:簡(jiǎn)單、快速、高質(zhì)量

DiffRhythm 的核心優(yōu)勢(shì)在于它的簡(jiǎn)潔性和高效性。在模型方面它摒棄了復(fù)雜的多階段架構(gòu),采用了一個(gè)簡(jiǎn)單的基于LLaMA的DiT,只需要歌詞和風(fēng)格提示即可生成歌曲。

這種非自回歸結(jié)構(gòu)確保了快速的推理速度,相比現(xiàn)有的語(yǔ)言模型方法,DiffRhythm的速度提升顯著,更適合實(shí)時(shí)應(yīng)用和用戶交互。在數(shù)據(jù)方面,僅需音頻與對(duì)應(yīng)歌詞,無(wú)需復(fù)雜數(shù)據(jù)處理標(biāo)注流程,易于scale up到大數(shù)據(jù)。

DiffRhythm以歌詞和風(fēng)格提示輸入,生成44.1kHz采樣率全長(zhǎng)立體聲音樂(lè)作品(最長(zhǎng)4分45秒)。

DiffRhythm由兩個(gè)順序訓(xùn)練的模型組成:1) 變分自編碼器 (VAE),學(xué)習(xí)音頻波形的緊湊潛在表示,使得分鐘級(jí)長(zhǎng)音頻建模成為可能;2) DiT 建模 VAE 的潛在空間,通過(guò)迭代去噪生成歌曲。

句級(jí)歌詞對(duì)齊

在歌曲生成中,歌詞與歌聲的對(duì)齊是一個(gè)極具挑戰(zhàn)性的問(wèn)題,可以概括為以下兩個(gè)方面:

時(shí)間上的不連續(xù)性:歌詞中的句子之間往往存在較長(zhǎng)的間隔,這些間隔可能是純音樂(lè)部分,導(dǎo)致歌詞與歌聲之間的時(shí)間對(duì)應(yīng)關(guān)系不連續(xù)。

伴奏的干擾:相同的一個(gè)字,在不同歌曲中的伴奏不同,唱法也不同,這使得歌聲的對(duì)齊更加復(fù)雜。

為了解決這些問(wèn)題,DiffRhythm 提出了一種句子級(jí)對(duì)齊機(jī)制。具體來(lái)說(shuō),該機(jī)制僅依賴于句子起始時(shí)間的標(biāo)注,通過(guò)以下步驟實(shí)現(xiàn)歌詞與歌聲的對(duì)齊:

句子分割與音素轉(zhuǎn)換:首先,將歌詞按照句子分割,并通過(guò) Grapheme-to-Phoneme (G2P) 轉(zhuǎn)換將每個(gè)句子轉(zhuǎn)換為音素序列。

初始化潛在序列:創(chuàng)建一個(gè)與潛在表示長(zhǎng)度相同的序列,并用填充符號(hào)()初始化。

對(duì)齊音素與潛在表示:根據(jù)歌詞句子的起始時(shí)間戳,將音素序列映射到潛在表示的對(duì)應(yīng)位置。例如,如果一個(gè)句子的起始時(shí)間是 10 秒,那么對(duì)應(yīng)的音素序列將被放置在潛在表示的第 10 秒位置。

通過(guò)這種方式,DiffRhythm 只需要句子起始時(shí)間的標(biāo)注,即可實(shí)現(xiàn)歌詞與歌聲的對(duì)齊。

壓縮魯棒VAE

考慮到大量歌曲數(shù)據(jù)都以壓縮后的MP3格式存在,而高頻細(xì)節(jié)在壓縮過(guò)程中會(huì)受到損害,我們采用數(shù)據(jù)增強(qiáng)來(lái)賦予VAE修復(fù)功能。

具體來(lái)說(shuō),VAE以無(wú)損FLAC格式數(shù)據(jù)進(jìn)行訓(xùn)練,其中輸入經(jīng)過(guò)MP3壓縮,而重建目標(biāo)仍然是原始無(wú)損數(shù)據(jù)。通過(guò)這種有損到無(wú)損的重建過(guò)程,VAE學(xué)會(huì)將從有損壓縮數(shù)據(jù)中得出的潛在表示解碼回?zé)o損音頻信號(hào)。

實(shí)驗(yàn)結(jié)果

DiffRhythm的表現(xiàn)令人印象深刻。在音頻重建方面,它在無(wú)損和有損壓縮條件下都優(yōu)于現(xiàn)有的基線模型。

在可視化分析中,可以看到DiffRhythm VAE可以有效修復(fù)MP3壓縮損失

在歌曲生成方面,DiffRhythm的生成歌曲在音質(zhì)、音樂(lè)性和歌詞可理解性上都表現(xiàn)出色,與現(xiàn)有的SongLM模型相比,DiffRhythm的歌詞清晰度更高,推理速度更快。

未來(lái)展望

盡管DiffRhythm已經(jīng)可以快速生成整首歌曲,但仍有進(jìn)一步優(yōu)化的空間。例如,未來(lái)可能會(huì)通過(guò)在訓(xùn)練中引入隨機(jī)掩碼來(lái)支持對(duì)生成歌曲的特定片段進(jìn)行編輯。

此外,DiffRhythm 未來(lái)可能會(huì)引入自然語(yǔ)言條件機(jī)制,以實(shí)現(xiàn)更精細(xì)的風(fēng)格控制,從而無(wú)需依賴音頻參考。

參考資料:

https://arxiv.org/abs/2503.01183

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部