谷歌現(xiàn)象級產(chǎn)品NotebookLM,兩個本科生自學(xué)3個月就復(fù)刻了? Nari Labs剛剛開源的Dia-1.6B,能夠生成關(guān)于任何主題的對話,語音音色自然,還會添加語氣、咳嗽聲、笑聲等。 官方演示提供了與熱門語音模型ElevenLabs和SeaSame的對比,先來感受一下: Dia-1.6B模型權(quán)重與推理代碼全開源,在GitHub上不到一天就獲得近5000標(biāo)星。 目前Dia 1.6B在單張英偉達(dá)RTX A4000上每秒約可生成40個token,而86個token大約是1秒的音頻內(nèi)容。 也就是說,在更強(qiáng)的GPU或者多卡配置下可以做到實(shí)時生成音頻。 官方表示完整版模型需要10GB顯存運(yùn)行,未來會添加量化版本,以及CPU支持。 不過開源社區(qū)已經(jīng)通過優(yōu)化torch編譯進(jìn)一步提高推理速度和節(jié)省顯存。 如果沒有算力資源,也可以到HuggingFace試玩Demo,不過很可惜,目前版本不支持中文。 真實(shí)語氣語音生成 使用Dia-1.6B非常簡單,用[s1] [s2]標(biāo)簽帶標(biāo)兩個不同的音色,目前模型為針對任何音色微調(diào),每次都會隨機(jī)得到不同的音色。 如果想保持特定音色,可以添加音色提示詞(教程稍后發(fā)布)或固定隨機(jī)種子。 語氣會自動適應(yīng)文字內(nèi)容,如官方演示中一段與著火了有關(guān)的對話,AI語氣就明顯緊張起來。 相比之下,Eleven Labs和Seasame模型生成的語氣還是不緊不慢的。 只需使用括號可添加咳嗽、吸鼻子、清嗓子、笑聲等要素,特別是笑聲會與。其他模型暫不支持這個功能。 不過目前版本的在線Demo也有一些問題,由于最大生成時長相對固定,輸入的文字越多語速就會越快。 如果在參數(shù)中調(diào)整速度因子,會像調(diào)整音頻播放速度一樣讓聲音更低沉,沒那么自然了。 兩位本科生自學(xué)3個月打造 Nari Lab創(chuàng)始成員Toby Kim與Jaeyong Sung,來自韓國首爾大學(xué)和韓國科學(xué)技術(shù)院(KAIST),其中還有一人在服兵役兼職工作,整個項(xiàng)目0融資啟動,自學(xué)3個月完成。 Toby Kim透露項(xiàng)目靈感正是來自谷歌去年爆火的NoteBook LM自動生成播客對話功能,但他們想要對聲音的控制力更強(qiáng),腳本的自由度更高。 他們嘗試了當(dāng)時市面上所有的文本轉(zhuǎn)語音API后,認(rèn)為沒有一個聽起來像真實(shí)的人類對話。 于是他們靠申請免費(fèi)的谷歌研究計(jì)劃TPU資源訓(xùn)練模型,并推薦學(xué)習(xí)入門TPU的團(tuán)隊(duì)去看DeepMind的《How to Scale Your Model》 和HuggingFace的《Ultra-Scale Playbook》 未來,他們計(jì)劃把Dia打造成一款完整應(yīng)用,可以創(chuàng)建有趣的對話、重新組合內(nèi)容并與好友分享。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選