首頁(yè) > 科技要聞 > 公司> 正文

聲網(wǎng)劉斌:“Her”真正落地實(shí)現(xiàn)離不開RTE能力的支撐

量子位 整合編輯:太平洋科技 發(fā)布于:2025-02-05 16:15

大模型正在改變實(shí)時(shí)互動(dòng)技術(shù)。

聲網(wǎng)作為全球音視頻技術(shù)龍頭,2020年在納斯達(dá)克上市,目前是全球最大的實(shí)時(shí)互動(dòng)云服務(wù)商,平臺(tái)單月音視頻使用時(shí)長(zhǎng)達(dá)700億分鐘。

同時(shí),聲網(wǎng)兄弟公司Agora也是OpenAI Realtime API的合作伙伴,在國(guó)內(nèi)聲網(wǎng)也與MiniMax正在打磨國(guó)內(nèi)首個(gè)Realtime API。

在MEET 2025智能未來大會(huì)大會(huì)現(xiàn)場(chǎng),聲網(wǎng)首席運(yùn)營(yíng)官劉斌分享了一個(gè)看似離大模型有點(diǎn)距離,實(shí)則卻不可或缺的環(huán)節(jié):

RTE(Real Time Engagement)在AI Agent時(shí)代的全新價(jià)值。

為了完整體現(xiàn)劉斌的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。

MEET 2025智能未來大會(huì)是由量子位主辦的行業(yè)峰會(huì),20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。

核心觀點(diǎn)

多模態(tài)對(duì)話體驗(yàn)的兩個(gè)關(guān)鍵:延遲是否低于1.7秒,能否打斷

多模態(tài)對(duì)話AI Agent應(yīng)用產(chǎn)品化落地的關(guān)鍵:端到端、全球任意地點(diǎn)、弱網(wǎng)環(huán)境、各種終端下的低時(shí)延

不管是語(yǔ)音,還是視頻,只要是多模態(tài)有交互的AI Agent應(yīng)用,離不開RTE能力的支持

演講全文

今天非常高興有這樣機(jī)會(huì)來到現(xiàn)場(chǎng)跟分享,聲網(wǎng)作為RTE領(lǐng)域的企業(yè),和AI領(lǐng)域的大模型與應(yīng)用廠商,和當(dāng)下的大模型關(guān)系是什么,RTE演進(jìn)如何助力AI Agent應(yīng)用落地。

第一,聲網(wǎng)到底是誰。

聲網(wǎng)于2020年在納斯達(dá)克上市,專注于提供實(shí)時(shí)互動(dòng)云服務(wù)。經(jīng)過多年的發(fā)展,該公司在該行業(yè)取得了一定的進(jìn)步。

我們公司的口號(hào)簡(jiǎn)潔明了,即讓實(shí)時(shí)互動(dòng)像空氣和水一樣,無處不在

這一理念旨在實(shí)現(xiàn)未來無論身處何地,都能獲得如同面對(duì)面般的互動(dòng)體驗(yàn)。經(jīng)過多年的努力,我們?cè)谑袌?chǎng)占有率方面位居第一,并擁有大量注冊(cè)開發(fā)者應(yīng)用。

單月音視頻分鐘數(shù)約為700億,這意味著每天在我們平臺(tái)上的分鐘數(shù)約為20多億。在這種情況下,全球超過60%的泛娛樂應(yīng)用選擇聲網(wǎng)作為其合作伙伴。我們涉及的領(lǐng)域包括泛娛樂、教育和物聯(lián)網(wǎng)等,均擁有相應(yīng)的合作伙伴。

第二,我們做的事到底和AI Agent有什么關(guān)系,如何去助力它。

首先,值得關(guān)注的是,OpenAI于10月1日在官方網(wǎng)站發(fā)布Realtime API時(shí),曾在合作伙伴中提及Agora,即我們聲網(wǎng)的兄弟公司。

其次,在10月份的RTE大會(huì)上,我們宣布與MiniMax正在打磨國(guó)內(nèi)第一個(gè)Realtime APl。

第三,AI Agent時(shí)代到底怎么樣做才能做的更好。

我們可以觀察到,在真正多模態(tài)模型推出或?qū)υ挄r(shí),相較于原先的純文本交互,已經(jīng)發(fā)生了變化。

原先的交互本質(zhì)上是異步的,即我可以發(fā)送信息,說完后等待處理并返回結(jié)果。然而,在真正多模態(tài)交互中,要求實(shí)時(shí)性和雙工性,即我說他聽,他聽完后我再聽。

在這個(gè)過程中,有幾個(gè)關(guān)鍵因素會(huì)影響效果。

首先,大家較為熟悉的語(yǔ)氣、情感、情緒和口音等因素在模型中得到了大量處理。

其次,延遲也是一個(gè)非常重要的因素。相信大家都有相關(guān)的感受。

從實(shí)際測(cè)量數(shù)據(jù)來看,真正達(dá)到實(shí)用效果的延遲一般在1.7秒左右。如果低于這個(gè)值,人們會(huì)覺得與Agent交流很自然;而如果延遲達(dá)到2秒多或3秒,人們就會(huì)感覺到有些卡頓,反應(yīng)稍顯遲緩。這是一個(gè)非常重要的關(guān)鍵點(diǎn)。

另一個(gè)關(guān)鍵點(diǎn)是,能否實(shí)現(xiàn)打斷功能以及如何更好地進(jìn)行主動(dòng)交互。

要實(shí)現(xiàn)這些功能,除了模型能力外,還需考慮應(yīng)用的落地方式。是在實(shí)驗(yàn)室的PC上進(jìn)行演示,還是將其應(yīng)用于各種手機(jī)終端、物聯(lián)網(wǎng)終端以及其他設(shè)備上?

當(dāng)有此需求時(shí),在產(chǎn)品化落地的過程中會(huì)發(fā)現(xiàn),除了之前提到的低時(shí)延等能力外,還需要在端到端都能實(shí)現(xiàn)。此外,還需在不同地點(diǎn)、不同網(wǎng)絡(luò)環(huán)境下以及各種終端設(shè)備上都能得到支持,這并非易事。

關(guān)于這張圖,盡管大家可能不太關(guān)注,但我們當(dāng)時(shí)非常重視。這是5月份OpenAI GPT-4o發(fā)布時(shí)的情況,大家可以看那根網(wǎng)線,這是要保證網(wǎng)絡(luò)的穩(wěn)定性。

在4o發(fā)布之后,大家都在等待API的推出,原本預(yù)期一周或兩周內(nèi)會(huì)推出,但實(shí)際上并非如此,直至10月份才發(fā)布。原因在于,一開始大家認(rèn)為這件事很簡(jiǎn)單,只需對(duì)原有的RTP Server進(jìn)行修改,將文本傳輸改為語(yǔ)音傳輸即可。

然而,實(shí)際情況并非如此簡(jiǎn)單。我們與他們合作,直至10月份才正式推出。正是我們?cè)谄渲邪l(fā)揮作用,使其真正落地實(shí)現(xiàn)。

在此,我向大家展示聲網(wǎng)多年來的工作成果。

首先,我們擁有一張遍布全球的SD-RTN網(wǎng)絡(luò),確保在這張網(wǎng)絡(luò)上音視頻傳輸都能在標(biāo)準(zhǔn)的400毫秒內(nèi)端到端到達(dá),這是網(wǎng)絡(luò)支撐。其次,我們多年的積累使我們能夠在30多個(gè)平臺(tái)的框架和30000多終端機(jī)型上提供SDK支持,涵蓋各種操作系統(tǒng)。您只需很快地建立這個(gè)能力。包括物聯(lián)網(wǎng)的各種設(shè)備終端,都有相應(yīng)的SDK。

此外,在實(shí)際應(yīng)用中,如我們?cè)谶@個(gè)會(huì)場(chǎng),如果我要與AI對(duì)話,網(wǎng)絡(luò)情況和環(huán)境噪聲并非固定不變。如何在極端弱網(wǎng)下保證效果,這也是我們多年技術(shù)積累的結(jié)果。

正是我們?cè)谶@一領(lǐng)域的深厚積累,使得我們能夠構(gòu)建一個(gè)具有實(shí)際應(yīng)用價(jià)值的Voice對(duì)話Agent。只有將這兩者緊密結(jié)合,才能實(shí)現(xiàn)這一目標(biāo)。這也解釋了為什么在發(fā)布Realtime API時(shí),我們需要尋找這樣的合作伙伴共同推進(jìn)。

我們還發(fā)現(xiàn),現(xiàn)有的RTC技術(shù)棧和基礎(chǔ)設(shè)施存在大量改進(jìn)空間。只有通過改進(jìn),大型模型才有可能在各種場(chǎng)景、形態(tài)和模型下大規(guī)模參與到人類的語(yǔ)言對(duì)話中,其參與來源也將從云端擴(kuò)展到終端,再到更低延遲的邊緣;谶@些能力的改進(jìn)和普及,未來RTE必將成為生成式AI時(shí)代AI基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵組成部分。

如圖右側(cè)紅色部分所示,Realtime API通常由大型模型廠商發(fā)布。然而,在左側(cè)這一圈,包括中間的網(wǎng)絡(luò)和聲網(wǎng)的Linux Server SDK,以及前端的SDK,如果沒有這樣的基礎(chǔ),我們將很難實(shí)現(xiàn)這一整套效果。這正是我之前所解釋的原因。如果中間的這些環(huán)節(jié)未能實(shí)現(xiàn),那么效果將無法顯現(xiàn)。

在此,我們將從當(dāng)前視角出發(fā),探討未來的行動(dòng)方向以及如何進(jìn)一步提升效果。近期,我們一直在深入研究和投入資源,以優(yōu)化人與人之間的對(duì)話體驗(yàn)。然而,在人與模型之間的對(duì)話中,體驗(yàn)的提升需要充分考慮模型的特性。

例如,我們從傳統(tǒng)的QoS、QoE發(fā)展到如今的AI QoE,乃至多模態(tài)AI QoE,這其中涵蓋了VAD技術(shù)、噪音消除能力以及相關(guān)網(wǎng)絡(luò)優(yōu)化等方面。這些新的方法和方式使得我們與模型的對(duì)話更加貼近實(shí)際情況。以一個(gè)簡(jiǎn)單的例子來說明,人與人交談時(shí)不會(huì)夾雜其他信息,但人與模型對(duì)話時(shí)則可能不同,語(yǔ)音傳輸過程中可能還包含其他信息。因此,在弱網(wǎng)環(huán)境和應(yīng)用場(chǎng)景中如何實(shí)現(xiàn)良好適配,便顯得尤為重要。

我們?cè)赗TE大會(huì)上展示過一個(gè)實(shí)例,當(dāng)時(shí)的會(huì)場(chǎng)規(guī)模較大,人數(shù)眾多且環(huán)境嘈雜,我們?cè)诂F(xiàn)場(chǎng)使用了一個(gè)5G設(shè)備進(jìn)行演示。

我們想做到的是從60分提升到90分,這不僅涉及模型難度的提高,還包括周邊工程配套的完善,以便將產(chǎn)品從演示階段發(fā)展為更具實(shí)用性的應(yīng)用。

關(guān)于聲網(wǎng)的產(chǎn)品體系,我們正不斷加強(qiáng)其功能,如Linux SDK、AI VAD能力以及AI Agent Service的補(bǔ)充與優(yōu)化。通過聲網(wǎng)RTE+AI能力全景圖,我們可以看到我們的整體思路,包括從基礎(chǔ)設(shè)施到Agent,再到場(chǎng)景的演進(jìn),旨在成為生成式AI時(shí)代的AI基礎(chǔ)設(shè)施,這也是我們的愿景。

最后,我想強(qiáng)調(diào)一點(diǎn):

任何涉及大模型多模態(tài)實(shí)時(shí)交互的應(yīng)用,無論是語(yǔ)音還是視頻,只要存在多模態(tài)交互,這類Agent應(yīng)用的落地都離不開RTC技術(shù)的支持。

在這種情況下,如果大家有這樣的需求,請(qǐng)來找聲網(wǎng),我們一定給大家更好的體驗(yàn)。

謝謝大家,今天就到這里。

本文來源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部