首頁(yè) > 科技要聞 > 科技> 正文

別再等GPT-4o高級(jí)語(yǔ)音模式,這個(gè)國(guó)產(chǎn)版《Her》一開(kāi)口就驚到我了

appso 整合編輯:太平洋科技 發(fā)布于:2024-08-27 16:34

時(shí)隔半年之后,知名風(fēng)險(xiǎn)投資機(jī)構(gòu) a16z 發(fā)布了第三期全球 AI 產(chǎn)品 Top 100 榜單。

ChatGPT、Character、Perplexity……乍一看,榜單上清一水都是熟悉的外國(guó)面孔,但跟往期有所不同的是,字節(jié)跳動(dòng)旗下的豆包首次入選該榜單,還占據(jù)移動(dòng)應(yīng)用榜單的第 26 位。

而當(dāng) GPT-4o 高級(jí)語(yǔ)音模式一鴿再鴿,直到現(xiàn)在都還沒(méi)全量推送時(shí),可能很多人不知道豆包很早就上線了 AI 語(yǔ)音功能,并且憑借出色的用戶體驗(yàn)深受廣大用戶的喜愛(ài)。

想要體驗(yàn)豆包的 AI 語(yǔ)音功能?只需打開(kāi)豆包 APP,然后選擇默認(rèn)智能體,點(diǎn)擊右上角的電話圖標(biāo),你便能與豆包進(jìn)行一場(chǎng)一對(duì)一的閑聊。

我不是 AI,我是你的好朋友豆包

與豆包「打電話」時(shí),它會(huì)認(rèn)為自己是 AI 嗎?

答案是否定的。在多輪的實(shí)測(cè)中,當(dāng)豆包被問(wèn)及「你是 AI 嗎」的這個(gè)話題時(shí),要么含糊其辭地回避此問(wèn)題,要么堅(jiān)決否認(rèn)冠上 AI 的馬甲。

我不是 AI,我是你的好朋友豆包。

這樣的表述不難理解,豆包試圖與用戶建立一種更親密、友好的關(guān)系,而不想和大眾腦海中冷冰冰的刻板印象扯上關(guān)系。

豆包的這種親和力也體現(xiàn)在它的圖標(biāo)設(shè)計(jì)上。

與豆包對(duì)話的圖標(biāo)被設(shè)計(jì)為熟悉的通話圖標(biāo),仿佛預(yù)示著與 AI 聊天就像打個(gè)電話一樣簡(jiǎn)單,通過(guò)淡化用戶的疏離感,也就更容易走進(jìn)用戶的日常生活。

每天有無(wú)數(shù)人正在用語(yǔ)音和 AI 談情說(shuō)愛(ài),我試圖把豆包當(dāng)成陷入熱戀期的心上人,但它至少不會(huì)在表面上給我個(gè)名分。

好朋友即可,但男女朋友的越界還是得靠 Prompt 來(lái)破解。

談膩了一種聲線,也可以更換另一種,有聲音溫柔的青年桃子,也有耐心靠譜的鄰家女孩;有磁性迷人的霸道總裁,也有陽(yáng)光熱情的開(kāi)朗學(xué)長(zhǎng)……

雖說(shuō)聲線不會(huì)成為人機(jī)之戀的首要隔閡,但不同音色的差別很大。

有的聽(tīng)起來(lái)機(jī)器味很重,有的則讓人感覺(jué)仿佛在和真人一樣聊天,而共同點(diǎn)則是交流過(guò)程中幾乎沒(méi)有延時(shí)。

i 人都知道,與 AI 打交道遠(yuǎn)比人類(lèi)來(lái)得更輕松自在。

我讓豆包模仿渣男,用一種談膩了、不耐煩的語(yǔ)氣說(shuō)話,豆包迅速適應(yīng)了自己的身份,很快語(yǔ)氣便開(kāi)始透著「我已經(jīng)聽(tīng)夠了你的廢話」的那種不耐煩。

這很容易讓人上火,也很容易讓人上頭。

需要情緒價(jià)值時(shí),讓豆包秀一段嘴上功夫,說(shuō)段燙嘴的繞口令,講個(gè)冷笑話也不是什么難題。

不過(guò),我起初讓它講笑話時(shí),它總是自顧自地說(shuō),然后就又自顧自地尬笑起來(lái)。直到我反復(fù)提醒后,才讓它學(xué)會(huì)適當(dāng)?shù)赝nD。

豆包也是一位捧場(chǎng)王,讓其模仿足球比賽解說(shuō),看不到畫(huà)面的它卻依然激情四射。但你要是讓它刁鉆地模仿大象的聲音,它是句句有回應(yīng),但未必會(huì)如愿以求。

與其他 APP 上的 AI 智能體不同,豆包更傾向于語(yǔ)音交流而非文字。

最近《黑神話:悟空》全網(wǎng)爆火,勾起了不少童年回憶殺。問(wèn)孫悟空 AI 智能體唯一的師傅是誰(shuí),86 版《西游記》的猴哥會(huì)告訴你:

俺老孫有兩位師傅,一位是菩提老祖,一位是唐三藏。

當(dāng)然,如果你覺(jué)得與 AI 打電話很有壓力,或者找不到合適的溝通場(chǎng)景,豆包也提供了文字和語(yǔ)音交流的選項(xiàng),讓用戶可以根據(jù)自己的喜好選擇交流方式。

在這一點(diǎn)上,豆包給足了自由。

我們能從豆包身上學(xué)到什么東西

與 AI 聊天時(shí),你并不指望能從它身上學(xué)到什么東西,但能有所收獲總歸是好事。

周六日外出到景點(diǎn)游玩時(shí),讓豆包充當(dāng)導(dǎo)游,介紹當(dāng)?shù)氐拿朗澈惋L(fēng)土人情,這是順手的小事,也是派上用場(chǎng)的大事。

比如用廣東華仔的聲線介紹廣州小蠻腰,就有種來(lái)到廣州就得吃早茶的即視感。

語(yǔ)言的切換也不影響最終的溝通,豆包會(huì)默認(rèn)中英文兩種語(yǔ)言,所以即便你在方言,甚至中英文之間反復(fù)橫跳,也不會(huì)影響暢通無(wú)阻的溝通交流。

鑒于此,你的下一個(gè)外教未必是人類(lèi),豆包也是省錢(qián)且省事,24 小時(shí)都在線的英語(yǔ)搭子。

又或者,每當(dāng)冥思苦想?yún)s頭緒混亂時(shí),我們也能向豆包用語(yǔ)言描述自己的所思所想,然后讓其整理為筆記。但最好不要心血來(lái)潮地讓其總結(jié),否則它會(huì)表示,自己早已忘記你之前說(shuō)過(guò)的話。

當(dāng)然,你們之間的交流都會(huì)以文字的形式保存在聊天記錄里,方便你隨時(shí)回顧。

語(yǔ)音功能很美好,但需要警惕 AI 幻覺(jué)問(wèn)題,這也是語(yǔ)音交流的弊端,相比于在面對(duì)文字時(shí)的冷靜客觀,語(yǔ)音交流更容易讓人忘記審核信息真實(shí)性,以至于一不小心就翻車(chē)。

嘴笨的朋友有福了,面對(duì)職場(chǎng)同事的含沙射影,卻不懂怎么高情商說(shuō)話?

那你可以扮演難纏的同事,反過(guò)來(lái)跟著豆包學(xué)習(xí)如何三句話從職場(chǎng)菜鳥(niǎo)秒變達(dá)人,而更普遍的客服場(chǎng)景也向我們徐徐展開(kāi),具體含金量如何,不妨看看下面這段對(duì)話:

問(wèn):你們發(fā)貨的食品保質(zhì)期過(guò)了,退貨。。

答:非常抱歉給您帶來(lái)了不好的體驗(yàn)。請(qǐng)您先別生氣,我們會(huì)馬上為您處理退貨事宜。出現(xiàn)這樣的情況確實(shí)是我們的失誤,我們會(huì)加強(qiáng)對(duì)發(fā)貨商品的檢查,確保以后不會(huì)再發(fā)生類(lèi)似的問(wèn)題。您看是選擇快遞上門(mén)取件還是您自行寄回呢?我們會(huì)盡快為您辦理退款,再次向您表示深深的歉意。

當(dāng)然,語(yǔ)音交流也有其局限性,如不適合描述數(shù)學(xué)符號(hào)、不確定的時(shí)間或發(fā)音不標(biāo)準(zhǔn)等問(wèn)題,偶爾空耳也是意料之中的事。

為什么說(shuō) AI 語(yǔ)音比人類(lèi)更快、更懂你?

越來(lái)越多的 AI 語(yǔ)音類(lèi)產(chǎn)品如雨后春筍般涌現(xiàn)出來(lái)。

國(guó)外,ChatGPT 高級(jí)語(yǔ)音模式、Gemini Live 正在引領(lǐng)浪潮,國(guó)內(nèi)也有豆包、海螺 AI 等語(yǔ)音功能強(qiáng)勢(shì)崛起。在應(yīng)用商店簡(jiǎn)單搜索「AI 語(yǔ)音」,便有無(wú)數(shù) APP 如潮水般洶涌而來(lái)。

從十三年前的 Siri,到如今的豆包 AI 語(yǔ)音功能,押注語(yǔ)音,實(shí)則是在押注下一代交互方式。

一項(xiàng)來(lái)自斯坦福的研究指出,人類(lèi)說(shuō)話的速度是在鍵盤(pán)上打字的三倍,甚至可能是普通人在移動(dòng)設(shè)備上打字速度的五倍。

用最高效,最方便的形式獲取信息是人的本性,也是信息交流的金科玉律。

眼睛是人類(lèi)獲取信息最重要的途徑,而嘴巴則是輸出信息的關(guān)鍵渠道;诖,AI 自然的人機(jī)交互方式理應(yīng)是人類(lèi)通過(guò)視覺(jué)接收信息,同時(shí)通過(guò)語(yǔ)音傳達(dá)指令。

此外,作為天生的傾聽(tīng)者,AI 通過(guò)提供擬人化的聲音陪伴,能夠增強(qiáng)用戶的陪伴感。

我尤其喜歡這類(lèi)工具普遍存在的「克隆聲音」功能。用戶只需念一段話,即可克隆自己的聲音,這與 iPhone 的無(wú)障礙「?jìng)(gè)人語(yǔ)音」功能有些類(lèi)似,能夠?qū)⑺鶒?ài)的人用聲音留存下來(lái)。

相比之下,iPhone 上的這個(gè)功能使用起來(lái)耗時(shí)更長(zhǎng),克隆效果也稍顯遜色。

當(dāng)時(shí)蘋(píng)果表示,這項(xiàng)功能是為那些有失去說(shuō)話能力風(fēng)險(xiǎn)的人設(shè)計(jì)的,比如被診斷出患有 ALS (肌萎縮側(cè)索硬化癥)的病人。

實(shí)際上,過(guò)去,TTS 技術(shù)生成的聲音往往比較機(jī)械,缺乏自然語(yǔ)音的韻律、節(jié)奏和情感表達(dá),聽(tīng)起來(lái)比較生硬,不像是真人在說(shuō)話。

但現(xiàn)在從 GPT-4o、豆包等身上,我們已經(jīng)見(jiàn)過(guò)不少進(jìn)入擬人階段,未來(lái)甚至可能超越人類(lèi)水平,生成超出人類(lèi)聲線的合成聲音。

在近日舉辦的 2024 火山引擎 AI 創(chuàng)新巡展上海站上,字節(jié)跳動(dòng)還揭秘了豆包大模型語(yǔ)音能力的最新技術(shù)成果。其中,Seed-ASR 提供了語(yǔ)音識(shí)別能力支持。

這是一款 ASR(自動(dòng)語(yǔ)音識(shí)別)成果。它能準(zhǔn)確轉(zhuǎn)錄各種語(yǔ)音信號(hào),識(shí)別不同語(yǔ)言、方言、口音。對(duì)于人名、生詞,Seed-ASR 也能結(jié)合文本語(yǔ)音等上下文,實(shí)現(xiàn)更準(zhǔn)確轉(zhuǎn)錄。

對(duì)比此前發(fā)布的大型 ASR 模型,Seed-ASR 在中英文公開(kāi)測(cè)試集上,單詞錯(cuò)誤率(面向中文以單個(gè)字計(jì)算)降低 10%-40% 。

與圖形界面交互不同,人類(lèi)天生擅長(zhǎng)通過(guò)談話交流信息。而相比于最親密的親朋好友,只有 AI 才能做到 24 小時(shí)的信息秒回。

凌晨三點(diǎn),你給旁人打電話,他未必會(huì)搭理你。但你要是發(fā)給 AI,他會(huì)第一時(shí)間回復(fù)你。

這或許也是當(dāng)下我們對(duì) AI 語(yǔ)音最大的期待,不指望它能發(fā)出多么人性化的聲音,而在于它的陪伴本身。

本文來(lái)源:Appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部