之前我們寫過一篇文章——《別再問我聾人為什么要去音樂節(jié)了》,科普了海外音樂節(jié)的特別崗位:手語翻譯員。 聽障人士雖然聽不見或者聽不清音樂,但他們可以通過手語翻譯員感染力極強(qiáng)的手部動(dòng)作、面部表情、肢體語言,感受到音樂的律動(dòng)、氛圍的熱烈。 這可能是健聽人意想不到的手語場景。其實(shí)無論線上線下,需要手語翻譯員的地方還有很多,然而僧多粥少。 英國人 Sally Chalk,2002 年開了一家英國手語翻譯公司,經(jīng)過 20 年的經(jīng)營,公司規(guī)?捎^,預(yù)約手語翻譯員的時(shí)間也縮短到了 30 分鐘,但她還是不滿足。 聽障人士能不能馬上獲取手語翻譯,就像在視頻網(wǎng)站打開字幕一樣? 她的答案是,讓 AI 加入進(jìn)來。 從線上到線下,應(yīng)該讓聽障人士多用「母語」 2022 年,Sally Chalk 開了一家新的初創(chuàng)公司——Signapse,專注開發(fā)生成式 AI 手語翻譯軟件,將書面文本實(shí)時(shí)翻譯為美國手語和英國手語。 今年 5 月,Signapse 拿到了 200 萬英鎊的種子輪融資,其中 50 萬來自英國政府。 他們瞄準(zhǔn)的一個(gè)線下場景,是火車站、機(jī)場等交通樞紐。 美國的辛辛那提/北肯塔基國際機(jī)場,已經(jīng)和 Signapse 合作,在屏幕上投放美國手語,提供歡迎、安全、出發(fā)、到達(dá)等信息。 AI 是如何發(fā)揮作用的?Signapse 基于大型手語數(shù)據(jù)集,并通過生成對抗網(wǎng)絡(luò)(GAN)和深度學(xué)習(xí)技術(shù),創(chuàng)造了逼真的、翻譯盡可能準(zhǔn)確的虛擬手語翻譯員。 這些虛擬形象基于真人手語翻譯員,每次被商用時(shí),真人都會(huì)拿到分成。 考慮到機(jī)場的目的地、出發(fā)時(shí)間、站臺號碼經(jīng)常變動(dòng),通過與交通數(shù)據(jù)集成,Signapse 的手語翻譯可以做到實(shí)時(shí)更新。 同時(shí),Signapse 沒有忽視線上的需求,也為網(wǎng)站和視頻流媒體提供手語翻譯。 盡管 YouTube 等網(wǎng)站都有隱藏式字幕了,但相比字幕,聽障人士往往更喜歡手語,因?yàn)槭终Z具有獨(dú)立于其他語言的語法結(jié)構(gòu)和表達(dá)形式,會(huì)讓他們的上網(wǎng)體驗(yàn)更好。 你應(yīng)該有注意到,提到手語時(shí),我們會(huì)用美國手語、英國手語的說法。就像全世界的口語和文字互不相通,手語也包羅萬象。 聯(lián)合國統(tǒng)計(jì),全世界大約有 7000 萬人將手語作為主要的交流形式,全世界使用的手語有 300 多種不同類型。僅在美國,就有 50 萬人使用美國手語。 所以,Signapse 目前所做的其實(shí)也很有限,只覆蓋到了使用美國和英國手語的少部分人,以及有限的垂直場景。過去兩年,Signapse 每天創(chuàng)建約 5000 個(gè)英國手語交通公告。 Signapse 希望,未來他們的服務(wù)可以更加普適,拓展到教育等場景,也更加個(gè)性化,支持用戶自定義虛擬手語翻譯員的外觀。 一方的水土養(yǎng)一方的 AI,國內(nèi)大廠也有類似的手語產(chǎn)品。 AI 手語主播們,曾經(jīng)出現(xiàn)在騰訊的王者榮耀直播間、華為的開發(fā)者大會(huì)。 2022 年冬奧會(huì),央視新聞和百度智能云曦靈聯(lián)合打造的 AI 手語主播上線,天津理工大學(xué)聾人工學(xué)院參與了手語語料標(biāo)注。 而在 AI 手語主播背后,百度智能云曦靈的 AI 手語平臺,還能滿足醫(yī)院、車站、銀行等不同場景的快速手語翻譯需求,和 Signapse 英雄所見略同。 更絲滑的出行、更沉浸的觀看體驗(yàn)、更無障礙的服務(wù)...... 如果說手語翻譯的改進(jìn)空間比海更深,至少聽障人士獲取公共信息的方式,正在被 AI 改變,持續(xù)地泛起可見的浪花。 手語界的多鄰國們 聽障人士也要「聽」音樂?聽障人士看文字是不是就夠了?這是典型從健聽人的邏輯出發(fā)考慮問題。 其實(shí),我們應(yīng)該反過來問:音樂節(jié)怎么讓聽障人士也能有參與感?互聯(lián)網(wǎng)怎么讓聽障人士有更愉快的沖浪體驗(yàn)? 所以,不是某個(gè)人流如織的車站多出了一塊屏幕,而是那塊屏幕本就該出現(xiàn)在那里。 更多公司、更多個(gè)體正在借助技術(shù)的力量,讓手語變得越來越有存在感。 讓健聽人學(xué)習(xí)手語,就是其中一種比較容易想到的思路。 PopSign 是一款邊玩邊學(xué)手語的 app,使用 AI 手語模型,由 Google、羅徹斯特理工學(xué)院、佐治亞理工學(xué)院合作開發(fā),可在 Android 和 iOS 上使用,最主要的用戶群體是聽障孩子的健聽父母。 吸取背單詞從「abandon」(放棄)開始、也以放棄終結(jié)的教訓(xùn),PopSign 不是無聊地播放手語視頻,而是用小游戲增強(qiáng)學(xué)習(xí)手語的興趣和信心,和瘋狂催你打卡的多鄰國異曲同工。 想做手語界「多鄰國」的,還有一家叫作 SLAIT 的美國公司。他們提供的也是沉浸式的互動(dòng)課程和測驗(yàn),如果你做對了,AI 導(dǎo)師會(huì)給予你實(shí)時(shí)反饋,提供適量情緒價(jià)值。 不過,教手語只是 SLAIT 退而求其次的選擇,一開始他們想做的,其實(shí)是實(shí)時(shí)視頻聊天和翻譯的 AI 手語工具。 但巧婦難為無米之炊,SLAIT 是個(gè)小團(tuán)隊(duì),沒有足夠的數(shù)據(jù),也沒有足夠的資金,比起直接翻譯手語句子,教單個(gè)手語詞匯更加簡單,但同樣有價(jià)值。 翻譯手語的辛苦活,就交給財(cái)大氣粗的巨頭們解決了。 2023 年 8 月,聯(lián)想巴西開發(fā)了一款基于 AI 的實(shí)時(shí)聊天翻譯 app,用來翻譯葡萄牙語手語,未來計(jì)劃覆蓋到全球更多手語。 當(dāng)聽障人士對著設(shè)備的攝像頭打手語,算法會(huì)即時(shí)將其翻譯成葡萄牙語文本,傳送給另一端的接收者。 這樣的工具應(yīng)該多多益善,恰好和手語教學(xué)服務(wù)互補(bǔ),讓聽障人士站在更主動(dòng)的位置,更多地成為對話的發(fā)起方。 Google 則更加產(chǎn)品導(dǎo)向,發(fā)起了 2023 年 Kaggle AI 手語識別競賽。 這場競賽的主題很有意思——參賽者們基于聽障人士自拍得到的 300 多萬個(gè)手指拼寫字符,構(gòu)建使用智能相機(jī)快速跟蹤手指、手掌和臉部的手指拼寫模型。 手指拼寫屬于手語的一種,使用手指的不同形狀和位置來表示字母。對于很多殘障人士來說,使用手指拼寫,比在智能手機(jī)的虛擬鍵盤上打字快得多。 所以,改進(jìn)手語識別、構(gòu)建手指拼寫模型,是為了讓聽障人士可以直接用更擅長的手語,而不是打字和說話,在手機(jī)上使用搜索、地圖、短信等功能。 更進(jìn)一步,這也有助于開發(fā)手語轉(zhuǎn)語音的應(yīng)用,打破聽障人士無法用語音召喚數(shù)字助理的僵局。 或者說,很多語音優(yōu)先的產(chǎn)品,從一開始就沒有考慮不善口語的用戶,是時(shí)候補(bǔ)上漏洞了。 Google 首席無障礙研究產(chǎn)品經(jīng)理 Sam Sepah,在接受福布斯采訪時(shí)提到,他們的目標(biāo)是,讓手語成為使用 Google 產(chǎn)品時(shí)的通用語言選項(xiàng)。 其實(shí),這也應(yīng)該是整個(gè)互聯(lián)網(wǎng)的目標(biāo)——讓手語成為數(shù)字世界的通用語言。 多鄰國作為一款語言學(xué)習(xí)軟件,為每個(gè)人提供了平等的受教育機(jī)會(huì)。而 AI 手語產(chǎn)品們讓人感覺到的是,本不該有的限制正在解除,哪里都可以互通有無。 AI 越強(qiáng)大,越要珍視人性 5 月,GPT-4o 發(fā)布時(shí),一個(gè) Demo 視頻很打動(dòng)人,GPT-4o 充當(dāng)了眼睛,讓視障人士也能「看到」周圍的環(huán)境。 視障人士從 AI 口中知道,白金漢宮上空飄揚(yáng)著旗幟,河里的鴨子悠閑地嬉戲,出租車就要到達(dá)跟前,他的嘴角隨著 AI 的歡快語調(diào)而上揚(yáng)。 俗話說技術(shù)打開了新世界的大門,是否可以反過來理解,殘障人士們原本生活在一個(gè)不為他們設(shè)計(jì)的世界? 世衛(wèi)組織數(shù)據(jù)顯示,全球 4.3 億人需要通過康復(fù)治療解決殘疾性聽力損失。手語翻譯的數(shù)量遠(yuǎn)遠(yuǎn)不夠,在美國,聽障用戶與美國手語翻譯員的比例大約為 50 比 1。 所以目前來說,AI 手語只是起到補(bǔ)充和錦上添花的作用,還不到「搶飯碗」的地步。 以上提到的 AI 手語產(chǎn)品,基本都是小規(guī)模的、垂直的、扎根特定地區(qū)的,彌補(bǔ)真人翻譯不可及的地方。 上個(gè)月,我還看到了一款很酷的 AI 手語產(chǎn)品。 羅格斯大學(xué)、卡內(nèi)基梅隆大學(xué)等幾所大學(xué)的研究人員,將公開手語視頻處理成包含 8 種手語的數(shù)據(jù)集,訓(xùn)練了 SignLLM——第一個(gè)多語言手語生成模型。 覆蓋多種手語,可以通過文本提示詞生成手語,那不是太方便了嗎?但研究人員說了,請外界不要夸大他們的研究成果,演示視頻并非模型的直接輸出,實(shí)際制作起來仍然很麻煩。 同時(shí),也有聽障專家站出來表示,這些視頻的手語翻譯質(zhì)量參差不齊,有的讓人半懂不懂,有的完全理解不了,而且缺乏面部表情,項(xiàng)目有潛力,但還要改善。 最重要的是,要讓聽障用戶參與,發(fā)表他們的意見,共同完善產(chǎn)品,因?yàn)椤笡]有我們的參與,就沒有關(guān)于我們的決策」。 一個(gè)微妙的感受是,無障礙產(chǎn)品似乎很難做得「性感」。 它們往往沒法像大模型和 AI 硬件的發(fā)布一樣讓人心神激蕩,總是和你說,功能有哪些,服務(wù)于誰,希望以后可以做到更好,不會(huì)「貪多嚼不爛」。 并且在風(fēng)投的眼里,它們也是小眾的、潛力未知的、未必有投資回報(bào)的。 但「AI 教母」李飛飛曾說,AI 是為了幫助人,AI 越強(qiáng)大我們越要珍視人性。 所有人都應(yīng)該不怕錯(cuò)過航班,所有人都應(yīng)該可以和產(chǎn)品交互,所有人都應(yīng)該享受音樂節(jié)。 那些曾經(jīng)不被看到的、聽到的也該被技術(shù)的光芒照耀。打個(gè)共鳴的響指吧,讓更多人的需求被滿足,更多人的能力被增強(qiáng),讓我們得到更多,失去更少。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選