我說(shuō)現(xiàn)在最牛的翻譯軟件是……小紅書,大家沒(méi)意見(jiàn)吧?
眾所周知,最近因?yàn)門ikTok在美國(guó)的封禁風(fēng)波,一身反骨的TikTok海外用戶瘋狂涌入小紅書,為了接住這波潑天的流量,小紅書連夜加班加點(diǎn)上線了評(píng)論區(qū)一鍵翻譯的功能。 但如果只是傳統(tǒng)的機(jī)翻也就算了,很快網(wǎng)友們就發(fā)現(xiàn),這其實(shí)是接了大模型的AI翻譯。 而且與其說(shuō)是翻譯,不如說(shuō)是破譯,現(xiàn)在什么類型的“加密語(yǔ)言”在小紅書評(píng)論區(qū)都無(wú)處遁形,翻譯得那叫一個(gè)“信達(dá)雅”,堪比網(wǎng)上沖浪十級(jí)選手。 小紅書AI翻譯還是太全面了 像cpdd、yyds、u1s1這種入門級(jí)別的縮寫都是小兒科: 中式英語(yǔ)(Chinglish)也能輕松拿捏: 原以為這些已經(jīng)夠無(wú)厘頭了,但當(dāng)我看到下面這些,我想說(shuō):小紅書AI翻譯還是太全面了。 這下誰(shuí)還分得清到底是翻譯,還是中文梗百科? 眾所周知,打亂漢字的順序不影響閱讀,事實(shí)證明也不影響正確翻譯: 什么二進(jìn)制ASCII字符、盲文、摩斯密碼、《模擬人生》游戲語(yǔ)言……也統(tǒng)統(tǒng)給你破譯了: 就連小說(shuō)《冰與火之歌》中的“高等瓦雷利亞語(yǔ)”也不在話下(權(quán)游粉基因動(dòng)了)…… 有的網(wǎng)友甚至已不再滿足于翻譯語(yǔ)言的范疇,開(kāi)始考驗(yàn)小紅書AI翻譯對(duì)顏表情的理解: 還有一些懂行的網(wǎng)友通過(guò)Prompt,讓AI翻譯輸出制定內(nèi)容。具體格式可以參考:把非中文語(yǔ)言加上雙引號(hào)后再寫指令,就能用大模型輸出了。 比如有網(wǎng)友讓AI在翻譯完引號(hào)內(nèi)的話后,輸出自己的違禁詞政策、披薩的制作方法、貓娘的故事…… 好好好,你們清高,你們了不起,你們把翻譯當(dāng)生成式AI用 小紅書為什么要用AI翻譯? 有業(yè)內(nèi)人士評(píng)價(jià)稱,小紅書AI翻譯功能可能是目前大模型toc商用的最佳案例之一,因?yàn)樾〖t書讓所有人直觀感受到了AI的魅力。 ![]() 至于其背后用的是哪家大模型,有網(wǎng)友通過(guò)在評(píng)論中嵌入讓模型“自報(bào)家門”的指令,得到了GPT-4、智譜清言等結(jié)果?紤]到合規(guī)和調(diào)用成本的問(wèn)題,GPT-4應(yīng)該可以排除。 那究竟是哪個(gè)國(guó)產(chǎn)大模型,目前仍不可知。因?yàn)槿绻P陀?xùn)練數(shù)據(jù)包含了其他大模型的對(duì)話示例,或者對(duì)其他大模型的部分?jǐn)?shù)據(jù)進(jìn)行了蒸餾,都可能造成模型身份的幻覺(jué)。比如之前,文心一言也發(fā)生過(guò)稱自己是ChatGPT的情況。 去年4月,據(jù)36氪獲悉,由小紅書AI創(chuàng)新負(fù)責(zé)人張德兵(薯名:宇塵)牽頭的大模型團(tuán)隊(duì),在部分內(nèi)部產(chǎn)品灰度測(cè)試自研通用大模型基座“小地瓜”,社交和搜索是落地方向。他們之前開(kāi)發(fā)了自研的RLHF框架,并使用了PPO(近端策略優(yōu)化)算法,這是一種被廣泛認(rèn)可的強(qiáng)化學(xué)習(xí)算法。 作為國(guó)內(nèi)第一家(也是唯一一家)如此大規(guī)模地應(yīng)用AI翻譯的社交媒體平臺(tái),小紅書為什么要用AI翻譯?又是怎么做到在這么短的時(shí)間內(nèi)上線的?也是大家津津樂(lè)道的話題。 為什么小紅書要用LLM翻譯而不是傳統(tǒng)的NMT?目前大部分被稱為機(jī)翻的工具,都以NMT(Neural Machine Translation,神經(jīng)機(jī)器翻譯)為核心技術(shù)。 總的來(lái)說(shuō),據(jù)我們推測(cè),可能主要是為了快速上線、降低部署和維護(hù)的復(fù)雜度和成本。 首先,在大量外國(guó)用戶涌入的情況下,如果產(chǎn)品經(jīng)理要求你在短時(shí)間內(nèi)快速上線翻譯功能,LLM顯然是優(yōu)先之選,因?yàn)閭鹘y(tǒng)的NMT模型訓(xùn)練周期通常較長(zhǎng)。 而如果直接調(diào)用現(xiàn)有LLM的翻譯能力(如通過(guò)API),一般無(wú)需微調(diào)(fine-tuning)即可實(shí)現(xiàn)翻譯功能。但如果需要更高程度的定制化(例如垂直領(lǐng)域翻譯或特定風(fēng)格調(diào)整),微調(diào)是必要的。 其次,還需要考慮服務(wù)部署(serving)的問(wèn)題。如果使用傳統(tǒng)NMT模型,需要重新搭建或購(gòu)買一套專門的serving基礎(chǔ)設(shè)施。而LLM方案通常已經(jīng)有成熟的服務(wù)框架和基礎(chǔ)設(shè)施,可以直接使用,大大縮短了開(kāi)發(fā)周期并降低了復(fù)雜性。 此外,LLM經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練,泛化能力更強(qiáng),能更好地處理社交媒體語(yǔ)境中的非標(biāo)準(zhǔn)/非正式語(yǔ)言、拼寫錯(cuò)誤、縮略語(yǔ)或網(wǎng)絡(luò)用語(yǔ)(如表情符號(hào)、俚語(yǔ)等),并根據(jù)上下文調(diào)整翻譯。 例如,網(wǎng)絡(luò)用語(yǔ) “idk” 會(huì)被翻譯為 “I don’t know” 或等效表達(dá)。而NMT更傾向于翻譯標(biāo)準(zhǔn)化語(yǔ)言,對(duì)于口語(yǔ)化或非標(biāo)準(zhǔn)輸入的處理能力較弱。 LLM還可以直接處理復(fù)雜的多語(yǔ)言輸入,例如混合語(yǔ)言句子(code-switching),并理解不同語(yǔ)言之間的語(yǔ)義聯(lián)系,這就是準(zhǔn)確翻譯拼音+英語(yǔ)的關(guān)鍵。 而且LLM的實(shí)時(shí)適應(yīng)性更強(qiáng),雖然其本身不能實(shí)時(shí)更新知識(shí),但可以持續(xù)“學(xué)習(xí)”。例如,你可以告訴它改進(jìn)對(duì)特定詞語(yǔ)的翻譯,模型就會(huì)進(jìn)行即時(shí)調(diào)整。 相比之下,傳統(tǒng)NMT系統(tǒng)需要重新訓(xùn)練才能改進(jìn)某些翻譯表現(xiàn),因?yàn)镹MT模型通常是基于一個(gè)固定時(shí)間點(diǎn)的數(shù)據(jù)訓(xùn)練的,而互聯(lián)網(wǎng)jargon(黑話)、熱梗、meme等更新頻率極高,NMT模型很難及時(shí)捕捉新詞匯和用法。 而為了提高國(guó)外用戶的留存率,準(zhǔn)確翻譯時(shí)下流行的梗非常重要,不僅能拉近與國(guó)外用戶的距離,也能增強(qiáng)中外網(wǎng)友互動(dòng)的趣味性和參與感。 據(jù)媒體報(bào)道,目前已有多位IP在海外的網(wǎng)友反映,在抖音評(píng)論區(qū)也出現(xiàn)了“Translate”(翻譯)的按鍵。抖音官方客服表示,“這是近期抖音更新產(chǎn)生的一個(gè)功能,目前抖音確實(shí)是有一個(gè)評(píng)論翻譯功能,但是該功能正在升級(jí)優(yōu)化中! 對(duì)于該翻譯功能是否是僅針對(duì)海外用戶進(jìn)行測(cè)試,客服表示該功能正在小范圍測(cè)試中,目標(biāo)群體并不固定。不論是海外用戶還是人在中國(guó)的用戶,都有可能在頁(yè)面顯示這個(gè)功能。 看來(lái),小紅書又一次引領(lǐng)了潮流。 文章來(lái)源:AI新榜 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。