全球人民翹首以盼,終于在上個(gè)周末,把小紅書的翻譯功能盼來(lái)了! 一些打開(kāi)方式和須知如下: 升級(jí)到最新版本 嘗試修改自己的語(yǔ)言設(shè)置,包括小紅書設(shè)置和手機(jī)系統(tǒng)設(shè)置 目前只支持單一語(yǔ)言的翻譯,如果是中英夾雜,或者帶有表情包,不能成功觸發(fā) 還是沒(méi)反應(yīng)的話,有網(wǎng)友提出了「殺后臺(tái)大法」:評(píng)論區(qū)任意發(fā)一句英文,然后退出后臺(tái),再重新打開(kāi)小紅書,就會(huì)出現(xiàn)翻譯功能 本文截圖來(lái)自小紅書用戶,用戶名如圖所示,下同太快了,小紅書你有手速這么快的程序員進(jìn)入公司,tt 用戶表示,從來(lái)沒(méi)見(jiàn)過(guò)速度這么快的更新,這就是傳說(shuō)中的中國(guó)速度嗎? 全世界人民都很開(kāi)心,除了有道詞典。 雖然短短一周時(shí)間就上線,但翻譯的表現(xiàn)出奇的好,這下跨國(guó)沖浪簡(jiǎn)直如有神助。 什么 u1s1 啦,yyds 啦,cpdd 啦,這些基于拼音的縮寫全都能準(zhǔn)確領(lǐng)悟,并且標(biāo)注出來(lái)。 有一說(shuō)一,隔壁同事表示她都不知道 cpdd 是什么意思——人類不如 GPT 的又一鐵證。 小紅書你到底是在做翻譯還是在做梗百科!這一波的額外效果是,順便把方言也給翻譯了。 甚至如果原文中有錯(cuò)誤,不僅不會(huì)影響翻譯,小紅書還會(huì)貼心注解好。 你是真的為了我學(xué)英語(yǔ)在考慮,淚目。 很明顯,這次小紅書翻譯功能的背后有著大語(yǔ)言模型的支持,網(wǎng)友們迫不及待地開(kāi)始了對(duì)背后模型的調(diào)戲。 比如先淺淺做個(gè)翻譯,然后寫幾行詩(shī)。 還有淺淺做個(gè)翻譯之后,總結(jié)一下今天的新聞。 甚至還有打出一串摩斯電碼讓它翻譯的——這里是小紅書,不是《風(fēng)聲》啊。 單方面宣布:現(xiàn)在最強(qiáng)的多功能翻譯軟件是小紅書。 大語(yǔ)言模型處理翻譯任務(wù),雖然已經(jīng)很好使了,但是落在小紅書這樣內(nèi)容無(wú)比豐富的社交平臺(tái)上,還是有很多挑戰(zhàn)。語(yǔ)言的多樣性就是最具有挑戰(zhàn)性的。 一些文化特定的術(shù)語(yǔ)、習(xí)慣表達(dá)或比喻,如成語(yǔ)、俚語(yǔ),難以準(zhǔn)確翻譯。 還有一些人名、昵稱,模型可能無(wú)法很好地區(qū)分哪些詞需要翻譯,哪些詞需要保留。 比如這里的「orange man」直接譯成了「橙人」,其實(shí)這里指的是特朗普。 在準(zhǔn)確性之外,普通用戶比較難感知到的是翻譯所需要的計(jì)算資源。 在小紅書這樣內(nèi)容非常豐富的平臺(tái)上,用戶可能只發(fā)幾個(gè)字母,也可能長(zhǎng)至幾百字的筆記。相比之下,長(zhǎng)內(nèi)容的翻譯會(huì)占用更多資源,增加系統(tǒng)負(fù)載。 同時(shí),各個(gè)國(guó)家的用戶都進(jìn)駐之后,時(shí)區(qū)分布廣泛,導(dǎo)致系統(tǒng)幾乎沒(méi)有低負(fù)載時(shí)間。 等到兩邊都睡醒了,短短的時(shí)區(qū)重合區(qū)間內(nèi),翻譯請(qǐng)求量可能瞬間激增,系統(tǒng)需要在短時(shí)間內(nèi)處理大量并發(fā)請(qǐng)求,對(duì)并發(fā)處理能力是很大的考驗(yàn)。 預(yù)判未來(lái),小紅書這波在大氣層 現(xiàn)在還沒(méi)有準(zhǔn)確的消息指出新的翻譯功能背后,到底調(diào)用的是什么模型。在一些網(wǎng)友的「逼問(wèn)」之下,似乎是 GPT。 還有的網(wǎng)友「逼問(wèn)」出來(lái)是智譜。 拋開(kāi)幻覺(jué)不談,考慮到成本問(wèn)題,還真不好說(shuō)用的是什么。GPT 參數(shù)量大,計(jì)算成本高,不適合部署在資源受限的環(huán)境中。 比較可行的一種策略,是選擇一個(gè)學(xué)生模型,并把 GPT 作為教師模型進(jìn)行蒸餾。學(xué)生模型通常參數(shù)量更少,推理速度更快,但盡量保留教師模型的能力。 正好,這種路線對(duì)于小紅書而言,或許更有把握。 小紅書對(duì)大語(yǔ)言模型、多模態(tài)等 AI 技術(shù)的探索,早就開(kāi)始了,只是一直側(cè)重于算法優(yōu)化。曾經(jīng)也做過(guò)一些小小的 AI 功能,我們之前寫過(guò)不少。 很少人知道的是,在 2024 年年初的 AAAI 上,小紅書的搜索算法團(tuán)隊(duì),就針對(duì)大模型蒸餾提出過(guò)一個(gè)新思路。 這是一個(gè)全新框架,在蒸餾大模型推理能力的過(guò)程中充分利用負(fù)樣本知識(shí)。 「負(fù)樣本」是一個(gè)很有趣的概念。傳統(tǒng)蒸餾一般只關(guān)注正樣本,這并不難理解:老師教學(xué)生,肯定是教正確的解題方式,讓學(xué)生去理解和模仿。 不過(guò),大家上學(xué)時(shí)肯定也有做過(guò)「錯(cuò)題集」,把自己犯過(guò)的錯(cuò)、掌握得不夠牢的地方記錄下來(lái)。這些錯(cuò)題就是「負(fù)樣本」,在小紅書的評(píng)論區(qū),那些不夠準(zhǔn)確的翻譯,就是負(fù)樣本。 比如下面這個(gè)「fair point」,是在翻譯功能上線之前,這個(gè)譯文就太機(jī)翻了。在這個(gè)評(píng)論區(qū)里,翻譯成「有道理」更合適。 就像「錯(cuò)題」里也包含著重要的信息一樣,「負(fù)樣本」能夠幫助學(xué)生模型識(shí)別哪些預(yù)測(cè)是不正確的,增強(qiáng)其辨別能力、提升對(duì)困難樣本的處理,同時(shí)能夠在復(fù)雜的語(yǔ)言表達(dá)中,保持一致性。 打個(gè)比方,現(xiàn)在你想要和外國(guó)友人們?cè)u(píng)論區(qū)對(duì)線——啊不,對(duì)賬——一些理財(cái)相關(guān)的詞語(yǔ)可能會(huì)出現(xiàn)。 比如銀行 bank 這個(gè)詞可能會(huì)經(jīng)常出現(xiàn),但它還有別的意思:「河床」,同時(shí)它還可以作為動(dòng)詞使用。 通過(guò)負(fù)樣本學(xué)習(xí),就是在訓(xùn)練模型識(shí)別多義表達(dá),校正翻譯邏輯,生成更自然的內(nèi)容。 負(fù)樣本的優(yōu)勢(shì)還體現(xiàn)在對(duì)小語(yǔ)種的支持。要知道,這次不只是美國(guó)用戶,還有全球各個(gè)地方的用戶都涌上來(lái):塞爾維亞、秘魯,澳洲某些地區(qū)的原住民。 通過(guò)利用負(fù)樣本(包括翻譯錯(cuò)誤的常見(jiàn)模式),學(xué)生模型能夠識(shí)別并規(guī)避高頻錯(cuò)誤,提升低資源語(yǔ)言的翻譯能力。 小紅書團(tuán)隊(duì)提出的這個(gè)框架,是一種對(duì)蒸餾的創(chuàng)新應(yīng)用,當(dāng)時(shí)是為了從大語(yǔ)言模型中提煉復(fù)雜推理的能力并遷移到專業(yè)化小模型當(dāng)中。至于具體可以完成什么任務(wù)當(dāng)時(shí)并不清晰,起碼看上去,翻譯并不是重點(diǎn)。 那時(shí)或許沒(méi)人知道這個(gè)框架,在一年之后,會(huì)為小紅書成為國(guó)際交流的橋梁帶來(lái)幫助。 還是那句老話:機(jī)會(huì)永遠(yuǎn)留給有準(zhǔn)備的人。 文章來(lái)源:愛(ài)范兒 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。