自從扎克伯格把 FaceBook 改名成 Meta 之后,這家公司就徹底和眼鏡較上勁了。 有一個(gè)即熱又冷的小知識(shí),Meta 這個(gè)名字,取自「metaverse(元宇宙)」的前四個(gè)字母,2021 年改名的時(shí)候,扎克伯格本人非常自信地表示: 元宇宙將在未來(lái)十年觸及 10 億人,而元宇宙也將觸及我們開(kāi)發(fā)的每一款產(chǎn)品。 四年過(guò)去了,元宇宙成了科幻小說(shuō)、創(chuàng)意動(dòng)畫(huà)和影視作品的?停x現(xiàn)實(shí)世界卻越來(lái)越遠(yuǎn),為數(shù)不多能引起人們關(guān)注的,還是那些時(shí)不時(shí)爆雷上熱搜、打著元宇宙、虛擬資產(chǎn)的幌子,來(lái)招搖撞騙的煩心事兒。 在普及和鋪開(kāi)元宇宙上,Meta 和四年前一樣沒(méi)啥變化,不過(guò)他們卻在元宇宙的入口——VR/AR 頭顯設(shè)備上,做出了不少有意思的新玩意兒。 定位為新型游戲機(jī)的 Meta Quest,打開(kāi)了 VR 互動(dòng)游戲的新世界,2024年 Meta Quest 系列占據(jù)了 73% 的市場(chǎng)份額,遙遙領(lǐng)先。 成為 AI 時(shí)代新潮配件的 Ray-Ban Meta,經(jīng)過(guò)了兩代產(chǎn)品的努力,出貨量在今年 2 月正式突破 200 萬(wàn)臺(tái),集傳統(tǒng)眼鏡、名牌 logo、藍(lán)牙耳機(jī)、語(yǔ)音助手、Vlog 相機(jī)于一身,既做好了一副傳統(tǒng)眼鏡該有的裝飾作用,又讓科技悄無(wú)聲息地嵌入了日常生活。 明面上,Meta 在消費(fèi)者市場(chǎng)推出了幾款成功的產(chǎn)品;私底下,他們也在 toB 的賽道上悄悄發(fā)力,而且這些面向企業(yè)和專業(yè)機(jī)構(gòu)的智能眼鏡起步的時(shí)間,甚至比他們改名的時(shí)間還早。 五年之約已到,Meta 交卷 2020 年,Meta 推出了其首款實(shí)驗(yàn)性智能眼鏡 Meta Aria Gen 1,和傳統(tǒng)眼鏡比起來(lái),Aria Gen 1 略顯臃腫,特別是兩條加粗的鏡腿,非常顯眼。 圖片來(lái)自:Google 碩大的外觀并不只是擺設(shè),其中包含了非常多的傳感器套件,如配備 RGB 攝像頭、定位追蹤攝像頭、慣性測(cè)量單元(IMU)、氣壓計(jì)、磁力計(jì)等,這些元件的主要功能是用于采集第一人稱視角的視覺(jué)、運(yùn)動(dòng)和空間數(shù)據(jù)。 從理論上來(lái)說(shuō),Aria Gen 1 是專為機(jī)器感知系統(tǒng)、人工智能及機(jī)器人技術(shù)研究設(shè)計(jì),它通過(guò)集成多模態(tài)傳感器,幫助科研人員攻克AR眼鏡的核心技術(shù)難題,如環(huán)境感知、空間定位等。 落地到實(shí)際體驗(yàn),Aria Gen 1 則有著非常遙遠(yuǎn)也令人期待的使命: 設(shè)想有一天,我們可以享受聯(lián)網(wǎng)帶來(lái)的所有好處,而不需要低著頭低著頭看著設(shè)備。想象一下,給朋友打電話,和桌子對(duì)面栩栩如生的虛擬形象聊天。 作為這項(xiàng)實(shí)驗(yàn)的原型機(jī),也是第一代產(chǎn)品,Aria Gen 1 并沒(méi)有掀起太大的波瀾,沉淀五年后,這周 Meta 正式發(fā)布了 Aria Gen 2。和一代相比,有了全面的升級(jí)。 最明顯的變化在傳感器系統(tǒng)上,一代機(jī)采用的是最基礎(chǔ)的環(huán)境感知元件,只有攝像頭和慣性傳感器,Aria Gen 2 在此基礎(chǔ)上,增加了許多新的配件,包括 RGB 攝像頭、6DOF SLAM 攝像頭、眼動(dòng)追蹤攝像頭、空間麥克風(fēng)、IMU、氣壓計(jì)、磁力計(jì)和 GNSS。 特別是新一代產(chǎn)品在鼻托中嵌入了兩個(gè)創(chuàng)新傳感器:用于測(cè)量心率的 PPG 傳感器,和用于區(qū)分佩戴者聲音和旁觀者聲音的接觸式麥克風(fēng)。 如果把一代比作「只用眼鏡看世界」,那相比之下 Aria Gen 2 可以說(shuō)是感官全開(kāi),從更多維度感知、觀察以及收集外界信息,就能在同樣的時(shí)間里,獲取數(shù)量更多、更準(zhǔn)確的數(shù)據(jù),機(jī)器的運(yùn)作、學(xué)習(xí)效率也會(huì)更高。 另外,數(shù)據(jù)處理的方式上,二者也有了質(zhì)變,Aria Gen 1 依賴于外部設(shè)備進(jìn)行計(jì)算,雖說(shuō)不在本地運(yùn)算,能一定程度上,減輕設(shè)備的重量壓力,但隨之而來(lái)的則是反應(yīng)的遲緩,在云端算力夠,但網(wǎng)絡(luò)不好的時(shí)候會(huì)有響應(yīng)尷尬期,經(jīng)常用智慧助手的朋友應(yīng)該都有碰到過(guò)類似的情況;若是隨身攜帶一個(gè)移動(dòng)計(jì)算平臺(tái),非常不便攜。 而 Aria Gen 2 則用上了 Meta 的自研芯片,可以把數(shù)據(jù)放在端側(cè)處理,響應(yīng)速度非常快,不受網(wǎng)絡(luò)的限制,交互體驗(yàn)也有了非常大的進(jìn)步。 一般來(lái)說(shuō),多了自研芯片的設(shè)備,擁有了端側(cè)運(yùn)算的能力,但同時(shí)也會(huì)增加設(shè)備的重量。不過(guò) Meta 用數(shù)據(jù)說(shuō)話,這五年他們真的沒(méi)閑著:Aria Gen 1 重 98g,Aria Gen 2 重 75 克。加量不加重,長(zhǎng)體驗(yàn)不長(zhǎng)體重。 體驗(yàn)見(jiàn)長(zhǎng)的,還有 Aria Gen 2 的交互方式,在第一代語(yǔ)音交互的基礎(chǔ)上,二代機(jī)加入了「眼動(dòng)追蹤+手勢(shì)+接觸式操作」。語(yǔ)音交互很直接,檢索路徑會(huì)大幅縮短,但并不是生活中的所有場(chǎng)景都適合,比如高峰期的地鐵站和超安靜的辦公室。 按理來(lái)說(shuō),傳感器和交互功能變多,續(xù)航會(huì)受到影響,自研芯片的確影響了 Aria Gen 2 的續(xù)航,但是正向的。官方稱其能達(dá)到 6-8 個(gè)小時(shí)使用時(shí)間。按照目前無(wú)線耳機(jī)的使用時(shí)長(zhǎng),基本能讓 Aria Gen 2 做到全天候的智慧功能可用。 打好了硬件基礎(chǔ),后續(xù)的使用體驗(yàn)才會(huì)有更多的可能,Aria Gen 2 的升級(jí)體現(xiàn)了 Meta 對(duì) AR 技術(shù)落地的兩大戰(zhàn)略方向: 一是隱形化集成:通過(guò)輕量化設(shè)計(jì)和傳感器隱藏(如攝像頭指示燈關(guān)閉時(shí)外觀接近普通眼鏡),降低設(shè)備存在感;二來(lái)通過(guò)開(kāi)放的生態(tài),提供底層 API 接口和模塊化擴(kuò)展能力,鼓勵(lì)學(xué)術(shù)界開(kāi)發(fā)定制化工具包,加速技術(shù)轉(zhuǎn)化。 因此,Aria Gen 2 的應(yīng)用場(chǎng)景,也從先前的室內(nèi)導(dǎo)航與基礎(chǔ) AR 研究,轉(zhuǎn)向了更多維的領(lǐng)域,醫(yī)療、工業(yè)、城市規(guī)劃等,都有可能成為 Aria Gen 2 生長(zhǎng)的土壤。 至此,我們來(lái)總結(jié)一下,Aria Gen 2 的進(jìn)步與意義: 感知硬件升級(jí),實(shí)現(xiàn)生物數(shù)據(jù)融合與環(huán)境深度理解; 搭載自研芯片,提升實(shí)時(shí)性,支持戶外無(wú)網(wǎng)絡(luò)場(chǎng)景; 豐富交互方式,降低聲學(xué)干擾,適配復(fù)雜實(shí)驗(yàn)環(huán)境; 續(xù)航覆蓋全天,延長(zhǎng)連續(xù)使用時(shí)間,提升佩戴舒適度; 應(yīng)用場(chǎng)景拓展,推動(dòng)跨學(xué)科技術(shù)融合與標(biāo)準(zhǔn)化。 扎克伯格的「暗部」 如果你看完,Meta Aria 的解讀介紹,還是有點(diǎn)對(duì)它在消費(fèi)市場(chǎng)的運(yùn)用摸不著頭腦,那很正常,因?yàn)?Meta 明確表示,這款產(chǎn)品「不會(huì)面向消費(fèi)者銷售」,那你可能想問(wèn),它到底有什么用?要說(shuō)清楚造它的目的,還得回到十多年前。 2014 年,扎克伯格在斯坦福虛擬人類交互實(shí)驗(yàn)室(VHIL)體驗(yàn)了當(dāng)時(shí)最新的 VR 設(shè)備,以及各種游戲場(chǎng)景,他在 VR 眼鏡里里走了獨(dú)木橋、飛過(guò)城市上空、砍了幾棵樹(shù)...... 時(shí)任 VHIL 實(shí)驗(yàn)室經(jīng)理的 Cody Woputz 曾經(jīng)透露過(guò):在體驗(yàn)高空墜落場(chǎng)景時(shí),他(扎克伯格)甚至嚇到將手放在胸口上。 這次體驗(yàn)讓扎克伯格留下了很深的印象,一方面由于 VR 還處在早期的研究階段,定位系統(tǒng)不穩(wěn)定,使得體驗(yàn)多次被打斷,得停下來(lái)重新校準(zhǔn)設(shè)備;而且當(dāng)時(shí)的 VR 還不是一體機(jī),PC VR 的計(jì)算終端在機(jī)身外,得用一條又粗又長(zhǎng)的線纜連接,以此來(lái)傳輸信號(hào)和供電。 圖片來(lái)自:Google 另一方面,扎克伯格也看見(jiàn)了這項(xiàng)革命性技術(shù)在未來(lái)的巨大可能,也正是這次體驗(yàn),讓他下定決心,以 20 億美元收購(gòu)了 Oculus,扎克伯格曾在公告中解釋過(guò)收購(gòu)原因: 移動(dòng)是當(dāng)前的平臺(tái),收購(gòu) Oculus 是為明天的平臺(tái)做準(zhǔn)備。 之后,扎克伯格就帶著 Facebook 開(kāi)始了對(duì)于 AR/VR/MR 技術(shù)以及設(shè)備的探索。有了目標(biāo)和硬件技術(shù)的積累,于是在 2020 年,Meta 正式開(kāi)啟 Aria 項(xiàng)目,其宗旨是「從人的視角加速 AR 和 AI」。 圖片來(lái)自:Google 這么看有點(diǎn)玄乎,稍微通俗的解釋就是,把眼鏡作為橋梁,讓設(shè)備從人的視角來(lái)觀察世界、了解世界,并學(xué)習(xí)人和環(huán)境的互動(dòng)關(guān)系,以此來(lái)推動(dòng)軟硬件技術(shù)的發(fā)展,最終讓機(jī)器能夠從人出發(fā),并服務(wù)于人。 Project Aria 中的眼鏡,可以通過(guò)突破性技術(shù)幫助研究人員,從用戶的角度收集信息,特別是 Aria Gen 2 上新增的傳感器,能夠捕捉佩戴者周身環(huán)境的音視頻,以及他們的眼動(dòng)和位置信息。 從佩戴者的第一視角出發(fā),能讓研究人員更容易弄清楚,AR 到底如何才能在現(xiàn)實(shí)世界和日常生活中,發(fā)揮真實(shí)作用,而不只是停留在花里胡哨卻不實(shí)用的功能上。 而且,從人的視角出發(fā)來(lái)收集現(xiàn)實(shí)世界中的信息,對(duì)于多模態(tài) AI 來(lái)說(shuō)非常重要,這樣的訓(xùn)練方式能模擬人類多模態(tài)認(rèn)知方式。 我們本身就是通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種感官協(xié)同感知世界,而多模態(tài) AI 通過(guò)整合文本、圖像、音頻、視頻等數(shù)據(jù),能夠更貼近人類自然認(rèn)知模式。況且跨模態(tài)信息整合能力是單模態(tài) AI 無(wú)法實(shí)現(xiàn)的。 多模態(tài)的收集和訓(xùn)練,也能提升 AI 對(duì)復(fù)雜場(chǎng)景的決策精度,如果不通過(guò)多維度的信息來(lái)理解世界,那必然會(huì)存在「買家秀」和「賣家秀」的分歧,數(shù)字世界只有 0 和 1,但現(xiàn)實(shí)世界除了黑白,還有那難以理解的灰色地帶。 圖片來(lái)自:Google 交互本身其實(shí)也是多模態(tài)的,和朋友談話時(shí)除了語(yǔ)言,表情、手勢(shì)、語(yǔ)氣甚至著裝,都會(huì)影響我們的理解。因此多模態(tài) AI 通過(guò)同時(shí)處理文本、圖像和音頻,可實(shí)現(xiàn)更自然的交互體驗(yàn)。 Meta 也給出了他們?cè)?Project Aria 中的一些研究細(xì)節(jié),在 Project Aria 項(xiàng)目中,讓智能眼鏡讀懂世界的方式非常簡(jiǎn)單粗暴:數(shù)據(jù)化。這項(xiàng)被稱為 SceneScript 的技術(shù),是一種使用自回歸結(jié)構(gòu)化語(yǔ)言模型和端到端學(xué)習(xí),來(lái)表示和推斷場(chǎng)景幾何的方法。 圖片來(lái)自:Meta 簡(jiǎn)單講,所有第一人稱視角看到的場(chǎng)景、物體,都可以被眼鏡變成具體的數(shù)字和名稱,桌子有多長(zhǎng)、墻上透明且規(guī)則窟窿叫「窗戶」。 為了讓眼鏡內(nèi)置的模型不只是看見(jiàn)世界,還要更好地理解世界,Meta 用自研的三維成像技術(shù) EMF3D,把現(xiàn)實(shí)世界所有的物體用不同顏色的線段「明碼標(biāo)價(jià)」,把材質(zhì)、形狀和大小不一的東西統(tǒng)一了度量衡。 圖片來(lái)自:Meta 當(dāng)眼鏡能讀懂并且記錄環(huán)境時(shí),再現(xiàn)一個(gè)虛擬的世界,就有了更大的可能。項(xiàng)目中的環(huán)境合成技術(shù)正是通過(guò)大量的數(shù)據(jù)收集整理,復(fù)刻了一個(gè)大規(guī)模、完全模擬的程序生成的室內(nèi)場(chǎng)景數(shù)據(jù)集,也為「數(shù)字孿生」設(shè)立了新標(biāo)準(zhǔn),加速了 3D 物體檢測(cè)、場(chǎng)景重建和模擬到現(xiàn)實(shí)學(xué)習(xí)等挑戰(zhàn)的研究。 圖片來(lái)自:Meta 這種「養(yǎng)成系」的學(xué)習(xí)方法有好有壞,好在一旦學(xué)成就非常扎實(shí),難在想要扎實(shí)就得通過(guò)海量、巨量的數(shù)據(jù),所以需要非常多的志愿者參與到 Project Aria 中,在平時(shí)長(zhǎng)期佩戴 Meta 的眼鏡。 比起找到人,如何讓人放心地使用才是最關(guān)鍵的,因?yàn)閿?shù)據(jù)收集和隱私保護(hù),是一對(duì)難以調(diào)和的冤家。Meta 給出的方案是「自我模糊」新型 AI 模型,通過(guò)檢測(cè)和模糊圖像中的 PII 來(lái)保護(hù)隱私,把面部、車牌等敏感信息直接打碼。 圖片來(lái)自:Meta 海量的學(xué)習(xí)也能讓模型更好地了解使用者的意圖,比如通過(guò)對(duì)使用者每日生活場(chǎng)景的掃描與總結(jié),可以判斷本人在什么時(shí)間點(diǎn)更可能干什么事?是去樓下鍛煉,還是去客廳打游戲,又或者去廚房做飯。能預(yù)判人的行為活動(dòng),也就能提前提供更多的便捷功能。 這和我們手機(jī)上的智能助手,在特定時(shí)間彈窗提醒回家路況,以及明日天氣的功能,有相似之處。 圖片來(lái)自:Meta 自 Project Aria 立項(xiàng)的五年間,他們已經(jīng)做出了一些成果,例如使用第一代 Aria 眼鏡收集的 Ego-Exo4D 數(shù)據(jù)集,已成為現(xiàn)代計(jì)算機(jī)視覺(jué)和不斷發(fā)展的機(jī)器人領(lǐng)域的基礎(chǔ)工具。 有些企業(yè)也已經(jīng)開(kāi)始研究,Aria 在他們的工作流程中,到底應(yīng)該怎么用?比如寶馬,正在搞清楚如何將增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)系統(tǒng)集成到智能汽車中。 圖片來(lái)自:Meta 佐治亞理工學(xué)院的研究人員,最近也展示了當(dāng) Aria 來(lái)到你家以后,會(huì)怎樣幫你分?jǐn)偧覄?wù)活的壓力。 圖片來(lái)自:Meta 很早之前,我們?cè)谑謾C(jī)智慧助手的體驗(yàn)文章中有個(gè)論斷:人工智能和各種電子設(shè)備的結(jié)合,從當(dāng)下來(lái)看,最大的意義應(yīng)該是幫助老年人和殘障人士,更好地融入新時(shí)代和新生活。Aria 也在無(wú)障礙技術(shù)的開(kāi)發(fā)上,取得了一定的進(jìn)展: 卡內(nèi)基梅隆大學(xué)在一個(gè)項(xiàng)目中,使用了第一代 Aria 眼鏡,該項(xiàng)目旨在開(kāi)發(fā)幫助盲人和視力低下人士進(jìn)行室內(nèi)導(dǎo)航的技術(shù)。 圖片來(lái)自:Meta 二代 Aria 的 AI 語(yǔ)音功能還被 Envision 公司整合到了自家的 Ally AI 和空間音頻上,來(lái)增強(qiáng)室內(nèi)導(dǎo)航和無(wú)障礙體驗(yàn)。 圖片來(lái)自:Envision 如果要用一句話來(lái)形容 Project Aria、Meta 和旗下產(chǎn)品的關(guān)系,我覺(jué)得很像樹(shù)根、樹(shù)干和樹(shù)枝。Project Aria 在最下面,平時(shí)看不見(jiàn)摸不著,但常年累月積累的技術(shù)成果,最終都會(huì)以各種各樣的方式,賦能在公司和各類產(chǎn)品上。 去年 9 月底,扎克伯格在發(fā)布會(huì)上,從保險(xiǎn)箱里拿出了一個(gè)看上去平平無(wú)奇,實(shí)則是十年絕密項(xiàng)目的智能眼鏡 Meta Orion。從發(fā)布會(huì)的演示畫(huà)面來(lái)看,它能做到和 Vision Pro 高度相似的交互功能,更重要的是 Orion 是一副真全息 AR 眼鏡。 它外觀上比普通眼鏡厚了點(diǎn),不過(guò)戴上之后既能透過(guò)鏡片看到真實(shí)的世界,也能看到投影圖像。 雖然清晰度比不上傳統(tǒng)的電視和投影,但看圖片與文字綽綽有余。神奇的是,我們沒(méi)發(fā)現(xiàn)眼睛上有大塊棱鏡,如此貼近真實(shí)、憑空出現(xiàn)的現(xiàn)實(shí)效果,其實(shí)是通過(guò)鏡片周圍的 LED 投影儀,將圖像投影到碳化硅鏡片上。 鏡框周圍的 7 個(gè)攝像頭和傳感器,讓 Meta Orion 真正實(shí)現(xiàn)了將虛擬投入現(xiàn)實(shí),并將其融入現(xiàn)實(shí)的能力。它能將全息圖像精準(zhǔn)懸停在半空中,也能識(shí)別眼前的物品,例如通過(guò)桌面上的食材,它就能給你定制一份食譜。 圖片來(lái)自:Meta 說(shuō) Orion 在交互體驗(yàn)上,有齊平 Vision Pro 之勢(shì)并不是夸大其詞,因?yàn)樗娴闹С质植亢脱蹌?dòng)追蹤,雙手就是手柄,配套的神經(jīng)腕帶還能把手變成鼠標(biāo),通過(guò)檢測(cè)肌肉電流的變化識(shí)別身體的神經(jīng)信號(hào),并由此區(qū)分手指的不同動(dòng)作: 拇指、食指捏合進(jìn)行選擇 拇指和中指聯(lián)合呼出菜單 握拳滑動(dòng)拇指滾動(dòng)畫(huà)面 當(dāng)時(shí)在發(fā)布會(huì)現(xiàn)場(chǎng),我們還看到了 Meta Orion 的實(shí)際拆解展示,高度復(fù)雜和極其精密的內(nèi)部構(gòu)造,最后組合在一起的機(jī)身,只有 98g。 不難發(fā)現(xiàn),Meta Aria Gen 2 和 Meta Orion 的關(guān)系,就像鏡子里的彼此。只是扎克伯格在當(dāng)時(shí)的采訪中說(shuō),由于造價(jià)太過(guò)高昂(每臺(tái)成本約 1 萬(wàn)美元,約合人民幣 7 萬(wàn)元),公司不得不叫停了量產(chǎn)計(jì)劃,只生產(chǎn)了1000 部提供給內(nèi)部研發(fā)。 不過(guò) Meta 也計(jì)劃著,將 Aria 的技術(shù)逐步整合到 2026 年后,包括 Orion 在內(nèi)的消費(fèi)級(jí) AR 眼鏡中。目標(biāo)是通過(guò)神經(jīng)接口交互,和全息顯示實(shí)現(xiàn) AR 眼鏡的蛻變,以此迎來(lái)智能眼鏡的「iPhone 時(shí)刻」。 本文來(lái)源:愛(ài)范兒 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選