通往AGI終極之路,是什么? 這世界,沒有一個完整的定義,也沒有具體的答案。 此前曝出的OpenAI秘密路線圖,將通往AGI目標(biāo)劃分五級。 而「草莓」o1模型出世,代表著第二級已經(jīng)實現(xiàn)。 李飛飛估值10億美金獨角獸World Labs,將「空間智能」看作通向AGI重要的橋梁。 他們計劃打造出「大世界模型」(LWM),通過對世界建模,讓AI在3D世界中去感知、去生成、去互動。 國內(nèi)一家AI初創(chuàng)團(tuán)隊,對此也有不同的看法。 他們認(rèn)為,「群體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個設(shè)備都擁有自己的智能,能夠以類人的方式交互。 不過,實現(xiàn)這一想法的前提是,我們需要一個創(chuàng)新的算法架構(gòu)。 值得一提的是,這個團(tuán)隊卻做了一件「反直覺」的事——首創(chuàng)非Transformer獨特路線。 基于全新架構(gòu),他們打造的Yan系列模型已經(jīng)植入到樹莓派、機(jī)器人、AIPC等終端設(shè)備中。 恰在RockAI開放日上,多模態(tài)模型Yan1.3全面升級,直接擊敗開源Llama 3,「真端側(cè)」最強(qiáng)大腦誕生了! 模型端到端,秒級實時人機(jī)交互 全新迭代后的Yan1.3,支持從文本、音頻、視覺輸入,并以語音、文本方式輸出。 它模擬了人類復(fù)雜的感知系統(tǒng),既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達(dá)。 可以說,它是全球首個人機(jī)交互領(lǐng)域中,端到端的多模態(tài)大模型。 憑借出色的架構(gòu)設(shè)計,Yan1.3模型在兼容性和性能,取得了最優(yōu)的表現(xiàn),從低算力到高算力全面覆蓋。 在不同終端上的體驗,多模態(tài)Yan1.3更是實現(xiàn)了秒級實時響應(yīng)。 在CPU上秒級響應(yīng),GPU上更是有百毫秒級的人機(jī)交互,體驗非常絲滑趕超云端的大模型。 不如一起來看看,Yan1.3在手機(jī)、PC、機(jī)器人、無人機(jī)上,如何無損部署的。 低配1500元可跑,真·AI手機(jī)來了在人手一臺手機(jī)的時代,搭載一個本地的大模型,那才是真·AI手機(jī)。 現(xiàn)場演示中,離線部署Yan1.3 3B參數(shù)的手機(jī),直接斷網(wǎng),上演了不用聯(lián)網(wǎng)也能體驗LLM的精彩一幕。 告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令后,瞬間給出了關(guān)于上海的一些簡單概要。 它還可以跨應(yīng)用,完成系統(tǒng)的調(diào)用。 讓它打開相冊,并找出一張夕陽的照片。 RockAI不僅準(zhǔn)確找到了夕陽照片,還給出了小紅書的風(fēng)格描述,這種費腦的事兒,它全部代勞了。 更驚艷的是,告訴它今天是小明生日,并幫自己為其送上祝福。 RockAI直接進(jìn)入短信界面,自動生成編輯了一段內(nèi)容,你所做的就是點擊「發(fā)送」了。 可見,一個30億參數(shù)離線模型,同時具備了以文找圖、以圖生文,Agent、語音助手等能力,強(qiáng)大到足以讓人震撼。 在同等的手機(jī)硬件配置上,Yan1.3模型相比Transfomer有30%的性能超越。 或許有的人會問,能夠運行這樣的模型,一定需要高配的手機(jī)。 RockAI聯(lián)創(chuàng)鄒佳思稱,從低端¥1500到中端¥3000配置,而且還只是8G運行內(nèi)存,都可以無損適配。 懂人話高效助手,AI PC更便利不僅如此,在個人PC上,業(yè)界早就掀起了AI PC的概念。 但若是沒有在設(shè)備端完全部署模型,AI能力的使用會嚴(yán)重受限。而且,AI PC根本無法普及到大多數(shù)用戶。 接下來,這段現(xiàn)場演示中,直接為AI PC掐斷了網(wǎng)線。 上傳一段主持人的天氣預(yù)報音頻,然后AI智能助手將其實時轉(zhuǎn)錄成了文字。 轉(zhuǎn)寫完成后,還能幫你立即總結(jié)出一份摘要。 另外,每個人辦公時均會遇到一個困擾,「xxx圖片」誰知道保存到了哪個文件夾。 現(xiàn)在,這個煩惱完全可以打消了。 只要一句話,AI智能助手就能直接幫你找到想要的那個圖片。 而且,它還可以支持以圖搜圖的方式。 這些功能的實現(xiàn),僅需要一臺配備英特爾Core i5主機(jī)即可流暢運行。 四步成詩,輕松拿捏新中式Yan1.3還在人形機(jī)器人上,實現(xiàn)了離線運行。 我們都知道,構(gòu)成機(jī)器人最核心的三要素,便是大腦、小腦、本體。 如果讓一個冰冷的機(jī)械,同時具備「看聽說想動」的能力,并基于已有的知識完成決策,最后指揮肢體進(jìn)行行動。 這樣的前提,一定是離不開大模型、分層控制算法的植入。 當(dāng)你呼叫小蘇小蘇,你看見了什么? 憑借強(qiáng)大的多模態(tài)認(rèn)知能力,它準(zhǔn)確地描述出了當(dāng)前周圍的環(huán)境和布局。 另外,Yan1.3「大腦」控制的軀體,還能完成各類高效復(fù)雜的任務(wù)。 現(xiàn)場,讓小蘇吟詩一首——關(guān)于冬天的七言絕句,并在4步之內(nèi)完成。 只見小蘇一邊走,一邊完成了絕美的創(chuàng)作。 寒風(fēng)凌冽雪紛飛, 萬物蕭疏鳥自棲。 唯有梅花凌雪放, 清香四溢滿庭芳。 有趣的是,當(dāng)小蘇吟詩后離拍攝者太近,讓它讓一讓。 只見,憨態(tài)可掬的它向另一邊慢慢踱步 其實,在今年世界人工智能大會上,搭載Yan模型,基于樹莓派打造的胖虎機(jī)器人就亮相了。 它在現(xiàn)場七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。 城市巡檢拍照,無人機(jī)全包了而在無人機(jī)方面,搭載Yan1.3后的用法就更多了。 它不僅可以治安巡邏、交通巡檢,異常監(jiān)控,還可以當(dāng)那個為你抓拍美照的「男友」。 當(dāng)然了,智能巡檢這類任務(wù),對于一個城市管理來說非常重要。 植入離線模型的無人機(jī),可以從多方位感知環(huán)境,快速識別圖像信息,自適應(yīng)調(diào)整飛行高度。 它可以搭配手機(jī),完成「端」和「端」的互聯(lián)操作。 交通巡檢過程中,它可以智能識別違規(guī)車輛,并將信息傳送到手機(jī)上。 當(dāng)你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。 它一躍升天,拍下了多種角度的照片,通過對照片的多維度評分,還貼心地幫你選好了最美瞬間。 可見,全新升級的Yan1.3已經(jīng)賦予了每個端側(cè)設(shè)備「靈魂」。 它不僅在無人機(jī)、機(jī)器人、PC、手機(jī)等終端設(shè)備中,絲滑適配,而且模型智能能力迎來了全新升級。 無需閹割模型,讓端側(cè)設(shè)備具備了完整性、可持續(xù)性。 這種類人的輸入輸出過程,不僅大幅地提升人機(jī)交互的質(zhì)量,還為未來教育、醫(yī)療等行業(yè)開辟了更廣闊的應(yīng)用場景。 當(dāng)一個最強(qiáng)端側(cè)完成進(jìn)化,那么一群最強(qiáng)端側(cè)協(xié)作,能夠?qū)崿F(xiàn)什么? 簡言之,群體智能。 群體智能,怎么實現(xiàn)? 其實,群體智能,很早就存在于生物界。 蟻群會一起搬運食物、搭建蟻巢;蜜蜂會各司其職,協(xié)作維護(hù)蜂巢;狼群結(jié)隊,捕獲獵物等等。 這些都是,生物界群體智能的體現(xiàn)。 縱觀生物界的發(fā)展,能夠得出一個基本規(guī)律——個體智能化程度越高,群體智能的表現(xiàn)力越強(qiáng)。 就像人類一樣,我們的群體智能,所表達(dá)出的文明程度遠(yuǎn)遠(yuǎn)高于蟻群、蜂群、狼群....... 從中汲取靈感,人工智能也會有「群體智能」。 單元大模型的智慧,能夠反哺整個大模型群體,進(jìn)而讓AI群體更聰明、更智能。 或許你會說,其實國外很多研究,早就通過多個智能體協(xié)作,實現(xiàn)了高性能群體智能。 其實不然,它們之間有著本質(zhì)的區(qū)別。 智能體本身,存在一個很大缺陷——不具備自主學(xué)習(xí)能力。 而且,智能體之間的協(xié)作,也是一個很小范圍的協(xié)作。 究其根本,是因為基于Transformer架構(gòu)大模型搭建的智能體,實現(xiàn)自我訓(xùn)練非常困難。 群體智能中最核心的要素便是個體,也就是「端」。 而基于Transformer架構(gòu)的模型,若想在端上運行、并自主學(xué)習(xí),根本不可行。 因為模型通常會被量化裁剪壓縮之后,才會植入端設(shè)備。而被閹割之后的模型,就不再具備學(xué)習(xí)能力。 那該如何破解? 為了實現(xiàn)群體智能,RockAI經(jīng)過多年的技術(shù)沉淀,獨創(chuàng)了不同于Transformer的MCSD架構(gòu),并且提出了「類腦激活」機(jī)制。 這條路線,與OpenAI、World Labs有著本質(zhì)區(qū)別,是國產(chǎn)公司在AGI前沿另辟蹊徑的嘗試。 Transformer不是唯一路徑當(dāng)前的現(xiàn)狀是,大模型領(lǐng)域早已呈現(xiàn)出Transformer「一家獨大」的格局。 用AI大神Karpathy的話說:最先進(jìn)的GenAI模型,要么是自回歸訓(xùn)練,要么是擴(kuò)散訓(xùn)練,底層的神經(jīng)網(wǎng)絡(luò)通常都是Transformer架構(gòu)。 雖然Transformer自身有許多優(yōu)秀的特質(zhì),但不可否認(rèn),這仍不是一個百分百完美的架構(gòu)。 甚至,有很多業(yè)界AI大佬已經(jīng)看到了其中的巨大弊端。 首當(dāng)其沖的,就是被詬病已久的幻覺問題。 Yann LeCun認(rèn)為,LLM的幻覺根源于當(dāng)前所使用的自回歸Transformer架構(gòu)。 「幻覺問題是自回歸LLM架構(gòu)特有的」「自回歸LLM會產(chǎn)生幻覺…幻覺是自回歸生成的本質(zhì)缺陷」 這種架構(gòu)上的本質(zhì)缺陷,注定了有一天我們要走出Transformer生態(tài),就像曾經(jīng)90年代末走出SVM生態(tài)、3年前走出BERT生態(tài)一樣。 就連提出Transformer核心架構(gòu)作者之一Aidan Gomez認(rèn)為,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。 「現(xiàn)在使用了太多計算資源,做了很多浪費的計算」 部署方面,基于Transformer架構(gòu)模型對終端設(shè)備運行內(nèi)存、儲存空間提出了更高要求,同時壓縮后的模型,在實際推理上大打折扣。 能源方面,今年3月,馬斯克表示,2025年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運行transformers(模型)! 很明顯,無論是從減少幻覺、推動技術(shù)進(jìn)步的角度,還是從環(huán)境保護(hù)、促進(jìn)GenAI發(fā)展可持續(xù)的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構(gòu)誕生。 國內(nèi)首個非Attention機(jī)制RockAI首次提出的MCSD(Multi-Channel Slope and Decay)架構(gòu)就是跳出Transformer路線的一次絕佳嘗試。 而MCSD最大的特點,便是替換了Transformer架構(gòu)中的注意力機(jī)制。 隨著序列長度的增加,Transformer架構(gòu)對計算資源的消耗呈現(xiàn)O(N^2)增長,相比之下,MCSD實現(xiàn)了線性擴(kuò)展,而且推理速度更快,將空間和時間復(fù)雜度分別降低到了O(1)和O(N)。 直白講,MCSD全新架構(gòu)能夠?qū)⑺懔ο慕抵粮汀?/span> 也就意味著,基于此架構(gòu)打造的模型,在端側(cè)設(shè)備上運行有了新的可能。 MCSD的具體架構(gòu)如圖1所示,由嵌入層和N個相同的組合層堆疊而成,每個組合層中由兩個殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個RMS歸一化模塊,并使用GeLU作為激活函數(shù)。 MCSD塊的內(nèi)部結(jié)構(gòu)如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預(yù)定義矩陣捕捉局部和全局特征。 兩個部分均采用了雙分支設(shè)計,一個分支負(fù)責(zé)進(jìn)行線性投影,另一個通過聚合前面token的上下文信息來提取多通道歷史特征,之后兩個分支進(jìn)行擾動(perturbation)操作。 slope和decay部分主要存在兩方面的區(qū)別,一是預(yù)定義權(quán)重不同,因此在提取歷史信息時對上下文的感知能力不同,前者更注重短程上下文,后者則更關(guān)注全局上下文。 將slope和decay兩部分的輸出進(jìn)行拼接后就得到了MCSD塊的輸出,這兩者的組合使得模型既能關(guān)注到距離更近的歷史信息,也不會丟失更遠(yuǎn)的長距離上下文,從而同時增強(qiáng)了局部和全局的特征提取。 此外,論文還提出通過遞歸形式簡化推理計算,將推理所用的空間和時間復(fù)雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。 實驗數(shù)據(jù)顯示,隨著序列逐步變長,KV緩存的存在讓Transformer推理的內(nèi)存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內(nèi)存也幾乎不變。 給定序列長度后,隨著批大小的增加,Transformer的延遲也會顯著增加,而MCSD的延遲則依舊十分穩(wěn)定。 此外,有相同批大小或序列長度時,MCSD的吞吐量性能也遠(yuǎn)遠(yuǎn)好于Transformer架構(gòu)。 除了大大節(jié)約吞吐量、延遲、內(nèi)存消耗等方面的成本,MCSD還在基準(zhǔn)測試上有更佳的性能。 類腦激活機(jī)制基于MCSD架構(gòu),RockAI實現(xiàn)了能在「端側(cè)」運行群體智能單元大模型。 但這并不代表著,能夠在更多端側(cè)上實現(xiàn)最優(yōu)性能。 因此,RockAI還在Yan系列模型中采用了獨創(chuàng)的「類腦激活」機(jī)制,實現(xiàn)基于仿生神經(jīng)元驅(qū)動的選擇算法。 在主流的神經(jīng)網(wǎng)絡(luò)中,每次推理都需要激活全部神經(jīng)元,這會導(dǎo)致大量算力浪費。 而人腦的運作并非如此。 不同的大腦區(qū)域負(fù)責(zé)不同的認(rèn)知功能,因此不同的執(zhí)行不同的任務(wù)只會造成一部分腦神經(jīng)元的激活,而且激活的區(qū)域也各有不同。 比如開車時,視覺皮層會更加活躍;而寫作時,掌管記憶或邏輯的腦區(qū)激活程度更高。這也許就是為什么,相比調(diào)動每個處理單元的計算機(jī),大腦明顯更加「節(jié)能」。 因此,模擬大腦中的神經(jīng)元激活模式,可以讓神經(jīng)網(wǎng)絡(luò)更加高效地處理復(fù)雜數(shù)據(jù)和任務(wù),從而顯著提升計算效率和精度。 通過以上兩種方式結(jié)合,一是用MCSD替換注意力機(jī)制,而是通過選擇性神經(jīng)元計算,帶了極致低算力消耗。 正是基于如此強(qiáng)大的「雙機(jī)制」,RockAI在今年1月發(fā)布了國內(nèi)首個非Transformer架構(gòu)的大模型Yan 1.0。 隨之7月,發(fā)布了國內(nèi)首個終端多模態(tài)大模型Yan 1.2。 經(jīng)過幾次迭代,目前已經(jīng)升級為端到端的多模態(tài)Yan 1.3,代表著邁向群體智能的新起點,是群體智能的單元大模型。 厚積薄發(fā),終極目標(biāo)邁向群體智能 要實現(xiàn)AI的群體智能,并不是一件簡單的事,提出MCSD架構(gòu)和「類腦激活」機(jī)制,只是一個開始。 為了達(dá)到群體智能,RockAI將這個大目標(biāo)分解為4個階段的子目標(biāo),一步步穩(wěn)扎穩(wěn)打。 目前,他們已經(jīng)跨越了第一級,正在完成第二級的躍升。 創(chuàng)新基礎(chǔ)架構(gòu),是要跳出Transformer的既定路線,旨在實現(xiàn)模型性能效率的跨越式發(fā)展; 多元化硬件生態(tài),則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號的硬件,形成成熟的生態(tài),才能為群體智能創(chuàng)造實現(xiàn)條件。 隨著Yan 1.3模型的發(fā)布和廣泛部署適配,意味著前兩個階段的目標(biāo)已經(jīng)基本實現(xiàn)。 從Yan 1.0到Y(jié)an 1.3,不僅覆蓋了更多設(shè)備,還實現(xiàn)了端到端的多模態(tài)支持。 輸入輸出形式包含了文本、語音、視覺在內(nèi)的多模態(tài),不但大大方便人機(jī)交互,還能讓多個AI模型之間更靈活地交流同步。 下一步,RockAI將繼續(xù)發(fā)布Yan2.0,繼續(xù)強(qiáng)化模型的自主學(xué)習(xí)、自我優(yōu)化能力,讓AI更好地和真實的物理世界交互。 在Yan系列智慧生態(tài)的基礎(chǔ)上,持續(xù)的群體進(jìn)化將成為可能,最終繪制出「群體智能」的未來藍(lán)圖。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選