2024年3月18日,馬斯克兌現(xiàn)前幾天的諾言,正式對Grok大模型進(jìn)行開源。根據(jù)開源信息顯示:Grok模型的Transformer達(dá)到64層,大小為314B;用戶可以將Grok用于商業(yè)用途(免費),并且進(jìn)行修改和分發(fā),并沒有附加條款。 首先速覽一下 Grok 的參數(shù)細(xì)節(jié): ① 模型概況:擁有3140億個參數(shù),成為目前參數(shù)量最大的開源模型;Grok-1 是一個基于 Transformer 的自回歸模型。xAI 利用來自人類和早期 Grok-0 模型的大量反饋對模型進(jìn)行了微調(diào)。初始的 Grok-1 能夠處理 8192 個 token 的上下文長度,已經(jīng)于 2023 年 11 月發(fā)布。 ② 特點:模型采用了混合專家架構(gòu),共有8個專家模型,其中每個數(shù)據(jù)單元(Token)由2位專家處理。這使得每次對Token的處理會涉及860億激活參數(shù),比目前開源的最大模型Llama-2 70B的總參數(shù)量還多。模型包含64個處理層,模型使用了48個用于處理查詢的注意力機(jī)制單元和8個用于處理鍵/值對的注意力機(jī)制單元。模型支持8bit精度量化。 ③ 缺陷:Grok-1 語言模型不具備獨立搜索網(wǎng)絡(luò)的能力。在 Grok 中部署搜索工具和數(shù)據(jù)庫可以增強(qiáng)模型的能力和真實性。盡管可以訪問外部信息源,但模型仍會產(chǎn)生幻覺。 ④ 訓(xùn)練數(shù)據(jù):Grok-1 發(fā)布版本所使用的訓(xùn)練數(shù)據(jù)來自截至 2023 年第三季度的互聯(lián)網(wǎng)數(shù)據(jù)和 xAI 的 AI 訓(xùn)練師提供的數(shù)據(jù)。 再看一下各項基準(zhǔn)測試的評分對比: 從評分上來看,沒有什么驚艷之處,比不過GPT4,也比不過Palm-2及Claude3。但是xAI 表示,他們沒有為應(yīng)對這個考試而特別準(zhǔn)備或調(diào)整模型。也許我們可以小小期待一下,Grok1.5 是不是會帶來某些驚喜。這次公布的開源版本,馬斯克絕對會著重諷刺一下隔壁的“Closed AI”。
但是,Grok 開源,僅僅是為了諷刺 OpenAI 嗎?如果堅持閉源,Grok 是不是會把自己陷入某些比較艱難的境地?大模型開源 VS 閉源,在產(chǎn)業(yè)生態(tài)上,分別占據(jù)什么樣的位置? Grok開源的難言之隱 馬斯克宣布xAI開源,雖然引發(fā)了新一輪的創(chuàng)新競爭和爭議,但從整個市場格局來看,Grok的開源也是不得已而為之的決定。 Grok是馬斯克創(chuàng)立的AI公司X.ai推出的大模型,相比于其他大模型,Grok的與眾不同之處在于使用了X平臺(原名Twitter)上的語料進(jìn)行訓(xùn)練,據(jù)稱Grok還自帶幽默感和懟人的風(fēng)格。 雖然得到了X平臺數(shù)據(jù)資源的加持,但是在大模型大爆發(fā)的當(dāng)下,Grok并沒有進(jìn)入第一梯隊。 尤其是2024年以來,Gemini、Claude3接連發(fā)布,其能力已經(jīng)接近甚至超越GPT-4,三者處于第一梯隊的行業(yè)格局基本確定。這還不算上Mistral AI和Inflection AI的奮起直追。因此,未來的基座大模型“虹吸效應(yīng)”越發(fā)明顯,留給其他玩家的機(jī)會并不多。Grok借助埃隆·馬斯克的影響力雖然得到了一定的關(guān)注度,但是在產(chǎn)業(yè)和用戶的知名度并不高,在大模型的“軍備競賽”中并沒有太多競爭優(yōu)勢。 拋開馬斯克本身與OpenAI的恩怨情仇,Grok繼續(xù)叫板的意義并不大。如果Grok繼續(xù)走閉源開發(fā)的路徑,基本上將成為人工智能時代的“諾基亞塞班系統(tǒng)”,被拋棄只是時間問題。屆時Grok既不能幫助馬斯克對X平臺實現(xiàn)商業(yè)化變現(xiàn),又成為昂貴的沉默成本。因此,與其作為一個二流甚至三流的閉源大模型,倒不如破釜沉舟,通過開源為Grok殺出一條血路,在風(fēng)口上為Grok謀下新的發(fā)展路徑。 國內(nèi)大模型月之暗面CEO楊植麟也曾表達(dá)過,“如果我今天有一個領(lǐng)先的模型,開源出來,大概率不合理。反而是落后者可能會這么做,或者開源小模型,攪局嘛,反正不開源也沒價值。” 開源是推動產(chǎn)業(yè) “螺旋式成長”的必要一環(huán) 技術(shù)的發(fā)展有閉源,就必然有開源。閉源和開源兩者的性能會競相追趕,交替上升,這也是技術(shù)發(fā)展的動力之一。移動互聯(lián)網(wǎng)時代iOS的和Android就是閉源和開源的典型代表,因此不存在閉源一直碾壓開源的現(xiàn)象,而是雙方在不斷借鑒和切磋的過程中,讓更多用戶在移動互聯(lián)網(wǎng)時代獲得更多收益,成果惠及社會。同樣道理,在大模型時代,如果說ChatGPT點燃大家對大模型的熱情,那么開源大模型的出現(xiàn)則是進(jìn)一步降低了創(chuàng)業(yè)者的門檻,讓更多創(chuàng)業(yè)者在基礎(chǔ)模型方面處于同一起跑線上。甚至可以說,正是因為有了開源大模型才極大降低了大模型的開發(fā)成本。 畢竟僅靠OpenAI一家公司是難以將大模型向全球生態(tài)的形態(tài)進(jìn)行發(fā)展,大家也不愿意看到一家獨大的局面。例如2024年年初火爆的文生視頻模型Sora引發(fā)全球轟動,業(yè)內(nèi)也不短加快開源版本的研發(fā),國內(nèi)研究機(jī)構(gòu)甚至推出了Open-Sora框架,并將復(fù)現(xiàn)成本降低46%,模型訓(xùn)練輸入序列長度擴(kuò)充至819K patches,讓更多機(jī)構(gòu)可以在文生視頻利于獲得可用的工具和方法。同時,在企業(yè)應(yīng)用大模型時,不僅關(guān)注模型的前沿能力,還需考慮數(shù)據(jù)安全隱私、成本控制等多方面因素。因此,面向企業(yè)的開源模型在許多情況下更能滿足企業(yè)個性化需求,而像OpenAI這樣的閉源模型公司可能無法完全滿足這些需求。未來的大模型市場,將呈現(xiàn)出開源模型滿足基本智能需求,閉源模型滿足高階需求的互補(bǔ)態(tài)勢。 開源基礎(chǔ)上的創(chuàng)新,才是“真功夫” 對于大模型而言,開源的底座只是起點,需要在這個起點上進(jìn)一步創(chuàng)新。尤其是當(dāng)前開源大模型更新的速度不斷加快,今天可能還是業(yè)內(nèi)最好的模型,但是明天就有可能被超越,變成沉默成本。當(dāng)模型迭代速度不斷加快的今天,過去的投入很有可能就會打水漂。因此在開源底座的基礎(chǔ)上,做為我所用的東西更有價值。比如目前海外的開源模型發(fā)展較快,但是其模型中文能力一般,也沒有豐富的行業(yè)場景,缺乏國內(nèi)如此豐富的數(shù)據(jù)預(yù)訓(xùn)練資源,這反倒是創(chuàng)業(yè)的機(jī)會和寶貴的窗口期。同時,開源模型讓更多高校、科研機(jī)構(gòu)、中小企業(yè)不斷深入使用,并對開源模型進(jìn)行不斷完善改進(jìn),最終這些成果也將惠及參與開源模型的所有人。以Meta公司開源的LLaMa 2為例,截止2023年底,Hugging Face上開源的大模型排行榜前十名中,有8個是基于LLaMa 2 打造的,使用LLaMa 2的開源大模型已經(jīng)超過1500個。 同時,Meta、英特爾、Stability AI、Hugging Face、耶魯大學(xué)、康奈爾大學(xué)等57家科技公司、學(xué)術(shù)機(jī)構(gòu)還在2023年下半年成立了AI聯(lián)盟,旨在通過構(gòu)建開源大模型生態(tài),來推動開源工作的發(fā)展。目前AI聯(lián)盟構(gòu)建起從研究、評估、硬件、安全、公眾參與等一整套流程。當(dāng)然,依托開源做研發(fā)并不容易,用好開源模型也是一種壁壘和門檻。這是因為基于開源模型做開發(fā),其后續(xù)的投入門檻并不低,對研發(fā)要求依舊很高。用開源模型做底座只是有效降低了冷啟動的成本,具體來看:優(yōu)秀的開源模型可能已經(jīng)學(xué)習(xí)超過萬億token的數(shù)據(jù),因此幫助創(chuàng)業(yè)者節(jié)省了部分成本,創(chuàng)業(yè)者可以在這個基礎(chǔ)上進(jìn)一步進(jìn)行訓(xùn)練,最終將模型做到行業(yè)領(lǐng)先水平,這個過程中數(shù)據(jù)清洗、預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)等步驟都不能少。 “開源+”戰(zhàn)略或?qū)⒊蔀?nbsp;Grok突圍的新思路 1.開源+端側(cè)實現(xiàn)“軟硬一體化”當(dāng)前,主流大模型動輒萬億級的參數(shù),需要海量的算力資源予以支持,但并非所有終端都能夠支持這樣的成本投入,而在智能手機(jī)、物聯(lián)網(wǎng)等端側(cè)需要小巧、靈活的輕量級模型,甚至可以在終端處于離線狀態(tài)也能夠使用。因此,真正做到讓AI可以“觸手可及”,端側(cè)模型落地具體需求場景更為迫切:埃隆·馬斯克在特斯拉汽車、星鏈衛(wèi)星終端、甚至擎天柱機(jī)器人正在構(gòu)建AI落地“最硬核”場景:特斯拉的Autopilot使用了AI算法來實現(xiàn)自動駕駛功能,將是未來智慧交通的一種重要嘗試;SpaceX最近發(fā)射的星艦實現(xiàn)了2秒內(nèi)處理所有33個發(fā)動機(jī)的數(shù)據(jù),并且確?梢园踩铀佟N磥砘贕rok來構(gòu)建軟硬一體化的模型-應(yīng)用生態(tài)體系,有望解決當(dāng)前“基礎(chǔ)模型和需求場景,誰來把兩者銜接起來”的現(xiàn)實問題。更為關(guān)鍵的一點在于,大部分目前致力于大模型開發(fā)的公司最終將變?yōu)槟P?應(yīng)用一體化的企業(yè),而且應(yīng)用層的市場價值更大。 一旦通過了TMF(Technology Market Fit)、PMF(Product Market Fit)階段,其價值將在生產(chǎn)力效率提升、泛娛樂、信息流轉(zhuǎn)創(chuàng)新方面產(chǎn)生更大效益,而馬斯克在其他產(chǎn)業(yè)的布局可以更好的與之發(fā)生“共振”:一方面通過Grok開源,吸引更多用戶和企業(yè)的調(diào)用和接入,提升通用的智能化能力,另一方面圍繞自身生態(tài)和產(chǎn)業(yè)場景、數(shù)據(jù)方面的優(yōu)勢(汽車+衛(wèi)星+機(jī)器人)構(gòu)建更多可落地的創(chuàng)新。生成式人工智能正在從超級模型向超級應(yīng)用轉(zhuǎn)型的新起點,與其和學(xué)霸“卷”基座大模型,不如在應(yīng)用側(cè)讓Grok率先卡位。同時,對于一直尚未進(jìn)入大眾視野的“大模型安全和透明度”問題,Grok的開源有望為大眾理解大模型復(fù)雜性和安全挑戰(zhàn),提供新的視角。畢竟以目前的發(fā)展速度,大模型已經(jīng)不是技術(shù)研發(fā)問題,而是一個全社會需要廣泛參與和討論的社會話題。 2.開源+閉源構(gòu)建“一體兩翼”是的,開源和閉源并非死對頭,老死不相往來。事實上,在大模型領(lǐng)域大量科技企業(yè)已經(jīng)在探索開源+閉源的雙重策略。例如谷歌在發(fā)布大模型Gemini的時候,能力較為強(qiáng)大的Gemini Ultra是采用閉源策略,主要競爭對手是GPT-4、Claude3.0等,而Gemma2B和7B則采用了開源戰(zhàn)略,能力稍遜一籌,但是在特定場景將有著更廣泛的應(yīng)用領(lǐng)域。Grok可以借鑒開源與閉源混搭的思路,以“半開源”的方式一方面釋放能力給更多用戶和企業(yè),另一方面借助X平臺的海量優(yōu)質(zhì)實時數(shù)據(jù)構(gòu)建自身壁壘。從而在大模型的競爭中獲得一席之地。當(dāng)然并不是說開源大模型可以解決一切問題。事實上,開源大模型和閉源大模型還是有一定的差距:閉源大模型整體能力上還是高于開源模型。 因為開源的大模型大多還沒有經(jīng)過算力驗證,閉源是人才密度、資金密度、資源密度高度集中的方式,同時開源本身也避免不了中心化的風(fēng)險。對于企業(yè)來講,希望在基座大模型上實現(xiàn)反超的機(jī)會已經(jīng)接近尾聲,但是通過選擇開源模型是更加務(wù)實的選擇,優(yōu)化、訓(xùn)練出實用的模型更是真本事;陂_源,是有機(jī)會作出優(yōu)秀的大模型,核心是能夠擁有相對領(lǐng)先的認(rèn)知,可以對模型能力進(jìn)行持續(xù)迭代。 文章來源:騰訊科技
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選