首頁(yè) > 科技要聞 > 科技> 正文

大模型時(shí)代結(jié)束?大佬齊預(yù)測(cè):AI模型或需先縮小規(guī)模,才能再次擴(kuò)大規(guī)模

新智元 整合編輯:太平洋科技 發(fā)布于:2024-07-23 22:50

「小模型周」過(guò)去了 ,小模型的最新戰(zhàn)場(chǎng)才剛剛開(kāi)辟。

上周GPT-4o mini和Mistral NeMo二連發(fā),「麻雀雖小,五臟俱全」的小模型成為業(yè)界大佬密切關(guān)注的新方向。

這么說(shuō)來(lái),難道大模型要失寵了? Scaling Law要失效了?

前OpenAI和特斯拉AI研究員Andrej Karpathy剛剛?cè)刖諥I教育,「K老師」最近發(fā)表推文指導(dǎo)行業(yè)迷津,揭秘科技巨頭紛紛轉(zhuǎn)向小模型研發(fā)的背后新趨勢(shì):AI大模型的競(jìng)爭(zhēng)即將逆轉(zhuǎn)。

他預(yù)判,未來(lái)的模型將會(huì)更小,但仍然會(huì)變得更智能。

人工智能巨頭公司和一些新晉獨(dú)角獸,最近都發(fā)布了與其他同行相比更緊湊、更強(qiáng)大、更實(shí)惠的人工智能模型,最新的例子是OpenAI的GPT-4o mini。

Karpathy預(yù)測(cè)這一趨勢(shì)將持續(xù)下去。他寫(xiě)道,「我敢打賭,我們會(huì)看到很多能夠有效可靠思考的模型,而且體積非常小!

小模型:站在巨人的肩膀上

在LLM發(fā)展的初期階段,吞吐更多數(shù)據(jù),把模型往大了做是必然的趨勢(shì)。這主要基于以下幾個(gè)原因:

首先,數(shù)據(jù)驅(qū)動(dòng)的需求。

生活在一個(gè)數(shù)據(jù)爆炸的時(shí)代,大量豐富和多樣化的數(shù)據(jù)需要更強(qiáng)大的模型來(lái)處理和理解。

大模型具備容納和處理海量數(shù)據(jù)的能力,通過(guò)大規(guī)模的數(shù)據(jù)訓(xùn)練,能夠挖掘出深層次的模式和規(guī)律。

其次,計(jì)算能力的提升。

硬件技術(shù)的不斷進(jìn)步,GPU等高性能計(jì)算設(shè)備的發(fā)展,為大模型的訓(xùn)練提供了強(qiáng)大的算力支持。使得訓(xùn)練大型、復(fù)雜的模型成為可能。

再者,追求更高的性能和精度。

大模型通常能夠在語(yǔ)言理解、生成、圖像識(shí)別等多個(gè)領(lǐng)域展現(xiàn)出卓越的性能,懂的越多,生成出來(lái)的結(jié)果也就越準(zhǔn)確。

最后,泛化能力更強(qiáng)。

大模型能夠更好地處理未曾見(jiàn)過(guò)的新問(wèn)題和新任務(wù),能夠基于之前學(xué)到的知識(shí)進(jìn)行合理的推測(cè)和回答,具有更強(qiáng)的泛化能力。

再加上AI領(lǐng)域競(jìng)爭(zhēng)激烈,各研究機(jī)構(gòu)和巨頭都致力于開(kāi)發(fā)更大更強(qiáng)的模型,展示技術(shù)實(shí)力和領(lǐng)先地位,卷模型大小自然成了LLM的發(fā)展大方向。

Karpathy也將當(dāng)前最強(qiáng)大模型的規(guī)模歸因于訓(xùn)練數(shù)據(jù)的復(fù)雜性,并補(bǔ)充說(shuō)大語(yǔ)言模型在記憶方面表現(xiàn)出色,超越了人類(lèi)的記憶能力。

類(lèi)比一下,期末周如果你要接受閉卷考試,考試要求根據(jù)前幾個(gè)單詞背誦書(shū)本上的某個(gè)段落。

這就是當(dāng)今大模型的預(yù)訓(xùn)練目標(biāo)。Karpathy表示,現(xiàn)在的大模型就像是一個(gè)貪吃蛇,只想把所有能用的數(shù)據(jù)全部吞進(jìn)肚子里。

它們不僅能背誦常見(jiàn)數(shù)字的SHA系列哈算法,還能記住所有領(lǐng)域大大小小的知識(shí)。

但是,這種學(xué)習(xí)方式就像是你為了考試,把整個(gè)圖書(shū)館和互聯(lián)網(wǎng)上的內(nèi)容通通都背下來(lái)。

不可否認(rèn)能做到這種記憶能力的是天才,但是結(jié)果考試時(shí)只用到了其中的一頁(yè)!

對(duì)于這種天才學(xué)生——LLM想要做得更好之所以困難,是因?yàn)樵谟?xùn)練數(shù)據(jù)的過(guò)程中,思維演示與知識(shí)「糾纏」在一起。

而且,一方面從實(shí)際應(yīng)用的角度來(lái)看,大模型在部署和運(yùn)行時(shí)面臨著高昂的成本和資源消耗,包括計(jì)算資源、存儲(chǔ)資源以及能源消耗等。

小模型更易于在各種設(shè)備和場(chǎng)景中進(jìn)行部署,滿(mǎn)足使用便利性和低功耗的要求。

另一方面,從技術(shù)成熟的角度考慮,當(dāng)通過(guò)大模型充分探索和理解了問(wèn)題的本質(zhì)和規(guī)律后,可以將這些知識(shí)和模式提煉并應(yīng)用于小模型的設(shè)計(jì)和優(yōu)化中。

使得小模型在保持大模型同等性能甚至更優(yōu)性能的前提下,降低規(guī)模和成本。

雖然大模型發(fā)展遇到了瓶頸,小模型逐漸成為新趨勢(shì),但是Karpathy強(qiáng)調(diào),大模型仍然是需要的,即使它們沒(méi)有得到有效的訓(xùn)練,但是小模型正是從大模型中濃縮而來(lái)。

Karpathy預(yù)計(jì),每個(gè)模型都會(huì)不斷改進(jìn),為下一個(gè)模型生成訓(xùn)練數(shù)據(jù),直到出現(xiàn)「完美的訓(xùn)練集」。

即使是像GPT-2這樣,擁有15億個(gè)參數(shù)的已經(jīng)out模型,當(dāng)你用這個(gè)完美的訓(xùn)練集來(lái)訓(xùn)練GPT-2時(shí),它可能會(huì)變成一個(gè)按今天標(biāo)準(zhǔn)來(lái)看非常強(qiáng)大且智能的模型。

這個(gè)用完美的訓(xùn)練集訓(xùn)練過(guò)的GPT-2可能在例如大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)測(cè)試中的分?jǐn)?shù)會(huì)稍低一些,MMLU測(cè)試涵蓋57項(xiàng)任務(wù),包括初等數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等,用以評(píng)測(cè)大模型基本的知識(shí)覆蓋范圍和理解能力。

但未來(lái)更智能的人工智能模型并不走量取勝,它可以更可靠地檢索信息并驗(yàn)證事實(shí)。

正如一個(gè)學(xué)霸做開(kāi)卷考試,雖然不是所有的知識(shí)都爛熟于心,但是能夠精準(zhǔn)地定位到正確答案。

據(jù)報(bào)道,OpenAI的Strawberry項(xiàng)目就著重在解決這個(gè)問(wèn)題。

「虛胖」大模型的「瘦身」

正如Karpathy所說(shuō),經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練出來(lái)的超大模型(如GPT-4),大部分其實(shí)是用來(lái)記住大量的無(wú)關(guān)緊要細(xì)節(jié)的,也就是死記硬背資料。

這與模型預(yù)訓(xùn)練的目的有關(guān),在預(yù)訓(xùn)練階段,模型被要求盡可能準(zhǔn)確的復(fù)述接下來(lái)的內(nèi)容,這相當(dāng)于背課文,背的越準(zhǔn)得分越高。

雖然,模型能學(xué)會(huì)里面反復(fù)出現(xiàn)的知識(shí),但是,數(shù)據(jù)資料有時(shí)也會(huì)出現(xiàn)錯(cuò)誤和偏見(jiàn),模型還要先全部記住再進(jìn)行微調(diào)。

Karpathy相信如果有更高質(zhì)量的訓(xùn)練數(shù)據(jù)集,完全可以訓(xùn)練出一個(gè)規(guī)模更小,能力更強(qiáng),更有推理能力的模型。

可以在超大模型的幫助下,自動(dòng)生成,清洗出質(zhì)量更高的訓(xùn)練數(shù)據(jù)集。

類(lèi)似GPT-4o mini,就是用GPT-4清洗出來(lái)的數(shù)據(jù)訓(xùn)練的。

先把模型做大,然后在此基礎(chǔ)上「瘦身」,這可能是一種模型發(fā)展的新趨勢(shì)。

做個(gè)生動(dòng)的比喻就像當(dāng)前的大模型存在數(shù)據(jù)集過(guò)多虛胖的問(wèn)題,經(jīng)過(guò)數(shù)據(jù)清洗和大量訓(xùn)練,搖身一變一身精瘦肌肉的小模型。

這個(gè)過(guò)程就像是一個(gè)階梯式的進(jìn)化,每一代模型都會(huì)幫助生成下一代的訓(xùn)練數(shù)據(jù),直到我們最終得到一個(gè)「完美的訓(xùn)練集」。

OpenAI首席執(zhí)行官Sam Altman也發(fā)表了類(lèi)似言論,早在2023年4月就宣布大型AI模型的「時(shí)代結(jié)束」。

并且,數(shù)據(jù)質(zhì)量是AI訓(xùn)練的關(guān)鍵成功因素也越來(lái)越成為共識(shí),無(wú)論是真實(shí)數(shù)據(jù)還是合成數(shù)據(jù)。

奧特曼認(rèn)為,關(guān)鍵問(wèn)題是人工智能系統(tǒng)如何從更少的數(shù)據(jù)中學(xué)到更多的東西。

微軟研究人員在開(kāi)發(fā)Phi模型時(shí)也做出了相同的判斷,Hugging Face AI研究人員也同意對(duì)于高質(zhì)量數(shù)據(jù)集的追求,并發(fā)布了高質(zhì)量的訓(xùn)練數(shù)據(jù)集。

這意味著一味擴(kuò)張不再是科技巨頭們唯一的技術(shù)目標(biāo),即使是小型的高質(zhì)量模型也可以受益于更多、更多樣化、更高質(zhì)量的數(shù)據(jù)。

回到更小、更高效的模型可以被視為下一個(gè)整合階段的目標(biāo),OpenAI的模型發(fā)布就清晰地表明未來(lái)的發(fā)展方向。

評(píng)論區(qū):正確的、中肯的、一陣見(jiàn)血的

Karpathy還提到了特斯拉在自動(dòng)駕駛網(wǎng)絡(luò)上的類(lèi)似做法。

特斯拉有一個(gè)叫「離線追蹤器」的東西,通過(guò)運(yùn)行先前的較弱模型,生成更干凈的訓(xùn)練數(shù)據(jù)。

一聽(tīng)到特斯拉技術(shù)被cue走在時(shí)代前列,馬斯克迅速趕往評(píng)論區(qū):

評(píng)論區(qū)的網(wǎng)友對(duì)于Karpathy的遠(yuǎn)見(jiàn)卓識(shí)也紛紛表示,臣附議!

對(duì)于未來(lái)的通用人工智能來(lái)說(shuō),更小、更高效的人工智能模型可能會(huì)重新定義人工智能中的「智能」,挑戰(zhàn)「越大越好」的假設(shè)。

《Python機(jī)器學(xué)習(xí)》作者Sebastian Raschka認(rèn)為,這就像是知識(shí)蒸餾,從27B的大模型蒸餾出Gemma-2這樣的小模型。

他也提醒我們,MMLU這種多選題測(cè)試,可以測(cè)試知識(shí),但不能完全反映實(shí)際能力。

也有網(wǎng)友腦洞大開(kāi),如果小模型表現(xiàn)得好,那么術(shù)業(yè)有專(zhuān)攻,為什么不用更多的小模型來(lái)生成一個(gè)個(gè)回答呢?

召集10個(gè)AI助手,然后讓最聰明的那個(gè)做最后的總結(jié),簡(jiǎn)直是AI版的智囊團(tuán)。

那么,AGI到底是一個(gè)全能大模型,還是來(lái)自許多小模型的協(xié)作呢?

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部