首頁(yè) > 科技要聞 > 人物> 正文

Hinton揭秘Ilya成長(zhǎng)歷程:Scaling Law是他學(xué)生時(shí)代就有的直覺(jué)

量子位 整合編輯:太平洋科技 發(fā)布于:2024-05-30 15:43

2003年夏天的一個(gè)周日,AI教父Hinton在多倫多大學(xué)的辦公室里敲代碼,突然響起略顯莽撞的敲門(mén)聲。

門(mén)外站著一位年輕的學(xué)生,說(shuō)自己整個(gè)夏天都在打工炸薯?xiàng)l,但更希望能加入Hinton的實(shí)驗(yàn)室工作。

Hinton問(wèn),你咋不預(yù)約呢?預(yù)約了我們才能好好談?wù)劇?/span>

學(xué)生反問(wèn),要不就現(xiàn)在吧?

這位年輕學(xué)生就是Ilya Sutskever,剛剛完成本科二年級(jí)的數(shù)學(xué)課程,從教務(wù)處打聽(tīng)到“想學(xué)機(jī)器學(xué)習(xí),最好去找Hinton教授”。

他照做了,也因此成就了一段傳奇:

從AlexNet到AlphaGo,他兩次參與改變世界的研究。

OpenAI創(chuàng)立之初挖他去當(dāng)首席科學(xué)家,在他的領(lǐng)導(dǎo)下,推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex,直到ChatGPT,再次改變世界。

多年后,他發(fā)動(dòng)董事會(huì)內(nèi)訌,最終與OpenAI徹底分道揚(yáng)鑣,全世界都在等待著他的下一個(gè)動(dòng)作。

在OpenAI的時(shí)候,Ilya并不像Altman那樣到處拋頭露面,也不像Brockman天天在網(wǎng)上分享自己的“編程之禪”。

僅有的幾次演講和訪談中也多是聊技術(shù)、宏觀思考,不常談及自己的經(jīng)歷,最近半年更是銷(xiāo)聲匿跡。

這次的故事,正是來(lái)自他的博士導(dǎo)師Geoffrey Hinton。

在與Sana Labs創(chuàng)始人的最新對(duì)話節(jié)目中,Hinton不僅講了自己的事,還回憶了師徒共事期間的一些往事。

20多年過(guò)去了,很多細(xì)節(jié)在Hinton的敘述里還是那么鮮活。

這段訪談錄像理所當(dāng)然的火了,除了軼事之外,還涉及Ilya的一些學(xué)術(shù)思想怎么來(lái)的,又是如何發(fā)展:

2010年Ilya就用GPU開(kāi)發(fā)了一種語(yǔ)言模型

Scaling Law最早是他的一種直覺(jué)

兩人都認(rèn)為”語(yǔ)言模型不只是預(yù)測(cè)下一個(gè)token“

兩人都認(rèn)同“預(yù)測(cè)即壓縮壓縮即智能”

那么,Hinton眼中的Ilya,到底是什么樣子?

驚人的原始直覺(jué)

Ilya加入實(shí)驗(yàn)室后,Hinton給他布置的第一個(gè)任務(wù)是讀論文,一篇關(guān)于反向傳播的論文。

下一個(gè)周會(huì),Ilya回來(lái)報(bào)告了,說(shuō)“我不理解”。

Hinton很失望,內(nèi)心OS:“這孩子看著挺機(jī)靈的,咋連鏈?zhǔn)椒▌t求導(dǎo)這么基礎(chǔ)的東西都看不懂?”

Ilya連忙解釋?zhuān)哆@個(gè)部分我懂了,我不理解的是,為什么不給梯度加一個(gè)sensible functional optimizer?

Hinto團(tuán)隊(duì)后來(lái)花了好幾年來(lái)解決這個(gè)問(wèn)題,最初指出問(wèn)題的卻是剛?cè)腴T(mén)一周的Ilya。

像這樣的情況后面還在反復(fù)發(fā)生……Hinton如此評(píng)價(jià)Ilya:

他對(duì)事物的原始直覺(jué)總是非常好。

但Hinton也說(shuō)搞不清楚Ilya這種直覺(jué)從何而來(lái),或許歸功于他從小就對(duì)人工智能問(wèn)題感興趣,再加上數(shù)學(xué)基礎(chǔ)很棒。

除了研究直覺(jué),學(xué)生時(shí)期的Ilya也展現(xiàn)了超強(qiáng)的代碼和工程能力。

當(dāng)時(shí)還沒(méi)有TenserFlow或Torch之類(lèi)流行框架,機(jī)器學(xué)習(xí)的主要工具和平臺(tái)是Matlab。

一項(xiàng)工作需要在Matlab里調(diào)整大量矩陣乘法代碼,Ilya做了一段時(shí)間就很不耐煩,說(shuō)要為Matlab寫(xiě)一個(gè)界面:

我用其他(Python等更方便的)語(yǔ)言寫(xiě)代碼,然后能自動(dòng)轉(zhuǎn)成Matlab代碼就好了。

Hinton聽(tīng)說(shuō)后苦口婆心勸他,你可別,這得花上一個(gè)月時(shí)間,我們不要分心,把手頭項(xiàng)目先做完。

Ilya卻輕描淡寫(xiě)地說(shuō),害,沒(méi)事,今天早上我已經(jīng)寫(xiě)完了。

這項(xiàng)工作出現(xiàn)在Ilya的博士畢業(yè)論文里

打小就堅(jiān)信Scaling Law

正如Hinton所言,Ilya在很多問(wèn)題上有驚人的直覺(jué)。

今天全AI圈不少人信奉的Scaling Law,Ilya學(xué)生時(shí)代就已堅(jiān)信,并抓住各種機(jī)會(huì)向身邊的人安利:

只要(把模型)做得更大,它們就會(huì)發(fā)揮更好的作用。

后來(lái)到OpenAI成立之初,Ilya的表述更加完善了:

如果你有一個(gè)大而深的神經(jīng)網(wǎng)絡(luò),可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,那么你實(shí)際上可以解決任何模式識(shí)別問(wèn)題。

早年間Hinton看來(lái),這就像是研究者在沒(méi)有創(chuàng)新的想法時(shí),一種“逃避責(zé)任”的表現(xiàn)。

當(dāng)時(shí)的我錯(cuò)了,而Ilya基本上是對(duì)的。

比如Transformer確實(shí)是一種創(chuàng)新想法,但實(shí)際上起作用的還是規(guī)模,數(shù)據(jù)的規(guī)模和計(jì)算的規(guī)模。

Hinton提到在當(dāng)年那個(gè)時(shí)間節(jié)點(diǎn),沒(méi)人敢預(yù)料計(jì)算機(jī)速度今后會(huì)快上10億倍,最多想象到快100倍就不得了。

如果有今天的計(jì)算機(jī),當(dāng)年研究的難題可能會(huì)自行解決,包括語(yǔ)言模型問(wèn)題。

(此處應(yīng)插入比爾蓋茨曾預(yù)言64k內(nèi)存就足夠任何人用了笑話)

Ilya在2003年加入Hinton的實(shí)驗(yàn)室,不知具體何時(shí)開(kāi)始有了Scaling Law的想法,可能在他腦海里已經(jīng)盤(pán)旋了20多年。

后來(lái)直到2020年,GPT-3發(fā)布的幾個(gè)月前,OpenAI團(tuán)隊(duì)才正式在論文中向世人完整定義和介紹這一理念。

在語(yǔ)言模型上用GPU,比AlexNet更早

2010年底,Ilya和另一個(gè)學(xué)生James Martens(現(xiàn)DeepMind研究科學(xué)家)合作研究了一種語(yǔ)言模型,后來(lái)入選ICML 2011。

RNN架構(gòu),使用維基百科數(shù)據(jù),在8張當(dāng)時(shí)最先進(jìn)的GPU上訓(xùn)練,比在AlexNet上使用GPU還早兩年。

與今天的大語(yǔ)言模型預(yù)測(cè)下一個(gè)token不一樣,當(dāng)時(shí)他們嘗試的是一次預(yù)測(cè)一個(gè)字符。

這款模型能力有限,比如給一段起始文字,模型可以繼續(xù)生成看起來(lái)像維基百科文章的語(yǔ)句。

雖然語(yǔ)意上像是胡言亂語(yǔ),但語(yǔ)法和標(biāo)點(diǎn)符號(hào)大部分是準(zhǔn)確的,引號(hào)和括號(hào)已經(jīng)能成對(duì)出現(xiàn),主語(yǔ)和動(dòng)詞形態(tài)一致,比如論文中的一段:

生命的意義是古代人類(lèi)繁殖的傳統(tǒng):對(duì)于好男孩什么時(shí)候移除她更大的來(lái)說(shuō),并不是很有利。在這個(gè)節(jié)目的協(xié)議中,幾乎一致地重新浮現(xiàn)……

當(dāng)時(shí)多倫多大學(xué)?牟稍L中,Ilya認(rèn)為這已經(jīng)超出了所有人的預(yù)期:

它發(fā)現(xiàn)了單詞的存在,也發(fā)現(xiàn)了語(yǔ)法。

Hinton理智上也無(wú)法去相信這個(gè)系統(tǒng)能“理解”任何事,但它看起來(lái)就像是理解了。

比如給它一個(gè)地點(diǎn)組成的列表,它可以繼續(xù)生成地點(diǎn),盡管還分不出國(guó)家和州的區(qū)別。

當(dāng)年的Ilya并不愿意討論這項(xiàng)工作的潛在應(yīng)用。

在維基百科上成功后,團(tuán)隊(duì)又嘗試了紐約時(shí)報(bào)文章數(shù)據(jù),目標(biāo)是教會(huì)它根據(jù)文字識(shí)別不同作者的身份。

但I(xiàn)lya已經(jīng)想到并承認(rèn),如果做的足夠好,這項(xiàng)技術(shù)有一天可能成為洗稿軟件的基礎(chǔ)。

如今,這篇論文的代碼依然存放在多倫多大學(xué)的服務(wù)器上,供感興趣的人研究。

不止是預(yù)測(cè)下一個(gè)token

后來(lái)的AlexNet、師徒三人“拍賣(mài)”自己加入谷歌等大家已熟知的故事,這里先略過(guò)。

Ilya加入OpenAI后,雖然不再與Hinton共事,但兩人的學(xué)術(shù)思想始終在一條路上。

ChatGPT問(wèn)世后,不少人批評(píng)大模型本質(zhì)上只是統(tǒng)計(jì)學(xué),預(yù)測(cè)下一個(gè)token,就像隨機(jī)模仿人類(lèi)說(shuō)話的鸚鵡。

但Hinton和Ilya師徒二人都認(rèn)為,遠(yuǎn)不止如此。

在Hinton眼中,問(wèn)題之后的下一個(gè)token,便是答案的第一個(gè)token。

因此學(xué)會(huì)預(yù)測(cè),就意味著必須學(xué)會(huì)理解問(wèn)題。

這種理解的方式與人類(lèi)相似,同時(shí)與老式基于三元組數(shù)據(jù)的自動(dòng)補(bǔ)全有根本不同。

今天我們現(xiàn)在已經(jīng)看到了,做一個(gè)大語(yǔ)言模型,不刻意訓(xùn)練其推理能力,就產(chǎn)生了推理能力。

這就是大腦如何學(xué)習(xí),你在預(yù)測(cè)視覺(jué)的下一幀、聽(tīng)覺(jué)的下一個(gè)聲音。

Ilya更是不遺余力傳播這套理論,在去年和英偉達(dá)老黃的爐邊對(duì)話中說(shuō)了這個(gè),在OpenAI內(nèi)訌兩周前最后一個(gè)公開(kāi)采訪中也講了這個(gè):

當(dāng)我們訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來(lái)準(zhǔn)確預(yù)測(cè)互聯(lián)網(wǎng)上許多不同文本中的下一個(gè)單詞時(shí),我們所做的就是學(xué)習(xí)一個(gè)世界模型。

從表面上看,可能只是在學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性。

但事實(shí)證明,為了“只是學(xué)習(xí)”文本中的統(tǒng)計(jì)相關(guān)性,為了壓縮它們,神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的是文本生成過(guò)程的某種表示

文本實(shí)際上是對(duì)世界的投影。

在另一場(chǎng)采訪中,他走的更遠(yuǎn):

很好地預(yù)測(cè)下一個(gè)token,意味著了解創(chuàng)造該token的深層現(xiàn)實(shí)。

這不僅是統(tǒng)計(jì)學(xué),而是理解創(chuàng)造了這些統(tǒng)計(jì)數(shù)字的那個(gè)世界。

如果真的很擅長(zhǎng)預(yù)測(cè)下一個(gè)token,就可能根據(jù)普通人如何行動(dòng)的數(shù)據(jù),外推出擁有非凡智慧和洞察力的人如何行動(dòng),盡管這種人可能并不存在。

這就是Ilya認(rèn)為的,為什么“預(yù)測(cè)下一個(gè)token”范式有可能抵達(dá)AGI,甚至有可能超越人類(lèi)直至ASI。

預(yù)測(cè)即壓縮,壓縮即智能

在不同場(chǎng)合提到“預(yù)測(cè)下一個(gè)Token”時(shí),Ilya大概率會(huì)同時(shí)提到“壓縮”,他認(rèn)為預(yù)測(cè)即是壓縮,壓縮就是智能的來(lái)源。

但I(xiàn)lya總是從理論的角度去解釋這個(gè)想法,并不容易讓所有人都能理解。

比如在UC Berkley的一場(chǎng)演講中,他這樣解釋?zhuān)?/span>

- “Kolmogorov壓縮器”,是理論上能生成特定數(shù)據(jù)集的、長(zhǎng)度最短的一段程序,能最小化遺憾值。

- 隨機(jī)梯度下降,可以看成在軟計(jì)算機(jī)(比如大型Transformer)的權(quán)重里,搜索隱含的“Kolmogorov壓縮器”。

- 神經(jīng)網(wǎng)絡(luò)越大,就越能更好的近似“Kolmogorov壓縮器”,遺憾值越低。

Hinton也認(rèn)同這個(gè)說(shuō)法,并且在訪談中舉了非常形象的例子。

大模型做的是尋找共同結(jié)構(gòu),使用共同結(jié)構(gòu)編碼事物,這樣效率更高。

如果你問(wèn)GPT-4堆肥和原子彈相似性在哪,大多數(shù)人類(lèi)都回答不出來(lái),認(rèn)為它們是非常不同的兩種東西。

GPT-4會(huì)告訴你,雖然他們的能量規(guī)模不同,時(shí)間尺度不同,但仍有相同之處:

當(dāng)堆肥變熱時(shí),產(chǎn)生熱量的速度就更快。

當(dāng)原子彈產(chǎn)生更多中子時(shí),產(chǎn)生中子的速度也更快。

通過(guò)類(lèi)比,AI就理解了“鏈?zhǔn)椒磻?yīng)”的概念。

Hinton認(rèn)為,AI在利用這種理解去將所有信息壓縮到自己的權(quán)重中。

一但AI這樣做了,那么它就有能力理解數(shù)百種人類(lèi)還未見(jiàn)過(guò)的類(lèi)比,這就是創(chuàng)造力的來(lái)源。

Hinton眼中什么是好學(xué)生?

說(shuō)回到兩人相遇時(shí),Hinton談到,與他交談沒(méi)多久就能看出他很聰明。

再多交談一會(huì),就能發(fā)現(xiàn)他有很好的直覺(jué),而且擅長(zhǎng)數(shù)學(xué)。

所以選Ilya做學(xué)生是非常容易做出的決定。

那么如何挑選其他學(xué)生?Hinton也用了Ilya最擅長(zhǎng)的方法:跟著直覺(jué)走。

如果一個(gè)人輕信別人告訴他的一切,那就太致命了。

不輕信他人,而是嘗試將新信息融入自己對(duì)世界的理解框架中,如果融入不進(jìn)去,就拒絕,這是很好的策略。

如果試圖吸收被告知的一切,最終會(huì)得到一個(gè)非常模糊的框架。相信一切,但是沒(méi)有用處。

所以Hinton眼中的好學(xué)生,應(yīng)該擁有一個(gè)堅(jiān)定的世界觀,并試圖擺弄輸入的事實(shí)以適應(yīng)你的觀點(diǎn)。

這樣雖然也可能陷入深信宗教或堅(jiān)持致命錯(cuò)誤,但我認(rèn)為這種方法仍是正確的。

后來(lái)我們也能看到,兩人都是秉持這樣的理念,堅(jiān)持著“大模型不止是預(yù)測(cè)下一個(gè)token”,堅(jiān)持著“預(yù)測(cè)即壓縮,壓縮即智能”。

他們也都堅(jiān)持認(rèn)為,這個(gè)世界應(yīng)該更加重視AI帶來(lái)的風(fēng)險(xiǎn),一個(gè)因此離開(kāi)了工作10年的谷歌,一個(gè)因此離開(kāi)了一手拉扯大的OpenAI。

本文來(lái)源:量子位

量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部