2003年夏天的一個(gè)周日,AI教父Hinton在多倫多大學(xué)的辦公室里敲代碼,突然響起略顯莽撞的敲門(mén)聲。 門(mén)外站著一位年輕的學(xué)生,說(shuō)自己整個(gè)夏天都在打工炸薯?xiàng)l,但更希望能加入Hinton的實(shí)驗(yàn)室工作。 Hinton問(wèn),你咋不預(yù)約呢?預(yù)約了我們才能好好談?wù)劇?/span> 學(xué)生反問(wèn),要不就現(xiàn)在吧? 這位年輕學(xué)生就是Ilya Sutskever,剛剛完成本科二年級(jí)的數(shù)學(xué)課程,從教務(wù)處打聽(tīng)到“想學(xué)機(jī)器學(xué)習(xí),最好去找Hinton教授”。 他照做了,也因此成就了一段傳奇: 從AlexNet到AlphaGo,他兩次參與改變世界的研究。 OpenAI創(chuàng)立之初挖他去當(dāng)首席科學(xué)家,在他的領(lǐng)導(dǎo)下,推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex,直到ChatGPT,再次改變世界。 多年后,他發(fā)動(dòng)董事會(huì)內(nèi)訌,最終與OpenAI徹底分道揚(yáng)鑣,全世界都在等待著他的下一個(gè)動(dòng)作。 在OpenAI的時(shí)候,Ilya并不像Altman那樣到處拋頭露面,也不像Brockman天天在網(wǎng)上分享自己的“編程之禪”。 僅有的幾次演講和訪談中也多是聊技術(shù)、宏觀思考,不常談及自己的經(jīng)歷,最近半年更是銷(xiāo)聲匿跡。 這次的故事,正是來(lái)自他的博士導(dǎo)師Geoffrey Hinton。 在與Sana Labs創(chuàng)始人的最新對(duì)話節(jié)目中,Hinton不僅講了自己的事,還回憶了師徒共事期間的一些往事。 20多年過(guò)去了,很多細(xì)節(jié)在Hinton的敘述里還是那么鮮活。 這段訪談錄像理所當(dāng)然的火了,除了軼事之外,還涉及Ilya的一些學(xué)術(shù)思想怎么來(lái)的,又是如何發(fā)展: 2010年Ilya就用GPU開(kāi)發(fā)了一種語(yǔ)言模型 Scaling Law最早是他的一種直覺(jué) 兩人都認(rèn)為”語(yǔ)言模型不只是預(yù)測(cè)下一個(gè)token“ 兩人都認(rèn)同“預(yù)測(cè)即壓縮壓縮即智能” 那么,Hinton眼中的Ilya,到底是什么樣子? 驚人的原始直覺(jué) Ilya加入實(shí)驗(yàn)室后,Hinton給他布置的第一個(gè)任務(wù)是讀論文,一篇關(guān)于反向傳播的論文。 下一個(gè)周會(huì),Ilya回來(lái)報(bào)告了,說(shuō)“我不理解”。 Hinton很失望,內(nèi)心OS:“這孩子看著挺機(jī)靈的,咋連鏈?zhǔn)椒▌t求導(dǎo)這么基礎(chǔ)的東西都看不懂?” Ilya連忙解釋?zhuān)哆@個(gè)部分我懂了,我不理解的是,為什么不給梯度加一個(gè)sensible functional optimizer? Hinto團(tuán)隊(duì)后來(lái)花了好幾年來(lái)解決這個(gè)問(wèn)題,最初指出問(wèn)題的卻是剛?cè)腴T(mén)一周的Ilya。 像這樣的情況后面還在反復(fù)發(fā)生……Hinton如此評(píng)價(jià)Ilya: 他對(duì)事物的原始直覺(jué)總是非常好。 但Hinton也說(shuō)搞不清楚Ilya這種直覺(jué)從何而來(lái),或許歸功于他從小就對(duì)人工智能問(wèn)題感興趣,再加上數(shù)學(xué)基礎(chǔ)很棒。 除了研究直覺(jué),學(xué)生時(shí)期的Ilya也展現(xiàn)了超強(qiáng)的代碼和工程能力。 當(dāng)時(shí)還沒(méi)有TenserFlow或Torch之類(lèi)流行框架,機(jī)器學(xué)習(xí)的主要工具和平臺(tái)是Matlab。 一項(xiàng)工作需要在Matlab里調(diào)整大量矩陣乘法代碼,Ilya做了一段時(shí)間就很不耐煩,說(shuō)要為Matlab寫(xiě)一個(gè)界面: 我用其他(Python等更方便的)語(yǔ)言寫(xiě)代碼,然后能自動(dòng)轉(zhuǎn)成Matlab代碼就好了。 Hinton聽(tīng)說(shuō)后苦口婆心勸他,你可別,這得花上一個(gè)月時(shí)間,我們不要分心,把手頭項(xiàng)目先做完。 Ilya卻輕描淡寫(xiě)地說(shuō),害,沒(méi)事,今天早上我已經(jīng)寫(xiě)完了。 △這項(xiàng)工作出現(xiàn)在Ilya的博士畢業(yè)論文里 打小就堅(jiān)信Scaling Law 正如Hinton所言,Ilya在很多問(wèn)題上有驚人的直覺(jué)。 今天全AI圈不少人信奉的Scaling Law,Ilya學(xué)生時(shí)代就已堅(jiān)信,并抓住各種機(jī)會(huì)向身邊的人安利: 只要(把模型)做得更大,它們就會(huì)發(fā)揮更好的作用。 后來(lái)到OpenAI成立之初,Ilya的表述更加完善了: 如果你有一個(gè)大而深的神經(jīng)網(wǎng)絡(luò),可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,那么你實(shí)際上可以解決任何模式識(shí)別問(wèn)題。 早年間Hinton看來(lái),這就像是研究者在沒(méi)有創(chuàng)新的想法時(shí),一種“逃避責(zé)任”的表現(xiàn)。 當(dāng)時(shí)的我錯(cuò)了,而Ilya基本上是對(duì)的。 比如Transformer確實(shí)是一種創(chuàng)新想法,但實(shí)際上起作用的還是規(guī)模,數(shù)據(jù)的規(guī)模和計(jì)算的規(guī)模。 Hinton提到在當(dāng)年那個(gè)時(shí)間節(jié)點(diǎn),沒(méi)人敢預(yù)料計(jì)算機(jī)速度今后會(huì)快上10億倍,最多想象到快100倍就不得了。 如果有今天的計(jì)算機(jī),當(dāng)年研究的難題可能會(huì)自行解決,包括語(yǔ)言模型問(wèn)題。 (此處應(yīng)插入比爾蓋茨曾預(yù)言64k內(nèi)存就足夠任何人用了笑話) Ilya在2003年加入Hinton的實(shí)驗(yàn)室,不知具體何時(shí)開(kāi)始有了Scaling Law的想法,可能在他腦海里已經(jīng)盤(pán)旋了20多年。 后來(lái)直到2020年,GPT-3發(fā)布的幾個(gè)月前,OpenAI團(tuán)隊(duì)才正式在論文中向世人完整定義和介紹這一理念。 在語(yǔ)言模型上用GPU,比AlexNet更早 2010年底,Ilya和另一個(gè)學(xué)生James Martens(現(xiàn)DeepMind研究科學(xué)家)合作研究了一種語(yǔ)言模型,后來(lái)入選ICML 2011。 RNN架構(gòu),使用維基百科數(shù)據(jù),在8張當(dāng)時(shí)最先進(jìn)的GPU上訓(xùn)練,比在AlexNet上使用GPU還早兩年。 與今天的大語(yǔ)言模型預(yù)測(cè)下一個(gè)token不一樣,當(dāng)時(shí)他們嘗試的是一次預(yù)測(cè)一個(gè)字符。 這款模型能力有限,比如給一段起始文字,模型可以繼續(xù)生成看起來(lái)像維基百科文章的語(yǔ)句。 雖然語(yǔ)意上像是胡言亂語(yǔ),但語(yǔ)法和標(biāo)點(diǎn)符號(hào)大部分是準(zhǔn)確的,引號(hào)和括號(hào)已經(jīng)能成對(duì)出現(xiàn),主語(yǔ)和動(dòng)詞形態(tài)一致,比如論文中的一段: 生命的意義是古代人類(lèi)繁殖的傳統(tǒng):對(duì)于好男孩什么時(shí)候移除她更大的來(lái)說(shuō),并不是很有利。在這個(gè)節(jié)目的協(xié)議中,幾乎一致地重新浮現(xiàn)…… 當(dāng)時(shí)多倫多大學(xué)?牟稍L中,Ilya認(rèn)為這已經(jīng)超出了所有人的預(yù)期: 它發(fā)現(xiàn)了單詞的存在,也發(fā)現(xiàn)了語(yǔ)法。 Hinton理智上也無(wú)法去相信這個(gè)系統(tǒng)能“理解”任何事,但它看起來(lái)就像是理解了。 比如給它一個(gè)地點(diǎn)組成的列表,它可以繼續(xù)生成地點(diǎn),盡管還分不出國(guó)家和州的區(qū)別。 當(dāng)年的Ilya并不愿意討論這項(xiàng)工作的潛在應(yīng)用。 在維基百科上成功后,團(tuán)隊(duì)又嘗試了紐約時(shí)報(bào)文章數(shù)據(jù),目標(biāo)是教會(huì)它根據(jù)文字識(shí)別不同作者的身份。 但I(xiàn)lya已經(jīng)想到并承認(rèn),如果做的足夠好,這項(xiàng)技術(shù)有一天可能成為洗稿軟件的基礎(chǔ)。 如今,這篇論文的代碼依然存放在多倫多大學(xué)的服務(wù)器上,供感興趣的人研究。 不止是預(yù)測(cè)下一個(gè)token 后來(lái)的AlexNet、師徒三人“拍賣(mài)”自己加入谷歌等大家已熟知的故事,這里先略過(guò)。 Ilya加入OpenAI后,雖然不再與Hinton共事,但兩人的學(xué)術(shù)思想始終在一條路上。 ChatGPT問(wèn)世后,不少人批評(píng)大模型本質(zhì)上只是統(tǒng)計(jì)學(xué),預(yù)測(cè)下一個(gè)token,就像隨機(jī)模仿人類(lèi)說(shuō)話的鸚鵡。 但Hinton和Ilya師徒二人都認(rèn)為,遠(yuǎn)不止如此。 在Hinton眼中,問(wèn)題之后的下一個(gè)token,便是答案的第一個(gè)token。 因此學(xué)會(huì)預(yù)測(cè),就意味著必須學(xué)會(huì)理解問(wèn)題。 這種理解的方式與人類(lèi)相似,同時(shí)與老式基于三元組數(shù)據(jù)的自動(dòng)補(bǔ)全有根本不同。 今天我們現(xiàn)在已經(jīng)看到了,做一個(gè)大語(yǔ)言模型,不刻意訓(xùn)練其推理能力,就產(chǎn)生了推理能力。 這就是大腦如何學(xué)習(xí),你在預(yù)測(cè)視覺(jué)的下一幀、聽(tīng)覺(jué)的下一個(gè)聲音。 Ilya更是不遺余力傳播這套理論,在去年和英偉達(dá)老黃的爐邊對(duì)話中說(shuō)了這個(gè),在OpenAI內(nèi)訌兩周前最后一個(gè)公開(kāi)采訪中也講了這個(gè): 當(dāng)我們訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來(lái)準(zhǔn)確預(yù)測(cè)互聯(lián)網(wǎng)上許多不同文本中的下一個(gè)單詞時(shí),我們所做的就是學(xué)習(xí)一個(gè)世界模型。 從表面上看,可能只是在學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性。 但事實(shí)證明,為了“只是學(xué)習(xí)”文本中的統(tǒng)計(jì)相關(guān)性,為了壓縮它們,神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的是文本生成過(guò)程的某種表示。 文本實(shí)際上是對(duì)世界的投影。 在另一場(chǎng)采訪中,他走的更遠(yuǎn): 很好地預(yù)測(cè)下一個(gè)token,意味著了解創(chuàng)造該token的深層現(xiàn)實(shí)。 這不僅是統(tǒng)計(jì)學(xué),而是理解創(chuàng)造了這些統(tǒng)計(jì)數(shù)字的那個(gè)世界。 如果真的很擅長(zhǎng)預(yù)測(cè)下一個(gè)token,就可能根據(jù)普通人如何行動(dòng)的數(shù)據(jù),外推出擁有非凡智慧和洞察力的人如何行動(dòng),盡管這種人可能并不存在。 這就是Ilya認(rèn)為的,為什么“預(yù)測(cè)下一個(gè)token”范式有可能抵達(dá)AGI,甚至有可能超越人類(lèi)直至ASI。 預(yù)測(cè)即壓縮,壓縮即智能 在不同場(chǎng)合提到“預(yù)測(cè)下一個(gè)Token”時(shí),Ilya大概率會(huì)同時(shí)提到“壓縮”,他認(rèn)為預(yù)測(cè)即是壓縮,壓縮就是智能的來(lái)源。 但I(xiàn)lya總是從理論的角度去解釋這個(gè)想法,并不容易讓所有人都能理解。 比如在UC Berkley的一場(chǎng)演講中,他這樣解釋?zhuān)?/span> - “Kolmogorov壓縮器”,是理論上能生成特定數(shù)據(jù)集的、長(zhǎng)度最短的一段程序,能最小化遺憾值。 - 隨機(jī)梯度下降,可以看成在軟計(jì)算機(jī)(比如大型Transformer)的權(quán)重里,搜索隱含的“Kolmogorov壓縮器”。 - 神經(jīng)網(wǎng)絡(luò)越大,就越能更好的近似“Kolmogorov壓縮器”,遺憾值越低。 Hinton也認(rèn)同這個(gè)說(shuō)法,并且在訪談中舉了非常形象的例子。 大模型做的是尋找共同結(jié)構(gòu),使用共同結(jié)構(gòu)編碼事物,這樣效率更高。 如果你問(wèn)GPT-4堆肥和原子彈相似性在哪,大多數(shù)人類(lèi)都回答不出來(lái),認(rèn)為它們是非常不同的兩種東西。 GPT-4會(huì)告訴你,雖然他們的能量規(guī)模不同,時(shí)間尺度不同,但仍有相同之處: 當(dāng)堆肥變熱時(shí),產(chǎn)生熱量的速度就更快。 當(dāng)原子彈產(chǎn)生更多中子時(shí),產(chǎn)生中子的速度也更快。 通過(guò)類(lèi)比,AI就理解了“鏈?zhǔn)椒磻?yīng)”的概念。 Hinton認(rèn)為,AI在利用這種理解去將所有信息壓縮到自己的權(quán)重中。 一但AI這樣做了,那么它就有能力理解數(shù)百種人類(lèi)還未見(jiàn)過(guò)的類(lèi)比,這就是創(chuàng)造力的來(lái)源。 Hinton眼中什么是好學(xué)生? 說(shuō)回到兩人相遇時(shí),Hinton談到,與他交談沒(méi)多久就能看出他很聰明。 再多交談一會(huì),就能發(fā)現(xiàn)他有很好的直覺(jué),而且擅長(zhǎng)數(shù)學(xué)。 所以選Ilya做學(xué)生是非常容易做出的決定。 那么如何挑選其他學(xué)生?Hinton也用了Ilya最擅長(zhǎng)的方法:跟著直覺(jué)走。 如果一個(gè)人輕信別人告訴他的一切,那就太致命了。 不輕信他人,而是嘗試將新信息融入自己對(duì)世界的理解框架中,如果融入不進(jìn)去,就拒絕,這是很好的策略。 如果試圖吸收被告知的一切,最終會(huì)得到一個(gè)非常模糊的框架。相信一切,但是沒(méi)有用處。 所以Hinton眼中的好學(xué)生,應(yīng)該擁有一個(gè)堅(jiān)定的世界觀,并試圖擺弄輸入的事實(shí)以適應(yīng)你的觀點(diǎn)。 這樣雖然也可能陷入深信宗教或堅(jiān)持致命錯(cuò)誤,但我認(rèn)為這種方法仍是正確的。 后來(lái)我們也能看到,兩人都是秉持這樣的理念,堅(jiān)持著“大模型不止是預(yù)測(cè)下一個(gè)token”,堅(jiān)持著“預(yù)測(cè)即壓縮,壓縮即智能”。 他們也都堅(jiān)持認(rèn)為,這個(gè)世界應(yīng)該更加重視AI帶來(lái)的風(fēng)險(xiǎn),一個(gè)因此離開(kāi)了工作10年的谷歌,一個(gè)因此離開(kāi)了一手拉扯大的OpenAI。 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選