在溫哥華舉行的神經(jīng)信息處理系統(tǒng)大會(NeurIPS)上,OpenAI 前首席科學(xué)家 Ilya Sutskever 發(fā)表公開演講。 Ilya 指出,當(dāng)前 AI 模型預(yù)訓(xùn)練方式將不可避免地走向終結(jié)。 他還將 AI 訓(xùn)練數(shù)據(jù)比作「化石燃料」,認(rèn)為互聯(lián)網(wǎng)上的人類生成內(nèi)容是有限的,業(yè)界已經(jīng)達到了數(shù)據(jù)峰值,「我們只有一個互聯(lián)網(wǎng),必須適應(yīng)現(xiàn)有的數(shù)據(jù)資源」。 根據(jù)他的預(yù)測,下一代 AI 系統(tǒng)將突破當(dāng)前局限,具備真正的主動性和類人推理能力,但他也警告,隨著 AI 推理能力的提升,其行為將變得愈發(fā)難以預(yù)測,就如同即便是頂尖棋手也無法準(zhǔn)確預(yù)判高級象棋 AI 的走法。 演講中,他將 AI 的發(fā)展規(guī)模與生物進化過程進行了對照。 通過引用數(shù)據(jù),他指出在對數(shù)坐標(biāo)下,雖然絕大多數(shù)哺乳動物的腦重與體重比例都遵循著相似的規(guī)律,但人類祖先卻展現(xiàn)出一條截然不同的發(fā)展曲線。 基于此,他推測正如進化在人類大腦發(fā)展過程中找到了新的路徑,AI 可能也會突破當(dāng)前預(yù)訓(xùn)練模式的局限,發(fā)現(xiàn)全新的發(fā)展路徑。 演講結(jié)束后,Ilya 也接受了與會者的提問,以下為 Ilya 演講和提問環(huán)節(jié)全文,要點概括如下,Enjoy it~ Ilya 認(rèn)為,互聯(lián)網(wǎng)數(shù)據(jù)資源就像化石燃料般正在逐漸枯竭,雖然計算能力不斷提升,但數(shù)據(jù)增長速度已見頂,「我們只有一個互聯(lián)網(wǎng)」這個物理限制無法突破。 預(yù)訓(xùn)練時代(GPT-2/3)帶來重大突破但也暴露局限,而下一個階段可能出現(xiàn)智能體、合成數(shù)據(jù)等新方向。 Ilya 通過圖表數(shù)據(jù)發(fā)現(xiàn)哺乳動物大腦和體重的關(guān)系遵循一定規(guī)律,但人科動物展現(xiàn)出不同的發(fā)展曲線,這暗示 AI 也可能找到全新的進化路徑。 當(dāng)前 AI 系統(tǒng)仍主要依賴模仿人類直覺,未來 AI 將具備真正的推理能力,而越具備推理能力的系統(tǒng)行為越難預(yù)測(如國際象棋 AI)。 AI 終將具備自我意識,這是理解世界的必要部分,但未來 AI 系統(tǒng)的本質(zhì)將與現(xiàn)在完全不同,以及 AI 可能會尋求權(quán)利和與人類共存。 演講全文 我非常榮幸地感謝主辦方選擇這篇論文獲獎。同時,我也要感謝我的杰出同事和合作者,Oriel Vinyls 和 Quoc V. Le,他們剛才就在大家面前站著。 在這里大家可以看到一張圖片,是十年前在新加坡國立大學(xué)(NUS)2014年蒙特利爾一場類似演講的截圖。那是一個更加純真的年代。照片中展示了當(dāng)時的我們。 這是「上次」,順帶一提,這是「這次」。 現(xiàn)在,我們變得更有經(jīng)驗,也希望更有洞見。 在這里,我想稍微談?wù)勥@個工作的本身,或許也可以對過去十年進行一些回顧。因為在這個研究中,有許多地方是正確的,但也有一些不完全正確。 我們可以回顧一下,看看它們是如何發(fā)展的,又是如何逐步流向了今天的方向。 那么,讓我們從討論我們當(dāng)時所做的事情開始吧。我們會通過展示 10 年前同一場演講中的幻燈片來說明。我們研究工作的總結(jié)可以歸納為以下三個要點: 一個基于文本訓(xùn)練的自回歸模型; 一個大型神經(jīng)網(wǎng)絡(luò); 一個大型數(shù)據(jù)集; 就是這樣,F(xiàn)在讓我們更深入地探討一下細(xì)節(jié)。這是 10 年前的一張幻燈片,效果還算不錯——「深度學(xué)習(xí)假說」。 我們在這里提出的是:如果有一個具有 10 層的大型神經(jīng)網(wǎng)絡(luò),那么它就可以完成任何人類在短時間內(nèi)能夠完成的事情。 為什么我們會特別強調(diào)人類能夠在短時間內(nèi)完成的任務(wù)呢?為什么是這個? 如果你相信深度學(xué)習(xí)的教條,也就是說,人工神經(jīng)元和生物神經(jīng)元相似,或者至少不太不同,并且你認(rèn)為生物神經(jīng)元的處理速度比人類能快速完成的任務(wù)慢,那你就會認(rèn)為一個 10 層的神經(jīng)網(wǎng)絡(luò)也能在短時間內(nèi)完成任何人類能夠做到的任務(wù),對吧?這就是推理的過程。 你只需將神經(jīng)元之間的連接關(guān)系嵌入到人工神經(jīng)網(wǎng)絡(luò)中。所以,這就是我們的動機。任何人類能在短時間內(nèi)完成的任務(wù),10 層的大型神經(jīng)網(wǎng)絡(luò)也能做到。 我們當(dāng)時專注于 10 層神經(jīng)網(wǎng)絡(luò),因為那時我們知道如何訓(xùn)練 10 層神經(jīng)網(wǎng)絡(luò)。如果能增加更多層數(shù),就能做得更多。但那時我們只能訓(xùn)練 10 層網(wǎng)絡(luò),這就是我們特別強調(diào)人類能夠在短時間內(nèi)完成的任務(wù)的原因。 這是演講中的另一張幻燈片,展示了我們的核心思路。你們可能能識別出其中的一些要點,或者至少能識別出自回歸模型在起作用。 那么,這張幻燈片究竟要傳達什么呢? 它的意思是,如果你有一個自回歸模型,并且它能夠足夠準(zhǔn)確地預(yù)測下一個 Token,那么它實際上會抓住并捕捉到接下來序列的正確分布。 這個想法相對較新,它不是第一個自回歸神經(jīng)網(wǎng)絡(luò),但我認(rèn)為它是第一個我們真正相信的自回歸神經(jīng)網(wǎng)絡(luò)。我們認(rèn)為,如果將其訓(xùn)練得足夠好,那么它能達到我們想要的效果——機器翻譯。 在今天看來,這確實顯得保守,但那時卻極其大膽。 現(xiàn)在我要向大家展示一些古老的歷史,許多人可能從未見過,那就是 LSTM。 對于不熟悉的人來說,LSTM 是深度學(xué)習(xí)研究人員在 Transformer 出現(xiàn)之前的技術(shù)。它基本上是一個 ResNet,只不過旋轉(zhuǎn)了 90 度。 所以,那就是 LSTM,它比 Resnet 稍微復(fù)雜一點。你可以看到 integrator,它現(xiàn)在被稱為 residual stream。 不過,你會看到一些乘法運算,它稍微復(fù)雜一些,但這就是我們當(dāng)時做的事情——一個旋轉(zhuǎn)了 90 度的 Resnet。 另一個我想強調(diào)的來自舊演講的重點是,我們使用了并行化,但不僅僅是普通的并行化,我們用了流水線并行化,正如這張圖所示,每個 GPU 只處理一層。 我們被建議使用流水線并行化。雖然現(xiàn)在我們知道流水線并行化并不總是明智的選擇,但當(dāng)時我們沒有其他選擇,所以我們采用了這種方法,并通過使用 8 個 GPU 獲得了 3.5 倍的速度提升。 從某種意義上說,正是那次演講的結(jié)論幻燈片是最重要的,因為它闡明了 Scaling Laws 的開始。 換句話說,如果你擁有一個非常大的數(shù)據(jù)集,并且訓(xùn)練一個非常大的神經(jīng)網(wǎng)絡(luò),那么成功是可以保證的?如果要慷慨一些看待這個問題,可以說,這的確是發(fā)生了的事情。 我想提到另一個觀點,我認(rèn)為這是經(jīng)得起時間考驗的真正想法。它是深度學(xué)習(xí)的核心思想——聯(lián)結(jié)主義(connectionism)思想。 這是一個觀點:如果你相信人工神經(jīng)元在某種程度上像生物神經(jīng)元一樣。 你認(rèn)為它們在某些方面是相似的,那么你就會有信心相信非常大的神經(jīng)網(wǎng)絡(luò)不需要達到人腦的規(guī)模。它們可以稍微小一點,但你可以配置它們?nèi)ネ瓿蓭缀跛腥祟惸茏龅氖虑椤?/p> 盡管如此,人類大腦仍然存在差異,或者我忘了補充這一點,確實存在差異,因為人類大腦能夠重新配置自身,而我們只能使用現(xiàn)有的最佳學(xué)習(xí)算法,這些算法需要的數(shù)據(jù)點數(shù)量和網(wǎng)絡(luò)參數(shù)數(shù)量相當(dāng),正是這一點使得人類在這一方面仍然更具優(yōu)勢。 按我所見,這一切可以說是引領(lǐng)了預(yù)訓(xùn)練時代,而預(yù)訓(xùn)練時代正是我們所說的 GPT-2 模型、GPT-3 模型和 Scaling Law 的時代。 我想特別提到我的前合作者 Alec Radford、Jared Kaplan 和 Dario Amodei,正是他們讓這一切成為可能。但這也引領(lǐng)了預(yù)訓(xùn)練時代。 而這一切推動了我們今天所見的所有進展,包括超大規(guī)模神經(jīng)網(wǎng)絡(luò),以及在海量數(shù)據(jù)集上訓(xùn)練的極其龐大的神經(jīng)網(wǎng)絡(luò)。 但正如我們所知,預(yù)訓(xùn)練時代無疑會結(jié)束。 那么,為什么預(yù)訓(xùn)練會結(jié)束呢?因為雖然計算機通過更好的硬件、更好的算法和更大的集群持續(xù)發(fā)展,所有這些因素都在提升計算能力,但數(shù)據(jù)并沒有同步增長,因為我們只有一個互聯(lián)網(wǎng)。 實際上,我們只有一個互聯(lián)網(wǎng),你甚至可以說,數(shù)據(jù)是人工智能的化石燃料。它某種程度上被創(chuàng)造出來,現(xiàn)在我們用它,達到了數(shù)據(jù)的巔峰,之后將不會再有更多數(shù)據(jù)。 我們只能處理現(xiàn)有的數(shù)據(jù)。我依然認(rèn)為,盡管如此,這已經(jīng)可以走得很遠(yuǎn),但我們只有一個互聯(lián)網(wǎng)系統(tǒng)。 所以在這里,我稍微放開一些,來猜測一下接下來會發(fā)生什么。實際上,我并不需要完全猜測,因為很多人也在猜測,我會提到他們的猜測。 你可能聽過「智能體」這個詞,這個詞現(xiàn)在很常見,我相信最終會有一些東西發(fā)生,但人們覺得智能體是未來的方向。 更具體地說,雖然也有點模糊,就是合成數(shù)據(jù)。那么,合成數(shù)據(jù)究竟是什么意思呢?弄明白這一點是一個巨大的挑戰(zhàn),我相信不同的人在這方面都有各種各樣有趣的進展。 還有推理時間計算,或者最近最生動的例子之一——o1 模型,這些都是人們在嘗試弄明白預(yù)訓(xùn)練之后該做什么的例子。 這些都是非常值得做的事。 我想提到另一個來自生物學(xué)的例子,我覺得它真的很酷,這個例子是這樣的:很多年以前,在這個會議上我也看到過一個演講,演講者展示了一張圖表,這張圖表顯示了哺乳動物體型與大腦體積之間的關(guān)系。 這里面是體重的關(guān)系。在那次演講中,我記得很清楚,他們說,在生物學(xué)中,很多事情都非;靵y,但在這里你可以看到一個非常特殊的例子,動物體型與大腦體積之間有著非常緊密的關(guān)系。完全是偶然的,我對這張圖表產(chǎn)生了興趣。 這是早期的一個例子,我去 Google 搜索圖表時,找到了這個圖片。 所有不同的哺乳動物,然后你會看到非靈長類的靈長類動物,基本上是一樣的,但接下來是人科動物。 據(jù)我所知,人科動物是與人類進化關(guān)系最為接近的物種,比如尼安德特人。這里有很多種類,比如 Homo habilis(能人),還有一大堆物種,它們都在這里。 有趣的是,它們的大腦與身體的比例增長呈現(xiàn)不同的斜率。這個點非?。 這意味著在生物學(xué)中,存在先例表明不同的比例尺度是可能存在的。顯然有所不同。我認(rèn)為這很酷。 順便提一下,我要強調(diào)的是,X 軸是對數(shù)尺度。你看到這個是 100,這個是 1000,10000,100000,同樣在克的單位下,1 克,10 克,100 克,1000 克。所以事物是可能有所不同的。 我們所做的、到目前為止我們所擴展的東西,實際上是我們首先學(xué)會如何擴展的東西。毫無疑問,這個領(lǐng)域中的每一個工作者都會弄清楚該做什么。但我想在這里花幾分鐘,來猜測一下更長遠(yuǎn)的未來,我們到底要去哪里? 我們正在取得巨大的進展,這真是令人震驚的進展。 事實上,我的意思是,那些十年前就在這個領(lǐng)域的人,如果你記得那時一切是多么無能為力的話,真的,雖然你可能會說,當(dāng)然,深度學(xué)習(xí)仍然很有潛力,但現(xiàn)在的情況簡直難以置信。 如果你在過去兩年才加入這個領(lǐng)域,當(dāng)然,你和計算機對話,它們會回應(yīng)你并表達不同意見。那就是計算機的樣子,但事情一直不是這樣的。 但我想稍微談一下超級智能,因為顯然這是這個領(lǐng)域的發(fā)展方向。 顯然,這就是我們在構(gòu)建的東西,而關(guān)于超級智能的事情是,它將從根本上與我們現(xiàn)在擁有的不同。接下來的一分鐘里,我的目標(biāo)是盡量為你提供一些具體的直覺,來幫助你理解它將如何不同,以便你自己能夠推理出它的差異。 現(xiàn)在我們擁有強大的語言模型和令人難以置信的聊天機器人,它們甚至能夠完成一些任務(wù),但它們也奇怪地不可靠,它們會感到困惑,但在評估中卻表現(xiàn)出極具超人的能力。 所以,如何調(diào)和這一點仍然不清楚。但最終,遲早,以下的情形將會實現(xiàn)。 這些系統(tǒng)實際上將以一種真正的方式變成智能體,而現(xiàn)在的系統(tǒng)在任何有意義的層面上都還不是智能體,或許說它們是非常、非常微弱的智能體,僅僅是剛剛開始。它們將真正開始推理。 順便說一句,我想提一下關(guān)于推理的事情:一個進行推理的系統(tǒng),它進行推理的次數(shù)越多,結(jié)果就越難以預(yù)測。 所有我們習(xí)慣的深度學(xué)習(xí),都是非?深A(yù)測的,因為如果你一直在努力復(fù)制人類的直覺,實際上這就像是直覺反應(yīng);氐 0.1 秒的反應(yīng)時間,我們的大腦處理這些信息時是什么? 那就是我們的直覺。因此,我們賦予了我們的人工智能一些直覺。然而,推理,你現(xiàn)在看到的一些早期跡象表明,推理是不可預(yù)測的。 一個可以看到的原因是,因為國際象棋的人工智能,最強的那些對于頂級的人類棋手來說是不可預(yù)測的。 因此,我們將不得不應(yīng)對那些極其不可預(yù)測的人工智能系統(tǒng)。它們將能夠從有限的數(shù)據(jù)中理解事物,它們不會感到困惑,這些正是目前人工智能面臨的巨大限制。 我并不是在說具體怎么做,也不是在說什么時候會發(fā)生,我只是說,這一定會發(fā)生,并且當(dāng)這些事情,和自我意識一起發(fā)生時,又會發(fā)生什么呢?因為為什么不呢? 自我意識是有用的,它是我們自己世界模型的一部分。 當(dāng)這一切聚集在一起時,我們將擁有今天完全不同性質(zhì)的系統(tǒng),當(dāng)然它們會有令人難以置信和驚人的能力,但與這些系統(tǒng)相關(guān)的問題,我只能留給大家自己想象。 畢竟,它們將與我們所熟悉的系統(tǒng)非常不同。 我想說的是,預(yù)測未來肯定是不可行的。未來可能會發(fā)生各種各樣的事情。但在這樣一個激勵人心的話題上,我將結(jié)束我的發(fā)言,非常感謝大家。 提問環(huán)節(jié) 提問:謝謝你,現(xiàn)在在 2024 年,是否有其他生物結(jié)構(gòu)是人類認(rèn)知的一部分,你認(rèn)為值得以類似方式探索的,或者你有興趣去探索的? Ilya:我回答這個問題的方式是,如果你是一個擁有特定洞察力的人,認(rèn)為「嘿,我們都在做極其愚蠢的事情,因為顯然大腦在做一些事情,而我們卻沒有」,那么這個可以做的事情,他們應(yīng)該去追求。 我個人并不這樣看,嗯,這取決于你所關(guān)注的阻礙層次。也許我會這樣回答。 就像曾經(jīng)有很多人渴望創(chuàng)造生物學(xué)啟發(fā)的人工智能。你可以從某種角度說,生物學(xué)啟發(fā)的人工智能是非常成功的,畢竟深度學(xué)習(xí)本身就是生物學(xué)啟發(fā)的人工智能。 但另一方面,生物學(xué)的啟發(fā)是非常、非常、非常有限的。就是說,我們用神經(jīng)元,這就是生物學(xué)啟發(fā)的全部。 更詳細(xì)的生物學(xué)啟發(fā)一直很難獲得,但我并不排除這種可能性。我認(rèn)為如果有人有特殊的洞察力,他們可能會看到某些東西,而這些東西會很有用。 提問:我想提問一個關(guān)于自動糾正的問題。問題是這樣的。 你提到推理可能是未來模型的核心方面之一,甚至可能是一個區(qū)分因素。我們在一些海報展示環(huán)節(jié)看到的現(xiàn)象是,今天的模型中的幻覺,分析幻覺的方式是,我們現(xiàn)在知道模型不能推理的危險,我們正在使用統(tǒng)計分析,比如偏離均值多少個標(biāo)準(zhǔn)差,或者其他的方式。 未來,你認(rèn)為如果模型具備推理能力,它能自己糾正錯誤嗎? 換句話說,自動糾正將會成為未來模型的核心特性之一,這樣模型就不會出現(xiàn)那么多幻覺,因為它能意識到什么時候發(fā)生了幻覺? Ilya:是的,答案是肯定的。 我認(rèn)為你所描述的這個觀點極其有可能發(fā)生。我的意思是,你應(yīng)該去查證一下。是的,我不排除它可能已經(jīng)發(fā)生在一些現(xiàn)有的早期推理模型中,我不知道,但從長遠(yuǎn)來看,為什么不呢? 提問:這就像微軟 Word 中的自動更正功能一樣,你知道的,它是一個核心功能。 Ilya:是的,我覺得把它稱為「自動更正」真的是低估了它的意義。說到自動更正,你會聯(lián)想到它只是一個簡單的功能,但除此之外,答案是肯定的,謝謝。 提問:Ilya,我喜歡最后神秘留白的結(jié)尾, 人工智能會取代我們,還是它們優(yōu)于我們?它們需要權(quán)利嗎?這是一個新物種的智人,可能它們也需要,我的意思是,我覺得強化學(xué)習(xí)(RL)的人認(rèn)為它們需要權(quán)利。 我有一個與此無關(guān)的問題,那就是如何創(chuàng)造合適的激勵機制,讓人類實際上以賦予它們我們作為智人的自由的方式去創(chuàng)造它們? Ilya:我覺得從某種意義上講,這些是人們應(yīng)該更多反思的問題。對于你提到的關(guān)于應(yīng)該創(chuàng)造什么樣的激勵結(jié)構(gòu)的問題,我感覺我沒有信心回答這些問題。就像你在談?wù)搫?chuàng)建某種自上而下的結(jié)構(gòu)或政府機制。 我不知道,這也有可能是加密貨幣。你知道的,有些事情我感覺自己并不是合適的人選來評論加密貨幣,但,嗯……順便說一下,你描述的情況是有可能發(fā)生的。 確實,我們會有。你知道,從某種意義上說,這并不壞。如果我們有人工智能,而它們所想要的只是與我們共存,并且只是想要權(quán)利,也許這就可以了。 提問:你好,謝謝你的精彩講座。我是來自多倫多大學(xué)的 Shelepov Chitz。感謝你所做的一切。我想問一下,你認(rèn)為 LLMs 是否能夠在分布外進行多跳推理的泛化? Ilya:好吧,這個問題假設(shè)了答案是「是」或「不是」。這個問題不應(yīng)當(dāng)用「是」或「不是」來回答,因為我們需要弄清楚:什么是分布外的泛化,什么是分布內(nèi)的,什么又是分布外的? 因為這是一次關(guān)于 「時間檢驗」 的演講。 我想說,很久很久以前,當(dāng)人們還沒有使用深度學(xué)習(xí)時,他們使用的東西包括字符串匹配和 n-gram 用于機器翻譯,人們使用的是統(tǒng)計短語表。 你能想象他們當(dāng)時有數(shù)萬個復(fù)雜的編碼,這真的是難以想象的。而在那個時候,泛化意味著,它和數(shù)據(jù)集中的表述字面上不同。 現(xiàn)在,我們可能會說,模型在數(shù)學(xué)競賽達到了這個高分。但也許這些數(shù)學(xué)題在互聯(lián)網(wǎng)上某個論壇上早被討論過了,因此它記住了。 好吧,你可以說也許它在分布內(nèi),也許是記憶化,但我也認(rèn)為我們的標(biāo)準(zhǔn),對于什么算作泛化,已經(jīng)大大提高了。如果你一直有留意這類發(fā)展的話,甚至可以說顯著地,不可想象地提高了。 所以,我認(rèn)為答案是,在某種程度上,模型的泛化能力可能沒有人類做得那么好。我認(rèn)為人類的泛化能力要好得多,但與此同時,他們確實會在某種程度上進行分布外的泛化。我希望這個答案是有用的,盡管它有點重復(fù)。 不幸的是,我們的時間到了。我有種感覺,我們可以再聊六個小時,但最后還是非常感謝這次講座。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選