英偉達GTC大會期間,英偉達CEO黃仁勛(Jensen Huang)主持了一場圓桌論壇,邀請了七位改變 AI 發(fā)展歷程、支撐ChatGPT的底層技術架構的Transformer論文《Attention is All You Need》的作者們。 除了黃仁勛外,七位嘉賓分別為Essential AI聯(lián)合創(chuàng)始人兼CEO Ashish Vaswani,Character.AI 聯(lián)合創(chuàng)始人兼CEO Noam Shazeer,Essential AI 聯(lián)合創(chuàng)始人Niki Parmar,Inceptive聯(lián)合創(chuàng)始人兼CEO Jakob Uszkoreit,Sakana AI聯(lián)合創(chuàng)始人兼CTO Llion Jones,Cohere聯(lián)合創(chuàng)始人兼CEO Aidan Gomez,OpenAI 技術人員Lukasz Kaiser,NEAR Protocol聯(lián)合創(chuàng)始人Illia Polosukhin。而另一位作者Niki Parmar未出席此次圓桌論壇。 黃仁勛開場就表示,在過去的六十年中,計算機技術似乎并沒有經(jīng)歷根本性的變革。自1964年以來,現(xiàn)代計算并沒發(fā)生過根本性改變。盡管在20世紀的80年代和90年代,計算機經(jīng)歷了一次重大的轉型,形成了今天我們所熟悉的形態(tài)。但隨著時間的流逝,計算機的邊際成本持續(xù)下降,每十年其成本就減少十倍,十五年減少一千倍,二十年減少一萬倍。在這場計算機革命中,成本的降低幅度是如此之大,以至于在二十年的時間里,計算機的成本幾乎降低了一萬倍,這種變化為社會帶來了巨大的動力。 他指出,2012年AlexNet點燃了星星之火,這是 AI 與英偉達GPU的首次碰撞。這標志著我們在這一領域的神奇旅程的開始。幾年后,我們發(fā)現(xiàn)了一個完美的應用場景,為我們今天的發(fā)展奠定了基礎。 而事實上,2017年,《Attention is All You Need》橫空出世,首次提出了基于自注意力機制的Transformer模型。這一深度學習架構使用注意力來顯著提高深度學習NLP翻譯模型的性能,允許模型同時處理輸入序列的所有元素,并捕捉它們之間的復雜關系。 Transformer的問世標志著,模型的建構從序列建模的傳統(tǒng)方法(如長短期記憶網(wǎng)絡和門控循環(huán)單元)轉變到一個更加高效、更能捕捉復雜語言模式的新框架。包括大型語言模型ChatGPT、Llama、GPT-4等就是基于這一架構創(chuàng)造的。 如今火熱的生成式 AI 技術,既是一種全新的“軟件”,又能夠創(chuàng)造軟件,并且依賴于眾多科學家的共同努力。利用數(shù)據(jù)、GPU它就能輸出神奇的結果。它正在重塑一切,人類正在見證“AI工廠”的誕生。 此次圓桌論壇上,黃仁勛問到為何要起Transformer這個名字。Jakob Uszkoreit直接表示,“我們喜歡這個名字,我們只是隨便起了一個名字,覺得它很有創(chuàng)意,改變了我們的數(shù)據(jù)生產(chǎn)模式,使用了這樣一種邏輯。所有的機器學習都是Transformer,都是顛覆者。” Llion Jones指出,當時,作者們都被困在原始模型上。他直言,從技術上講,Transformer可能不是我們現(xiàn)在擁有的最強大的東西。 此外,在圓桌論壇上,黃仁勛還與他們聊了許多令人印象深刻的觀點,包括如何啟發(fā)他們?nèi)プ隽薚ransformer、對于當前模型的看法、自適應計算和推理的重要性等。 圖片來源:英偉達官網(wǎng) 以下是鈦媒體App進行的核心對話信息整理: 1、什么啟發(fā)你們?nèi)プ隽薚ransformer? Illia Polosukhin表示,當他想發(fā)布能夠真正讀取搜索結果的模型,比如處理成堆的文檔,需要一些能夠迅速處理這些信息的模型。但當時的遞歸神經(jīng)網(wǎng)絡(RNN)并不能滿足這樣的需求,RNN需要逐個單詞地閱讀,效率不高。 Noam Shazeer也補充道,RNN處理起來實在是太麻煩了。然后團隊開始探討用卷積或者注意力機制來取代它。“我喜歡把Tansformer比作是從蒸汽機到內(nèi)燃機的飛躍。我們本可以用蒸汽機完成工業(yè)革命,但那將會非常痛苦,而內(nèi)燃機讓一切都變得更好,”Noam Shazeer說。 Ashish Vaswani認為,那些可以擴展的通用架構最終將在長期中勝出。“今天可能是token,明天可能就是我們在計算機上采取的行動,它們將開始模仿我們的活動,并能夠自動化我們所做的許多工作。正如我們所討論的,Transformer特別是其自注意力機制,具有非常廣泛的適用性,它也讓梯度下降變得更好。另外就是物理學,因為我從Noam那里學到的一點是,矩陣乘法是個好主意。” 2、這個世界需要比Transformer更好的東西 Aidan Gomez稱認為,這個世界需要比Transformer更好的東西,我想在座的所有人都希望它能被某種東西所取代,將我們帶到一個新的性能高原。 Llion Jones也表示贊同:“(相比Transformer)我們需要變得更好,因為如果它只是稍微好一點,那么這還不足以將整個AI行業(yè)推向新事物。因此,我們被困在原始模型上,盡管從技術上講,它可能不是我們現(xiàn)在擁有的最強大的東西。” 3、自適應計算是接下來必須出現(xiàn)的事情之一 關于計算資源如何實現(xiàn)高效分配的問題,Jakob Uszkoreit表示:“我們不希望在一個容易的問題上花太多錢,或者在一個太難的問題上花費太少而最終得不到解決方案。” Illiya Polosukhin進行了舉例說明:“就像2+2,如果你正確地將它輸入到這個模型中,它就會使用一萬億個參數(shù)。所以我認為自適應計算是接下來必須出現(xiàn)的事情之一,我們知道在特定問題上應該花費多少計算資源。” Lukasz Kaiser稱團隊所有人都研讀過克勞德·艾爾伍德·香農(nóng)(美國數(shù)學家、信息論創(chuàng)始人)的論文。“我們最初只專注在語言建模和困惑度上,但事實上這并沒有實現(xiàn)。我認為這也是我們能夠進一步發(fā)展的地方。這也與我們現(xiàn)在如何智能地組織計算資源有關,這種組織方式現(xiàn)在也適用于圖像處理。我的意思是,擴散模型具有一種有趣的特性,它們能夠通過迭代不斷地精煉和提升質量。而我們目前還沒有這樣的能力。 存在一個根本性問題,哪些知識應該內(nèi)置于模型之中,哪些知識應該置于模型之外?是使用檢索模型嗎?RAG(Retrieval-Augmented Generation)模型就是一個例子。同樣地,這也涉及到推理問題,即哪些推理任務應該通過外部的符號系統(tǒng)來完成,哪些推理任務應該直接在模型內(nèi)部執(zhí)行。這在很大程度上是一個關于效率的討論。我確實相信,大型模型最終會學會如何進行2+2這樣的計算,但如果你要計算2+2,卻通過累加數(shù)字來進行,那顯然是低效的。” 4、當前的模型太過經(jīng)濟實惠,規(guī)模也還太小 Noam Shazeer認為,當前的模型太過經(jīng)濟實惠,規(guī)模也還太小。它之所以便宜,是因為像NV這樣的技術。感謝它的產(chǎn)出,使得每次操作的計算成本大約是10美元—18美元。或者說,大致在這個數(shù)量級。感謝您(指黃仁勛)創(chuàng)造了如此多的計算資源。但是,如果大家觀察一個擁有五千億參數(shù)的模型,并且每個token進行一萬億次計算,成本大概是一美元百萬token,這比外出購買一本平裝書的成本要便宜100倍。我們的應用程序在價值上比巨型神經(jīng)網(wǎng)絡上的高效計算高出百萬倍甚至更多。我的意思是,它們無疑比治愈癌癥等事情更有價值,而且不僅如此。” Ashish Vaswani:“我覺得讓世界更聰明,就是指如何去獲得來自于世界的反饋,我們能否實現(xiàn)多任務、多線的并行。如果你真的想構建這樣一個模型,幫助我們設計這樣一個模型,這是一種非常好的方式。” 5、“下一步是推理” Jakob Uszkoreit表示,下一步是推理。“我們都認識到了推理的重要性,但很多工作目前還是由工程師手工完成的。我們實際上是在教他們以一種交互式的問答方式去回答,我們希望他們能夠理解為什么在一起提供強有力的推理模式。我們希望模型能夠生成我們想要的內(nèi)容,這樣的生成方式是我們所追求的。無論是視頻、文本還是3D信息,它們都應該被整合在一起。 在Lukasz Kaiser看來,推理實際上來源于數(shù)據(jù)。“如果我們開始進行推理,我們手頭有一系列數(shù)據(jù),我們會思考這些數(shù)據(jù)為何與眾不同?然后我們會了解到各種不同的應用,其實都是基于數(shù)據(jù)推理的過程。由于計算機的能力,由于這樣的系統(tǒng),我們可以從那里開始進一步發(fā)展。我們可以推理出相關的內(nèi)容,進行實驗。 很多時候,這些都是源自數(shù)據(jù)的。我認為推理的發(fā)展非常迅速,數(shù)據(jù)模型也非常重要,而且不久的將來會有更多交互性的內(nèi)容。我們還沒有進行充分的培訓,這不是關鍵內(nèi)容和要素,我們需要讓數(shù)據(jù)更加充實。” Ashish Vaswani提出,在這一領域,他們有很多合作伙伴取得了一些里程碑式的進展。“最好的自動化算法是什么?其實是將真實世界的任務分解成不同的內(nèi)容。我們的模型也非常重要,它幫助我們獲取數(shù)據(jù),觀察數(shù)據(jù)是否處于正確的位置。一方面,它幫助我們關注數(shù)據(jù);另一方面,這樣的數(shù)據(jù)為我們提供了優(yōu)質的模型來完成抽象任務。因此,我們認為對這一進展的衡量,也是創(chuàng)意的一種方式,是科學發(fā)展的一種方式,也是我們自動化發(fā)展的一種方式。” 以下是Transformer八位作者的詳細信息: Ashish Vaswani:論文一作,美國南加州大學計算機科學博士學位,2016年作為研究科學家加入谷歌大腦團隊。2022年4月,與Niki Parmar共同創(chuàng)辦了Adept AI,但兩人均于12月離開該公司,并共同創(chuàng)立了另一家AI初創(chuàng)公司Essential AI。 Niki Parmar(未出席此次圓桌論壇):美國南加州大學計算機科學碩士學位,在谷歌大腦團隊工作了四年,之后與Ashish Vaswani共同創(chuàng)立了Adept AI和Essential AI。 Jakob Uszkoreit:柏林科技大學計算機科學碩士學位。2008年進入谷歌工作,2021年離開谷歌后,Jakob Uszkoreit與他人共同創(chuàng)立Inceptive。 Illia Polosukhin:2014年前加入谷歌,曾任谷歌深度學習小組項目主管,帶隊負責核心搜索算法業(yè)務近10年,也是谷歌TensorFlow AI開源項目的主要代碼貢獻者。2017年Illia Polosukhin與他人共同創(chuàng)立了區(qū)塊鏈公司NEAR Protocol。 Noam Shazeer:于2000年至2009年和2012年至2021年期間就職于谷歌。2021年,Shazeer離開谷歌并與前谷歌工程師Daniel De Freitas共同創(chuàng)立Character.AI,致力于開發(fā)生成式AI聊天機器人。 Llion Jones:伯明翰大學計算機科學碩士學位。于2012年加入谷歌,擔任軟件工程師。2023年8月離開谷歌,并于日本創(chuàng)辦AI初創(chuàng)企業(yè)Sakana AI。 Lukasz Kaiser:曾任法國國家科學研究中心研究員。他于2013年加入谷歌。2021年,他離開谷歌,成為OpenAI的研究員。 Aidan Gomez:英國牛津大學計算機科學博士。Transformer論文發(fā)表時,他還是谷歌大腦團隊的實習生。他是八人團隊中第二個離開谷歌的人。2019年,Aidan Gomez與他人共同創(chuàng)立了Cohere,該公司專注于提供NLP模型,幫助企業(yè)改善人機交互。 文章來源:鈦媒體
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選