太平洋科技要聞

中文實錄全網首發(fā)！黃仁勛集齊Transformer論文七大作者，對話一小時，干貨滿滿

騰訊科技整合編輯：甘靈文發(fā)布于：2024-03-21 15:30

2017年，一篇具有里程碑意義的論文——《Attention is All You Need》橫空出世，它首次引入了基于自注意力機制的Transformer模型，這一創(chuàng)新架構擺脫了傳統的RNN和CNN的束縛，通過并行處理的注意力機制，有效克服了長距離依賴的難題，并顯著提升了序列數據處理的速度。Transformer的編碼器-解碼器結構和多頭注意力機制在人工智能領域掀起了一場風暴，大熱的ChatGPT正是基于這一架構構建的。

想象一下，Transformer模型就像是你的大腦在和朋友交談時，能夠同時關注對方說的每個詞，并理解這些詞之間的聯系。它賦予了計算機類似人類的語言理解能力。在此之前，RNN是處理語言的主流方法，但其信息處理速度緩慢，就像老式的磁帶播放器，必須逐字逐句地播放。而Transformer模型則像是一位高效的DJ，能夠同時操控多個音軌，迅速捕捉到關鍵信息。

Transformer模型的出現極大地提升了計算機處理語言的能力，使得機器翻譯、語音識別和文本摘要等任務變得更加高效和精確，這對整個行業(yè)來說是一個巨大的飛躍。

這項創(chuàng)新成果源于八位曾在谷歌工作的AI科學家的共同努力。他們最初的目標非常簡單：改進谷歌的機器翻譯服務。他們希望機器能夠完整地理解并通讀整個句子，而不是孤立地逐詞翻譯。這一理念成為了“Transformer”架構的起點——“自我注意力”機制。在此基礎上，這八位作者發(fā)揮各自的專長，于2017年12月發(fā)表了論文《Attention Is All You Need》，詳細描述了Transformer架構，開啟了生成式AI的新篇章。

在生成式AI的世界里，規(guī)模定律（Scaling Law）是核心原則。簡而言之，隨著Transformer模型規(guī)模的擴大，其性能也隨之提升，但這同樣意味著需要更強大的計算資源來支持更龐大的模型和更深層的網絡，而提供高性能計算服務的英偉達也同時成為了這場AI浪潮中的關鍵角色。

在今年的GTC大會上，英偉達的黃仁勛以一種充滿儀式感的方式邀請了Transformer的七位作者（Niki Parmar因故臨時未能出席）參與圓桌論壇的討論，這是七位作者首次在公開場合集體亮相。

他們在對話中也表達了一些令人印象深刻的觀點：

● 這個世界需要比Transformer更好的東西，我想我們在座的所有人都希望它能被某種東西所取代，將我們帶到一個新的性能高原。

● 我們在最初的目標上并沒有成功，我們開始Transformer的初衷是想要模擬Token的演化過程。它不僅僅是線性的生成過程，而是文本或代碼的逐步演化。

● 像2+2這樣的簡單問題，它可能會使用大模型的萬億參數資源。我認為自適應計算是接下來必須出現的事情之一，我們知道在特定問題上應該花費多少計算資源。

● 我認為當前的模型太過經濟實惠，規(guī)模也還太小，大概1美元百萬toke的價格，比外出購買一本平裝書要便宜100倍。

以下為內容實錄：

黃仁勛：在過去的六十年中，計算機技術似乎并沒有經歷根本性的變革，至少從我出生的那一刻起便是如此。我們目前所使用的計算機系統，無論是多任務處理、硬件與軟件的分離、軟件的兼容性，還是數據備份能力，以及軟件工程師的編程技巧，基本上都是基于IBM System360的設計原則——中央處理器、Bio子系統、多任務處理、硬件與軟件、軟件系統的兼容性等等。

我認為，自1964年以來，現代計算并沒發(fā)生過根本性改變。盡管在20世紀的80年代和90年代，計算機經歷了一次重大的轉型，形成了今天我們所熟悉的形態(tài)。但隨著時間的流逝，計算機的邊際成本持續(xù)下降，每十年其成本就減少十倍，十五年減少一千倍，二十年減少一萬倍。在這場計算機革命中，成本的降低幅度是如此之大，以至于在二十年的時間里，計算機的成本幾乎降低了一萬倍，這種變化為社會帶來了巨大的動力。

試著想象一下，如果你生活中所有昂貴的物品都降到了原來的一萬分之一，比如二十年前你花20萬美元購買的汽車，現在只需1美元，你能想象這種變化嗎？然而，計算機成本的下降并非一蹴而就，而是逐漸到達了一個臨界點，之后成本下降趨勢突然停止了，它依然每年都在不斷改進一點點，但是變化率停滯不變了。

我們開始探索加速計算，但使用加速計算并不容易，你需要從頭一點一點來設計。過去，我們可能按照既定的步驟一步步解決問題，但現在，我們需要重新設計這些步驟，這是一個全新的科學領域，將之前的規(guī)則重新表述為并行算法。

我們認識到這一點，并相信，如果我們能夠加速哪怕是1%的代碼，節(jié)省99%的運行時間，那么一定會有應用能夠從中受益。我們的目標是讓不可能變?yōu)榭赡�，或者將可能變�(yōu)椴豢赡�，或者已經可能的事情變得更加高效，這就是加速計算的意義。

回顧公司的歷史，我們發(fā)現我們有能力加速各種應用。起初，我們在游戲領域取得了顯著的加速效果，效果好到讓人誤以為我們是一家游戲公司。但實際上，我們的目標遠不止于此，因為這個市場龐大，大到能夠推動難以置信的技術進步。這種情況并不常見，但我們找到了這樣一個特例。

長話短說，2012年，AlexNet點燃了星星之火，這是人工智能與英偉達GPU的首次碰撞。這標志著我們在這一領域的神奇旅程的開始。幾年后，我們發(fā)現了一個完美的應用場景，為我們今天的發(fā)展奠定了基礎。

簡而言之，這些成就為生成式人工智能的發(fā)展奠定了基礎。生成式AI不僅能夠識別圖片，還能將文字轉化為圖片，甚至創(chuàng)造出全新的內容。現在，我們有了足夠的技術能力去理解像素，識別它們，并理解它們背后的意義。通過這些背后的意義，我們可以創(chuàng)造出新的內容。人工智能通過數據理解其背后含義的能力，這是一個巨大的變革。

我們有理由相信，這是一場全新的工業(yè)革命的開始。在這場革命中，我們正在創(chuàng)造前所未有的東西。例如，在之前的工業(yè)革命中，水是能源的來源，水進入我們創(chuàng)造的裝置，發(fā)電機開始工作，進水、出電，如同魔法一樣。

生成式AI，是一種全新的“軟件”，它又能夠創(chuàng)造軟件，它依賴于眾多科學家的共同努力。想象一下，你給AI原材料——數據，它們進入一棟“建筑”——我們稱之為GPU的機器，它就能輸出神奇的結果。它正在重塑一切，我們正在見證“AI工廠”的誕生。

這種變革可以被稱為全新的工業(yè)革命。在過去，我們從未真正經歷過這樣的變革，但現在，它正緩緩展開在我們面前。不要錯過接下來的十年，因為在這十年里，我們將創(chuàng)造出巨大的生產力。時間的鐘擺已經啟動，我們的研究人員已經開始行動。

今天我們邀請了Tansformer的創(chuàng)造者們，來一起討論未來生成式AI會將我們帶向何方。

他們是：

Ashish Vaswani：2016年加入谷歌大腦團隊。2022年4月，與Niki Parmar共同創(chuàng)辦了Adept AI，同年12月離開該公司，并共同創(chuàng)立了另一家人工智能初創(chuàng)公司Essential AI。

Niki Parmar：在谷歌大腦工作了四年，之后與Ashish Vaswani共同創(chuàng)立了Adept AI和Essential AI。

Jakob Uszkoreit：2008年至2021年在谷歌工作。2021年離開谷歌，并與他人共同創(chuàng)立Inceptive，該公司主營業(yè)務為人工智能生命科學，致力于使用神經網絡和高通量實驗來設計下一代RNA分子。

Illia Polosukhin：2014年加入谷歌，是八人團隊中最早離開的人之一，于2017年同他人共同創(chuàng)立了區(qū)塊鏈公司NEAR Protocol。

Noam Shazeer：曾于2000年至2009年間和2012年至2021年期間就職于谷歌。2021年，Shazeer離開谷歌并與前谷歌工程師Daniel De Freitas共同創(chuàng)立Character.AI。

Llion Jones：曾工作于Delcam、YouTube。2012年加入谷歌，擔任軟件工程師。后來離開谷歌，創(chuàng)辦人工智能初創(chuàng)企業(yè)sakana.ai。

Lukasz Kaiser：曾任法國國家科學研究中心研究員。2013年加入谷歌。2021年，他離開谷歌，成為OpenAI的研究員。

Aidan Gomez：畢業(yè)于加拿大多倫多大學，Transformer論文發(fā)表時，他還是谷歌大腦團隊的實習生。他是八人團隊中第二個離開谷歌的人。2019年，他與他人共同創(chuàng)立了Cohere

黃仁勛:今天坐到這里，請大家積極爭搶發(fā)言的機會，在這里沒有什么話題是不可以談的，你們甚至可以從椅子上跳起來去討論問題。讓我們從最基礎的問題談起，你們當時遇到了什么問題，是什么啟發(fā)你們去做Transformer？

Illia Polosukhin：如果你想要發(fā)布能夠真正讀取搜索結果的模型，比如處理成堆的文檔，你需要一些能夠迅速處理這些信息的模型。當時的遞歸神經網絡（RNN）并不能滿足這樣的需求。

確實，那時候雖然有遞歸神經網絡（RNN）和一些初步的注意力機制（Arnens）引起了關注，但它們仍然需要逐個單詞地閱讀，效率不高。

Jakob Uszkoreit：我們生成訓練數據的速度遠遠超過了我們訓練最先進架構的能力。實際上我們使用的是更簡單的架構，比如以n-gram作為輸入特征的前饋網絡。這些架構至少在谷歌規(guī)模的大量訓練數據中，由于訓練速度更快，通常都能超越那些更復雜、更先進的模型。

那時候的強大RNN，特別是長短期記憶網絡（LSTM），已經存在。

Noam Shazeer：看起來這是一個亟待解決的問題。我們在2015年左右就已經開始注意到這些Scaling law，你可以看到隨著模型規(guī)模的增大，它的智能程度也隨之提高。這里就像是世界歷史上最好的問題，非常簡單：你只是在預測下一個token，它就會變得如此聰明，能夠做一百萬個不同的事情，你只是想擴大規(guī)模并讓它變得更好。

而一個巨大的挫敗感在于，RNN處理起來實在是太麻煩了。然后我偶然聽到這些家伙在討論，嘿，讓我們用卷積或者注意力機制來取代它。我心想，太好了，我們就這么干。我喜歡把Tansformer比作是從蒸汽機到內燃機的飛躍。我們本可以用蒸汽機完成工業(yè)革命，但那將會非常痛苦，而內燃機讓一切都變得更好。

Ashish Vaswani：我在研究生時期就開始體會到一些苦澀的教訓，尤其是在我從事機器翻譯工作的時候。我意識到，嘿，我不會去學習那些復雜的語言規(guī)則。我認為梯度下降（Gradient Descent）——我們訓練這些模型的方法——是一個比我更出色的老師。所以我不會去學習這些規(guī)則，我只會讓梯度下降（Gradient Descent）為我完成所有工作，這就是我的第二個教訓。

我從這些苦澀的教訓中學到的是，那些可以擴展的通用架構最終將在長期中勝出。今天可能是token，明天可能就是我們在計算機上采取的行動，它們將開始模仿我們的活動，并能夠自動化我們所做的許多工作。正如我們所討論的，Transformer特別是其自注意力機制，具有非常廣泛的適用性，它也讓梯度下降變得更好。另外就是物理學，因為我從Noam那里學到的一點是，矩陣乘法是個好主意。

Noam Shazeer：這個模式一直在重復出現。所以每一次當你添加一堆規(guī)則時，梯度下降終將比你更擅長學習這些規(guī)則。就是這樣。就像我們一直在做的深度學習一樣，我們正在構建一個形狀像GPU的AI模型。而現在，我們正在構建一個形狀像超級計算機的AI模型。是的，超級計算機現在就是模型。是的，這是真的。是的。超級計算機只是為了讓你們知道，我們正在構建超級計算機，使其成為模型的形狀。

黃仁勛：所以你們要解決什么問題？

Lukasz Kaiser：機器翻譯�；叵胛迥昵埃@個過程似乎非常艱難，你得搜集數據，可能進行翻譯，但結果可能只是勉強正確。那時的水平還很基礎。但現在，這些模型即使沒有數據也能學會翻譯。你只需提供一種語言和另一種語言，模型就能自行學會翻譯，這種能力就像自然而然地涌現出來的，而且效果令人滿意。

Llion Jones：但是，“Attention”的直覺就是你所需要的。所以我想出了這個標題，基本上發(fā)生的事情就是在我們尋找標題的時候。

我們只是在做消融，開始把模型的一些碎片扔掉，只是為了看看它會不會變得更糟。令我們驚訝的是，它開始變得更好。包括像這樣扔掉所有的卷積效果要好得多。所以這就是標題的來源。

Ashish Vaswani：基本上有趣的是，我們實際上是從一個最基本的框架開始的，然后我們添加了東西，我們添加了卷積，我猜后來我們又把它們去掉了。還有多頭注意力等其他很多非常重要的東西。

黃仁勛：誰想出了Transformer的名字？為什么叫Transformer？

Jakob Uszkoreit：我們喜歡這個名字，我們只是隨便起了一個名字，覺得它很有創(chuàng)意，改變了我們的數據生產模式，使用了這樣一種邏輯。所有的機器學習都是Transformer，都是顛覆者。

Noam Shazeer：我們之前沒有想過這個名字，我覺得這個名字特別簡單，很多人都覺得這個名字特別好。我之前想過很多的名字，比如Yaakov，最終確定了“Transformer”，它描述了模型的原理，它實際上轉換了整個信號，按照這個邏輯，幾乎所有的機器學習都會被轉換。

Llion Jones：Transformer之所以成為這樣一個人們耳熟能詳的名字，不僅僅是因為翻譯的內容，而且是因為我們希望以一種更概括的方式來描述這種變革。我不覺得我們做得多么出色，但是作為一個變革者，作為驅動和引擎，它是有邏輯的。大家能夠了解到這樣一種大語言模型、引擎和邏輯，從架構上而言，這都是一個比較早的著手時期。

但是我們確實意識到，我們實際上是在嘗試創(chuàng)造一些非常非常通用的東西，它真的可以將任何東西變成其他任何東西。而且我不認為我們預測到當Transformer被用于圖像時，這實際上會有多好，這有點令人驚訝。這對你們來說可能是合乎邏輯的，但事實上，你可以將圖像分塊并標記每個小點，對吧。我認為這在建筑上很早就存在了。

因此，當我們構建張量到張量庫時，我們真正關注的是擴大自回歸訓練的規(guī)模。這不僅僅是語言，還有圖像、音頻的組件。

所以盧卡什（Lukasz）說他正在做的是翻譯。我想他是低估了自己，所有這些想法，我們現在開始看到這些模式結合在一起，它們都加入了模型。

但實際上，一切都很早就存在了，這些想法正在滲透，這需要一些時間。盧卡什（Lukasz）的目標是我們擁有所有這些學術數據集，它們從圖像到文本，從文本到圖像，從音頻到文本，從文本到文本。我們應該對一切進行訓練。

這個想法確實推動了擴展工作，最終成功了，它是如此有趣，以至于我們可以將圖像翻譯成文本，將文本翻譯成圖像，翻譯文本到文本。

你正在用它來研究生物學，或生物軟件，它可能類似于計算機軟件，它以程序的形式開始，然后你將其編譯成可以在 GPU 上運行的東西。

一個生物軟件的生命始于某些行為的規(guī)范。比如說，你想打印一個蛋白質，就像細胞中的特定蛋白質一樣。然后你學會了如何使用深度學習將其轉化為RNA分子，但實際上一旦進入你的細胞，表現出這些行為。所以這個想法真的不僅僅是翻譯成英語。

黃仁勛：你們是否創(chuàng)建了一個大型的實驗室來生產所有這些？

Aidan Gomez：大量可用，實際上仍然公開，因為這些數據通常仍然主要由公共資助。但實際上，你仍然需要數據來清楚地說明你正在嘗試的現象。

嘗試在給定的產品中進行建模，比如說蛋白質表達和 mRNA 疫苗之類的東西，或者是的，在帕洛阿爾托，我們有一大堆機器人和穿著實驗室外套的人，既有學習研究人員，也有以前是生物學家的人。

現在，我們認為自己是新事物的先驅，致力于實際創(chuàng)建這些數據并驗證設計這些分子的模型。但最初的想法就是翻譯。

黃仁勛：最初的想法是機器翻譯，我想問的是，在架構的強化和突破中，看到的關鍵節(jié)點是什么？以及它們對Transformer的設計有什么影響？

Aidan Gomez：一路走來，你們都看到了，你認為在基礎Transformer設計之上真的有很大的額外貢獻嗎？我認為在推理方面，已經有大量的工作來加速這些模型，使它們更有效率。

我仍然認為這有點讓我感到不安，因為我們的原始形式是多么相似。我認為這個世界需要比Transformer更好的東西，我想我們在座的所有人都希望它能被某種東西所取代，將我們帶到一個新的性能高原。

我想問在座的每個人一個問題。你認為接下來會發(fā)生什么？就像這是令人興奮的一步，因為我認為它與 6-7 年前的東西太相似了，對吧？

Llion Jones：是的，我想人們會驚訝于你說的相似程度，對吧？人們確實喜歡問我接下來會發(fā)生什么，因為我是這篇論文的作者。就像魔法一樣，你揮動魔法棒，下一步會出現什么？我想指出的是，這個具體的原理是如何被設計的。我們不僅需要變得更好，我們需要變得明顯地更好。

因為如果它只是稍微好一點，那么這還不足以將整個人工智能行業(yè)推向新事物。因此，我們被困在原始模型上，盡管從技術上講，它可能不是我們現在擁有的最強大的東西。

但是每個人都知道自己想要什么樣的個人工具，你們想做更好的上下文窗口，你們想要更快地產生token的生成能力。好吧，我不確定你是否喜歡這個答案，但他們現在使用了太多的計算資源。我認為大家做了很多浪費的計算。我們正在努力提高效率，謝謝

黃仁勛：我覺得我們是讓這一切更加有效，感謝！

Jakob Uszkoreit：但我覺得這主要是關于如何分配資源，而不是一共消耗了多少資源。比如我們不希望在一個容易得問題上花太多錢，或者在一個太難的問題上花太少而最終得不到解決方案。

Illiya Polosukhin：這個例子就像2+2，如果你正確地將他輸入到這個模型中，它就會使用一萬億個參數。所以我認為自適應計算是接下來必須出現的事情之一，我們知道在特定問題上應該花費多少計算資源。

Aidan Gomez：我們知道目前計算機的生成能力有多少，我覺得這是接下來需要集中注意力的問題，我覺得這是宇宙級的變革者，這也是未來的發(fā)展趨勢。

Lukasz Kaiser：這種概念在Transformer之前就存在了，它被整合進了Transformer模型中。實際上，我不確定在座的各位是否清楚，我們在最初的目標上并沒有成功，我們開始這個項目的初衷是想要模擬Token的演化過程。它不僅僅是線性的生成過程，而是文本或代碼的逐步演化。我們進行迭代，我們進行編輯，這使我們有可能不僅模仿人類如何發(fā)展文本，還能將他們作為這一過程的一部分。因為如果你能像人類那樣自然地生成內容，他們實際上就能夠提供反饋，不是嗎？

我們所有人都研讀過香農的論文，我們最初的想法是，只專注于語言建模和困惑度，但事實上這并沒有實現。我認為這也是我們能夠進一步發(fā)展的地方。這也與我們現在如何智能地組織計算資源有關，這種組織方式現在也適用于圖像處理。我的意思是，擴散模型具有一種有趣的特性，它們能夠通過迭代不斷地精煉和提升質量。而我們目前還沒有這樣的能力。

我的意思是，這個根本性問題：哪些知識應該內置于模型之中，哪些知識應該置于模型之外？是使用檢索模型嗎？RAG（Retrieval-Augmented Generation）模型就是一個例子。同樣地，這也涉及到推理問題，即哪些推理任務應該通過外部的符號系統來完成，哪些推理任務應該直接在模型內部執(zhí)行。這在很大程度上是一個關于效率的討論。我確實相信，大型模型最終會學會如何進行2+2這樣的計算，但如果你要計算2+2，卻通過累加數字來進行，那顯然是低效的。

黃仁勛：如果AI只需要計算2+2，那么它應該直接使用計算器，用最少的能量來完成這個任務，因為我們知道計算器是做2+2計算的最有效工具。然而，如果有人問AI，你是如何得出2+2的決定的？你知道2+2是正確的答案嗎？這將耗費大量的資源？

Noam Shazeer：確實如此。你之前提到過一個例子，但我同樣確信在座的各位所研發(fā)的人工智能系統都足夠智能，能夠主動使用計算器。

目前全球公共產品（GPP）正是這樣做的。我認為當前的模型太過經濟實惠，規(guī)模也還太小。它之所以便宜，是因為像NV這樣的技術，感謝它的產出。

每次操作的計算成本大約是10到-18美元�；蛘哒f，大致在這個數量級。感謝您創(chuàng)造了如此多的計算資源。但是，如果你觀察一個擁有五千億參數的模型，并且每個token進行一萬億次計算，大概是一美元百萬token，這比外出購買一本平裝書并閱讀的成本要便宜100倍。我們的應用程序在價值上比巨型神經網絡上的高效計算高出百萬倍或更多。我的意思是，它們無疑比治愈癌癥等事情更有價值，但不僅如此。

Ashish Vaswani：我覺得讓世界更聰明，就是指如何去獲得來自于世界的反饋，我們能否實現多任務、多線的并行。如果你真的想構建這樣一個模型，幫助我們設計這樣一個模型，這是一種非常好的方式。

黃仁勛：能快速分享一下你們?yōu)槭裁磩?chuàng)辦你們的公司嗎？

Ashish Vaswani：在我們公司，我們的目標是構建模型并解決新的任務。我們的工作是理解任務的目標和內容，并隨著這些內容的變化來滿足客戶的需求。實際上，從2021年開始，我發(fā)現模型最大的問題在于，你不能僅僅讓模型變得更聰明，你還需要找到合適的人才來解讀這些模型。我們希望讓這個世界與模型相互交融，使模型變得更加龐大和卓越。學習過程中需要取得一定的進展，最初在實驗室的真空環(huán)境下是無法完成這些工作的。

Noam Shazeer：在2021年，我們共同創(chuàng)立了這家公司。我們擁有如此出色的技術，但這項技術并沒有惠及很多人。想象一下，如果我是一個病人，聽到你這樣說，我會覺得有數百億人他們需要完成不同的任務。這就是深度學習的意義所在，我們通過對比來提升技術。實際上，由于技術的不斷發(fā)展，得益于黃仁勛的推動，我們的終極目標是幫助全世界的人們。你們必須進行測試，我們現在需要開發(fā)更快的解決方案，讓數百人能夠應用這些應用程序。比如最初，并不是所有人都在使用這些應用，很多人使用它們只是為了娛樂，但它們確實有效，確實在工作。

Jakob Uszkoreit：感謝。我想談談我們創(chuàng)立的生態(tài)軟件體系。在2021年，我參與創(chuàng)立了這家公司，我們的目標是解決一些真正具有科學影響力的問題。過去，我們處理的內容相當復雜。但當我迎來第一個孩子時，我看待世界的方式發(fā)生了改變。我們希望讓人類的生活變得更加便利，也希望對蛋白質的研究做出貢獻。尤其是有了孩子之后，我更希望能夠改變現有的醫(yī)療架構，并且希望科學技術的發(fā)展能夠對人類的生存和發(fā)展產生積極影響。例如，蛋白質的結構和解構已經受到了一定的影響，但目前我們缺乏數據。我們必須基于數據做出努力，這不僅是職責，也是作為父親的責任。

黃仁勛：我喜歡你的觀點，我總是對新醫(yī)藥設計充滿興趣，以及讓計算機學習新藥開發(fā)和生成的過程。如果能學習和設計新藥，并且有實驗室進行測試，就能確定這樣的模型是否可行。

Llion JonesLlion Jones：是的，我是最后一位分享者。我們共同創(chuàng)立的公司叫做Sakana AI，意思是“魚”。我們之所以用日本的“魚”來命名公司，是因為我們像魚群一樣，自然啟發(fā)了我們尋找智能的靈感。如果我們能將許多檢驗的元素結合起來，就會創(chuàng)造出復雜而美妙的事物。許多人可能不了解這個過程和內容的具體細節(jié)，但我們內部的核心哲學是“學習永遠勝利”。

無論你是想解決問題，還是想學習任何內容，學習總會幫助你取得勝利。在生成式人工智能的過程中，學習內容也會幫助我們取得勝利。作為在場的研究者，我想提醒大家，我們賦予計算機的AI模型真正的意義，讓它們真正幫助我們理解宇宙的奧秘。實際上，我也想告訴大家，我們即將宣布一項最新的進展，我們對此非常興奮。雖然我們現在擁有一系列的研究成果作為基石，但我們正在經歷一種變革性的發(fā)展，目前的模型管理是有組織的，它讓人們真正參與進來。我們讓這些模型變得更加可行，使用這些大型模型和變革性的模式，改變人們對世界和宇宙的認知方式。這是我們的目標。

Aidan Gomez：我創(chuàng)立公司的初衷與Noam Shazeer相似。我認為計算機正在進入一種新的模式，它正在改變現有的產品和我們的工作方式。一切都基于計算機，而且它在技術內部發(fā)生了一定的變化。我們的角色是什么？我實際上是在彌合差距、彌合鴻溝。我們可以看到不同的企業(yè)創(chuàng)建這樣的平臺，讓每個企業(yè)適應并融合產品，這是直接面向用戶的一種方式。這是我們推進技術的方式，我們能讓技術變得更加經濟、更加普及。

黃仁勛：我特別欣賞的是，當Noam Shazeer顯得特別平靜時，你卻顯得非常興奮。你們倆的個性差異真是鮮明�，F在，請Lukasz Kaiser發(fā)言。

Lukasz Kaiser：我在OpenAI的經歷非常顛覆性。公司里充滿了樂趣，我們處理著大量數據進行計算，但歸根結底，我的角色還是一個數據處理者。

Illiya Polosukhin：我是第一個離開的人。我堅信我們將取得重大進展，軟件將改變整個世界。最直接的方式就是教會機器編寫代碼，讓編程對每個人都變得可及。在NEAR，我們的進展雖然有限，但我們致力于整合人類智慧，獲取相關數據，比如進一步啟發(fā)人們，認識到我們需要一種基礎性的方法論。這種模式是基礎性的進展，這種大模型在全球范圍內被廣泛使用，它在航天等領域有眾多應用，它關乎各領域的交流與互動，實際上為我們提供了能力。隨著使用的深入，我們發(fā)現它帶來了更多的模型，目前并沒有太多關于版權的爭議。

我們現在正處于一個全新的生成式時代，這是一個崇尚創(chuàng)新和創(chuàng)新者的時代，我們希望積極參與并擁抱變化，因此我們尋求不同的方法來幫助構建一個非�？岬哪Ｐ�。

黃仁勛：這種積極的反饋系統對我們整體經濟非常有益。我們現在能夠更好地設計經濟。有人提問，在這個GPT模型正在訓練數十億token規(guī)模數據庫的時代，下一步是什么？新的模型技術將是什么？你們想要探索什么？你們的數據來源是什么？Illia Polosukhin：我們的起點是矢量和位移。我們需要真正具有經濟價值的模型，人們能夠對其進行評估，最終將你的技術和工具應用到實踐中，從而使整個模型變得更好。

黃仁勛：你如何對模型進行領域訓練？最初的互動和交互模式是什么？是模型之間的交流和交互嗎？還是有生成式的模型和技術？

Illia Polosukhin：在我們團隊中，每個人都有自己的技術專長。

Jakob Uszkoreit：下一步是推理。我們都認識到了推理的重要性，但很多工作目前還是由工程師手工完成的。我們實際上是在教他們以一種交互式的問答方式去回答，我們希望他們能夠理解為什么在一起，一起提供強有力的推理模式。我們希望模型能夠生成我們想要的內容，這樣的生成方式是我們所追求的。無論是視頻、文本還是3D信息，它們都應該被整合在一起。

Lukasz Kaiser：我認為，大家是否理解推理實際上來源于數據？如果我們開始進行推理，我們手頭有一系列數據，我們會思考這些數據為何與眾不同？然后我們會了解到各種不同的應用，其實都是基于數據推理的過程。由于計算機的能力，由于這樣的系統，我們可以從那里開始進一步發(fā)展。我們可以推理出相關的內容，進行實驗。很多時候，這些都是源自數據的。我認為推理的發(fā)展非常迅速，數據模型也非常重要，而且不久的將來會有更多交互性的內容。我們還沒有進行充分的培訓，這不是關鍵內容和要素，我們需要讓數據更加充實。

Noam Shazeer：設計一些數據，比如設計教學機器，可能涉及數百個、數億個不同的代幣。

Ashish Vaswani：我想提出的一點是，在這一領域，我們有很多合作伙伴，他們取得了一些里程碑式的進展。最好的自動化算法是什么？其實是將真實世界的任務分解成不同的內容。我們的模型也非常重要，它幫助我們獲取數據，觀察數據是否處于正確的位置。一方面，它幫助我們關注數據；另一方面，這樣的數據為我們提供了優(yōu)質的模型來完成抽象任務。因此，我們認為對這一進展的衡量，也是創(chuàng)意的一種方式，是科學發(fā)展的一種方式，也是我們自動化發(fā)展的一種方式。

黃仁勛：如果沒有良好的衡量體系，你就無法完成出色的工程。你們彼此之間有沒有想問的問題？

Illia Polosukhin：沒有人真正想要了解自己到底走了哪些步驟。但實際上，我們希望能夠了解、探索我們到底在做什么，獲取足夠的數據和信息，進行合理的推理。比如，如果你有六步，但實際上你可以通過五步進行推理來跳過一步。有時候你不需要六步，有時候你需要更多步驟，那么你要如何復現這樣的場景？你從Token進一步發(fā)展需要什么呢？

Lukasz Kaiser：我個人的信仰是，如何復現這樣的大模型，這是一個非常復雜的過程。系統會不斷進步，但從本質上講，你需要設計一種方法。人類是善于復現的生物，在人類歷史中，我們不斷復現成功的場景。

黃仁勛：很高興能與各位交流，也希望你們有機會相互交流，產生難以言喻的魔法。感謝各位參與這次會議，非常感謝！

文章來源：騰訊科技

黃仁勛 Transformer

騰訊科技

原創(chuàng)欄目