千億參數(shù)大模型,支持輸入的長文本首次達20萬字! 在任何規(guī)模的大模型產(chǎn)品化隊伍中,這個長度堪稱目前的全球最長。 用數(shù)據(jù)說話:目前Claude支持最大長文本為100k(約8萬字),而GPT-4則是32k(約2.5萬字)。20萬字,分別是它們的2.5倍和8倍。 這便是清華叉院助理教授楊植麟,創(chuàng)業(yè)大模型后拿出的第一份成績單。 就在10月9日下午,楊植麟創(chuàng)業(yè)AI公司月之暗面(Moonshot AI)推出了首款大模型產(chǎn)品智能助手Kimi Chat。 核心被強調(diào)的亮點是:其背后雖是體量為千億參數(shù)的“龐然大物”,但卻可以hold住輸入20萬漢字,不管是《三體》還是《馬斯克傳》都能隨便讀。 據(jù)介紹,拓展上下文窗口長度,只是月之暗面“登月計劃”的第一步;這一步的落實,實則是為下一步落子多模態(tài)提供基礎——該公司預計在明年對外開放多模態(tài)版本產(chǎn)品。 而公司的最終目標,是在大模型領域做To C超級應用。 楊植麟身上的光環(huán)很多。 除了是清華叉院助理教授外,還有FAIR、Google Brain的工作履歷,是Transformer-XL和XLNet工作一作,發(fā)明的算法曾在30多項AI標準任務取得SOTA,師從蘋果公司AI負責人Ruslan Salakhutdinov、清華唐杰…… 種種光環(huán)加持下,3月被曝創(chuàng)業(yè)后,月之暗面就自帶一層神秘面紗。而后,紅杉孵化式支持,循序完成兩輪共計近20億元融資,更是讓公司獲得了格外多的注目。 如今,這家公司首次公開亮相,回應了更多外界的議論。 “參數(shù)和上下文窗口長度共同決定模型效果” 現(xiàn)場演示時,量子位關注到,由于支持20萬字長文本,月之暗面智能助手Kimi Chat有幾點新花樣。 一個是提供角色簡介鏈接,Kimi就能根據(jù)鏈接內(nèi)的基本信息,扮演角色進行對話: 一個是能同時支持多個(現(xiàn)場演示時為50個)文件的上傳和閱讀分析: 還有一個是能根據(jù)提供的文本內(nèi)容,畫思維導圖…… 這樣一個智能助手產(chǎn)品,月之暗面對其應用場景定位比較廣泛,“包括生產(chǎn)力、娛樂層面的一些場景都可以”。 為什么選擇以“長文本輸入”為核心,來構(gòu)建自家底座大模型的差異化競爭力? 月之暗面的官方回答是,這是行業(yè)現(xiàn)在迫切需要解決的問題,也是通往下一步,即產(chǎn)品化的最大卡點。 一切基于整個團隊的“樸素判斷”,參數(shù)量決定了大模型支持多復雜的“計算”,而能夠接收多少文本輸入(即長文本技術)則決定了大模型有多大的“內(nèi)存”,兩者共同決定模型的應用效果。 上下文對應的其實是計算機的內(nèi)存。 近幾十年,計算機系統(tǒng)的內(nèi)存發(fā)生了翻天覆地的變化!冻壃旣悺烦醮姹臼褂玫膬(nèi)存非常非常低,但現(xiàn)在的應用內(nèi)存至少都是幾個GB。 參數(shù)量決定了模型能支持多復雜的計算,但不光是要有足夠多的參數(shù)量,同時要有很強的上下文。上下文是新一代大模型的標準配置。 天下大模型苦長文本久矣。 就連目前最頂尖的模型,在上下文窗口方面還有非常大的探索空間,如Claude 2最長上下文窗口100k,GPT-4最長為32k,Llama2最長支持4k。 支持這樣的長度對實際應用來說,遠遠不夠。 此處拿大模型應用的熱門方向Agent舉例。Agent運行需要自動進行多輪規(guī)劃和決策,且每次行動都需要參考歷史記憶信息才能完成,這會帶來模型輸入的快速增加,同時也意味著,不能處理更長上下文的模型,將因無法全面準確地基于歷史信息進行新規(guī)劃和決策,從而降低成功運行概率。 該怎么彌補和提升呢? 在這一點上,楊植麟把市面上現(xiàn)有的解決方案劃分為三種類型。 金魚模型。采用滑動窗口方式,實際上拋棄了很多上文,難以解決任務(包括近期MIT的工作,號稱可處理無限長度文本的StreamingLLM); 蜜蜂模型。關注局部而忽略全局,只采樣上下文中的一部分,如基于檢索增強的RAG(retrieval augmented generation)方法,無法完成許多任務; 蝌蚪模型。長下文長度雖長,但模型參數(shù)太小(如10億),涌現(xiàn)能力不夠。 楊植麟將以上三種辦法統(tǒng)稱為解決大模型上下文窗口長度的捷徑,并稱,不會依賴這些滑動窗口、降采樣、小模型等對性能損害較大的捷徑方案。 具體到月之暗面自己的解決辦法上,月之暗面主要在兩點上發(fā)力,一是創(chuàng)新網(wǎng)絡結(jié)構(gòu),二是進行工程優(yōu)化。 接下來的目標,是按照產(chǎn)品驅(qū)動去迭代升級,把技術和產(chǎn)品結(jié)合到一起,最終目標是打造C端的Super App。 并且預計明年發(fā)布多模態(tài)產(chǎn)品,因為在楊植麟看來,無論何種模態(tài)的數(shù)據(jù),對其進行無損壓縮是可以實現(xiàn)高程度智能的。 無損壓縮等同于對數(shù)據(jù)聯(lián)合概率分布的預測,而多模態(tài)數(shù)據(jù)的生成,本質(zhì)上也是在做數(shù)據(jù)的聯(lián)合概率分布預測。 月之暗面創(chuàng)始團隊 目前,剛創(chuàng)業(yè)起步的月之暗面已經(jīng)獲得了近20億元融資,投資方包括紅杉、今日資本、礪思資本等。 除了大模型火熱之外,這樣進展迅速的高估值、高融資和創(chuàng)始團隊不無關系。 目前公開的資料來看,月之暗面聯(lián)合創(chuàng)始核心團隊共3人。 創(chuàng)始人兼CEO楊植麟,本科就讀于清華大學計算機系。 高中時期,沒有任何編程基礎的楊植麟被選拔進信息學奧林匹克競賽培訓班,最終通過競賽保送清華大學(非計算機系)。 直到大二時,他驚覺自己還是對計算機的興趣更濃,于是果斷轉(zhuǎn)入計算機系,師從清華教授、IEEE Fellow唐杰。 計算機系就讀期間,楊植麟以滿分成績通過所有程序設計課程。 2015年,他以年級第一的成績畢業(yè),隨后遠赴CMU(卡內(nèi)基梅隆大學)語言技術研究所,跟隨蘋果公司AI負責人Ruslan Salakhutdinov和Google AI智能首席科學家William W. Cohen攻讀博士學位。 △楊植麟與Ruslan Salakhutdinov(右一)、William Cohen(左一)合影 CUM就讀期間,楊植麟不僅和圖靈獎得主、深度學習三巨頭之一Yoshua Bengio合作發(fā)布“火鍋問答”數(shù)據(jù)集HotpotQA;還以一作身份,發(fā)表XLNet和Transformer-XL工作。 前者成為NeurIPS 2019與ACL 2019的最高引論文之一,Google Scholar引用次數(shù)破8000,后者引用次數(shù)也超3000。 楊植麟曾和Yoshua Bengio(圖靈獎得主,深度學習三巨頭之一)、Yann LeCun(圖靈獎得主,又一個深度學習三巨頭之一)、Quoc V. Le(Google Brain創(chuàng)始人之一)、何愷明(Kaiming He)等合寫過論文。 據(jù)不完全統(tǒng)計,他曾在ICLR、NeurIPS、ICML、ACL、EMNLP等計算機頂會發(fā)表論文20余篇,研究成果累計Google Shcolar引用超過19000。 一般情況下,CMU的博士學位之旅6年起步,但僅僅花費4年時間,2019年,楊植麟就順利拿下博士學位。 第二名聯(lián)合創(chuàng)始人,目前是月之暗面的算法團隊負責人,周昕宇。 他是清華大學2011級本科生,和楊植麟韜同為計算機系的學生。 周昕宇在畢業(yè)后選擇加入曠視,工作內(nèi)容是算法量產(chǎn)。 就職期間,他和曠視研究院基礎科研負責人、ResNet作者之一張祥雨一道,研究移動端模型,以共同一作的身份撰寫ShuffleNet論文,被CVPR接受。 這項工作后來影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機毫秒級人臉解鎖技術。 另一名聯(lián)合創(chuàng)始人是吳育昕,目前持有公司5.96%的股份。 吳育昕和楊植麟一樣,先后畢業(yè)于清華和CMU,研究方向為計算機視覺中的檢測和識別問題。 畢業(yè)后他先是在Meta的FAIR工作,曾和AI大神何愷明共同提出組歸一化(GN)的方法。期間,他還創(chuàng)建了detectron2,這是Meta最受歡迎的AI項目之一。 在Google Scholarship上,吳育昕的被引次數(shù)超過了19000次。 這三人聯(lián)手創(chuàng)業(yè),目前公司規(guī)模拓展到50-60人上下。 有趣的是,月之暗面三位聯(lián)創(chuàng)都出身清華。這不由得讓人想到在今年以來的大模型熱潮中,清華系占據(jù)創(chuàng)業(yè)團隊半壁江山的現(xiàn)狀。 包括師從的清華教授唐杰,就與另一名大模型創(chuàng)業(yè)明星智譜AI,有著千絲萬縷的密切聯(lián)系。 楊植麟倒是直言了對這種競爭格局的看法:“大模型空間非常大,很難有任何一家公司可以把所有的事情都做了。有ToB也有ToC,技術路線也不一樣,我覺得這是一個巨大的空白空間。” 他認為,除了OpenAI,中國的幾個公司都有機會產(chǎn)生自己獨一無二的價值。 One More Thing 月之暗面這個公司名,來源于楊植麟最喜歡的專輯《The Dark Side of The Moon》。 在清華時,聯(lián)創(chuàng)之一的周昕宇就和楊植麟共同創(chuàng)建了樂隊,并創(chuàng)作了一首歌,有關“做了一個創(chuàng)業(yè)成功一夜暴富的白日夢”。 于是,媒體溝通會現(xiàn)場,當被問到“現(xiàn)在還搖滾嗎”這個問題時,得到的答案是: 現(xiàn)在公司放著兩把電吉他,還有一架鋼琴(doge)。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選