同一天,微軟放出兩個核彈,首個拓撲量子芯片,還有首個世界與人類行動模型。 AI離數(shù)秒生成游戲視頻的未來,又近了一步。 今天,微軟團隊首次引入了「世界與人類行動模型」(WHAM),并冠以希臘藝術女神「繆斯」(Muse)之名。 它可以生成游戲視覺效果、控制器動作,甚至可以全都要。最新研究登上Nature期刊。 論文地址:https://www.nature.com/articles/s41586-025-08600-3 在相同的10幀(1秒)真實游戲玩法的條件下,Muse生成了行為和視覺多樣性的樣例。 同時,這也是首個基于Ninja Theory的多人對戰(zhàn)游戲Bleeding Edge,超10億張畫面訓練的GenAI模型。從單個V100集群,成功scaling到多達100個GPU上完成訓練。 Muse AI強大核心在于,對3D游戲世界的深度理解。 它不僅僅是一個簡單視頻生成工具,而是能夠精準模擬游戲中物理規(guī)則、玩家行為。 比如,當玩家按下手柄某個按鍵時,Muse AI可以預測游戲世界動態(tài)變化,并生成與之匹配的連貫畫面。 傳統(tǒng)上,游戲開發(fā)需要數(shù)月甚至數(shù)年,進行角色設計、動畫制作和游戲測試。而如今,Muse能夠將這一周期從幾個月縮短至幾分鐘。 對于游戲開發(fā)者來說,它的出現(xiàn)無疑是一場革命,是顛覆千億游戲產業(yè)革命的存在。 就連馬斯克在AI游戲上押下重注,據(jù)稱其創(chuàng)辦AI游戲工作室即將要官宣。 AI重塑游戲開發(fā),全球30億玩家狂歡 Muse AI誕生之前,還有這么一段精彩的故事。 2022年12月,微軟研究院游戲智能團隊的負責人Katja Hofmann剛剛結束產假,回到工作崗位。 她忽然發(fā)現(xiàn),在自己休假這段時間里,機器學習領域發(fā)生了翻天覆地的變化—— OpenAI發(fā)布ChatGPT,這一基于Transformer架構的生成模型,展示出令人驚嘆的能力,尤其是在處理大量文本數(shù)據(jù)時。 這一突破,讓Hofmann開始思考,生成式AI的崛起,對于AI與視頻游戲的交叉領域意味著什么? 他們發(fā)現(xiàn),盡管GenAI展現(xiàn)出巨大的潛力,但多項研究表明,其能力往往達不到創(chuàng)意人員的期望值。 特別是,在3D游戲開發(fā)這種高難度復雜領域,LLM的應用還面臨著諸多的挑戰(zhàn)。 眾所周知,3D游戲開發(fā)是一個需要多樣化創(chuàng)意技能的過程,會涉及到角色設計、場景構建、劇情編寫、互動機制等多個方面。 在Hofmann看來,豐富且多樣化的游戲玩法數(shù)據(jù),為進一步創(chuàng)新提供了關鍵數(shù)據(jù)。 這種時間相關、多模態(tài)的數(shù)據(jù)能夠探索日益復雜的任務,從而生成更高質量3D世界、與NPC互動和游戲機制。 更重要的是,游戲產業(yè)作為全球娛樂產業(yè)最大領域,已經覆蓋了超30億人口。 GenAI的出現(xiàn),為世界游戲玩家們,甚至游戲工作室提供了一個絕佳的機會。 那么,微軟團隊是如何打造出Muse AI? Xbox真人實戰(zhàn),超10億張圖像 微軟的游戲智能團隊,擁有非常不同的數(shù)據(jù)來源。 多年來,研究團隊與Xbox游戲工作室的Ninja Theory(與游戲智能研究團隊一樣,位于英國劍橋)合作,收集2020年發(fā)布的Xbox游戲《Bleeding Edge》的游戲數(shù)據(jù)。 《Bleeding Edge》是一款4對4的在線游戲。經玩家同意EULA后,比賽會被記錄下來。 研究團隊與Ninja Theory的同事以及微軟合規(guī)團隊密切合作,確保數(shù)據(jù)的收集符合道德規(guī)范,并且僅用于研究目的。 Bleeding Edge部分游戲角色 Ninja Theory的技術總監(jiān)Gavin Costello,見證了相關研究,感到非常高興: 在黑客馬拉松中,首次將AI集成到《Bleeding Edge》中,而這只是開始:此后,從構建行為更像人類玩家的AI智能體,再到世界和人類行為(WHAM)模型在人類指導下,能夠構想出全新的《Bleeding Edge》玩法。 能見證這項技術的潛力,讓人大開眼界。 Muse訓練數(shù)據(jù)當前的Muse模型是在Xbox游戲《Bleeding Edge》的人類游戲玩法數(shù)據(jù)(視覺和控制器操作)上訓練的。 下圖左顯示的是訓練當前模型的300×180像素分辨率。在超過10億張圖像和控制器操作上,Muse(使用WHAM-1.6B)已經進行了訓練,相當于人類連續(xù)玩7年多游戲。 下圖右是相關研究團隊,一起體驗《Bleeding Edge》游戲。 直到2022年底,游戲智能團隊一直將《Bleeding Edge》視為類人導航(human-like navigation)實驗平臺,還沒有真正利用手中大量的人類玩家數(shù)據(jù)。 在文本模型的啟發(fā)下,研究團隊開始思考:「如果我們使用基于transformer的模型來訓練這些海量的游戲數(shù)據(jù),我們能夠取得什么樣的成果?」 擴大模型訓練隨著團隊開始深入研究,面臨的一個關鍵難題是如何擴大模型訓練的規(guī)模。 最初,使用了一個V100集群,并成功驗證了如何擴展到在多達100個GPU上進行訓練。這為后續(xù)在H100上進行更大規(guī)模訓練奠定了基礎。在項目初期,做出了一些關鍵的設計決策,主要是關于如何充分利用大語言模型(LLM)社區(qū)的見解,包括如何有效地表示控制器操作和圖像。 擴大訓練規(guī)模努力的第一個成果是一個令人印象深刻的演示。 當時Game Intelligence的研究員Tim Pearce整理了一些訓練初期與后期的對比示例?粗@些演示,就像看著模型學習一樣。 這為后續(xù)展示這些模型中如何出現(xiàn)縮放法則奠定了基礎。 Muse訓練中的一致性給模型的提示是:輸入1秒的人類游戲玩法(視覺和控制器操作)和9秒的真實控制器操作。 在這種設定下,Muse如果能夠生成與真實情況非常接近的視覺圖像,那么它已經捕捉到了游戲動態(tài)。 隨著訓練的進行,觀察到生成的視覺圖像質量明顯提高。 在早期訓練(10k訓練更新)中,看到了初步的成果,但質量迅速下降。 在100k訓練更新后,模型在時間上保持一致,但尚未捕捉到游戲動態(tài)中相對不常見的場景,如飛行機制。 隨著額外訓練的進行,與真實情況的一致性繼續(xù)提高。例如,在1M訓練更新后,模型學懂了飛行機制。 真實的人類游戲玩法(左)與Muse生成的視覺圖像(使用WHAM-206M)的比較 跨學科合作:一開始就讓用戶參與 很早以前,研究團隊就開始探索評估這類模型,比如下列3個項目: 研究實習生Gunshi Gupta和高級研究科學家Sergio Valcarcel Macua,推動了對線性探測學習到的表征的理解。 高級研究科學家Raluca Georgescu,負責探索了在線評估的方式。 研究實習生Tarun Gupta,主導了既有視覺特效又有動作的內容生成的研究。 但要系統(tǒng)地評估Muse,需要更廣泛的見解。更重要的是,需要了解人們如何使用這些模型,以便知道如何評估它們。 這就是跨學科研究變得至關重要的地方。 研究團隊已經與高級首席研究經理Cecily Morrison和Teachable AI Experiences團隊合作了幾個月,討論了這項工作的各個方面。 在Cecily、設計研究員Linda Wen和首席研究軟件工程師Martin Grayson推動下,團隊還與游戲創(chuàng)作者合作,調查在創(chuàng)意實踐中,游戲創(chuàng)作者希望如何使用GenAI。 Cecily說:「這是一個很好的機會,在早期階段就聯(lián)合起來,讓模型滿足創(chuàng)作者的需求,而不是試圖改造已經開發(fā)的技術! 關于如何處理這項工作,Linda提供了一些寶貴見解: 我們已經看到技術驅動的AI創(chuàng)新如何顛覆創(chuàng)意產業(yè)——通常讓創(chuàng)作者措手不及,讓許多人感到被排斥。 之所以從一開始就邀請游戲創(chuàng)作者,共同塑造這項技術,這就是原因。 北半球主導了AI創(chuàng)新。認識到這一點,我們還優(yōu)先考慮招募來自代表性不足的背景和地區(qū)的游戲創(chuàng)作者。我們的目標是創(chuàng)造一個惠及所有人的技術——不僅僅是那些已經處于特權地位的人。 WHAM Demonstrator解鎖新創(chuàng)意現(xiàn)在,隨著模型逐漸顯現(xiàn)的能力和用戶的反饋,是時候將所有部分整合在一起了。 在微軟內部的黑客馬拉松中,不同團隊共同合作,探索Muse可以解鎖的新交互范式和創(chuàng)意應用場景。 最終,開發(fā)了一個原型,命名為WHAM Demonstrator,它允許用戶直接與模型進行交互。 Martin 說:「全球黑客馬拉松是一個完美的機會,大家齊聚一堂,構建了了第一個工作原型。我們希望為WHAM模型開發(fā)一個界面,這樣就能探索它的創(chuàng)意潛力,并開始測試從與游戲開發(fā)者的訪談中得到的想法和應用。」 為了與諸如Muse之類的AI模型進行互動,WHAM Demonstrator提供了與WHAM實例互動的視覺接口。 模型架構與評估 使用WHAM演示器親身體驗Muse的能力,并從用戶研究中獲得見解,研究團隊系統(tǒng)地確定了在使用像Muse這類生成模型時,游戲創(chuàng)作者所需的關鍵能力:一致性、多樣性和持久性。 一致性:指的是模型生成游戲玩法時,能夠尊重游戲的動態(tài)特性。例如,角色的移動與控制器操作一致,不會穿過墻壁,通常反映了游戲底層的物理特性。 多樣性:指的是模型在給定相同的初始提示時,能夠生成多種游戲玩法變體的能力。 持久性:指的是模型能夠將用戶修改(或「持久」)整合到生成的游戲玩法中的能力,例如將一個角色復制粘貼到游戲中。 模型架構設計建模設計反映了識別出的模型能力,如下圖所示。 一致性:一個順序模型,能夠準確捕捉游戲視覺和控制器操作之間依賴關系。 多樣性:能夠生成數(shù)據(jù)并保留視覺和控制器操作序列條件分布。 持久性:基于(修改過的)圖像和/或控制器操作,通用條件化的預測模型得以實現(xiàn)。 在全部三個能力中,選擇提供可擴展性的組件,這意味著模型應該從大量訓練數(shù)據(jù)和計算資源中受益。 WHAM設計如圖所示,它建立在transformer架構上,作為其序列預測骨干。 新方法的關鍵在于將數(shù)據(jù)框定為離散token序列。 為了將圖像編碼為令牌序列,使用VQGAN圖像編碼器。用于編碼每張圖像的令牌數(shù)量是一個關鍵的超參數(shù),它在預測圖像的質量、生成速度和上下文長度之間進行權衡。 對于Xbox控制器操作,盡管按鈕天生是離散的,將左和右搖桿的x和y坐標離散化為11個桶。然后訓練一個僅解碼Transformer來預測交織的圖像和控制器操作序列中的下一個token。 然后,該模型可以通過自回歸采樣下一個token來生成新序列。 還可以在生成過程中修改令牌,允許對圖像和/或操作進行修改。也就是說控制器操作或直接編輯圖像本身,可以控制(或提示)生成的能力,這評估持久性的先決條件。 WHAM架構概覽 一致性通過使用真實的游戲玩法和控制器動作來提示模型,并讓模型生成游戲視覺效果來評估一致性。此處展示的視頻是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成長達兩分鐘的一致游戲玩法序列的能力。 在論文中,還使用FVD(Fréchet Video Distance,視頻生成社區(qū)中一個既定的指標)將生成的視覺效果與真實的視覺效果進行了比較。 多樣性在總共102,400個動作(1,024 條軌跡,每條軌跡100個動作)中,對10,000個人類和模型動作進行子采樣,并計算它們之間的距離。 重復此過程十次,并繪制平均值 ± 1個標準差。越接近人與人之間的基線越好。均勻隨機動作的距離為5.3。所有模型都通過訓練得到改進,并且可以通過增加動作損失的權重來進一步改進。 圖a:三種WHAM變體的多樣性,通過與人類動作的Wasserstein距離來衡量。 在下圖b中,看到行為多樣性(玩家角色在生成位置附近盤旋與直接前往 Jumppad)和視覺多樣性(玩家角色安裝的懸浮滑板具有不同的皮膚)的示例。 圖b:使用相同起始上下文生成的1.6B WHAM的三個生成示例。 持久性下列視頻展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。 首先,取自原始游戲數(shù)據(jù)的一張視覺圖像,然后將另一個角色的圖像編輯到這張圖像中。 生成的游戲序列展示了該角色是如何被融入到生成的游戲序列中的。 開源資源 與此同時,為了幫助其他研究人員,研究團隊決定將開源 Muse 的權重、樣本數(shù)據(jù),并提供WHAM Demonstrator可執(zhí)行文件——這是一個概念原型,提供了一個可視化界面,用于與 WHAM 模型進行交互,并支持多種方式的模型提示。 項目鏈接:https://huggingface.co/microsoft/wham 像Muse這樣的模型,能夠學習到的游戲世界的豐富結構,更重要的是,新研究還展示了如何通過研究洞察來支持生成性AI模型在創(chuàng)意領域的應用。 參考資料: https://www.nature.com/articles/s41586-025-08600-3 https://www.microsoft.com/en-us/research/?p=1122837&preview=1&_ppp=a1d85840fc 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網友評論
聚超值•精選