首頁(yè) > 科技要聞 > 科技> 正文

英偉達(dá)機(jī)器人跳APT舞驚艷全網(wǎng),科比C羅完美復(fù)刻!CMU 00后華人共同一作

新智元 整合編輯:太平洋科技 發(fā)布于:2025-02-09 00:15

機(jī)器人版科比、詹皇、C羅真的來(lái)了!

只見「科比」后仰跳投,在賽場(chǎng)上大殺四方。

「C羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動(dòng)作。

以上這些還只是開胃菜,這款人形機(jī)器人還會(huì)側(cè)跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動(dòng)作。

更驚艷的是,它還會(huì)跳APT舞,非常嗨皮。

比起波士頓動(dòng)力Altas,如今人形機(jī)器人早已進(jìn)化到人們難以想象的樣子。正如Figure創(chuàng)始人所言,人形機(jī)器人iPhone時(shí)刻即將到來(lái)。

那么,能夠成為「機(jī)器人界的科比」,究竟是用了什么魔法?

來(lái)自CMU和英偉達(dá)的華人研究團(tuán)隊(duì)重磅提出ASAP,一個(gè)「real2sim2real」模型,能讓人形機(jī)器人掌握非常流暢且動(dòng)感的全身控制動(dòng)作。

項(xiàng)目主頁(yè):https://agile.human2humanoid.com/

論文地址:https://arxiv.org/abs/2502.01143

開源項(xiàng)目:https://github.com/LeCAR-Lab/ASAP

它包含了兩大階段——預(yù)訓(xùn)練和后訓(xùn)練。

在第一個(gè)階段中,通過(guò)重定向的人體數(shù)據(jù),在仿真環(huán)境中預(yù)訓(xùn)練運(yùn)動(dòng)跟蹤策略。

在第二階段,將這些策略部署到現(xiàn)實(shí)世界,并收集真實(shí)世界數(shù)據(jù),訓(xùn)練一個(gè)delta動(dòng)作模型,來(lái)彌補(bǔ)動(dòng)力學(xué)差異。

然后,ASAP把這個(gè)delta動(dòng)作模型集成到仿真器中,對(duì)預(yù)訓(xùn)練策略進(jìn)行微調(diào),讓它和現(xiàn)實(shí)世界的動(dòng)力學(xué)更匹配。

英偉達(dá)高級(jí)研究科學(xué)家Jim Fan激動(dòng)地表示,我們通過(guò)RL讓人形機(jī)器人成功模仿C羅、詹姆斯和科比!

這些神經(jīng)網(wǎng)絡(luò)模型,正在英偉達(dá)GEAR實(shí)驗(yàn)室的真實(shí)硬件平臺(tái)上運(yùn)行。

在網(wǎng)上看到的多數(shù)機(jī)器人演示視頻都是經(jīng)過(guò)加速處理的,而我們特意「放慢動(dòng)作速度」,讓你能清晰觀賞每個(gè)流暢的動(dòng)作細(xì)節(jié)。

我們提出的ASAP模型采用了「真實(shí)→仿真→真實(shí)」方法,成功實(shí)現(xiàn)了人形機(jī)器人全身控制所需的超平滑動(dòng)態(tài)運(yùn)動(dòng)。

我們首先在仿真環(huán)境對(duì)機(jī)器人進(jìn)行預(yù)訓(xùn)練,但面臨眾所周知的仿真與現(xiàn)實(shí)差距:人工設(shè)計(jì)的物理方程難以準(zhǔn)確模擬真實(shí)世界的動(dòng)力學(xué)特性。

我們的解決方案簡(jiǎn)明有效:將預(yù)訓(xùn)練策略部署到實(shí)體機(jī)器人采集數(shù)據(jù),隨后在仿真環(huán)境回放動(dòng)作記錄。雖然回放過(guò)程必然產(chǎn)生偏差,但這些誤差恰恰成為修正物理差異的關(guān)鍵數(shù)據(jù)源。通過(guò)額外神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)差異參數(shù),本質(zhì)上是對(duì)傳統(tǒng)物理引擎進(jìn)行「動(dòng)態(tài)校準(zhǔn)」,使機(jī)器人能依托GPU的并行計(jì)算能力,在仿真環(huán)境中獲得近乎真實(shí)的大規(guī)模訓(xùn)練體驗(yàn)。

未來(lái)屬于混合仿真時(shí)代:既繼承經(jīng)典仿真引擎數(shù)十年錘煉的精準(zhǔn)優(yōu)勢(shì),又融合現(xiàn)代神經(jīng)網(wǎng)絡(luò)捕捉復(fù)雜現(xiàn)實(shí)世界的超凡能力,實(shí)現(xiàn)兩者的協(xié)同進(jìn)化。

一直以來(lái),sim2real是實(shí)現(xiàn)空間與具身智能的主要路徑之一,被廣泛應(yīng)用在機(jī)器人仿真評(píng)估當(dāng)中。

而real2sim2real直接打破了繁瑣的動(dòng)作微調(diào)的難題,彌合sim2real的差距,讓機(jī)器人能夠模仿各種類人的動(dòng)作。

Jim Fan對(duì)此暢想道,2030年的人形機(jī)器人奧運(yùn)會(huì)一定會(huì)是一場(chǎng)盛宴!

有網(wǎng)友期待地表示,真想看看它們打拳擊的表現(xiàn)。

ASAP,機(jī)器人奧運(yùn)會(huì)不遠(yuǎn)了

由于仿真環(huán)境和現(xiàn)實(shí)世界的動(dòng)力學(xué)差異,人形機(jī)器人想實(shí)現(xiàn)敏捷又協(xié)調(diào)的全身運(yùn)動(dòng)仍是巨大的挑戰(zhàn)。

現(xiàn)有方法,如系統(tǒng)識(shí)別(SysID)和域隨機(jī)化(DR)通常要花大量時(shí)間調(diào)整參數(shù),或者生成的策略過(guò)于保守,動(dòng)作不夠敏捷。

本文提出了ASAP(Aligning Simulation and Real Physics)是一個(gè)兩階段框架,旨在解決動(dòng)力學(xué)不匹配問(wèn)題,實(shí)現(xiàn)敏捷的人形機(jī)器人全身動(dòng)作。

ASAP實(shí)現(xiàn)了許多以前很難做到的高難度動(dòng)作,展現(xiàn)出delta動(dòng)作學(xué)習(xí)在縮小仿真與現(xiàn)實(shí)動(dòng)力學(xué)差距方面的潛力。

ASAP為「sim-to-real」提供了一個(gè)很有前景的方案,為開發(fā)更靈活、更敏捷的人形機(jī)器人指明了方向。

ASAP具體步驟如下:

運(yùn)動(dòng)跟蹤預(yù)訓(xùn)練與真實(shí)軌跡收集:先從真人視頻中提取動(dòng)作并重定向到機(jī)器人上,預(yù)訓(xùn)練多個(gè)運(yùn)動(dòng)跟蹤策略,生成真實(shí)世界的運(yùn)動(dòng)軌跡。

Delta動(dòng)作模型訓(xùn)練:基于真實(shí)世界軌跡數(shù)據(jù),訓(xùn)練Delta動(dòng)作模型,縮小仿真狀態(tài)與真實(shí)世界狀態(tài)之間的差異。

策略微調(diào):Delta動(dòng)作模型訓(xùn)練完成后,將其集成到仿真器中,使仿真器能匹配真實(shí)世界的物理特性,隨后對(duì)之前預(yù)訓(xùn)練的運(yùn)動(dòng)跟蹤策略進(jìn)行微調(diào)。

真實(shí)世界部署:最后,直接在真實(shí)環(huán)境中部署微調(diào)后的策略,此時(shí)就不再需要Delta動(dòng)作模型了 。

兩階段:預(yù)訓(xùn)練+后訓(xùn)練

ASAP包含兩個(gè)階段:預(yù)訓(xùn)練階段和后訓(xùn)練階段。

在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)將真人運(yùn)動(dòng)視頻作為數(shù)據(jù)來(lái)源,在仿真環(huán)境中訓(xùn)練動(dòng)作跟蹤策略。

先將這些運(yùn)動(dòng)數(shù)據(jù)重定向到人形機(jī)器人上,然后訓(xùn)練一個(gè)基于相位條件的運(yùn)動(dòng)跟蹤策略,讓機(jī)器人模仿重定向后的動(dòng)作。然而,如果將這一策略部署到真實(shí)硬件上,由于動(dòng)力學(xué)差異,機(jī)器人的性能會(huì)下降。

為解決這一問(wèn)題,在后訓(xùn)練階段需要收集真實(shí)世界的運(yùn)行數(shù)據(jù),包括本體感知狀態(tài),以及由動(dòng)作捕捉系統(tǒng)記錄的位置信息。隨后,在仿真環(huán)境中回放這些數(shù)據(jù),動(dòng)力學(xué)差異就會(huì)以跟蹤誤差的形式表現(xiàn)出來(lái)。

接著,訓(xùn)練一個(gè)delta動(dòng)作模型,通過(guò)縮小真實(shí)世界和仿真狀態(tài)的差異,學(xué)習(xí)如何補(bǔ)償這些偏差。這個(gè)模型實(shí)際上是動(dòng)力學(xué)誤差的修正項(xiàng)。

最后,研究者借助delta動(dòng)作模型對(duì)預(yù)訓(xùn)練的策略進(jìn)行微調(diào),使其能夠更好地適應(yīng)真實(shí)世界的物理環(huán)境,從而實(shí)現(xiàn)更穩(wěn)定、敏捷的運(yùn)動(dòng)控制。

總的來(lái)說(shuō),這項(xiàng)研究的貢獻(xiàn)如下:

提出ASAP框架:運(yùn)用強(qiáng)化學(xué)習(xí)和真實(shí)世界的數(shù)據(jù)來(lái)訓(xùn)練delta動(dòng)作模型,有效縮小了仿真與現(xiàn)實(shí)之間的差距。

成功在真實(shí)環(huán)境部署全身控制策略,實(shí)現(xiàn)了不少以前人形機(jī)器人難以做到的動(dòng)作。

仿真和現(xiàn)實(shí)環(huán)境中的大量實(shí)驗(yàn)表明,ASAP能夠有效減少動(dòng)力學(xué)不匹配問(wèn)題,讓機(jī)器人做出高度敏捷的動(dòng)作,同時(shí)顯著降低運(yùn)動(dòng)跟蹤誤差。

為了促進(jìn)不同仿真器之間的平滑遷移,研究者開發(fā)并開源了一個(gè)多仿真器訓(xùn)練與評(píng)估代碼庫(kù),以加快后續(xù)研究。

評(píng)估

評(píng)估中,研究人員針對(duì)三種策略遷移進(jìn)行了廣泛的實(shí)驗(yàn)研究:IsaacGym到IsaacSim、IsaacGym到Genesis,以及 IsaacGym到真實(shí)世界的Unitree G1人形機(jī)器人。

接下來(lái),他們一共回答了三個(gè)問(wèn)題。

Q1:ASAP能否優(yōu)于其他基線方法,以補(bǔ)償動(dòng)力學(xué)失配問(wèn)題?

表III中的定量結(jié)果表明,ASAP在所有重放動(dòng)作長(zhǎng)度上都持續(xù)優(yōu)于OpenLoop基線,實(shí)現(xiàn)了更低的Eg-mpjpe和Empjpe值,這表明與測(cè)試環(huán)境軌跡的對(duì)齊程度更好。

雖然SysID有助于解決短期動(dòng)力學(xué)差距,但由于累積誤差的增加,它在長(zhǎng)期場(chǎng)景中表現(xiàn)不佳。

DeltaDynamics在長(zhǎng)期場(chǎng)景中相比SysID和OpenLoop有所改進(jìn),但存在過(guò)擬合問(wèn)題,這從下圖5中隨時(shí)間放大的級(jí)聯(lián)誤差可以看出。

然而,ASAP通過(guò)學(xué)習(xí)有效彌合動(dòng)力學(xué)差距的殘差策略,展示出了優(yōu)越的泛化能力。

同時(shí),作者在Genesis模擬器中也觀察到了類似的趨勢(shì),ASAP相對(duì)于基線在所有指標(biāo)上都取得了顯著改進(jìn)。

這些結(jié)果強(qiáng)調(diào)了學(xué)習(xí)增量動(dòng)作模型,在減少物理差距和改善開環(huán)重放(open-loop replay)性能方面的有效性。

Q2:ASAP能否在策略微調(diào)方面,優(yōu)于SysID和Delta Dynamics?

為了解決問(wèn)題2,研究人員評(píng)估了不同方法在微調(diào)強(qiáng)化學(xué)習(xí)策略,以提高測(cè)試環(huán)境性能方面的有效性。

如表IV所示,ASAP在兩個(gè)模擬器(IsaacSim和Genesis)的所有難度級(jí)別(簡(jiǎn)單、中等和困難)中都持續(xù)優(yōu)于Vanilla、SysID和DeltaDynamics等基線方法。

對(duì)于簡(jiǎn)單級(jí)別,ASAP在IsaacSim(Eg-mpjpe=106和Empjpe=44.3)和Genesis(Eg-mpjpe=125和Empjpe=73.5)中都達(dá)到了最低的Eg-mpjpe和Empjpe,同時(shí)具有最小的加速度(Eacc)和速度(Evel)誤差。

在更具挑戰(zhàn)性的任務(wù)中,如困難級(jí)別,最新方法的表現(xiàn)依舊出色,顯著降低了運(yùn)動(dòng)跟蹤誤差。

例如,在Genesis中,它實(shí)現(xiàn)了Eg-mpjpe=129和Empjpe=77.0,大幅優(yōu)于SysID和DeltaDynamics。

此外,ASAP在兩個(gè)模擬器中始終保持100%的成功率,而DeltaDynamics在更困難的環(huán)境中的成功率較低。

為了進(jìn)一步說(shuō)明ASAP的優(yōu)勢(shì),研究人員在圖7中提供了逐步可視化比較,對(duì)比了ASAP與未經(jīng)微調(diào)直接部署的強(qiáng)化學(xué)習(xí)策略。

這些可視化結(jié)果表明,ASAP成功適應(yīng)了新的動(dòng)力學(xué)環(huán)境并保持穩(wěn)定的跟蹤性能,而基線方法則隨時(shí)間累積誤差,導(dǎo)致跟蹤能力下降。

這些結(jié)果突顯了,新方法在解決仿真到現(xiàn)實(shí)差距方面的魯棒性和適應(yīng)性,同時(shí)防止過(guò)擬合和利用。

研究結(jié)果驗(yàn)證了ASAP是一個(gè)有效的范式,可以提高閉環(huán)性能并確保在復(fù)雜的現(xiàn)實(shí)場(chǎng)景中可靠部署。

Q3:ASAP是否適用于sim2real遷移?

針對(duì)第三個(gè)問(wèn)題,研究人員在真實(shí)的Unitree G1機(jī)器人上驗(yàn)證了ASAP的有效性。

由于傳感器輸入噪聲、機(jī)器人建模不準(zhǔn)確和執(zhí)行器差異等因素,仿真到現(xiàn)實(shí)的差距比模擬器之間的差異更為顯著。

為了評(píng)估ASAP在解決這些差距方面的有效性,他們?cè)趦蓚(gè)代表性的運(yùn)動(dòng)跟蹤任務(wù)(踢腿和「Silencer」)中比較了ASAP與Vanilla基線的閉環(huán)性能,這些任務(wù)中存在明顯的仿真到現(xiàn)實(shí)差距。

為了展示所學(xué)習(xí)的增量動(dòng)作模型對(duì)分布外運(yùn)動(dòng)的泛化能力,作者還對(duì)勒布朗·詹姆斯「Silencer」動(dòng)作進(jìn)行了策略微調(diào),如圖1和圖8所示。

結(jié)果表明,ASAP在分布內(nèi)和分布外的人形機(jī)器人運(yùn)動(dòng)跟蹤任務(wù)中都優(yōu)于基線方法,在所有關(guān)鍵指標(biāo)(Eg-mpjpe、Empjpe、Eacc和Evel)上都實(shí)現(xiàn)了顯著的跟蹤誤差減少。

這些發(fā)現(xiàn)突顯了ASAP在改進(jìn)敏捷人形機(jī)器人運(yùn)動(dòng)跟蹤的仿真到現(xiàn)實(shí)遷移方面的有效性。

再接下來(lái),研究人員就三個(gè)核心問(wèn)題來(lái)全面分析ASAP。

首先是,如何最好地訓(xùn)練ASAP的增量動(dòng)作模型?

具體來(lái)說(shuō),他們研究了數(shù)據(jù)集大小、訓(xùn)練時(shí)域和動(dòng)作范數(shù)權(quán)重的影響,評(píng)估它們對(duì)開環(huán)和閉環(huán)性能的影響,如下圖10所示,給出了所有因素下的實(shí)驗(yàn)結(jié)果。

其次,如何最好地使用ASAP的增量動(dòng)作模型?

如下圖11所示,強(qiáng)化學(xué)習(xí)微調(diào)在部署過(guò)程中實(shí)現(xiàn)了最低的跟蹤誤差,優(yōu)于免訓(xùn)練方法。

兩種無(wú)強(qiáng)化學(xué)習(xí)的方法都具有短視性,并且存在分布外問(wèn)題,這限制了它們?cè)诂F(xiàn)實(shí)世界中的適用性。

Q6:ASAP為什么有效以及如何發(fā)揮作用?

研究人員驗(yàn)證了ASAP優(yōu)于基于隨機(jī)動(dòng)作噪聲的微調(diào),并可視化了Delta動(dòng)作模型在各個(gè)關(guān)節(jié)上的平均輸出幅度。

調(diào)整噪聲強(qiáng)度參數(shù),能降低全局跟蹤誤差(MPJPE)。

圖13可視化了在IsaacSim訓(xùn)練得到的Delta動(dòng)作模型的平均輸出,結(jié)果揭示了不同關(guān)節(jié)的動(dòng)力學(xué)誤差并不均勻。踝關(guān)節(jié)和膝關(guān)節(jié)的誤差最顯著。

作者介紹

Tairan He(何泰然)

共同一作Tairan He是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所的二年級(jí)博士生,由Guanya Shi(石冠亞)和Changliu Liu(劉暢流)。同時(shí),也是NVIDIA GEAR小組的成員,該小組由Jim Fan和Yuke Zhu領(lǐng)導(dǎo)。

此前,他在上海交通大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,導(dǎo)師是Weinan Zhang(張偉楠)。并曾在微軟亞洲研究院工作過(guò)一段時(shí)間。

他的研究目標(biāo)是打造能改善每個(gè)人生活質(zhì)量的機(jī)器人;重點(diǎn)是如何為機(jī)器人構(gòu)建數(shù)據(jù)飛輪,使其獲得媲美人類的運(yùn)動(dòng)能力和語(yǔ)義理解能力,以及如何讓機(jī)器人既能安全可靠,又能靈活適應(yīng)各種環(huán)境,具備通用性和敏捷性來(lái)完成各類實(shí)用任務(wù);采用的是隨計(jì)算能力和數(shù)據(jù)規(guī)模擴(kuò)展的機(jī)器學(xué)習(xí)方法。

Jiawei Gao(高嘉偉)

共同一作Jiawei Gao目前就讀于CMU。他曾獲得了清華學(xué)士學(xué)位,曾與Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作,參與了強(qiáng)化學(xué)習(xí)算法及其在機(jī)器人領(lǐng)域應(yīng)用的相關(guān)項(xiàng)目。

他一直在思考人類智能的起源,以及如何構(gòu)建能夠像人類一樣學(xué)習(xí)和推理的機(jī)器。為此,他希望致力于研究通用決策算法,使機(jī)器能夠在復(fù)雜的物理世界中進(jìn)行交互、學(xué)習(xí)和適應(yīng)。

除了研究興趣外,Jiawei Gao也熱衷于歷史、哲學(xué)和社會(huì)學(xué)。個(gè)人學(xué)習(xí)鋼琴已有十年,是西方古典音樂(lè)的忠實(shí)愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時(shí),他也喜歡旅行和攝影。

Wenli Xiao

共同一作Wenli Xiao是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導(dǎo)。

他目前在NVIDIA GEAR實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,與Jim Fan博士和Yuke Zhu教授一起研究人形機(jī)器人基礎(chǔ)模型。

此前,他在香港中文大學(xué)(深圳)獲得電子信息工程專業(yè)學(xué)士學(xué)位。

Yuanhang Zhang(張遠(yuǎn)航)

共同一作Yuanhang Zhang目前是CMU機(jī)器人研究所(CMU RI)的碩士生,目前在LeCAR Lab研究,導(dǎo)師是Guanya Shi教授。

此前,他曾在上海交通大學(xué)獲得了工學(xué)學(xué)士學(xué)位,期間Hesheng Wang教授Danping Zou教授指導(dǎo)。

本科期間,他擔(dān)任SJTU VEX 機(jī)器人俱樂(lè)部的編程組負(fù)責(zé)人,并參與了無(wú)人車(UV)和無(wú)人機(jī)(UAV)相關(guān)的各類競(jìng)賽。

他的研究興趣包括機(jī)器人學(xué)、機(jī)器學(xué)習(xí)和最優(yōu)控制。目前,他本人的研究方向是人形機(jī)器人和空中操控。

參考資料:

https://x.com/DrJimFan/status/1886824152272920642

https://agile.human2humanoid.com/

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部