你以為的宇樹機(jī)器人(H1): 實際上的宇樹機(jī)器人(G1):輕松來一個帥氣的科比投籃。 或者是像羅納爾多那樣華麗旋轉(zhuǎn)跳躍。 英偉達(dá)卡內(nèi)基梅隆大學(xué)一起,給宇樹機(jī)器人“一雪前恥”了(doge)。 只通過一個訓(xùn)練框架,機(jī)器人就能成為“學(xué)人精”,完成各種高難度敏捷動作。 從這樣(下左圖)變成這樣(下右圖)。 △左圖演我做運(yùn)動 要知道,由于仿真環(huán)境和真實物理世界之間的動力學(xué)系統(tǒng)存在偏差,讓機(jī)器人敏捷、協(xié)調(diào)地完成各種類人動作仍舊是一個巨大挑戰(zhàn)。 ASAP方法解決的正是這個問題,論文和代碼通通開源。 有人感慨,看來機(jī)器人時代距我們只有幾步之遙。 主創(chuàng)之一Jim Fan也表示:期待2030年“人形”奧運(yùn)會吧。 顯著提高機(jī)器人靈活性和全身協(xié)調(diào)性 簡單總結(jié)論文核心提出了ASAP(Aligning Simulation and Real Physics,對齊模擬與真實物理)。 這個框架主要分為兩個階段。 第一階段,使用經(jīng)過調(diào)整的人類運(yùn)動數(shù)據(jù)在模擬環(huán)境中預(yù)訓(xùn)練運(yùn)動跟蹤策略。 第二階段,將這些策略應(yīng)用到真實世界,并收集真實數(shù)據(jù)來訓(xùn)練一個“殘差”動作模型,用來彌補(bǔ)模型與真實世界物理動態(tài)之間的差距。 然后ASAP將預(yù)訓(xùn)練的策略與差異動作模型結(jié)合,并在模擬器中進(jìn)行微調(diào),以便更好地與真實世界物理動態(tài)對接。 具體步驟分為四步: 1、運(yùn)動跟蹤預(yù)訓(xùn)練與真實軌跡收集:通過將人類視頻中的運(yùn)動數(shù)據(jù)轉(zhuǎn)換為類人機(jī)器人動作,我們在模擬環(huán)境中預(yù)訓(xùn)練多個運(yùn)動跟蹤策略,并生成真實世界的運(yùn)動軌跡。 2、差異動作模型訓(xùn)練:基于真實世界的運(yùn)動數(shù)據(jù),我們訓(xùn)練一個“差異動作模型”,通過最小化模擬狀態(tài)(s_t)和真實世界狀態(tài)(s^r_t)之間的差距來進(jìn)行優(yōu)化。 3、策略微調(diào):我們固定差異動作模型,并將其集成到模擬器中,以調(diào)整模擬和真實物理之間的匹配,然后微調(diào)之前訓(xùn)練好的運(yùn)動跟蹤策略。 4、真實世界部署:最后,我們將微調(diào)過的策略直接應(yīng)用到現(xiàn)實世界中,不再需要差異動作模型。 研究人員在三個遷移場景中評估了ASAP的效果—— 使用的機(jī)器人是宇樹G1人形機(jī)器人。 如上是從IsaacGym到IsaacSim,G1踢足球的四種不同動作。值得一提的是,ASAP在多個動作中訓(xùn)練,不會過擬合特定示例。 從IsaacGym到IsaacSim,從IsaacSim到真實世界,ASAP微調(diào)前后G1運(yùn)動跟蹤表現(xiàn)如上。 在特定動作(詹姆斯消音步)上,可以看到使用ASAP后,機(jī)器人的穩(wěn)定性更好了。 由此可以看到,G1能夠完成橫款大跳等有難度的運(yùn)動動作,在姿態(tài)上也和人類更為貼近。 四位華人共同一作 最后來看下研究團(tuán)隊陣容。 18位作者中絕大多數(shù)都是華人面孔。 共同一作有四位,分別是何泰然、高嘉偉、Wenli Xiao和Yuanhang Zhang。 其中何泰然本科畢業(yè)于上海交通大學(xué),現(xiàn)在是英偉達(dá)GEAR的一員,之前還在MSRA實習(xí)過。 高嘉偉本科畢業(yè)于清華大學(xué),現(xiàn)在還在申請博士。 Wenli Xiao也是英偉達(dá)GEAR的一員。Yuanhang Zhang本科畢業(yè)于上海交通大學(xué),現(xiàn)在在CMU讀研。 One More Thing 雖然動作表現(xiàn)更擬人了,但是宇樹機(jī)器人還是沒逃過跳舞的命運(yùn)…… 請欣賞宇樹版APT。 (統(tǒng)治人類后又多了一段要刪除的黑歷史) 項目地址: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選