要說(shuō)今年過(guò)年最出風(fēng)頭的科技企業(yè),那除了整天服務(wù)器繁忙的 DeepSeek ,估計(jì)就得數(shù)宇樹科技了。 就是春晚上拿機(jī)器人扭秧歌的那個(gè)。 看著挺牛逼是吧,結(jié)果年才過(guò)了沒(méi)幾天,大正月的他們又整出個(gè)新活,英偉達(dá)、卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)用宇樹 G1 研究出來(lái)一個(gè)項(xiàng)目,拿機(jī)器人復(fù)刻科比。。。 看看這動(dòng)作,這后仰跳投,是不是還挺有那味的? 別說(shuō)你是詹蜜,經(jīng)典的霸王步人家也學(xué)了。 有差友可能會(huì)問(wèn),我是年輕人,不懂規(guī)矩,不看球也不看 nba ,我咋能知道這機(jī)器人到底什么水平呢? 也別慌,各位熟知的 “NBA 大使 ” 的經(jīng)典鐵山靠,人家也能學(xué)。。。 有一說(shuō)一,給機(jī)器人編程早就不是啥新鮮事了,你坤哥這種招牌動(dòng)作,粉絲內(nèi)部甚至還有用簡(jiǎn)單機(jī)械機(jī)構(gòu)就能實(shí)現(xiàn)的。所以宇樹這次要是只能復(fù)刻這種的話,那還算不上啥科技狠活。 那么這波這個(gè)展示真正牛波兒的地方在哪呢,大過(guò)年的人家總不會(huì)就是為了唱跳 rap 打籃球吧。 于是哥們?nèi)シ朔思业恼撐模虐l(fā)現(xiàn)這里面還真暗藏玄機(jī),人家這一手看似是全明星模仿,實(shí)際上是機(jī)器人訓(xùn)練技術(shù)的一個(gè)重大突破。 至于咱為啥這么說(shuō),那就得先聊聊現(xiàn)在的機(jī)器人是咋訓(xùn)練的。 眾所周知,機(jī)器人這玩意甭管外表多酷炫,骨子里還是算法在跑。 所以你要想讓一個(gè)機(jī)器人學(xué)會(huì)打籃球的話,最簡(jiǎn)單的辦法就是先測(cè)量出機(jī)器人的各方面數(shù)據(jù),比如關(guān)節(jié)扭矩、連桿質(zhì)量分布啥的;再拿這些數(shù)據(jù)去搞個(gè)動(dòng)力學(xué)建模,就是在電腦里模擬機(jī)器人的運(yùn)動(dòng)。 不過(guò)這塊兒就得人工一點(diǎn)點(diǎn)調(diào)整各種參數(shù),像機(jī)器人的手臂力量、投籃角度等等。這套 “ 私人訂制 ” 的玩法,在專業(yè)領(lǐng)域有個(gè)更唬人的名字,叫系統(tǒng)識(shí)別 ( System Identification , 簡(jiǎn)稱SysID ) 。 但問(wèn)題在于,要一點(diǎn)點(diǎn)把各種參數(shù)都調(diào)到完美,這是個(gè)特別肝的活兒,需要大量時(shí)間,還得是專業(yè)人士才能搞; 而且就算你在模擬器里調(diào)好了,現(xiàn)實(shí)里也不一定就是那么回事兒。就好比你在 NBA 2K 里練出一代喬丹,但上了真球場(chǎng),可能連球都運(yùn)不利索。 虛擬世界再真,跟現(xiàn)實(shí)的參數(shù)維度也不是一個(gè)量級(jí)的,像什么籃球的手感、彈性,空氣阻力、風(fēng)向風(fēng)速,甚至其他球員的肘擊,模型都沒(méi)法面面俱到。 所以這種傳統(tǒng) SysID 搞出來(lái)的機(jī)器人,在實(shí)驗(yàn)室里看著花拳繡腿,一到真實(shí)場(chǎng)景,就像我愛(ài)發(fā)明里面的人機(jī)對(duì)抗一樣,要開始拉了。 既然真實(shí)環(huán)境這么復(fù)雜,有的科學(xué)家就開始反向操作了:與其死磕完美模型,不如直接把機(jī)器人丟進(jìn)各種 “ 奇葩 ” 環(huán)境里去練級(jí)。 比如有時(shí)候地面很滑,有時(shí)候籃球很重,有時(shí)候籃筐很高。。。反正就讓機(jī)器人在各種極端條件下自己迭代,找到最優(yōu)策略。 這種騷操作,有個(gè)聽(tīng)起來(lái)玄乎的名字,叫域隨機(jī)化 ( Domain Randomization , 簡(jiǎn)稱DR ) 聽(tīng)著好像有點(diǎn)道理,可這也有問(wèn)題。這種方法就跟 “ 盲人摸象 ” 似的,機(jī)器人就算見(jiàn)識(shí)了各種情況,但要總結(jié)出真正的規(guī)律還是很難,而且很容易 “ 用力過(guò)猛 ” 。 再加上為了適應(yīng)各種極端情況,機(jī)器人就得求穩(wěn),于是動(dòng)作就很保守、不靈活,比如運(yùn)球的時(shí)候總是小心翼翼的,投籃的時(shí)候不敢放開手腳。 一句話,這些傳統(tǒng)方法訓(xùn)練機(jī)器人,要么全靠建模調(diào)參,費(fèi)時(shí)費(fèi)力;要么動(dòng)作僵硬緩慢,沒(méi)法完成復(fù)雜動(dòng)作,純純擺件。 可要想讓機(jī)器人真的參與到生活里,不說(shuō)代替咱們打工,起碼像人一樣的靈活性總得有吧,要是多少都沾點(diǎn)人工智障,那不白期待了嘛。 那么宇樹這波到底是咋做到讓機(jī)器人這么靈敏的呢,重點(diǎn)來(lái)了。 論文里說(shuō),他們用了一個(gè)叫ASAP ( Aligning Simulation and Real Physics ,對(duì)齊模擬與真實(shí)物理框架 )的東西。 按文章里的說(shuō)法,這個(gè)技術(shù)要先 “ 利用這些經(jīng)過(guò)處理的人類運(yùn)動(dòng)數(shù)據(jù)在仿真環(huán)境中訓(xùn)練一個(gè)基于相位的運(yùn)動(dòng)跟蹤策略 ” ,再 “ 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)殘差動(dòng)作模型補(bǔ)償仿真與現(xiàn)實(shí)之間的差異 ” 。 聽(tīng)起來(lái)很繞,但你先別急,這玩意的實(shí)際思路還挺簡(jiǎn)明的,其實(shí)就是把咱上面說(shuō)的傳統(tǒng)功夫,用化勁整合起來(lái),搞了個(gè)機(jī)器人訓(xùn)練速成班。 簡(jiǎn)單來(lái)說(shuō),這個(gè)速成班分兩步走,咱先說(shuō)第一步:就是給機(jī)器人打基礎(chǔ),搞模擬預(yù)習(xí)。 而要搞預(yù)習(xí),你得有教材。這里就是要先下載一堆視頻,打籃球的也行,其他視頻也行,重點(diǎn)是視頻里得有人; 然后通過(guò)一個(gè)叫 TRAM 的運(yùn)動(dòng)重建工具,把視頻里面的人類動(dòng)作都扒出來(lái),轉(zhuǎn)換成三維運(yùn)動(dòng)軌跡,這樣機(jī)器才能看得懂這些動(dòng)作;完事再把這些動(dòng)作放到一個(gè)虛擬環(huán)境里來(lái)訓(xùn)練,目的是讓機(jī)器人學(xué)會(huì)精確模仿視頻里的動(dòng)作數(shù)據(jù)。 拿打籃球這個(gè)動(dòng)作來(lái)說(shuō),你得先找一堆打球視頻,記錄下運(yùn)球、投籃的動(dòng)作,把這些動(dòng)作數(shù)據(jù)處理好,再把這些數(shù)據(jù)扔到模擬器里,讓機(jī)器人先在模擬器里云練球,相當(dāng)于先做好模擬再考試。 所以速成班的第二步就得真槍實(shí)彈的來(lái),三年模擬完了,是時(shí)候五年高考了。 雖然之前的數(shù)據(jù)已經(jīng)是從現(xiàn)實(shí)中提取的了,但等到機(jī)器人被拉到真球場(chǎng)上的時(shí)候,它就會(huì)發(fā)現(xiàn)云玩家還是差點(diǎn)意思,真實(shí)環(huán)境里的位置、速度、加速度、關(guān)節(jié)角度等數(shù)據(jù),跟仿真里還是有一定差別。 于是這時(shí)候工程師就會(huì)利用機(jī)器人身上的傳感器收集這些數(shù)據(jù),再把這些數(shù)據(jù)跟之前在虛擬環(huán)境里訓(xùn)練的數(shù)據(jù)對(duì)比,用強(qiáng)化學(xué)習(xí)搞一個(gè)誤差修正模型出來(lái),這個(gè)就是所謂的殘差( delta )動(dòng)作模型。 有了這個(gè)殘差動(dòng)作模型,這下機(jī)器人在模擬器里的運(yùn)動(dòng),就跟在現(xiàn)實(shí)里大差不差了,然后工程師再把當(dāng)中的少量參數(shù)微調(diào)一下,機(jī)器人就能做到跟視頻里人類運(yùn)球一樣敏捷流暢了。 但你要把這個(gè) ASAP 框架的兩步放一起看,就會(huì)發(fā)現(xiàn)這玩意搞的效果雖然看著挺牛逼的,比傳統(tǒng)方案練出來(lái)的機(jī)器人好多了,但思路其實(shí)跟咱上面說(shuō)的傳統(tǒng)訓(xùn)練思路差的沒(méi)那么大。 原理也很簡(jiǎn)單嘛,純建模訓(xùn)練不真實(shí)還費(fèi)時(shí)間,純現(xiàn)實(shí)訓(xùn)練動(dòng)作不靈活,那把這兩個(gè)方案結(jié)合起來(lái): 用現(xiàn)實(shí)數(shù)據(jù)去幫助建模,再把建模的成功放在現(xiàn)實(shí)里校正,虛實(shí)結(jié)合,不就兩難自解~ 實(shí)際上,這種用現(xiàn)實(shí)數(shù)據(jù)搞虛擬建模,再把在虛擬建模里完成的工程搬到現(xiàn)實(shí),其實(shí)也算是很英偉達(dá)的操作了。 之前他們就有一個(gè) Cosmos 平臺(tái),號(hào)稱是世界模型,目的就是像這次這樣把現(xiàn)實(shí)里的物理現(xiàn)象搬到電腦里去模擬,這樣就能大大節(jié)省工程師們的研發(fā)時(shí)間。 這玩意對(duì)機(jī)器人、 AI 、自動(dòng)駕駛啥的意義都挺大,畢竟這可就不用再像以前一樣戴著各種傳感器,花那么多時(shí)間慢慢搜集現(xiàn)實(shí)數(shù)據(jù)。 訓(xùn)練時(shí)長(zhǎng)大幅縮短,結(jié)果最后訓(xùn)練效果還更好了,這不妥妥的黑科技嘛。 哦對(duì)了,最后還有一個(gè)彩蛋:今天這篇論文的主要作者,英偉達(dá) GEAR 團(tuán)隊(duì)成員、現(xiàn)在在卡內(nèi)基梅隆大學(xué)留學(xué)的 B 站 up 主何泰然,他小時(shí)候的夢(mèng)想還真就是造一個(gè)電影《 鐵甲鋼拳 》( 設(shè)定是人類操控機(jī)器人打拳 )里的機(jī)器人。 對(duì)一個(gè)理工男來(lái)說(shuō),把兒時(shí)的夢(mèng)想變成現(xiàn)實(shí),我覺(jué)得這太酷了。 本文來(lái)源:差評(píng) |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。