上周五,稚暉君不是在微博淺淺預(yù)告了一波 “ 好東西 ” 嘛。 這不剛周一,智元機器人馬上就把熱乎的抬上來了。 機器人給你端茶倒水、煮咖啡。 把面包放進(jìn)面包機、給烤好的面包涂抹果醬,再把面包端到你面前,整套動作一氣呵成。 還能在公司當(dāng)前臺,充當(dāng)一把迎賓。 就是吧,見多了各種人形機器人的視頻之后,世超對這種程度的展示,已經(jīng)見怪不怪了。 所以單單這些演示,還不足以能稱之為好東西。智元機器人這次發(fā)布的基座大模型 GO-1 ( Genie Operator-1 ),才是真正值得拿出來嘮一嘮的好東西。 這么說吧,這個基座大模型,讓困擾了人形機器人許久的數(shù)據(jù)匱乏、泛化能力差的問題,又有了更高效的解法。 大伙兒可能也知道,現(xiàn)階段的人形機器人之所以看起來很拉胯,很重要的原因之一,就是缺乏高質(zhì)量的數(shù)據(jù)。 而獲得這些數(shù)據(jù)的成本,同樣也非常高。 為了解決這個行業(yè)難題,去年底,智元機器人就已經(jīng)開源了百萬真機數(shù)據(jù)集 AgiBot World 。 AgiBot World 的數(shù)據(jù)都來自于智元的數(shù)據(jù)采集工廠,里面搭了不少模擬真實場景,數(shù)據(jù)采集師每天的任務(wù),就是教機器人怎么執(zhí)行某項任務(wù)。 根據(jù)官方的說法, AgiBot World 涵蓋了超過 100 萬條軌跡、 217 個任務(wù)和 106 個場景。但即便是這個量級的數(shù)據(jù),對于機器人來說仍然是杯水車薪,而且,也沒辦法解決機器人泛化能力差的問題。 所以,智元機器人才在 AgiBot World 的基礎(chǔ)上,又提出了新的 ViLLA ( Vision-Language-Latent-Action )架構(gòu)。這個架構(gòu),就是 GO-1 大模型的核心。 世超去翻了翻智元機器人發(fā)布的論文,簡單用大白話給大伙兒介紹一下,這 ViLLA 到底牛在哪。 首先在數(shù)據(jù)上, ViLLA 架構(gòu)就沒那么挑。 根據(jù)官方的介紹, ViLLA 架構(gòu)是由 VLM ( 多模態(tài)大模型 ) 和 MoE ( 混合專家 ) 組成。 傳統(tǒng)的 VLA 架構(gòu),結(jié)合了 VLM 和端到端的特點,所以這種架構(gòu)需要大量標(biāo)注過的真機數(shù)據(jù)來訓(xùn)練,又費錢又費力,而且數(shù)據(jù)量還少。 ViLLA 雖說本質(zhì)上還是 VLA 架構(gòu),但它強就強在,互聯(lián)網(wǎng)上的那些人類視頻數(shù)據(jù)它也能用。。。 也就是說,基于 GO-1 大模型的機器人,理論上只要 “ 看過 ” 視頻,就能學(xué)會相對應(yīng)的動作。 至于其中的原因,世超覺著很大概率要歸功于 “ 潛在動作 ” ( Latent Actions )。 咱還是拿 VLA 作為對比, VLA ( Vision Language Action )架構(gòu),在執(zhí)行任務(wù)的時候是這么個流程:輸入圖像和語言指令,機器人再根據(jù)這些信息,生成并執(zhí)行指定動作?此坪唵未直,但稍微遇到點復(fù)雜的任務(wù),機器人就會變成看得懂也聽得懂,但是做不好甚至于做不到。 舉個例子,咱們讓機器人( VLA 架構(gòu) )做一杯咖啡,機器人能看到咖啡機在哪,也能聽得懂我要它做咖啡。 但是, VLA 架構(gòu)下的機器人要直接從 “看到了咖啡機 ” “ 聽懂了要做咖啡 ” ,一下子想清楚所有步驟,然后馬上動手,中間沒有思考的過程。 DeepMind 的 VLA 模型 RT-2 問題就在于,泡咖啡其實中間有很多小步驟,比如找到咖啡豆,打開咖啡機,按下開關(guān),就算是人來了,都得想一下要先干嘛再干嘛。 更何況是 “ 一根筋 ” 的 VLA 架構(gòu),讓它處理中間這些復(fù)雜的步驟,多少有點為難它了。 但 ViLLA 架構(gòu),引入了兩位 “ 專家 ” :隱式規(guī)劃器( Latent Planner )和動作專家( Action Expert )。 這兩位專家不僅能讓機器人想得更多,而且能做的事情也變多了。 專有名詞看不懂沒關(guān)系,咱繼續(xù)舉例子。 假設(shè)現(xiàn)在輸入一段視頻,是一個人拿起杯子喝水。 VLM 多模態(tài)大模型會先把視頻處理了,接著潛在動作模型( Latent Action Model ),會把那些復(fù)雜的視頻動作,拆解成幾個關(guān)鍵步驟,比如 “ 抓取 ” 、 “ 移動 ” 和 “ 喝水 ” 。 但光到這一步還不夠,隱式規(guī)劃器( Latent Planner )要繼續(xù)把關(guān)鍵步驟進(jìn)行加工,生成更詳細(xì)的步驟: “ 抓取(杯子),移動(杯子到嘴邊),飲用 ” 。最后,動作專家( Action Expert )出場,把這些步驟全都轉(zhuǎn)換成機器人能理解的信號,讓機器人執(zhí)行動作。 所以 ViLLA 架構(gòu)在執(zhí)行復(fù)雜任務(wù)時的表現(xiàn),要比 VLA 更出色,也更能適應(yīng)當(dāng)下人形機器人的訓(xùn)練需求。 而且世超還注意到, ViLLA 架構(gòu)并不依賴具體的硬件。 換句話說, VLA 架構(gòu)是根據(jù)特定的機器人本體、特定場景,來生成動作信號,而 ViLLA 架構(gòu)生成的是 “ 抓取 ” “ 移動 ” 這種通用動作標(biāo)記,任務(wù)泛化能力更好,也更容易遷移到其他機器人平臺。 給大伙兒一句話總結(jié)就是,GO-1 讓機器人能從互聯(lián)網(wǎng)的人類視頻數(shù)據(jù)中學(xué)習(xí),并且多了拆解任務(wù)的能力,提高復(fù)雜任務(wù)成功率的同時,泛化能力也變強了。如果 GO-1 的效果真的像官方描述的那樣,那么這對于整個人形機器人行業(yè)來說,或許都是一個好消息。 數(shù)據(jù)不愁,還不挑平臺,這機器人訓(xùn)練起來可就順手多了。就是不知道這個 GO-1 ,智元會不會選擇繼續(xù)開源。 聽說,智元機器人明天還要放出個驚喜,咱們等一手好吧。 本文來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選