首頁 > 科技要聞 > 科技> 正文

稚暉君搞了個“好東西”,網(wǎng)上的視頻也能拿來訓(xùn)練機器人了。

差評編輯部 整合編輯:太平洋科技 發(fā)布于:2025-03-11 14:58

上周五,稚暉君不是在微博淺淺預(yù)告了一波 “ 好東西 ” 嘛。

這不剛周一,智元機器人馬上就把熱乎的抬上來了。

機器人給你端茶倒水、煮咖啡。

把面包放進(jìn)面包機、給烤好的面包涂抹果醬,再把面包端到你面前,整套動作一氣呵成。

還能在公司當(dāng)前臺,充當(dāng)一把迎賓。

就是吧,見多了各種人形機器人的視頻之后,世超對這種程度的展示,已經(jīng)見怪不怪了。

所以單單這些演示,還不足以能稱之為好東西。智元機器人這次發(fā)布的基座大模型 GO-1 ( Genie Operator-1 ),才是真正值得拿出來嘮一嘮的好東西。

這么說吧,這個基座大模型,讓困擾了人形機器人許久的數(shù)據(jù)匱乏、泛化能力差的問題,又有了更高效的解法。

大伙兒可能也知道,現(xiàn)階段的人形機器人之所以看起來很拉胯,很重要的原因之一,就是缺乏高質(zhì)量的數(shù)據(jù)。

而獲得這些數(shù)據(jù)的成本,同樣也非常高。

為了解決這個行業(yè)難題,去年底,智元機器人就已經(jīng)開源了百萬真機數(shù)據(jù)集 AgiBot World 。

AgiBot World 的數(shù)據(jù)都來自于智元的數(shù)據(jù)采集工廠,里面搭了不少模擬真實場景,數(shù)據(jù)采集師每天的任務(wù),就是教機器人怎么執(zhí)行某項任務(wù)。

根據(jù)官方的說法, AgiBot World 涵蓋了超過 100 萬條軌跡、 217 個任務(wù)和 106 個場景。但即便是這個量級的數(shù)據(jù),對于機器人來說仍然是杯水車薪,而且,也沒辦法解決機器人泛化能力差的問題。

所以,智元機器人才在 AgiBot World 的基礎(chǔ)上,又提出了新的 ViLLA ( Vision-Language-Latent-Action )架構(gòu)。這個架構(gòu),就是 GO-1 大模型的核心。

世超去翻了翻智元機器人發(fā)布的論文,簡單用大白話給大伙兒介紹一下,這 ViLLA 到底牛在哪。

首先在數(shù)據(jù)上, ViLLA 架構(gòu)就沒那么挑。

根據(jù)官方的介紹, ViLLA 架構(gòu)是由 VLM ( 多模態(tài)大模型 ) 和 MoE ( 混合專家 ) 組成。

傳統(tǒng)的 VLA 架構(gòu),結(jié)合了 VLM 和端到端的特點,所以這種架構(gòu)需要大量標(biāo)注過的真機數(shù)據(jù)來訓(xùn)練,又費錢又費力,而且數(shù)據(jù)量還少。

ViLLA 雖說本質(zhì)上還是 VLA 架構(gòu),但它強就強在,互聯(lián)網(wǎng)上的那些人類視頻數(shù)據(jù)它也能用。。。

也就是說,基于 GO-1 大模型的機器人,理論上只要 “ 看過 ” 視頻,就能學(xué)會相對應(yīng)的動作。

至于其中的原因,世超覺著很大概率要歸功于 “ 潛在動作 ” ( Latent Actions )。

咱還是拿 VLA 作為對比, VLA ( Vision Language Action )架構(gòu),在執(zhí)行任務(wù)的時候是這么個流程:輸入圖像和語言指令,機器人再根據(jù)這些信息,生成并執(zhí)行指定動作?此坪唵未直,但稍微遇到點復(fù)雜的任務(wù),機器人就會變成看得懂也聽得懂,但是做不好甚至于做不到。

舉個例子,咱們讓機器人( VLA 架構(gòu) )做一杯咖啡,機器人能看到咖啡機在哪,也能聽得懂我要它做咖啡。

但是, VLA 架構(gòu)下的機器人要直接從 “看到了咖啡機 ” “ 聽懂了要做咖啡 ” ,一下子想清楚所有步驟,然后馬上動手,中間沒有思考的過程。

DeepMind 的 VLA 模型 RT-2

問題就在于,泡咖啡其實中間有很多小步驟,比如找到咖啡豆,打開咖啡機,按下開關(guān),就算是人來了,都得想一下要先干嘛再干嘛。

更何況是 “ 一根筋 ” 的 VLA 架構(gòu),讓它處理中間這些復(fù)雜的步驟,多少有點為難它了。

但 ViLLA 架構(gòu),引入了兩位 “ 專家 ” :隱式規(guī)劃器( Latent Planner )和動作專家( Action Expert )。

這兩位專家不僅能讓機器人想得更多,而且能做的事情也變多了。

專有名詞看不懂沒關(guān)系,咱繼續(xù)舉例子。

假設(shè)現(xiàn)在輸入一段視頻,是一個人拿起杯子喝水。

VLM 多模態(tài)大模型會先把視頻處理了,接著潛在動作模型( Latent Action Model ),會把那些復(fù)雜的視頻動作,拆解成幾個關(guān)鍵步驟,比如 “ 抓取 ” 、 “ 移動 ” 和 “ 喝水 ” 。

但光到這一步還不夠,隱式規(guī)劃器( Latent Planner )要繼續(xù)把關(guān)鍵步驟進(jìn)行加工,生成更詳細(xì)的步驟: “ 抓取(杯子),移動(杯子到嘴邊),飲用 ” 。最后,動作專家( Action Expert )出場,把這些步驟全都轉(zhuǎn)換成機器人能理解的信號,讓機器人執(zhí)行動作。

所以 ViLLA 架構(gòu)在執(zhí)行復(fù)雜任務(wù)時的表現(xiàn),要比 VLA 更出色,也更能適應(yīng)當(dāng)下人形機器人的訓(xùn)練需求。

而且世超還注意到, ViLLA 架構(gòu)并不依賴具體的硬件。

換句話說, VLA 架構(gòu)是根據(jù)特定的機器人本體、特定場景,來生成動作信號,而 ViLLA 架構(gòu)生成的是 “ 抓取 ” “ 移動 ” 這種通用動作標(biāo)記,任務(wù)泛化能力更好,也更容易遷移到其他機器人平臺。

給大伙兒一句話總結(jié)就是,GO-1 讓機器人能從互聯(lián)網(wǎng)的人類視頻數(shù)據(jù)中學(xué)習(xí),并且多了拆解任務(wù)的能力,提高復(fù)雜任務(wù)成功率的同時,泛化能力也變強了。如果 GO-1 的效果真的像官方描述的那樣,那么這對于整個人形機器人行業(yè)來說,或許都是一個好消息。

數(shù)據(jù)不愁,還不挑平臺,這機器人訓(xùn)練起來可就順手多了。就是不知道這個 GO-1 ,智元會不會選擇繼續(xù)開源。

聽說,智元機器人明天還要放出個驚喜,咱們等一手好吧。

本文來源:差評

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部