首個真正意義上具備復(fù)雜交互能力的機器人,出現(xiàn)了。 它的創(chuàng)造者就是此前從華為離職的天才少年——曾經(jīng)帶著各種硬核DIY作品火遍全網(wǎng)的男人——稚暉君。 3月11日,智元機器人聯(lián)合創(chuàng)始人稚暉君(彭志輝)發(fā)布視頻稱,這鴿了2年之后,第一次正兒八經(jīng)地更新視頻。 在視頻中,他正式介紹了智元最新研發(fā)的雙足智能交互人形機器人——靈犀 X2。 除了常規(guī)的行走、跑、跳,X2還點滿了運動天賦,不僅能舉重蹲起,還能踩滑板車,甚至還能自己騎自行車。 有“人味兒”的機器人 作為 X1 的“全能小老弟”,靈犀X2同樣是由智元半年前成立的機器人實驗室 X-Lab 打造出來的,而且從X1到X2的研發(fā),僅用了三個月。 和之前發(fā)布的原型機器人X1一樣,X2全身一共28個自由度,體重為33.8千克,身高1.3米左右,當然,X2的本體設(shè)計還新加入了大量的技術(shù)創(chuàng)新思考。 比如,重新設(shè)計的機電關(guān)節(jié)模組,在全身28個的自由度中,沒有使用到任何一個并聯(lián)結(jié)構(gòu),這就意味著能實現(xiàn)傳動鏈的完全解耦。 X2 還將機器人的硬件系統(tǒng)抽象為一系列可復(fù)用的核心組件,包括小腦控制器 Xyber-Edge、域控制器 Xyber-DCU、智能電源管理系統(tǒng) Xyber-8MS,以及經(jīng)過“茫茫多”迭代的核心關(guān)鍵模組 Power Flow 等。 也就是說,通過這樣模塊化的組件設(shè)計,就可以像通過飛控,攢一臺無人機航模一樣,快速搭建起各種形態(tài)的人形機器人系統(tǒng),這也是為什么X1原型機到X2研發(fā)這么快的原因之一。 在稚暉君看來,機器人并非一定是鋼筋鐵骨,因此他們嘗試了大量的柔和材料,像TPU、ETPU、EVA 等多種材料,他們甚至考慮了用美妝蛋作為機器人的材料。 稚暉君表示,靈犀 X2 集三重角色于一身——不僅是一款支持高自由度、運動能力的雙足人形機器人,還是一款搭載情感計算引擎的智能交互機器人,以及一款初步具備通用任務(wù)執(zhí)行能力的具身機器人。 高自由度和任務(wù)執(zhí)行能力都不難理解,其搭載的情感計算引擎,通俗的來講就是更有“人味兒”了。 稚暉君表示,當前足式機器人的運動控制已經(jīng)全面從傳統(tǒng)的 Model based 轉(zhuǎn)向 Learning 驅(qū)動的強化學(xué)習(xí)。 通過結(jié)合深度強化學(xué)習(xí)和模仿學(xué)習(xí)算法的優(yōu)勢,X2 可以不斷的學(xué)習(xí)和進步,不僅學(xué)會了像人一樣自然的走路,還能流暢地跑步和轉(zhuǎn)彎,甚至還能跳科目三.... 當然就像人一樣,在學(xué)習(xí)的過程難免也會學(xué)到“抽象”一些的東西,X2也不例外。 比如在訓(xùn)練初期一不小心學(xué)“歪”了,有把跳躍當做平時移動方式的,還有一言不合就躺地上“擺爛”的,甚至還有被官方鑒定為“性格暴躁,愛跺腳”的另類機器人。。。 除了常規(guī)的行走,跑,跳外,為了偷懶,X2還能學(xué)會使用各種人類的懶人工具,比如踩滑板車,平衡車代步,甚至自己騎自行車。 為了讓 X2 更有“人味兒”,智元團隊增添了不少細節(jié),比如靈犀X2能模仿人類呼吸韻律、具備人類好奇心和注意力機制、會一些“抖腿”小動作的肢體語言等。 目前,X2 仍在不斷學(xué)習(xí)和進步。通過數(shù)據(jù)驅(qū)動的算法范式,智能機器人能夠從每秒數(shù)萬次與環(huán)境的互動和動作數(shù)據(jù)中,找到克服動作限制的方法,稚暉君表示,我們相信人形機器人的運動智能問題很快會得到徹底的解決。 能力進階 作為一款人形機器人,光四肢發(fā)達還不行,頭腦也不能簡單,交互智能和作業(yè)生產(chǎn)必不可少。 在交互方面,借助當前最火熱大語言模型技術(shù),智元團隊還為 X2 訓(xùn)練了定制的多模態(tài)交互大模型——硅光動語,從字面上,“光動語”分別代表著,視覺,動作,語音。 在這個大模型的加持下,靈犀X2也被稚暉君稱為“第一臺真正具備復(fù)雜交互能力的靈動機器人”。 在此基礎(chǔ)上,通過邊緣側(cè)大腦和端到端模型架構(gòu),以及一系列工程優(yōu)化,靈犀 X2 具備了毫秒級交互能力。 比如坐下聊天可以對答如流,面對“你是誰,你從哪來的,你存在的意義是什么”的人生三問,X2 都能順暢回答。 當 X2 被問及它和狗同時掉水里,應(yīng)該先救誰,會毫不猶豫地回答道先救狗,“因為它需要幫助,自己沒事! 最有意思的是,當稚暉君提問靈犀 X2“剛剛提的問有多少是預(yù)先寫好的”,X2的語氣還頗為得意,回答道“完全隨機”。 基于 Diffusion 的生成式動作引擎,使得這款機器人不僅四肢協(xié)調(diào),思維也頗為敏捷。 除了具備聽覺和語言的交互能力,基于 VLM 的硅光動語多模態(tài)模型還能讓 X2 通過視覺來理解和認識世界,識別眼前物體不在話下。 比如稚暉君拿出手機讓 X2 自己看現(xiàn)在幾點了,X2 能準確的回答出時間,還給睡不著的稚暉君推薦了牛奶,理由是有助于睡眠。 甚至還能真的“看到”物體上的小字,給稚暉君現(xiàn)場教學(xué)了一把。 情緒價值拉滿的同時,稚暉君表示“我們的終極期待,是希望機器人能夠成為構(gòu)建社會生產(chǎn)力的重要分母”,也就是具備一定的生產(chǎn)能力。 據(jù)稚暉君介紹,過去一年里,他們初步找到了一條通往泛化作業(yè)智能的路徑,根據(jù)這些成果,他們也把操作智能的能力也遷移到了 X2 上。 在本體層面,X2 的本體支持很好的柔性阻抗控制,可以裝配包括靈巧手在內(nèi)的各種末端,使得其具備精細操作的能力,“針穿葡萄”的神技又重現(xiàn)江湖。 其次,在機器人的具身智能方面,團隊也開源了業(yè)界最大之一的具身真機和仿真數(shù)據(jù)集。并提出了 RoboDual 的大小腦系統(tǒng)架構(gòu),以及剛剛發(fā)布的 ViLLA 架構(gòu)具身基座大模型「啟元」。 這也使得 X2 初步具備簡單任務(wù)中對操作物體的零樣本泛化能力,并在某些任務(wù)中實現(xiàn)多機協(xié)作,比如相互充電。 在視頻的最后,稚暉君作為靈犀X2親爹,像望子成龍一樣,給了它一個最終的期望,就是希望作業(yè)能力可以外溢到日常生活的方方面面,實現(xiàn)機器人的“吉祥三保”--- 就是保安、保姆和保潔。 神之一手 靈犀X2能夠擁有“情感”、能夠進行各類復(fù)雜任務(wù),離不開智元機器人前一天發(fā)布的具身基座模型 GO-1。 GO-1 全稱 Genie Operator-1,GO-1的發(fā)布,標志著機器人從“單一任務(wù)工具”正式邁向“通用智能體”。 在工廠,它能靈活切換裝配、質(zhì)檢、物流等工種;在家庭,它可以從整理玩具進階到輔導(dǎo)孩子作業(yè);甚至在未來,機器人可能通過觀看教學(xué)視頻,自主學(xué)會維修電器。 GO-1 的一大黑科技就是開創(chuàng)性地提出了 ViLLA(Vision-Language-Latent-Action)架構(gòu),其整合了“兩大模塊”,三個“大腦”。 首先是多模態(tài)大模型(VLM),通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)訓(xùn)練,賦予機器人通用場景感知和語言理解能力,可以將其稱之“視覺大腦”,靠刷遍全網(wǎng)圖文,學(xué)會認杯子、桌子、咖啡機,甚至能聽懂你喊“給我整杯82年的拉菲”。 另外還有專家混合模塊(MoE),這其中又包含兩個關(guān)鍵組件: 首先是規(guī)劃層面上,隱式規(guī)劃器(Latent Planner)生成任務(wù)鏈,優(yōu)化任務(wù)執(zhí)行流程,利用跨本體和人類操作視頻數(shù)據(jù),學(xué)習(xí)通用的動作理解能力,可以將其稱之為“動作大腦”。 比如,可以將復(fù)雜任務(wù)分解為一系列可執(zhí)行的子任務(wù)。以 “掛衣服” 為例,機器人需分解為抓取衣架、調(diào)整角度等步驟,并根據(jù)實際情況靈活調(diào)整執(zhí)行順序和參數(shù),確保任務(wù)的高效完成。 另外,就是“摳細節(jié)小能手”(Action Expert),在執(zhí)行層面上,基于百萬級真機數(shù)據(jù)生成精細動作序列,使靈犀 X2 的動作更加流暢、精準。例如,在倒水任務(wù)中,誤差可控制在 ±3ml 內(nèi),滿足日常生活和工業(yè)生產(chǎn)的高精度操作需求。 這幾個部分協(xié)同工作,使模型能夠通過人類視頻進行小樣本學(xué)習(xí),并快速泛化到新任務(wù)和新環(huán)境中,實操證明,這套架構(gòu)下的能力確實不錯。 在五項復(fù)雜度不同的任務(wù)測試中,GO-1 的平均成功率較現(xiàn)有最優(yōu)模型從46%提升到了78%,尤其在倒水、清理桌面和補充飲料等任務(wù)場景中表現(xiàn)突出。 更為關(guān)鍵的是它的進化速度,GO-1支持跨本體數(shù)據(jù)共享,這意味著每臺機器人的經(jīng)驗都能反哺系統(tǒng)。假設(shè)一個機器人學(xué)會擰螺絲,那么其他機器人立刻能同步技能。 智元機器人也計劃年內(nèi)推出基于強化學(xué)習(xí)的Foundation Model,進一步釋放機器人的自主決策潛力。 按照他們的設(shè)想,五年內(nèi)要讓機器人走進客廳,或許用不了多久當你推開家門,迎接你的將是一個正在忙碌的機器人了。 本文來源:超電實驗室 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選