具身智能當(dāng)中,動作空間的異構(gòu)一致性問題帶來的泛化瓶頸有解了! 清華智能產(chǎn)業(yè)研究院(AIR)團隊聯(lián)合商湯研究院等機構(gòu)發(fā)布了首個基于通用動作空間的具身基礎(chǔ)模型框架UniAct。 UniAct以視覺語言模型為核心,構(gòu)建了首個tokenized通用動作空間,解決了具身智能中的通用動作異構(gòu)一致性難題。 在多項權(quán)威評測中,UniAct都超越了參數(shù)量達(dá)14倍的頂尖對手OpenVLA。 目前,UniAct代碼與論文已開源。 制約智能體泛化的瓶頸 在人工智能領(lǐng)域,視覺、語言類基礎(chǔ)模型通過海量數(shù)據(jù)訓(xùn)練實現(xiàn)跨模態(tài)泛化,但具身智能的構(gòu)建卻因動作空間的異質(zhì)性陷入瓶頸。 不同機器人(如機械臂、四足機器人、汽車)因物理形態(tài)、控制接口差異,其動作指令在物理空間中呈現(xiàn)“不相交流形”,具體來說可以體現(xiàn)在三個方面: 本體差異:機械臂的末端執(zhí)行器(EEF)位置與四足機器人的關(guān)節(jié)角度,物理含義截然不同; 控制接口多樣性:同一指令(如“抓取物體”)在不同機器人中可能轉(zhuǎn)化為EEF速度或關(guān)節(jié)扭矩; 多模態(tài)干擾:人類操作者的動作風(fēng)格差異進一步加劇數(shù)據(jù)沖突。 傳統(tǒng)方法嘗試通過微調(diào)或聚合異構(gòu)數(shù)據(jù)緩解問題,但收效甚微。 多數(shù)研究被迫將異構(gòu)動作空間“強行對齊”,導(dǎo)致相似編碼代表不同物理行為,甚至引發(fā)控制邏輯混亂。 從“通用原子行為”到“跨具身泛化” 團隊提出的UniAct框架,以視覺語言模型(VLM)為核心,構(gòu)建了首個tokenized通用動作空間。 UniAct通過三大創(chuàng)新實現(xiàn)突破。 一是通用動作編碼,也就是將不同機器人的原子行為(如“移動到目標(biāo)位置”“避開障礙物”)封裝為向量量化的codebook,每個token代表可跨機器人共享的通用技能。 這種設(shè)計既保留了動作的物理因果性,又消除了異構(gòu)性 二是異質(zhì)解碼器,即針對不同機器人平臺,通過輕量化解碼器添加本體感受特征(如關(guān)節(jié)力矩)或不同攝像頭視角下的圖像,將通用動作轉(zhuǎn)換為可執(zhí)行指令。 例如,機械臂需EEF位置控制,而四足機器人需關(guān)節(jié)角度指令,解碼器可動態(tài)適配。 三是輕量化架構(gòu),UniAct-0.5B模型僅用0.5億參數(shù),即在對現(xiàn)實與模擬機器人任務(wù)的測試中超越14億參數(shù)的OpenVLA,驗證了通用動作的高效性。 復(fù)雜場景下的“全能選手” 在包含大視角變化(如第三人稱轉(zhuǎn)第一人稱)和未見機器人類型(如雙臂機械臂)的測試中,UniAct展現(xiàn)了驚人的泛化能力。 UniAct憑借跨機器人遷移與復(fù)雜環(huán)境適應(yīng)能力,在真實世界和仿真環(huán)境的不同機械臂任務(wù)下,大幅提升任務(wù)成功率。 并且擁有極高的數(shù)據(jù)效率,僅需50條示教的機器人專用數(shù)據(jù)即可完成模型到新環(huán)境的微調(diào)。 在通用動作異構(gòu)一致性上,通過大量的異構(gòu)數(shù)據(jù)預(yù)訓(xùn)練,UniAct框架也探索出了具有高度一致的通用動作空間。 如下圖所示,同一個通用動作表征可以在完全不同的部署場景和具身智能體上表現(xiàn)出一致的行為模式。 此外,高效的異構(gòu)解碼機制讓UniAct具備了可直接快速部署的通用動作,為控制具身智能體提供了新的方式,通過從碼本中直接挑選通用動作即可控制不同具身智能體完成指定的任務(wù),play with code! 作者表示,UniAct的突破為具身智能的Scaling Law探索提供新思路。
傳統(tǒng)方法依賴單一機器人數(shù)據(jù),而UniAct通過共享通用動作空間,使模型能吸收全球眾包數(shù)據(jù)的精華,有望突破數(shù)據(jù)規(guī)模限制。 項目主頁: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選