近日,谷歌DeepMind推出了新一代專為機(jī)器人設(shè)計(jì)的AI模型。 一口氣推出了兩款:Gemini Robotics和Gemini Robotics-ER。 這兩款模型都是基于Gemini 2.0,其中Gemini Robotics-ER能利用Gemini的具身推理(ER)能力。 博客地址:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/ 谷歌DeepMind在X上放出了許多演示視頻。 Gemini Robotics可以解決需要高度靈巧性的多步驟任務(wù),例如折紙、打包飯盒等。 下圖一臺(tái)雙臂機(jī)器人通過兩只手臂的配合折紙,不僅動(dòng)作要求精細(xì),配合的默契程度更是有很高的要求。 除了折紙,替人把飯盒裝到包里也不在話下。 看來再配個(gè)炒菜機(jī)器人,我們距離不用自己做飯真的不遠(yuǎn)了。 除了Gemini Robotics自己表演,DeepMind團(tuán)隊(duì)也整了點(diǎn)活,他們與機(jī)器人比賽,看誰(shuí)能更好地把皮帶安裝到齒輪上。 這項(xiàng)挑戰(zhàn)對(duì)于力量有要求,人類選手要完成都有難度,但Gemini Robotics機(jī)器人可以在兩只手臂的配合下熟練安裝,完勝人類。 為了使機(jī)器人能夠與人類更好地進(jìn)行交互,當(dāng)它被中斷或情況變化時(shí),Gemini Robotics可以即時(shí)調(diào)整其行為。 這種可控性將使Gemini Robotics機(jī)器人能夠更好地在未來與家庭、工作場(chǎng)所乃至更廣泛的機(jī)器人助手合作。 下方演示中可以看到,機(jī)器人在拾取葡萄時(shí)不僅懂得要輕拿葡萄,不能太用力將其捏爆,還能在餐盒不斷變換位置時(shí)準(zhǔn)確地重新定位。 可見其不僅操作精細(xì),更是具備了很高的推理能力。 真是挺厲害的。 Gemini Robotics機(jī)器人還完成了訓(xùn)練中未曾出現(xiàn)過的任務(wù),展現(xiàn)了泛化到新場(chǎng)景的能力。 在綜合泛化基準(zhǔn)測(cè)試中,Gemini Robotics的性能平均比其他最先進(jìn)的視覺-語(yǔ)言-動(dòng)作模型提高一倍以上。 例如,在學(xué)習(xí)了將葡萄放進(jìn)餐盒中后,研究團(tuán)隊(duì)讓其將筆放進(jìn)筆盒中。 在沒有做相同情況的訓(xùn)練下,機(jī)器人通過自己的泛化能力就完成了這個(gè)任務(wù)。 當(dāng)然,像「灌籃」這種操作對(duì)于Gemini Robotics基本就沒啥難度了。 除了Gemini Robotics模型,DeepMind還一同推出了更智能的Gemini Robotics-ER,允許機(jī)器人利用Gemini的具身推理能力。 比如說,如果一個(gè)機(jī)器人看到一個(gè)咖啡杯,它能識(shí)別出來,然后用「指向」功能找到可以互動(dòng)的部分——比如杯把——還能認(rèn)出撿起來時(shí)要避開的東西。 DeepMind稱自己最終目標(biāo)是開發(fā)適用于任何品牌機(jī)器人的AI模型,無論其形狀或大小。這包括雙臂平臺(tái),如ALOHA 2和Franka,但同時(shí)也適用于更復(fù)雜的實(shí)現(xiàn),例如Apptronik開發(fā)的Apollo。 基于Gemini 2.0的機(jī)器人模型 Google DeepMind一直在研究如何讓Gemini模型通過文字、圖片、音頻和視頻的多模態(tài)推理來解決復(fù)雜問題。 但到目前為止,這些能力還主要局限在數(shù)字世界里。 但要讓AI在現(xiàn)實(shí)世界中真正幫到人,它得展現(xiàn)出「具身」推理——也就是像人一樣理解周圍世界并做出反應(yīng),還要能安全地采取動(dòng)作把事情搞定。 就在昨天,DeepMind推出了兩款基于Gemini 2.0的全新AI模型,為新一代實(shí)用機(jī)器人打下基礎(chǔ)。 第一款是Gemini Robotics,一個(gè)高級(jí)的視覺-語(yǔ)言-動(dòng)作(VLA)模型。 它在Gemini 2.0的基礎(chǔ)上增加了物理動(dòng)作作為新的輸出方式,可以直接控制機(jī)器人。 第二款是Gemini Robotics-ER,一個(gè)擁有高級(jí)空間理解能力的Gemini模型,讓機(jī)器人專家能利用Gemini的具身推理(ER)能力運(yùn)行自己的程序。 這兩款模型讓各種機(jī)器人能完成比以往更多的現(xiàn)實(shí)任務(wù)。 谷歌DeepMind最強(qiáng)視覺-語(yǔ)言-動(dòng)作模型 要讓機(jī)器人用的AI模型真正幫到人,它得具備三個(gè)關(guān)鍵特質(zhì): 泛化性:能適應(yīng)各種情況 互動(dòng)性:能快速理解并回應(yīng)指令或環(huán)境變化 靈活性:能像人一樣用手完成精細(xì)操作,比如小心地拿東西 雖然DeepMind之前的研究在這幾方面已有進(jìn)展,但Gemini Robotics在以上三點(diǎn)上都大幅提升了表現(xiàn),讓我們離真正的「全能機(jī)器人」更近了一步。 泛化性 Gemini Robotics利用Gemini對(duì)世界的理解,能適應(yīng)新情況,解決各種沒見過的新任務(wù)。 它還擅長(zhǎng)處理新物體、多樣的指令和陌生環(huán)境。 在DeepMind的技術(shù)報(bào)告中,Gemini Robotics在泛化性基準(zhǔn)測(cè)試上的表現(xiàn)比其他頂尖視覺-語(yǔ)言-動(dòng)作模型平均高出一倍多。 互動(dòng)性 要在動(dòng)態(tài)的現(xiàn)實(shí)世界里工作,機(jī)器人得能跟人和周圍環(huán)境無縫互動(dòng),還得隨時(shí)適應(yīng)變化。 Gemini Robotics建立在Gemini 2.0的基礎(chǔ)上,天生就很會(huì)「聊天」。 它能理解日常對(duì)話語(yǔ)言的指令(還能用不同語(yǔ)言),比之前的模型能處理的自然語(yǔ)言范圍廣多了。你說什么它都能調(diào)整自己的行為。 它還會(huì)持續(xù)觀察周圍,察覺環(huán)境或指令的變化,然后調(diào)整動(dòng)作。 這種「可控性」能讓人跟機(jī)器人在家里或職場(chǎng)上更好地合作。 靈活性 打造實(shí)用機(jī)器人的第三個(gè)關(guān)鍵是動(dòng)作靈活性。 人類輕松完成的日常任務(wù)往往需要很精細(xì)的動(dòng)作技能,但對(duì)機(jī)器人來說卻很難。 而Gemini Robotics能搞定超級(jí)復(fù)雜的多步驟任務(wù),比如折紙或把零食裝進(jìn)密封袋。 多形態(tài)適應(yīng) 最后,因?yàn)闄C(jī)器人形態(tài)各異,Gemini Robotics被設(shè)計(jì)成能輕松適配不同類型的機(jī)器人。 他們主要用雙臂機(jī)器人平臺(tái)ALOHA 2的數(shù)據(jù)訓(xùn)練它,但也證明了它可以基于許多學(xué)術(shù)實(shí)驗(yàn)室中使用的Franka手臂來控制雙臂平臺(tái)。 它還能針對(duì)更復(fù)雜的形態(tài)(比如Apptronik開發(fā)的Apollo人形機(jī)器人)進(jìn)行優(yōu)化,完成現(xiàn)實(shí)任務(wù)。 Gemini Robotics致力于研究不同類型的機(jī)器人 增強(qiáng)Gemini的世界理解 除了Gemini Robotics,DeepMind還推出了一款高級(jí)視覺-語(yǔ)言模型Gemini Robotics-ER(ER是「具身推理」的縮寫)。這個(gè)模型提升了Gemini對(duì)世界的理解,尤其是空間推理能力,讓機(jī)器人專家能把它跟現(xiàn)有的低級(jí)控制器結(jié)合使用。 Gemini Robotics-ER大幅改進(jìn)了Gemini 2.0的指物和3D檢測(cè)能力。結(jié)合空間推理和Gemini的編程能力,它能即興創(chuàng)造新功能。 比如,看到一個(gè)咖啡杯,它能自己判斷用兩指抓手柄合適,還能規(guī)劃安全的接近路徑。 Gemini Robotics-ER開箱即用就能控制機(jī)器人,涵蓋感知、狀態(tài)估計(jì)、空間理解、規(guī)劃和代碼生成等所有步驟。 在這種端到端的設(shè)置下,它的成功率比Gemini 2.0高出2-3倍。 如果生成代碼不夠用,Gemini Robotics-ER甚至可以通過少量人類示范的模式進(jìn)行「上下文學(xué)習(xí)」,找到解決方案。 Gemini Robotics-ER擅長(zhǎng)具身推理能力,包括檢測(cè)物體和指向物體部位、查找相應(yīng)的點(diǎn)和檢測(cè)3D物體 參考資料: https://x.com/GoogleDeepMind/status/1899839624068907335 https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選