首頁(yè) > 科技要聞 > 科技> 正文

谷歌連推兩款「機(jī)器人大腦」!Gemini Robotics:折紙、扣籃、裝飯盒不在話下

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-16 21:02

近日,谷歌DeepMind推出了新一代專為機(jī)器人設(shè)計(jì)的AI模型。

一口氣推出了兩款:Gemini Robotics和Gemini Robotics-ER。

這兩款模型都是基于Gemini 2.0,其中Gemini Robotics-ER能利用Gemini的具身推理(ER)能力。

博客地址:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

谷歌DeepMind在X上放出了許多演示視頻。

Gemini Robotics可以解決需要高度靈巧性的多步驟任務(wù),例如折紙、打包飯盒等。

下圖一臺(tái)雙臂機(jī)器人通過兩只手臂的配合折紙,不僅動(dòng)作要求精細(xì),配合的默契程度更是有很高的要求。

除了折紙,替人把飯盒裝到包里也不在話下。

看來再配個(gè)炒菜機(jī)器人,我們距離不用自己做飯真的不遠(yuǎn)了。

除了Gemini Robotics自己表演,DeepMind團(tuán)隊(duì)也整了點(diǎn)活,他們與機(jī)器人比賽,看誰(shuí)能更好地把皮帶安裝到齒輪上。

這項(xiàng)挑戰(zhàn)對(duì)于力量有要求,人類選手要完成都有難度,但Gemini Robotics機(jī)器人可以在兩只手臂的配合下熟練安裝,完勝人類。

為了使機(jī)器人能夠與人類更好地進(jìn)行交互,當(dāng)它被中斷或情況變化時(shí),Gemini Robotics可以即時(shí)調(diào)整其行為。

這種可控性將使Gemini Robotics機(jī)器人能夠更好地在未來與家庭、工作場(chǎng)所乃至更廣泛的機(jī)器人助手合作。

下方演示中可以看到,機(jī)器人在拾取葡萄時(shí)不僅懂得要輕拿葡萄,不能太用力將其捏爆,還能在餐盒不斷變換位置時(shí)準(zhǔn)確地重新定位。

可見其不僅操作精細(xì),更是具備了很高的推理能力。

真是挺厲害的。

Gemini Robotics機(jī)器人還完成了訓(xùn)練中未曾出現(xiàn)過的任務(wù),展現(xiàn)了泛化到新場(chǎng)景的能力。

在綜合泛化基準(zhǔn)測(cè)試中,Gemini Robotics的性能平均比其他最先進(jìn)的視覺-語(yǔ)言-動(dòng)作模型提高一倍以上。

例如,在學(xué)習(xí)了將葡萄放進(jìn)餐盒中后,研究團(tuán)隊(duì)讓其將筆放進(jìn)筆盒中。

在沒有做相同情況的訓(xùn)練下,機(jī)器人通過自己的泛化能力就完成了這個(gè)任務(wù)。

當(dāng)然,像「灌籃」這種操作對(duì)于Gemini Robotics基本就沒啥難度了。

除了Gemini Robotics模型,DeepMind還一同推出了更智能的Gemini Robotics-ER,允許機(jī)器人利用Gemini的具身推理能力。

比如說,如果一個(gè)機(jī)器人看到一個(gè)咖啡杯,它能識(shí)別出來,然后用「指向」功能找到可以互動(dòng)的部分——比如杯把——還能認(rèn)出撿起來時(shí)要避開的東西。

DeepMind稱自己最終目標(biāo)是開發(fā)適用于任何品牌機(jī)器人的AI模型,無論其形狀或大小。這包括雙臂平臺(tái),如ALOHA 2和Franka,但同時(shí)也適用于更復(fù)雜的實(shí)現(xiàn),例如Apptronik開發(fā)的Apollo。

基于Gemini 2.0的機(jī)器人模型

Google DeepMind一直在研究如何讓Gemini模型通過文字、圖片、音頻和視頻的多模態(tài)推理來解決復(fù)雜問題。

但到目前為止,這些能力還主要局限在數(shù)字世界里。

但要讓AI在現(xiàn)實(shí)世界中真正幫到人,它得展現(xiàn)出「具身」推理——也就是像人一樣理解周圍世界并做出反應(yīng),還要能安全地采取動(dòng)作把事情搞定。

就在昨天,DeepMind推出了兩款基于Gemini 2.0的全新AI模型,為新一代實(shí)用機(jī)器人打下基礎(chǔ)。

第一款是Gemini Robotics,一個(gè)高級(jí)的視覺-語(yǔ)言-動(dòng)作(VLA)模型。

它在Gemini 2.0的基礎(chǔ)上增加了物理動(dòng)作作為新的輸出方式,可以直接控制機(jī)器人。

第二款是Gemini Robotics-ER,一個(gè)擁有高級(jí)空間理解能力的Gemini模型,讓機(jī)器人專家能利用Gemini的具身推理(ER)能力運(yùn)行自己的程序。

這兩款模型讓各種機(jī)器人能完成比以往更多的現(xiàn)實(shí)任務(wù)。

谷歌DeepMind最強(qiáng)視覺-語(yǔ)言-動(dòng)作模型

要讓機(jī)器人用的AI模型真正幫到人,它得具備三個(gè)關(guān)鍵特質(zhì):

泛化性:能適應(yīng)各種情況

互動(dòng)性:能快速理解并回應(yīng)指令或環(huán)境變化

靈活性:能像人一樣用手完成精細(xì)操作,比如小心地拿東西

雖然DeepMind之前的研究在這幾方面已有進(jìn)展,但Gemini Robotics在以上三點(diǎn)上都大幅提升了表現(xiàn),讓我們離真正的「全能機(jī)器人」更近了一步。

泛化性

Gemini Robotics利用Gemini對(duì)世界的理解,能適應(yīng)新情況,解決各種沒見過的新任務(wù)。

它還擅長(zhǎng)處理新物體、多樣的指令和陌生環(huán)境。

在DeepMind的技術(shù)報(bào)告中,Gemini Robotics在泛化性基準(zhǔn)測(cè)試上的表現(xiàn)比其他頂尖視覺-語(yǔ)言-動(dòng)作模型平均高出一倍多。

互動(dòng)性

要在動(dòng)態(tài)的現(xiàn)實(shí)世界里工作,機(jī)器人得能跟人和周圍環(huán)境無縫互動(dòng),還得隨時(shí)適應(yīng)變化。

Gemini Robotics建立在Gemini 2.0的基礎(chǔ)上,天生就很會(huì)「聊天」。

它能理解日常對(duì)話語(yǔ)言的指令(還能用不同語(yǔ)言),比之前的模型能處理的自然語(yǔ)言范圍廣多了。你說什么它都能調(diào)整自己的行為。

它還會(huì)持續(xù)觀察周圍,察覺環(huán)境或指令的變化,然后調(diào)整動(dòng)作。

這種「可控性」能讓人跟機(jī)器人在家里或職場(chǎng)上更好地合作。

靈活性

打造實(shí)用機(jī)器人的第三個(gè)關(guān)鍵是動(dòng)作靈活性。

人類輕松完成的日常任務(wù)往往需要很精細(xì)的動(dòng)作技能,但對(duì)機(jī)器人來說卻很難。

而Gemini Robotics能搞定超級(jí)復(fù)雜的多步驟任務(wù),比如折紙或把零食裝進(jìn)密封袋。

多形態(tài)適應(yīng)

最后,因?yàn)闄C(jī)器人形態(tài)各異,Gemini Robotics被設(shè)計(jì)成能輕松適配不同類型的機(jī)器人。

他們主要用雙臂機(jī)器人平臺(tái)ALOHA 2的數(shù)據(jù)訓(xùn)練它,但也證明了它可以基于許多學(xué)術(shù)實(shí)驗(yàn)室中使用的Franka手臂來控制雙臂平臺(tái)。

它還能針對(duì)更復(fù)雜的形態(tài)(比如Apptronik開發(fā)的Apollo人形機(jī)器人)進(jìn)行優(yōu)化,完成現(xiàn)實(shí)任務(wù)。

Gemini Robotics致力于研究不同類型的機(jī)器人

增強(qiáng)Gemini的世界理解

除了Gemini Robotics,DeepMind還推出了一款高級(jí)視覺-語(yǔ)言模型Gemini Robotics-ER(ER是「具身推理」的縮寫)。這個(gè)模型提升了Gemini對(duì)世界的理解,尤其是空間推理能力,讓機(jī)器人專家能把它跟現(xiàn)有的低級(jí)控制器結(jié)合使用。

Gemini Robotics-ER大幅改進(jìn)了Gemini 2.0的指物和3D檢測(cè)能力。結(jié)合空間推理和Gemini的編程能力,它能即興創(chuàng)造新功能。

比如,看到一個(gè)咖啡杯,它能自己判斷用兩指抓手柄合適,還能規(guī)劃安全的接近路徑。

Gemini Robotics-ER開箱即用就能控制機(jī)器人,涵蓋感知、狀態(tài)估計(jì)、空間理解、規(guī)劃和代碼生成等所有步驟。

在這種端到端的設(shè)置下,它的成功率比Gemini 2.0高出2-3倍。

如果生成代碼不夠用,Gemini Robotics-ER甚至可以通過少量人類示范的模式進(jìn)行「上下文學(xué)習(xí)」,找到解決方案。

Gemini Robotics-ER擅長(zhǎng)具身推理能力,包括檢測(cè)物體和指向物體部位、查找相應(yīng)的點(diǎn)和檢測(cè)3D物體

參考資料:

https://x.com/GoogleDeepMind/status/1899839624068907335 https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

本文來源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷量超過3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部