周一(3月10日)上午,“好東西”如約而至,智元機(jī)器人官方賬號宣布正式發(fā)布首個通用具身基座模型——智元啟元大模型GO-1(Genie Operator-1),這也是國內(nèi)首個通用具身基座大模型。 消息一出,喜提兩個熱搜。 根據(jù)官方介紹,智元的GO-1大模型開創(chuàng)的提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專家)組成,擁有人類視頻學(xué)習(xí),小樣本快速泛化、一腦多形、持續(xù)進(jìn)化等優(yōu)勢?梢哉f是讓機(jī)器在拓展了運動能力之外,具備了AI的能力,讓機(jī)器具備了真正的價值。 智元官方在五種不同復(fù)雜度任務(wù)上測試了GO-1,相比已有的最優(yōu)模型,GO-1成功率大幅領(lǐng)先,平均成功率提高了32%(46%->78%)。 其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補(bǔ)充飲料) 任務(wù)表現(xiàn)尤為突出。 Latent Planner是MoE中的一組專家,基于VLM的中間層輸出預(yù)測Latent Action Tokens作為CoP(Chain of Planning,規(guī)劃鏈),進(jìn)行通用的動作理解和規(guī)劃。智元單獨驗證了Latent Planner在ViLLA 架構(gòu)中的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。 智元認(rèn)為,GO-1的推出讓具身智能從單一任務(wù)走向了多種任務(wù),從封閉環(huán)境走向了開放世界;從預(yù)設(shè)程序走向了指令泛化,將具身智能推上了一個新臺階。 智元還將在2025年Q2推出首個基于強(qiáng)化學(xué)習(xí)的Foundation Model。 在GO-1大模型發(fā)布之后,智元合伙人,具身業(yè)務(wù)部總裁,研究院執(zhí)行院長姚卯青以及智元具身研究中心常務(wù)主任任廣輝接受了網(wǎng)易科技采訪。 對于發(fā)布具身基座大模型的初衷,姚卯青非?隙ǖ乇硎,AI能力將來會是區(qū)分機(jī)器人產(chǎn)品競爭力的核心環(huán)節(jié),機(jī)器人發(fā)展到最后,比拼的就是AI能力。而機(jī)器人公司不做大模型是沒有未來的。 對于智元來說,AI的投入可以說是戰(zhàn)略級別的,而且是堅定的。 不僅如此,智元在發(fā)布基座大模型的同時,還將相應(yīng)的論文進(jìn)行了公開發(fā)表,這已經(jīng)算是一種變相的開源。據(jù)姚卯青透露,智元將在Q1末面向核心用戶開源整個大模型。 在采訪中,姚卯青還提到了行業(yè)中熱議的“9.9萬人形機(jī)器人”的話題,他認(rèn)為,硬件的基礎(chǔ)也決定了機(jī)器人能力的上限。在這個階段,智元還是堅定地認(rèn)為需要以價值為導(dǎo)向,讓機(jī)器人的硬件軟件協(xié)同配合產(chǎn)生一個好的效果,而不是說買一個大號的電動玩具。 姚卯青認(rèn)為,人形機(jī)器人的應(yīng)用會是漸進(jìn)式的,未來1-2年將會在局部場景應(yīng)用落地,大家期待的機(jī)器人進(jìn)入家庭場景的情況,還需要5年左右的時間。 智元機(jī)器人成立于2023年,創(chuàng)始人之一彭志輝曾是華為天才少年,人稱“稚暉君”“野生鋼鐵俠”。公司成立不久就發(fā)布了首款人形機(jī)器人,截至目前已經(jīng)下線1000臺機(jī)器人產(chǎn)品,智元機(jī)器人已經(jīng)完成多輪融資,募資總額超過16億元。 值得一提的是,稚暉君還是“B站百大UP主”,他于2017年11月26日開始在B站上傳視頻。2020年憑借在B站發(fā)布自制硬核小電視內(nèi)容走紅。2024年陳睿在公開演講中盛贊其“從野生鋼鐵俠到70億估值企業(yè)CTO”的成長路徑。 以下為對話智元合伙人,具身業(yè)務(wù)部總裁,研究院執(zhí)行院長姚卯青以及智元具身研究中心常務(wù)主任任廣輝的部分內(nèi)容: 提問:智元具身基座大模型的研發(fā)初衷是什么? 姚卯青:這和我們公司的使命是緊密相連的。我們公司的使命是希望利用通用機(jī)器人來創(chuàng)造無限生產(chǎn)力。我們認(rèn)為機(jī)器人只有硬件本體,肯定是不夠的,這也是最近一些機(jī)構(gòu),或者說國外的公司對機(jī)器人行業(yè)的評論,覺得中國人形機(jī)器人公司硬件做得比較好,但AI能力沒有看到顯著的進(jìn)展。 我們認(rèn)為AI能力將來一定是區(qū)分機(jī)器人產(chǎn)品競爭力的核心環(huán)節(jié),就像今天的新能源車、手機(jī)一樣,硬件大家會逐漸收斂,供應(yīng)鏈也會高度地整合,最后大家比拼的一定是AI的能力。 AI對于機(jī)器人來講,一定是更為重要的。因為機(jī)器人如果沒有自主作業(yè)的能力,那它價值是非常有限的;谶@樣的初衷,我們將具身智能的AI研發(fā),作為了公司戰(zhàn)略級的投入,我們也是第一個在行業(yè)內(nèi)走完了機(jī)器人大規(guī)模的量產(chǎn),然后用量產(chǎn)的機(jī)器人編隊去采集百萬級高質(zhì)量的數(shù)據(jù)。同時又能把這批數(shù)據(jù)用來自研大模型,還把大模型能夠部署回自己的硬件本體上。 我們是第一個做到這樣閉環(huán)的研發(fā)迭代。 提問:大模型將應(yīng)用于什么場景,如何應(yīng)用? 姚卯青:我們覺得大模型在機(jī)器人行業(yè)的應(yīng)用會經(jīng)歷漸進(jìn)式的變化,會從一些較為容易、結(jié)構(gòu)化場景較為明確的地方,先去進(jìn)行落地探索,然后逐漸演化到半結(jié)構(gòu)化和半開放的任務(wù)和場景,最終通過在各個行業(yè),各個場景落地過程中收集到的海量的數(shù)據(jù)和交互的數(shù)據(jù),真正地實現(xiàn)通用人工智能,實現(xiàn)AGI在物理世界的應(yīng)用,可能到那個時候,是真正走入千家萬戶,在家庭中執(zhí)行各類開放式的指令任務(wù)。 從這個角度來講,我們在近兩年的時間內(nèi)會集中在工業(yè)、服務(wù)業(yè)和商業(yè)領(lǐng)域的應(yīng)用,同時也會堅定地為最終走向AGI, 走進(jìn)家庭這樣開放式場景,不斷做技術(shù)的摸高。 提問:智元的具身基座大模型GO1可以降低成本,大概能夠降低多少幅度? 任廣輝:我們可以講一下之前做的實驗,我們在一些場景上,可能一個任務(wù)大概需要萬條規(guī)模才能達(dá)到比較好的成功率,而現(xiàn)在只需要千條或者大幾百條就能做到最好,可以說是降低了一個數(shù)量級的數(shù)據(jù)采集量。 提問:智元的具身基座大模型開源的前景如何? 姚卯青:其實我們今天在發(fā)布的同時,不僅僅發(fā)布了視頻,還把技術(shù)博客以及對應(yīng)的論文都已經(jīng)公開出來了。一定程度上我覺得也算是一種開源了。同時我們會對智元的核心用戶,在Q1對他們進(jìn)行模型的整個開源。他們可以使用我們的模型部署到智元的機(jī)器人上。 提問:機(jī)器人在基座模型上是否已經(jīng)進(jìn)入到技術(shù)收斂階段? 姚卯青:機(jī)器人的技術(shù)我們認(rèn)為還比較早期,還沒有到收斂的程度,因為本身這個行業(yè)受制于數(shù)據(jù)的問題,還沒法去進(jìn)行Scaling Low的完整驗證。這也是為什么我們之前要去主動開源AgiBot World。 提問:對應(yīng)到機(jī)器人智能等級標(biāo)準(zhǔn)里,從G1到G5,智元的GO1算是哪個等級的呢? 提問:未來數(shù)據(jù)集采會不會單獨剝離出來形成一個產(chǎn)業(yè)? 姚卯青:這個是有可能的。我們看到AI的發(fā)展也是有明確的產(chǎn)業(yè)分工,像數(shù)據(jù)的采集、標(biāo)注,審核,甚至是數(shù)據(jù)的交易,都是有一些平臺型的機(jī)構(gòu)出現(xiàn)的。在機(jī)器人領(lǐng)域,我認(rèn)為這也是有機(jī)會的。 提問:未來機(jī)器人的必爭之地是AI,路線和發(fā)展趨勢是怎樣的? 姚卯青:我覺得算法目前不能說已經(jīng)完全走向收斂,還是在百花齊放的狀態(tài)。但是在這個發(fā)展過程中,我們也看到了一些挑戰(zhàn),比如說偏科的公司比較多,有一些特別擅長算法的,包括像國外的一些公司,沒有很好的機(jī)器人硬件,也沒有大規(guī)模的機(jī)器人本體,這其實是會嚴(yán)重限制他們對算法的整個研發(fā)驗證。反過來也有大量的機(jī)械本體公司在AI上的投入是比較受限的。 所以我們希望能夠看到更多的像智元這樣的,能夠完整地從硬件、數(shù)據(jù)、算法端到端,具備研發(fā)能力的公司、玩家來涌現(xiàn)。 提問:您認(rèn)為大概什么時候可以進(jìn)入家庭場景? 姚卯青:我們判斷的話需要比較長一點的時間,五年左右能夠走入家庭,去實際創(chuàng)造一些價值。 提問:之前宇樹的9.9萬以下的機(jī)器人其實在行業(yè)還是引起了比較大的爭議,您也曾經(jīng)說過卷9.9萬的價格是沒有意義的,這次大模型發(fā)布之后,對機(jī)器人在終端售價上是否會有影響? 姚卯青:定價9.9萬元的機(jī)器人,確實在市場上受到了很大的關(guān)注。但是行業(yè)的從業(yè)人員也知道,現(xiàn)在質(zhì)量好的零部件是怎樣的一個成本,如果特別低的價格,那是可以想象用的是什么料的。同時,硬件的基礎(chǔ)也決定了機(jī)器人能力的上限。在這個階段的話,我們還是堅定地認(rèn)為需要以價值為導(dǎo)向,真正能夠讓機(jī)器人的硬件軟件協(xié)同做協(xié)同配合產(chǎn)生一個好的效果,才是給用戶的價值,而不是說買一個大號的電動玩具,長期來講是不具備很好的商業(yè)價值的。 提問:智元今年的商業(yè)計劃是怎樣的? 姚卯青:今年我們的商業(yè)化目標(biāo)是在營收層面,比去年的營收會有一個數(shù)倍的增長。在出貨量上面,應(yīng)該會達(dá)到數(shù)千臺的規(guī)模。 提問:智元成立了兩三年,如何與成立八九年甚至十年左右的公司競爭?優(yōu)勢是什么? 姚卯青:我個人覺得成立時間較短的公司有比較大的優(yōu)勢。因為整個人形機(jī)器人產(chǎn)業(yè)從技術(shù)上來講是一個比較新的行業(yè)。我們也看到,今天大模型成功的公司,他們的整個組織人才方向是非常年輕化的。 在經(jīng)營方向或者技術(shù)規(guī)劃方面,我們要去所謂的unlearned去學(xué)習(xí),如果有太多的歷史包袱,就很難很暴力地做一些戰(zhàn)略上的調(diào)整,同時發(fā)展到一定程度的公司從資本的層面、經(jīng)營層面都會去變得相對的更加保守,更加務(wù)實一些。 智元作為一家只有剛剛滿兩年的公司,我們平均的研發(fā)現(xiàn)在是30歲以下的,無論是出貨量還是營收,也是一個非常快速的過程。 相信今年我們有比較大的機(jī)會,可以在經(jīng)營上做到國內(nèi)的頭部,就是真正的龍頭企業(yè)。我們用兩年時間走完了別人可能八年九年沒有走完的路,而且是在一個快速上升的趨勢中。 本文來源:網(wǎng)易科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選