在寫下這篇文章的前一天,兩位汽車行業(yè)朋友來到愛范兒,和我們坐下聊了聊。聊到的內(nèi)容有很多,從產(chǎn)品推廣到行業(yè)趣聞,而自動駕駛作為行業(yè)熱議的一個分支,自然也成為了我們討論的焦點(diǎn)之一;仡欁詣玉{駛這些年來的發(fā)展,變化其實(shí)有不少,包括傳感器的迭代、車端算力的提升、從高精地圖過渡到占用網(wǎng)絡(luò)等。但在這些變化中,最引人注目的突破當(dāng)屬大模型的加入。
大模型,讓自動駕駛技術(shù)的應(yīng)用,變得觸手可及。
10 月 23 日,理想汽車全新一代雙系統(tǒng)智能駕駛解決方案「端到端+VLM」正式開始全量推送,理想汽車的智能駕駛,從此步入了 AI 大模型的時代。
像人一樣思考,像人一樣駕駛,如今的理想汽車,正在實(shí)現(xiàn)這一愿景。
好不容易搞懂了端到端,VLM 又是什么?
關(guān)于端到端到底是什么?是從哪個「端」到哪個「端」?別說普通消費(fèi)者了,就連不少媒體從業(yè)者都沒有搞清楚。
不少廠商都曾對此做出過解釋,其中解釋得最通俗易懂的,還是理想汽車:
一端,是傳感器:攝像頭、激光雷達(dá)等傳感器,它們就像是人的眼睛,負(fù)責(zé)輸入環(huán)境信息。此外還有特別設(shè)計的輸入信息,如車輛的位置、位姿和導(dǎo)航等信息。
另一端,是行駛軌跡:接收了來自傳感器的信息后,系統(tǒng)會輸出「動態(tài)障礙物」、「道路結(jié)構(gòu)」、「占用網(wǎng)絡(luò) Occ」和「規(guī)劃軌跡」。前三個感知任務(wù)主要通過屏幕呈現(xiàn)給用戶,第四個「行駛軌跡」,就是我們最終需要從傳感器映射出來的東西。
理想智駕端到端架構(gòu)圖
不難發(fā)現(xiàn),從傳感器接收信息,到系統(tǒng)輸出行駛軌跡這個過程,和我們自己開車非常類似——我們的眼睛負(fù)責(zé)接收信息,雙手會自然而然地帶動方向盤,把車輛帶到正確的軌跡上。
是的,依靠端到端模型,理想新一代智駕系統(tǒng)做到了像人一樣駕駛。
一直以來,無論是主機(jī)廠還是自動駕駛企業(yè),都在不斷宣傳自家的智駕系統(tǒng)有多么類人,多么像「老司機(jī)」。然而,一些「老司機(jī)」們習(xí)以為常的場景,在很長一段時間里,都是難以解決的行業(yè)難題。
最典型的就是環(huán)島這一場景,因?yàn)閳鼍皬?fù)雜、感知受限,因此在今年 7 月之前,還沒有幾家車企能夠?qū)崿F(xiàn)「老司機(jī)」般的進(jìn)出環(huán)島。
理想智駕技術(shù)研發(fā)負(fù)責(zé)人賈鵬曾對愛范兒和董車會表示,對于感知和規(guī)控分離的分段式智駕方案來說,在環(huán)島場景里,感知模型需要為規(guī)控模型做「各種各樣的假設(shè)!
做個掉頭,還得把掉頭線擬合出來,不同的路口的掉頭還不太一樣,曲率都不太一樣,所以你很難做到一套代碼就可以把所有環(huán)島掉頭搞定,種類太多了。
一體式的端到端方案則不同,其具備更強(qiáng)的復(fù)雜道路結(jié)構(gòu)的理解能力,可以運(yùn)用人類駕駛員數(shù)據(jù)訓(xùn)練出不同的環(huán)島類型、不同出入口的進(jìn)出軌跡,自主選擇合適的行進(jìn)路線。
如此一來,原有的道路拓?fù)浜腿斯ざx的規(guī)則,就再是必須的了。
關(guān)于環(huán)島這件事,賈鵬還分享過一個「好玩的故事」。
在我們(的模型數(shù)據(jù)包含)大概 80 萬 clips(視頻片段)的時候,還過不了環(huán)島,后來突然有一天發(fā)現(xiàn)我們(喂了)100 萬 Clips(之后)它自己能過環(huán)島,我覺得是 100 萬(視頻片段)里頭剛好有一些環(huán)島數(shù)據(jù)放在里面了。
「模型確實(shí)很厲害,」賈鵬補(bǔ)充道,「你喂了什么數(shù)據(jù)他就能學(xué)會,這是模型的魅力所在!
理想如今推出的全量版本基于 V4.8.6 模型,后者是在 400 萬 clips 的基礎(chǔ)上迭代的第 16 個版本。和以往相比,新模型對于超車場景和導(dǎo)航信息的理解能力得到提升,同時,障礙物的檢測更加精準(zhǔn),繞行的幅度也更為合理。
因此不僅是環(huán)島,像 U 型掉頭、擁堵時的蠕行和博弈、十字路口等傳統(tǒng)復(fù)雜場景,如今的「端到端+VLM」智駕系統(tǒng),都能夠很好地自主處理,甚至還支持 P 檔激活——
在路邊停車時,用戶原地雙擊撥桿來激活智駕系統(tǒng),不必再像以前一樣,必須在車道內(nèi)才能激活。
介紹完端到端模型的能力,接下來就是 VLM 模型。
VLM 模型是一種視覺語言模型,理想是第一個將視覺語言模型成功部署在車端芯片的廠商,使自動駕駛具備了未知場景的邏輯思考能力。
也就是說,它能夠像人一樣思考。
舉個例子,能夠生成行駛軌跡的端到端模型,完全具備通過收費(fèi)站的能力,但它在面對收費(fèi)站時,并不是很清楚自己應(yīng)該走哪條道,最后只能隨便挑一條來走。
而 VLM 模型,則能夠像人類一樣理解物理世界的復(fù)雜交通環(huán)境和中文語義,可以清楚地分辨 ETC 車道和人工車道,并輔助端到端模型做出正確的決策。
類似的場景其實(shí)還有很多,如公交車道和潮汐車道的識別、學(xué)校路段等路牌的識別、主輔路的進(jìn)出等。不僅如此,在遇到施工場景、坑洼路面甚至是減速帶時,VLM 模型也能很好地理解,進(jìn)行提醒和降速。
截至目前,理想汽車的 VLM 視覺語言模型已經(jīng)擁有了 22 億的參數(shù)量,對物理世界的復(fù)雜交通環(huán)境具有更擬人的理解能力。
此外,在 OTA 6.4 版本中,高速 NOA 功能也得到了優(yōu)化,在高速 & 城市快速路場景中,系統(tǒng)可以更早地識別前方慢車,超車動作更加高效安全。
總而言之,在端到端+VLM 雙系統(tǒng)的幫助下,如今面向用戶的 OTA 6.4,其擬人化程度上到了一個新的臺階。
理想的「快」與「慢」
從技術(shù)架構(gòu)來看,理想汽車這兩年經(jīng)歷了三次比較大的調(diào)整。
從需要先驗(yàn)信息的 NPN 網(wǎng)絡(luò),再到基于 BEV 和占用網(wǎng)絡(luò)的無圖 NOA,再到如今的一體化端到端技術(shù)路線。
第一代 NPN 架構(gòu)比較復(fù)雜,包含了感知、定位、規(guī)劃、導(dǎo)航、NPN 等模塊,它們共同支撐起了理想汽車當(dāng)時 100 城的城市 NOA 推送。
第二代無圖 NOA,理想汽車引入了端到端大模型,模塊數(shù)量大幅縮減,只剩下了感知和規(guī)劃,不再需要等待先驗(yàn)信息的更新。
理想的這一步,讓車企的「卷」,不再局限于無聊的開城數(shù)量,真正實(shí)現(xiàn)了有導(dǎo)航就能開。
今年 5 月,理想汽車招募了 1000 位用戶,正式開啟了無圖 NOA,也就是 AD Max 3.0 的公測。當(dāng)時的用戶反饋,遠(yuǎn)遠(yuǎn)超出了理想汽車的預(yù)期,短短兩個月后,理想汽車就為 24 萬多位理想 AD Max 用戶推送了這次升級。
只不過,這個時候的端到端,還是一個分段式的端到端,第三代智駕方案,才是真正意義上的一體式端到端——從輸入到輸出,全部由一個模型實(shí)現(xiàn),中間沒有任何規(guī)則的參與。
在以往,無論是有圖方案還是無圖方案,都依賴工程師根據(jù)各種各樣的道路場景去編寫規(guī)則,力圖窮舉所有道路狀況和與之對應(yīng)的方案,讓智駕的范圍盡可能地廣。
通常來說,廠商會把場景大致分為三種:高速場景、城區(qū)場景和泊車場景。這幾大場景又可以繼續(xù)細(xì)分,規(guī)控工程師們則需要針對這些場景來編寫代碼。
但面對錯綜復(fù)雜的現(xiàn)實(shí)世界,這樣的做法顯然不夠現(xiàn)實(shí)。而一體式端到端,則可以學(xué)習(xí)人類開車的過程,接收傳感器信息后,直接輸出行駛軌跡。
有沒有發(fā)現(xiàn),這個時候,提升智駕能力最重要的因素,從工程師變成了數(shù)據(jù)。而理想,最不缺的就是數(shù)據(jù)。
10 月 14 日,理想汽車迎來了第 100 萬輛整車在江蘇省常州基地下線,中國首個百萬輛新勢力車企就此誕生。根據(jù)理想汽車公布的數(shù)據(jù),在 30 萬元以上的理想車型中,AD Max 用戶的比例,高達(dá) 70%——
每過一個月,這些車都能給理想提供十幾億公里的訓(xùn)練數(shù)據(jù)。
另外,理想很早就意識到數(shù)據(jù)的重要意義,打造了關(guān)于數(shù)據(jù)的工具鏈等基礎(chǔ)能力,比如理想的后臺數(shù)據(jù)庫實(shí)現(xiàn)了一段話查找當(dāng)時,寫一句「雨天紅燈停止線附近打傘路過的行人」,就能找到相應(yīng)的數(shù)據(jù)。
正是憑借龐大的訓(xùn)練數(shù)據(jù)和完善的控制鏈,理想智駕實(shí)現(xiàn)了在行業(yè)中的「后來居上」,用端到端和 VLM 組成了自己的「快」與「慢」。
在理想看來,這套雙系統(tǒng)智駕方案,類似于諾貝爾獎獲得者丹尼爾·卡尼曼在《思考,快與慢》中的快慢系統(tǒng)理論:
人的快系統(tǒng)依靠直覺和本能,在 95% 的場景下保持高效率;人的慢系統(tǒng)依靠有意識的分析和思考,介紹 5% 場景的高上限。
其中,端到端是那個「快系統(tǒng)」,而 VLM 自然就是「慢系統(tǒng)」了。
郎咸朋認(rèn)為,一個自動駕駛系統(tǒng)到底是 L3 級別還是 L4 級別,并不取決于端到端,VLM 模型才是真正能去應(yīng)對未知場景,拔高能力上限的關(guān)鍵所在。
「理想同學(xué),我要去這里」
除了智能駕駛方面的升級,OTA 6.4 在用戶交互方面也引來了革新。
這里同樣分為「快」和「慢」兩個部分。
作為「快系統(tǒng)」的端到端模型所對應(yīng)的通常為文字彈窗,為駕駛員實(shí)時提供導(dǎo)航、交規(guī)、效率、博弈等執(zhí)行邏輯和動作。
對于「慢系統(tǒng)」VLM 視覺語言模型,理想則為它準(zhǔn)備了全新的圖文視窗。在特殊場景下,將前方感知到的畫面投射到頁面內(nèi),配合文案講解模型的思考過程和結(jié)果。
在文字彈窗和圖文視窗的配合下,無論系統(tǒng)執(zhí)行何種車控動作,駕駛員都能提前知悉。對于那些初次體驗(yàn)智駕的消費(fèi)者來說,這種直觀的信息展示也有助于迅速建立他們對智能駕駛系統(tǒng)的信任感。
不得不承認(rèn),理想汽車對用戶需求的理解確實(shí)非常精準(zhǔn)。
在我們對于未來的暢想中,智駕和智艙總是綁定在一起的,在 OTA 6.4 版本中,理想也為它的智能空間帶來了不少升級。
首先是新增的任務(wù)大師 2.0 全面接入了理想同學(xué)和 Mind GPT 的能力,在大模型的加持下,任務(wù)大師的表現(xiàn)更為智能。
Mind GPT 加持下的理想同學(xué),不僅能夠在周末家庭短途旅行和解答日常小疑問這兩個場景里發(fā)揮作用,結(jié)合新升級的高德 AutoSDK 750 版本導(dǎo)航地圖,理想同學(xué)可以通過「觸控+語音」的方式,讓駕駛員迅速進(jìn)行目的地搜索。
比如說,指著地圖上的某個位置,讓它幫你搜索充電站任一品牌的充電樁,甚至還可以指定功率。
總之,全新的理想同學(xué)完全可以讓你不必拿起手機(jī),你可以用最自然直觀的方式,輕松設(shè)置導(dǎo)航路徑。
端到端負(fù)責(zé)駕駛,VLM 替你思考,而你只需簡單地指引方向。
本文來源:愛范兒
精選推薦
熱門出行排行榜
原創(chuàng)IP推薦
換一換網(wǎng)友評論
聚超值•精選
最新內(nèi)容
極氪、領(lǐng)克合并完成,成立極氪科技集團(tuán)。未來雙品牌策略:極氪主打30萬以上中大型車,領(lǐng)克主打20萬以上小型車。2025年目標(biāo)沖擊71萬臺銷量,首先沖擊32萬輛和39萬輛。今年還將推出5款新車,其中4款是混動車型。智駕能力提升,L3級自動駕駛即將落地,并在4月上海車展亮相新車。銷售方面獨(dú)立運(yùn)營但共享資源和溝通機(jī)制。
合并 | 極氪尊界S800懸架通過駕乘舒適性挑戰(zhàn),以50km/h的時速平穩(wěn)“飛”過六個坑洼,而邁巴赫S680則出現(xiàn)沙子揚(yáng)起、玻璃碎裂等情況。這次測試展示了尊界S800主動懸掛的卓越表現(xiàn)。主動懸掛能夠根據(jù)路況預(yù)判并抬升輪胎,提供更好的舒適性和適應(yīng)性。此技術(shù)目前多用于豪華車型,并有望在未來向更多車型普及。
主動懸架2 | 舒適性3比亞迪聯(lián)手地平線推出智駕產(chǎn)品,價格下探至7萬級的海鷗。這一合作將使智能駕駛技術(shù)更加普及,并引領(lǐng)行業(yè)發(fā)展。
比亞迪 | 地平線縱目科技突然封樓,700多名員工無班可上,CEO和高管集體“消失”,公司高管還瓜分了88萬保供款。該公司曾是智能駕駛行業(yè)的明星企業(yè),估值超過90億。然而,由于種種原因,縱目科技三次折戟IPO,并且連續(xù)3年虧損近16億。在資金鏈斷裂的危險中,唐銳轉(zhuǎn)身研究自動駕駛充電機(jī)器人FlashBot閃電寶。
縱目科技 | 智能駕駛DeepSeek AI成為車企熱衷之選,其語音助手能提升智能交互與用戶體驗(yàn),支持模糊指令理解和場景化服務(wù)。同時,低成本和優(yōu)秀產(chǎn)品表現(xiàn)也是吸引車企的原因。然而,過度依賴DeepSeek可能導(dǎo)致技術(shù)控制權(quán)喪失。車企需將其納入自身研發(fā)體系以實(shí)現(xiàn)長期智能化轉(zhuǎn)型。
DeepSeek | 車企