理想i8上市之后,很多消費(fèi)者的一個(gè)疑問是:35萬元的理想i8憑什么?當(dāng)時(shí)發(fā)布會(huì)上的一個(gè)問題很明顯,理想i8的靜態(tài)感知似乎沒有和競(jìng)爭(zhēng)對(duì)手拉開差距,而它的動(dòng)態(tài)體驗(yàn)好像各家表述出來都差不多。所以,理想i8在發(fā)布時(shí)更像是一款“水桶車”,沒有特別長(zhǎng)的一塊長(zhǎng)板,也就讓外界認(rèn)為這款車不過是理想“復(fù)制粘貼”的又一款產(chǎn)品。
然而,在我們體驗(yàn)了理想i8上市即可用的“理想VLA司機(jī)大模型”后,我們才恍然大悟:
理想i8真正的長(zhǎng)板,原來是這套全新架構(gòu)的智能輔助駕駛系統(tǒng),而且很長(zhǎng)、很長(zhǎng)。

可以直接給到的一個(gè)結(jié)論是:理想VLA司機(jī)大模型的第一個(gè)版本體驗(yàn)就已經(jīng)和華為ADS 3.3能力不相上下。相比于端到端+VLM的現(xiàn)有版本,理想VLA在平順性和舒適性上有明顯提升,而且防御性駕駛能力會(huì)讓用戶明確感知到安全邊際。再加上語音控制駕駛、連續(xù)任務(wù)、地下車庫(kù)漫游等細(xì)節(jié)功能的增加,理想VLA司機(jī)大模型應(yīng)該是最近體驗(yàn)過的智駕輔助系統(tǒng)中最能帶來驚喜感的一個(gè)版本。
所以駕仕派認(rèn)為,理想i8的口碑將會(huì)在更多的消費(fèi)者體驗(yàn)完VLA之后迎來反轉(zhuǎn)時(shí)刻,理想i8的智駕價(jià)值會(huì)被很快放大。
01
VLA的實(shí)際體驗(yàn)
拋開背后的技術(shù)實(shí)現(xiàn)路徑,我們先來聊聊理想VLA司機(jī)大模型的實(shí)際體驗(yàn)。按照理想的說法,這次VLA大模型上車,在用戶感知層面主要有五個(gè)方面的升級(jí):1、防御駕駛;2、平穩(wěn)舒適;3、三點(diǎn)掉頭;4、連續(xù)任務(wù);5、地庫(kù)行駛。

第一個(gè)防御駕駛,是說VLA大模型在訓(xùn)練出來以后,會(huì)更能理解人類司機(jī)在遇到復(fù)雜路況的時(shí)候更謹(jǐn)慎,而不是端到端模型那種很莽撞的駕駛風(fēng)格。
比如在體驗(yàn)過程中,搭載了VLA司機(jī)大模型的理想i8遇到T型路口,或者左右兩側(cè)暫時(shí)有盲區(qū)的道路,還有地庫(kù)窄門時(shí),會(huì)進(jìn)行減速觀察,確認(rèn)安全之后再通過。還有一個(gè)比較明顯的變化是,在進(jìn)入左轉(zhuǎn)、右轉(zhuǎn)車道的時(shí)機(jī)上會(huì)更提前一些,而不像端到端那樣逼近路口時(shí)才迅速變道,也就確保了駕駛的安全性。類似的情況還有,車輛在復(fù)雜路口進(jìn)行博弈的時(shí)候,明顯會(huì)覺得車輛更像人類的駕駛風(fēng)格,不會(huì)特別激進(jìn),但又保持了比較好的效率。

第二個(gè)是行駛的平穩(wěn)舒適提升,帶來了更好的安心感。理想的智駕工程師透露,VLA大模型帶來的一個(gè)變化是,對(duì)縱向控制會(huì)更像人類司機(jī)、行車更絲滑,而端到端更多還是橫向的控制更多。所以現(xiàn)在端到端+VLM有時(shí)候會(huì)感覺剎車來得比較急,而VLA上車后就大幅優(yōu)化舒適性,起步、剎車、轉(zhuǎn)彎都更絲滑,偶爾可能才會(huì)出現(xiàn)一次規(guī)避旁車的重殺。而且這種平穩(wěn)舒適也體現(xiàn)在會(huì)選擇更好的行車路線,比如提前進(jìn)入右側(cè)車道、超車后變回原來車道、與后車?yán)_更遠(yuǎn)的距離,安心感也隨之提升。

第三是可以完成三點(diǎn)掉頭,也就是在車道任意可以掉頭的地方完成掉頭、一把不過可以倒車再繼續(xù)完成掉頭的操作。在實(shí)際體驗(yàn)中,不僅在四車道的大路上可以完成,在雙車道中可以完成,甚至在小路上還會(huì)找一個(gè)丁字路口完成,能力確實(shí)可以。
第四個(gè)連續(xù)任務(wù)的意思是,駕駛者可以語音指令車輛靠邊,又或者不按照導(dǎo)航地圖的路線,給出一個(gè)左轉(zhuǎn)、右轉(zhuǎn)指令,還能夠語音變道,甚至你還可以讓車輛記住在某段路按照什么速度行駛,可以比限速更快一些,而不用統(tǒng)一調(diào)整速度偏移值。并且在你完成這些操作之后,原本的智駕任務(wù)是不會(huì)中止的,比如你靠邊停車之后可以讓車輛繼續(xù)出發(fā);在完成和導(dǎo)航路線不一樣的轉(zhuǎn)彎之后,車輛也會(huì)繼續(xù)重新規(guī)劃路線,并自動(dòng)繼續(xù)導(dǎo)航。這樣在你進(jìn)行智駕領(lǐng)航輔助的時(shí)候不會(huì)因?yàn)榕R停中斷而需要重新啟動(dòng),整個(gè)體驗(yàn)更流暢。


第五個(gè)能力是地庫(kù)行駛。之前的端到端+VLM已經(jīng)可以完成地庫(kù)的車位記憶通行,開過一遍就能記住,而現(xiàn)在VLA則實(shí)現(xiàn)了如果地庫(kù)記憶位置不能停車,還可以在地庫(kù)進(jìn)行漫游尋找車位,依靠的主要是VLA的視覺-語言能力尋找。在我們的實(shí)際體驗(yàn)中,車輛會(huì)很準(zhǔn)確的識(shí)別樁桶、地鎖等裝置,最后繞了好幾圈尋找到車位完成泊車。整個(gè)地庫(kù)的行駛能力超過了我的想象,相當(dāng)于一個(gè)沒有預(yù)先掃描地庫(kù)地圖的VPD功能。
講完好的地方,再說說這次遇到的不足。一個(gè)比較明顯的問題是,語音指令有些時(shí)候需要按照標(biāo)準(zhǔn)話術(shù)去講,而不是完全的自然語義。還有在窄路進(jìn)行三點(diǎn)掉頭時(shí)的效率還比較慢,尤其是防御駕駛優(yōu)先的前提下,整個(gè)掉頭過程可能會(huì)造成道路擁堵。
其次是語音操控車輛進(jìn)行左轉(zhuǎn)右轉(zhuǎn)時(shí),需要預(yù)留出足夠的時(shí)間,否則車輛沒有辦法及時(shí)響應(yīng),造成走錯(cuò)車道或者臨近變道點(diǎn)激進(jìn)變道。原因是這一操作相當(dāng)于讓車輛做了一個(gè)臨時(shí)、不可預(yù)見的導(dǎo)航規(guī)劃,所以響應(yīng)新的導(dǎo)航路線需要一個(gè)準(zhǔn)備時(shí)間。

還有一些小問題包括可能出現(xiàn)“幻覺”,比如語音操作臨停,結(jié)果停車位置不是很好;還有就是車輛出現(xiàn)過一次聽了“變道”語音指令后,試圖超越黃色虛線車道線;偶爾也有一些無效變道動(dòng)作。
以上是這次體驗(yàn)理想VLA司機(jī)大模型的實(shí)際體驗(yàn)記錄,作為VLA司機(jī)大模型上車的第一個(gè)版本完成度很高,足以給出80分的高分。
02
VLA背后的技術(shù)實(shí)力
接下來的問題是,理想VLA司機(jī)大模型是如何實(shí)現(xiàn)這些用戶體驗(yàn)的?

簡(jiǎn)單來說,理想VLA司機(jī)大模型的核心能力就是四個(gè)——
1、思維能力:實(shí)時(shí)推理,推理速度達(dá)到10赫茲以上,并呈現(xiàn)思維推理過程。所以在車機(jī)上我們可以看到SR界面會(huì)有很精簡(jiǎn)的短思維鏈推理過程,執(zhí)行效率很快。

2、溝通能力:用戶可以通過語言和模型進(jìn)行交流,“開快點(diǎn)、開慢點(diǎn)、左轉(zhuǎn)、右轉(zhuǎn)”等基本操作均可實(shí)現(xiàn)。這是通過語言能力來實(shí)現(xiàn)的——VLA可以通過對(duì)語言的理解來執(zhí)行車輛操控,也就實(shí)現(xiàn)了“動(dòng)口不動(dòng)手”。
3、記憶能力:通過語言理解記住用戶的偏好選擇,記住用戶之前下發(fā)過的指令,存儲(chǔ)在云端并直接在云端調(diào)用。

4、自主學(xué)習(xí)能力:VLA司機(jī)大模型在仿真環(huán)境里,進(jìn)行無監(jiān)督的自我迭代和提升。

在實(shí)際過程中,VLA司機(jī)大模型就是融合視覺識(shí)別和語言理解能力,讓汽車有了思考能力,進(jìn)而才有了上面提到的防御駕駛、平穩(wěn)舒適、三點(diǎn)掉頭等能力。這一點(diǎn)是之前的規(guī)則或者端到端架構(gòu)上無法很好實(shí)現(xiàn)的——強(qiáng)規(guī)則下可能也能夠做到這些能力,但是付出的人力和物力都會(huì)更大,而且總是會(huì)復(fù)現(xiàn)之前的問題,這對(duì)于智能駕駛來說迭代效率就沒那么高。
那么現(xiàn)在除了理想,還有誰家推出了VLA架構(gòu)?答案是,沒有。
雖然我們也知道,VLA只是人類通向L4、L5自動(dòng)駕駛終局的一條可選道路之一,別家車企不一定選擇VLA做突破,但是VLA暫時(shí)被認(rèn)為會(huì)是一條更快出結(jié)果的道路,包括現(xiàn)在正火的機(jī)器人項(xiàng)目都試圖用一個(gè)統(tǒng)一的VLA架構(gòu)去解決所有的操作問題。
那么,理想為什么能率先推出VLA?將其總結(jié)為四個(gè)方面的領(lǐng)先優(yōu)勢(shì)——
數(shù)據(jù)、算法、算力、工程能力。

具體這些內(nèi)容比較復(fù)雜,就不在這里展開,簡(jiǎn)單總結(jié)一下就是:理想汽車有12.66億的數(shù)據(jù)采集里程,而訓(xùn)練VLA同樣用了1000萬Clips的數(shù)據(jù),但這些數(shù)據(jù)和之前的訓(xùn)練數(shù)據(jù)有區(qū)別。同時(shí)新的訓(xùn)練數(shù)據(jù)有10%的世界模型合成數(shù)據(jù),用來解決一些長(zhǎng)尾場(chǎng)景的訓(xùn)練。而在算法上,理想VLA采用先蒸餾出車端模型再進(jìn)行超級(jí)對(duì)齊和強(qiáng)化訓(xùn)練的方式,最終訓(xùn)練出一個(gè)4B的車端模型。


在算力上,理想汽車總算力為13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于訓(xùn)練。理想汽車認(rèn)為,“在VLA時(shí)代,推理算力更重要,如果沒有推理卡,就不能生成仿真訓(xùn)練環(huán)境。”

另一個(gè)優(yōu)勢(shì)是,理想汽車擁有行業(yè)領(lǐng)先的工程落地能力,主要體現(xiàn)在量化精度高和跨平臺(tái)部署能力強(qiáng)。這里面最直觀的體現(xiàn)就是理想汽車實(shí)現(xiàn)VLA模型在Thor-U和Orin-X的跨平臺(tái)部署,而不是只有新車才能用。至于量化精度高,你可以理解為推理性能的大幅提升,使得VLA大模型可以達(dá)到10赫茲、也就是每秒10次的推理速度,并呈現(xiàn)思維推理過程。

03
VLA的新未來
在體驗(yàn)理想VLA司機(jī)大模型之后,一個(gè)深刻的感受的是:
VLA是真正高度智能化的模型架構(gòu),其應(yīng)用場(chǎng)景和迭代速度或許會(huì)超乎想象。

比如之前很多企業(yè)都在做L4級(jí)別的Robotaxi,又是激光雷達(dá)又是高算力芯片,但是今年我們看到特斯拉直接用純視覺傳感器+FSD就可以完成Robotaxi的部署。這就證明了在智能輔助駕駛系統(tǒng)邁向端到端的下一階段以后,可以更快速地向L4進(jìn)發(fā)。
同樣,在體驗(yàn)理想VLA司機(jī)大模型的時(shí)候,理想汽車也給了我們一個(gè)“One more thing”,就是理想汽車的無人駕駛穿梭巴士。這些穿梭巴士就是理想MEGA Home做了一些專門的調(diào)試,主要是對(duì)理想汽車園區(qū)做了掃描和打點(diǎn),然后僅僅是利用VLA司機(jī)大模型能力就可以讓MEGA Home成為無人駕駛的穿梭巴士,完成園區(qū)內(nèi)的漫游。

實(shí)際體驗(yàn)中,你可以召喚穿梭巴士接人,然后去往星巴克拿咖啡,再讓它開到C1大樓的地下車庫(kù)送你去開會(huì),整個(gè)流程都非常絲滑。而且這些操作基本都可以通過語音來控制,也算是一個(gè)無人穿梭巴士的“交互新范式”。所以,理想的穿梭巴士完全就是復(fù)用了VLA司機(jī)大模型的能力,除了園區(qū)沒有導(dǎo)航、必須實(shí)現(xiàn)打點(diǎn)之外,幾乎沒有任何改裝成本。

理想汽車方面則進(jìn)一步表示,園區(qū)穿梭巴士相當(dāng)于從仿真單個(gè)場(chǎng)景變?yōu)榉抡嫱暾麉^(qū)域,會(huì)進(jìn)一步加快VLA強(qiáng)化訓(xùn)練速度。

另一方面,盡管VLA司機(jī)大模型的效率還受限于算力,但是從長(zhǎng)遠(yuǎn)來看,通過對(duì)VLA模型精度的變化,比如從目前采用的INT8與FP8混合精度推理,變?yōu)镕P4精度推理,預(yù)計(jì)未來算力可實(shí)現(xiàn)翻倍,為VLA模型釋放更大的算力空間。

所以,理想汽車才有底氣說:VLA的下限是端到端+VLM的上限,而VLA的上限,則是讓人遐想的未來。這也將會(huì)讓理想i8的口碑和產(chǎn)品價(jià)值迎來一次類似于當(dāng)年問界新M7的反轉(zhuǎn)時(shí)刻。