前天的小鵬AI DAY上,何小鵬在介紹XNGP的最新進展時,提到了這樣一句話,“小鵬是國內首個將端到端大模型量產上車的公司”。
無獨有偶,在北京車展前夕,華為在發布最新一代智駕ADS 3.0時,也表示用GOD網絡和PDP網絡實現了感知和規控的“端到端”。
當兩家國內TOP.1級別的智駕大佬,都不約而同提到“端到端”時,我們就知道,智駕技術又要開啟新一輪的軍備競賽了。
但對我們消費者來說,這“端到端”究竟是什么?有了“端到端”的智駕,又能給我們帶來什么不一樣的智駕體驗?
智駕是怎么工作的?
想搞清楚“端到端”是什么,我們得先搞清楚智駕是怎么運行的。
在我看來,智駕可以分成兩個部分,按前后順序,分別是“感知”和“規控”。
“感知”很好理解,就是讓智駕能“看到”車輛周圍的交通道路環境和各種障礙物。
而“規控”就是基于感知的結果去制定行駛策略,再控制轉向、油門、剎車去執行。
“感知”和“規控”一樣,都需要輸入數據,然后通過算法計算,輸出計算結果。
但這里又提到了“數據”和“算法”,它們又是干什么的?
我們再來深究一下智駕的工作流程:
第一步是感知,攝像頭&雷達會把它們看到的各種場景和障礙物,以數據的形式輸入給感知算法。
而感知算法則會計算這些數據,從而搞清楚攝像頭&雷達看到的各種物體究竟是什么、有多大、離我們有多遠。
感知算法計算出的這些數據,接下來又會輸入給規控算法,后者則會結合導航地圖,規劃接下來可行駛的行駛路徑。
比如當規控算法確認,前方有一輛慢車需要超車后,就會規劃出一條變道超車的路徑,然后控制轉向和油門去執行。
而在這一過程中,感知和規控算法還會持續關注慢車和附近的其它交通參與者的狀態,來實時調整自己的行駛路徑。
怎么讓智駕更智能?
在智駕的這一套工作流程中,感知和規控算法都在不斷地計算數據,這些計算工作,主要是靠眾多“小的算法模型”來分工實現的。
這些“小模型”雖然工作兢兢業業,但也有自己的先天不足,這就導致智駕的舒適性和安全性,沒有辦法做到更好。
怎么理解“小模型”的不足呢?舉個例子,這些“小模型”就像流水線上的工人,每個人只會做某個固定工序上的重復機械式工作。
如果讓他們同時干好幾條流水線,那這個時候他們肯定是顧不過來的,工作效率和質量都會大打折扣。
而如果讓他們干超出固定工序的工作,由于之前可能沒培訓過,就很容易出錯,后續工序也會被影響。
智駕也是這個道理。一方面是消費者想讓智駕變得更智能,另一方面是國內復雜的路況也需要更強的算法應對,所以單純靠大量“小模型”,以及各種手寫的規則代碼,肯定是沒法窮盡駕駛時遇到的各種場景和情況的。
于是,車企開始用性能更強的“大模型”來取代“小模型”,原本龐大的模塊化結構,也由此開始變得簡潔起來了。
而在這個過程中,由于一些大模型的性能足夠強,只需要一、兩個大模型,就能搞定感知和規控的所有計算工作,而且效率更快,于是就有車企提出,有沒有可能靠它們來實現智駕?
特斯拉最早提出了這個想法,并且號稱用一個模型就在FSD V12上實現了;華為和小鵬則是緊隨其后,先后宣布了對應的算法升級。
而特斯拉、華為和小鵬提到的這個想法和算法升級,就是“端到端”。
“端到端”怎么讓智駕更智能?
簡單來說,所謂的“端到端”就是從感知層的數據輸入,到規控層的策略輸出,這一整套流程,都由一個或兩個大模型搞定。
之所以“端到端”能做到這一點,是因為大模型的性能足夠強。
按照車企的描述,這些基于Transformer架構打造的深度神經網絡大模型,不僅具備超高的并行計算能力,還可以借助自注意力機制獲得更強的學習理解能力。
以上換成說人話的版本,就是大模型既能同時計算大量數據,又能計算復雜數據,其實就是AI賦能了智駕,直接給打開了一個無上限的能力天窗。
而這就能賦予智駕在面對復雜交通場景時更快的反應速度和更擬人的駕駛風格。
而在取代以小模型為主的模塊化結構的同時,大模型也取代了相當多的手寫代碼,讓智駕的算法結構更加精簡了,這有利于提升算法的運行效率。
比如馬斯克之前就說,“端到端”的FSD V12只有2000多行代碼,而之前的FSD V11則有3000多萬行。
“端到端”完美無瑕?
雖然“端到端”有無法忽視的優勢,并且也已經成為了智駕技術發展的下一階段,但它在目前階段,其實也并不是一個靠譜的技術。
概念容易被營銷利用
首先是對車企來說,“端到端”是一個非常好的營銷概念,是不論如何,只要有條件,就要努力蹭一蹭的。
于是,這就導致大家對“端到端”的定義,始終處在一種非常模糊的狀態,這就導致它的實際效果,可能會沒你想得那么好。
比如按照特斯拉的描述,“端到端”就應該是“一個模型走天下”,這也是目前大家比較公認的、最嚴格意義上的“端到端”。
而華為則是在ADS 3.0上,用兩個“大模型”,分別實現了感知和規控的“端到端”。這個說法有點取巧,但也算合乎邏輯。
小鵬在AI DAY上的說法則更模糊,因為XNGP是被分為了感知XNet和規控XPlaner兩部分,個人猜測可能和華為類似,但也不好說。
這些“端到端”大模型雖然性能夠強,但終究是要靠有效數據去訓練、從而提升駕乘體驗的,所以如果訓練不夠、或者訓練不到位,體驗都不會太好。
而除了“端到端”,“大模型”的定義也一直在被車企模糊。比如傳統認知里的大模型,就真的是一個單獨的、大參數的深度神經網絡模型。
而有些車企的大模型,實際可能是一些中模型和小模型的集合,只是這個集合的規模很大,所以叫做大模型。
聽起來很扯淡是不是?但這就跟方便面包裝袋上“一切解釋權歸廠家”的字眼一樣,反正車企說是它就是,其余你別管就是。
自帶的黑盒屬性
“端到端”極其依賴大模型,而大模型又是一類神經網絡結構。
而神經網絡有一個先天缺點,就是具備不可解釋性,也叫“黑盒”屬性。
換成說人話的版本,就是神經網絡的計算過程,是一個“黑盒”。你能給到它輸入數據,并讓它得出正確的計算結果,但你不知道這個結果是被它怎么算出來的。
舉個例子,比如智駕在直線行駛時突然變道了,而附近既沒有障礙物,也不需要切換車道,顯得非常莫名其妙。
這個突然變道的策略就是一個黑盒。我們不知道智駕為什么要變道,神經網絡也不會告訴我們它為什么這么想。
而如果當時相鄰車道正好有其他障礙物,或者恰逢路面濕滑、車速過快,那么這就很有可能要釀成事故了。
神經網絡的“黑盒”會給智駕的安全性帶來影響。而“端到端”智駕又主要靠大模型來工作,所以“黑盒”問題也會被放大。
“黑盒”問題現在還無解,車企能做的,無非也只是靠增加數據標注來提供更多可解釋性的推導依據,或者給大模型綁上更多的規則代碼,確保它不要太放飛自我。
總結
總的來說,“端到端”是一項非常重要的智駕技術,它不僅能讓智駕變得更智能好用,還會指引智駕通往最終的無人自動駕駛。
但其中的安全風險也同樣重要,因為對消費者來說,“端到端”并不能解決安全問題;并且技術上的領先≠體驗上的領先,特斯拉的FSD V12就是個例子。
另一方面,車企為了營銷,也在不斷稀釋“端到端”的含金量,就像之前某些車企公布的銷量榜單,只要前置定語足夠多,我就是第一名。
消費者想要分辨車企技術實力的難度也在不斷增加,而我們則會堅持去偽存真,繼續幫助大家去解讀汽車技術。