來源:遠川研究所
在中文互聯網,馬斯克日常被調侃為“源神”,用以嘲諷“特斯拉不開源,中國就造不出純電車”的恨國黨。
不過在智駕領域,特斯拉確實在相當長的時間里,通過舉辦AI Day分享技術細節的方式,扮演著引領行業前景方向的燈塔(注:燈塔可能不止一座)。
可從去年開始,特斯拉取消AI Day舉辦,只宣告技術進展,不再講技術實現,留給外界的,只有采用端到端技術方案的FSD頻傳的捷報。今年,各家智駕企業翻開特斯拉給出的端到端習題,赫然在答案一欄處發現一行小字:解題過程略。
沒有參考答案的端到端,究竟要怎么做?端到端智駕的研發,有沒有合理商業模式的支撐?
問題率先給到造車新勢力代表蔚小理。
01?
打開黑箱
去年到今年上半年,國內智駕頭部玩家的競爭主旋律,是在傳統的模塊化技術架構下,以人海戰術比拼開城速度。
在此過程中,蔚小理的智駕團隊都擴充到千人(或以上),星夜兼程地訓練、測試、驗證,攻克Corner Case。
特斯拉FSD驗證了端到端的效果,讓大家有機會從重復勞動中解放出來。但代價則是,智駕傳統技術棧的各個模塊可以被測試、驗證,而端到端的智駕系統,是一整個只知結果不知過程的黑箱。蔚小理們走向端到端,面臨的共同問題是:
在智駕這種強安全需求的功能下,完全的黑箱是不可接受的,勢必要想辦法打開這個黑箱,了解系統“為什么會想這么干”,或者至少讓它的輸出相對可控。
小鵬的選擇是分段式端到端的漸進式路線,其技術方案是感知神經網絡XNet+規劃神經網絡XPlanner+側重場景理解的視覺語言模型XBrain。
在端到端的技術鄙視鏈中,分段式端到端目前處于下游。
激進派認為分段式端到端仍然沒有擺脫傳統方案的范疇,盡管感知與規劃都實現了神經網絡化,但一個關鍵點沒有改變——連接兩個神經網絡的依然是人類定義的接口,這意味著信息損失,以及大量人工標注,整個流程不利于全局最優,也不利于自動化。
但分段式端到端的優點也同樣在此:有人類定義的接口,意味著會輸出人類能看懂的中間結果,便于檢查、定位問題,不至于牽一發而動全身,比如感知出問題了不用把整張網絡都重新訓練一遍。訓練兩個較小的模型拼起來,也比訓練一個大端到端模型難度更低、消耗的算力資源更少。
更重要的是,這種方式理論上更容易保住智駕表現的下限。
7月30日,小鵬XNGP智駕全國全量開放的發布會后,何小鵬說,“樓要一層一層搭,想跳躍式發展或許有可能,但風險會極高“。
這句話被解讀為對友商的勸誡。
7月初,理想在夏季發布會上介紹了正在開發中的一段式端到端方案:4D One Model 端到端。在一段式端到端中,感知與規劃被打包到一張參數量數億的神經網絡中,老司機的駕駛視頻成為最主要的訓練數據。這一方案支持信息無損傳遞,數據流轉的自動化程度更高,比小鵬、華為的端到端方案更加激進。
不過這一端到端方案存在泛化性不強、可解釋性差、下限不穩定等問題,為此理想給端到端模型并聯了一個22億參數規模的VLM(Vision-Language Model,視覺語言模型)大模型。這個模型對復雜交通場景、交通文字標識有更強的理解力,能夠為端到端模型的駕駛決策提供參考,提升智駕系統的表現。
理想端到端+VLM快慢系統智駕方案
8月,理想這套端到端+VLM快慢雙系統智駕方案面向專業用戶開啟千人內測,官方預計今年底或明年初面向普通用戶推送。
在此之前,理想在用戶認知中智駕并不領先,給銷售帶來了不利影響(尤其對戰問界時)。端到端+VLM被理想定義為智駕能力彎道超車、躋身第一梯隊的關鍵戰役。
相比之下,蔚來對端到端則采取了一種保守且激進的態度。
蔚來的保守在于,目前對端到端的使用非常局限,并未將其用于城市NoA,僅用于主動安全功能。7月11日,蔚來開始推送采用端到端方案的AEB,來解決傳統方案AEB覆蓋場景不足的問題。
蔚來激進的一面則是,今年晚些時候將推送的智駕,似乎準備跳過目前流行的端到端上車潮,直接前往下一個階段:世界模型上車。
世界模型是智駕行業找到的最新方法論。2023年人工智能頂級會議CVPR上,特斯拉展示了世界模型的研發成果,以自動駕駛世界模型GAIA-1聞名業界的初創Wayve.ai,則在今年5月融資10億美元。
世界模型通過學習海量真實駕駛場景視頻,可以預測并生成未來一定時間內的駕駛場景視頻,做出正確的駕駛決策。它的本質是時空推演。這與人類的駕駛行為相仿,老司機會在腦海中預判、推演其他交通參與者行為和交通流的變化,在此基礎上規劃駕駛操作。
世界模型比目前的端到端更進一步的是,它的核心任務不僅僅是給出規劃路徑,更有“預測駕駛場景的像素變化”。這個難度極高的任務,會逼迫模型不僅僅學習優秀駕駛員的行為,還必須廣泛地學習交通知識與物理常識。
而蔚來在NIO IN上提出來的是一個難上加難的“世界模型PLUS”,它的復雜度更高、輸出維度更多,這意味著可以和真值比對形成的監督信號更多,加速神經網絡的訓練,同時也可降低系統運行的黑箱程度。但代價是更高的開發難度。
蔚來世界模型,有大量的預測任務輸出
作為參考,為了訓練僅僅是用于demo、只輸出規劃路徑和視頻的世界模型GAIA-1,Wayve.ai就使用了4700小時的視頻數據,以160塊A100訓練了15天。蔚來要訓練的世界模型,需要的是高不止一個數量級的數據和算力資源。
而在訓練完成之后,如何在保證精度和運行速度的前提下,將一個復雜而巨大的世界模型壓縮、塞進算力和帶寬都十分有限的Orin-X中,又是另一堆復雜的問題。
而在眼下,初試端到端(即使是謹慎采用)的蔚小理不同程度感受到了端到端“提高上限,降低下限”的效果。
比如小鵬的最新版本XNGP獲得了前所未有的掉頭能力,但被反饋稱高速上智駕表現出現了回退。
理想正在內測中的端到端+VLM方案呈現出了上限高、下限飄的情況。
而蔚來已經推送的端到端AEB,既有在彎道盲區這種非標準場景極限規避鬼探頭的表現,也被用戶批評出現誤剎增多。
02?
L4的研發,L2的前景?
在下限不好把握的情況下,車企還不約而同地轉向端到端,很大程度上是因為端到端的上限,將帶來足夠大的用戶體驗提升和相應的商業機會。
但隨著車企對端到端的涉入越深,一個問號在腦中經久不散:智駕的投入產出比,到底能不能算過賬?
為了賣出更多的FSD,特斯拉今年3月將其訂閱價格從199美元/月降至99美元/月(買斷價格從1.2萬美元降至8000美元)。然而今年5月國外數據咨詢機構通過對3500名用戶信用卡付費信息的分析,判斷FSD的轉化率僅有2%,引來馬斯克在X上辟謠“轉化率遠超2%,拜托”。
不過遠超2%也還遠遠不夠。特斯拉正在德州工廠建設一個預計規模達到10萬張H100/H200的超算集群,以每張H100 2.5萬美元的優惠價格計算,僅購買計算卡的資本支出就會超過25億美元(將其建設為數據中心并持續運營的成本更高),抵得上208萬輛特斯拉一整年的FSD訂閱費。
國內車企的智駕商業模型更不樂觀。
小鵬今年為AI準備的研發費用為35億元,理想這個月則將智駕的資金門檻設定為10億美元,但無論是小鵬的XNGP還是理想的NOA,都隨高配車型標配,無需付費購買。蔚來未采用免費策略,高階智駕功能NOP+定價每月380元,曾經短暫地取得過收入,但目前新車隨車附贈1-2年NOP+免費使用期。
包括特斯拉在內,國內外高階智駕仍處在賠本賺吆喝的階段。
矛盾在于,在進入城市NOA的比拼、轉向端到端范式后,這些企業的智駕研發強度實際已經面向L3乃至L4級自動駕駛,但主流市場對其的價值認定仍然是“不值得為軟件額外付費的L2級輔助駕駛”。
要解決這個“期望價值與實際價值的落差“,看起來最有前景的方式是進入最大的L4自動駕駛市場,Robotaxi。
2018年,大摩為Waymo的Robotaxi開出了800億美元估值。而馬斯克的鐵粉,方舟投資的木頭姐今年6月給出一份預測,2029年特斯拉Robotaxi的收入“保守估計”會達到6030億美元,助推特斯拉市值屆時達到7萬億美元。
在此之前,馬斯克在推上宣布將在8月推出Robotaxi車型(已經推遲到10月10日)。
03
商業回報還沒大力出奇跡
要不要做Robotaxi,今年成為擺在蔚小理面前的熱門問題。
對特斯拉跟得最近的小鵬,答案是YES。7月,何小鵬公開透露,小鵬汽車將在2026年推出Robotaxi。
何小鵬認為Robotaxi的硬件需求遠比想象中復雜,但能力可以快速成長的端到端+大模型的軟件算法組合,足以解決L4自動駕駛。何小鵬為團隊定下的目標是2025年下半年,XNGP的體驗對標谷歌Waymo的Robotaxi。
不過,造車本身已經是一項重資產生意,造出大批Robotaxi并經營一個無人駕駛打車平臺,將無限拉長商業鏈條和投資回報周期。谷歌今年向Waymo注資50億美元,小鵬不可能如此財大氣粗。
6-7月,何小鵬先后拜訪了滴滴CEO程維與Uber CEO達拉·科斯羅薩西。他說,小鵬并不想運營Robotaxi,而是希望向全球合作伙伴輸出車型和自動駕駛技術。
車企攜端到端向Robotaxi的迫近,引來了不少L4自動駕駛從業者的反彈,包括前圖森未來CEO侯曉迪、小馬智行CTO樓天城、輕舟智航總裁侯聰。他們有的怒噴車企神話端到端,有的說車企相關能力體系不健全,但核心論點保持一致:
車企的高階智駕雖然進步神速,但本質上還是在輔助駕駛的框架內設計,關注的核心目標是可用范圍與成本,而Robotaxi最重要的是可靠性與安全性。目標的不同決定了兩者難以使用相同的軟硬件,車企的高階智駕很難平滑過渡到Robotaxi[1][2][3]。
這正中李斌下懷。在7月27日的采訪中,他明確表態,”不認為Robotaxi是讓人興奮的建樹和商業模式“,并怒斥:
“智能駕駛的價值,不是把今天那么辛苦的專車司機、出租車司機的工作搞沒了”。
他不看好robotaxi的另一個理由是,因為道路資源有限、政府部門管制,robotaxi不可能無限制投放,這讓其很難擁有像軟件云服務一樣高邊際收益的生意模式。
李斌一直堅持人們會想要擁有一部自己的車,因此蔚來智駕的目標是幫助駕駛員解放精力、減少事故,商業路線的關鍵詞則是規模效應——面向普通用戶多賣車,向足額用戶收取高階智駕的訂閱費用,攤薄成本、獲取收益。
不過,在成本高昂的智駕面前,蔚來不到60萬的累積用戶規模仍然不夠,對外輸出智駕能力成為一種選擇。蔚來智駕負責人任少卿,最近首次表達了蔚來向其他車企開放智駕方案的意愿,就像蔚來開放換電那樣。
相比之下,李想對智駕是“技術判斷激進,商業策略保守”。
李想今年在重慶汽車論壇上立下Flag,端到端+VLM的組合,會在三年內實現L4級別自動駕駛。但不同之處在于,理想完全沒有想過Robotaxi這門生意。甚至于,理想到目前為止仍沒有表露出對智駕軟件收費的興趣,其官網掛著的LOGO仍然是“全場景智能駕駛,終身零訂閱費”。
這與理想所處的競爭態勢相關。過去一年,理想直面鴻蒙智行,銷量承受了顯著壓力。而鴻蒙智行最鋒利的矛,是華為的ADS智駕能力。
在鴻蒙智行眾界攜華為ADS 3.0(買斷落地價約1萬元)洶涌而來,進一步給理想上壓力的時刻,理想比之前好用但又免費的AD MAX智駕,可以幫助搶下更多訂單。與小鵬、蔚來不同,理想的智駕KPI并不是取得經營收入,而是為銷量服務。
然而,在國內汽車行業進入淘汰賽的階段,蔚小理的智駕業務不可能再長期處于交個朋友的狀態。
一張訓練卡的成本10萬元起跳,一個千人團隊的人力成本每年10億起步,作為蔚小理本就最燒錢的業務之一,智駕邁上了更消耗資源的大力出奇跡道路,但能不能同樣收獲大力出奇跡的回報,還寫滿了不確定。
參考資料
[1]?慎勇者侯曉迪,甲子光年
[2]?和樓天城談Robotaxi:“L2越厲害,就離L4越遠”,?騰訊汽車
[3]?特斯拉把 Robotaxi 想簡單了 | 對話輕舟智航聯合創始人侯聰,云見insight
編輯:羅松松
視覺設計:疏睿
責任編輯:羅松松
(聲明:本文僅代表作者觀點,不代表新浪網立場。)