歡迎關注“新浪科技”的微信訂閱號:techsina
來源:智能車參考
擎天柱機器人,這次自己登場!
在剛剛結束的特斯拉2022 AI Day現場,馬斯克押注未來的人形機器人擎天柱(Optimus)——一系列新進展得到披露。
先是用手指倒計時開啟展示,其后緩步登臺,有模有樣,還展示了一段馬斯克最愛跳的舉手搖擺舞。
馬斯克強調,這是擎天柱機器人首次獨自登臺。
接著就通過視頻,展示著這個機器人目前的日常:在特斯拉工廠里搬包裹、澆花、學習各種人類做的事情。
但作為測試版本,這個原型擎天柱還比較粗糙,線圈裸露、胸口有醒目的電機等等。
所以緊接著第二版本、更美觀的擎天柱機器人也登場了——暫時還不會走,卻有更具設計的外觀,甚至還給配了一個得州牛仔腰帶。
馬斯克對特斯拉機器人的進展相當滿意,他說雖然很難,但一定會比特斯拉的車更便宜,要服務于人類生活和經濟,成本和售價要瞄準2萬美元(14萬元)的標準去量產和商用。
在最后的問答中,馬斯克還給出了時間表:3年量產,5年商用。
總之,特斯拉的AI Day在經歷延期之后,果然不負眾望,國內十一假期和國外周五夜晚都沒能阻擋熱情,數萬人在線實時觀看。
而且馬斯克家的擎天柱機器人一登場,立馬就讓不少網友感慨:相比之下,XX家的XX就是個遙控玩具而已呀。
擎天柱機器人,究竟有何不同?特斯拉AI Day上,又分享了哪些自動駕駛和芯片、超算方面的進展?
智能車參考,帶你一文看盡。
“擎天柱”機器人亮相
擎天柱首次登場,自己走上臺,向觀眾揮手。
還跳了一段馬斯克最喜歡的舉手舞。
動作還比較生澀,但這已經是目前完成度最高的AI人形機器人了。
波士頓動力?
馬斯克特意強調了擎天柱是第一個沒有外部穩定輔助、沒有遙控、沒有外帶電源,完全靠AI算法、自身電池電控、高集成的電驅執行器驅動的人形機器人。
怎么實現?特斯拉在這個項目上有哪些創新?
一一來看。
整體情況
擎天柱機器人身高170cm左右,重73公斤。整個機器人由一塊2.3度電池供電。
電控系統,包括充放電的功率半導體模塊,都集成在了機器人胸口的電池包中。
機器人靜坐時,功耗為100w,快步行走時,功耗為500w。
可以估算,這樣的能耗水平和電池容量,可以支撐擎天柱不間斷持續工作1.5-2小時之間。
擎天柱全身最大實現200度自由活動范圍。
負責完成主要任務的手部,有最大27度活動范圍(腕部)。
我們看到的這個能走路、揮手、跳舞的擎天柱,是目前的最新版本,沒有包覆外殼。
馬斯克介紹,今年4月擎天柱第一次實現站立行走,到現在也不過半年時間。
下一個完成度較高、包裹“皮膚”的機器人,未來幾個月內就能下地走路。
售價嗎…馬斯克也給出了一個讓人期待的估計:
很可能20000美元以內,肯定比汽車便宜。
擎天柱能做到什么?
擎天柱200多個自由活動維度,由全身28個結構執行器實現。
控制這些執行器的,也是從特斯拉FSD自研計算平臺衍生而來的SoC。
擎天柱機器人能做到什么?
簡單的展示中,能夠自己搬運物品,完成精細動作比如澆花。
通過模仿人類的關節和肌肉工作方式,特斯拉為擎天柱開發了6種不同的執行機構:
甚至可以提起500公斤重的鋼琴:
如何使6種、28個不同的執行機構像人一樣協調統一的活動呢?
整體策略:AI像人學習
機器人有28個驅動機構,基礎已經具備。
但難點在于執行器級別優先度不明確。
所以需要AI模型理解不同任務下各個關節的調動方式。
特斯拉的方式是采集不同這是任務下的人類關節運動模式,提取其中關鍵參數,比如扭矩分布、關節旋轉角度等等,然后合成一個整體的多維向量數據,并灌輸給系統。
如何讓擎天柱完成一個具體任務?
總體分為兩個步驟。
首先是前面說的將人類的示范動作映射成多維向量,并讓系統首先模擬出這個具體任務的關節運動軌跡:
緊接著,再通過實時系統將已經生成好的軌跡指令,發送到機器人對應的執行機構上。
但這個過程中,涉及到許多細分技術難題,特斯拉分別介紹了感知識別、行走與平衡、執行策略,以及手部動作幾個方面。
感知:特斯拉自動駕駛同源技術方案
擎天柱看到的世界是這樣的:
目標感知和識別算法的基礎,其實就是FSD的相應模塊。
這一部分如何提高識別的準確度和規劃擎天柱前進的路線,其實和自動駕駛算法相同。
“相當于一個低速、兩條腿的自動駕駛汽車”。
后面介紹FSD時會詳細說明。
如何保持平衡
從工程角度看,行走并不是一件簡單的事。最重要的是保持平衡。
其次保持整體動作的協調。
機器人上如何實現?
特斯拉開發了一個全新的機器人運動模型。
預設路線規劃好,輸入給系統后,系統會自動繪制出機器人的下一個落腳點,并且和整個機器人重心聯動,保持邁步同時的平衡。
不過 ,這里仍然存在工程上的控制挑戰。
如何實現規控
剛剛說的運動規劃,是在理想條件下實現的,只存在于系統模擬之中。
擎天柱真正邁出這一步,其實很容易受現實世界復雜環境的干擾而摔倒。
特斯拉的方案是在執行決策中加入修正步驟。
利用傳感器數據的真實性,不斷修正運動學模型對軌跡的估計。
這張圖解釋的很清楚:
基本運動模型,由本地已經訓練好的算法模塊(以真實世界模擬為素材)為基礎。
這個模型首先對環境進行模擬,預測出下一步行動軌跡。然后由傳感器數據預測修正。
最后將修正后的指令發送到執行機構。
手部復雜系統
擎天柱手指單獨成一個系統,有6個執行機構,每個關節實現最大11度的自由運動。
基本靈活性和人類手掌相當,也能做到每秒300度的轉動速度,而且關節、指尖觸點裝有傳感器。
能夠承重20磅(9公斤)、使用工具,以及抓取細小物品。
擎天柱明年開始量產,馬斯克盡管說它的售價可能不超過20000美元,但同時也認為人形機器人的價值其實并沒有被大眾真實認知。
所以之前馬斯克也在推特上說,最先應用擎天柱的場景,可能就是特斯拉自己的超級工廠。
關于這一部分,他畫了一張很大的餅。
特斯拉之所以把機器人造成人類模樣,主要目的就是取代人類完成幾乎所有經濟活動中需要的勞動。
“因為這個世界的所有工具、系統都是為人類的形體特征建造的。”
而馬斯克認為,一旦機器人變成主要生產力,人類完全就能實現個人的全面發展。
得到你想要的一切物質財富,學習享受一切你感興趣的東西。
我們中國群眾一點都不陌生,這不就是共 產 主 義嗎???
特斯拉FSD,和背后的數據閉環
首先登場的是特斯拉Autopilot負責人Ashok Ellaswamy。
他表示,特斯拉FSD自動駕駛車隊規模從去年的2000,到現在已經擴充到了16萬。
緊接著說道,之所以能達到這個成績,主要歸功于過去一年里工程師們的血汗付出——對75,000多個神經網絡模型進行訓練。
整個特斯拉FSD系統由以下部分組成:
更準確的說,這是特斯拉典型自動駕駛算法的開發流程。
FSD的主體算法框架,由車道、障礙物識別算法,以及環境建模算法(可供行駛的空間)組成。
當然,這些都是已經預訓練好的框架。
然后將經過自動標注、模擬的訓練數據喂給算法,這就形成了完整的迭代過程。
之后將這套算法部署在車端,完成自動駕駛任務。
接下來還詳細介紹了特斯拉Autopilot系統如何與現實世界進行交互。
每50毫秒可以實時做出一個決策,具體依靠如下的框架,將其概括為“交互搜索”。
決策的依據,是現實存在的車道線、以及其他移動的交通參與者。
根據軌跡預測算法,計算出多種可能的運動軌跡,這里需要用到不同的限制條件過濾掉那些明顯不安全、不合規的軌跡。
這些規則,其實也是FSD系統通過巨量的真實道路數據學習得來的。
而且不僅僅是機械的交通準則,更多是人類老司機處理極端場景時的策略和方法。
后臺訓練方面,特斯拉目前的計算集群,由14,000個GPU構成,其中使用10,000個GPU來訓練,4000個GPU則用來標記。
關于自動標注,以復雜路口的車道線為例,特斯拉每天有超過50萬個case被收集,如果全部使用人工標注,將耗費數個月的時間。
所以,特斯拉開發了一種新的系統:3D自動“打標工廠”。
第一步,數據從8個攝像頭處獲得,并且使用Transformer為基礎的BEV模型從不同傳感器的2D數據中恢復3D場景。
然后從這些初步處理過的數據中,先進行軌跡預測。
第二步,對于多車道的場景進行重建,這里指的是在系統中重建用于模擬訓練的場景。
最后,則是在新建的模擬場景中,標注出新的數據要素,比如其他目標的軌跡策略、車道線的不同形式等等。
整個流程不過30分鐘時間。
標注之外的另一個環節,是模擬。
重建模擬環境,通常需要幾個星期的人工。
但特斯拉的Lanegraph工具,幾分鐘內就能完成。
生成模擬環境,基礎還是車輛在路徑上采集到的真實信息。
Lanegraph會基于這些數據,學習到關于某一類道路環境的基本要素(ground truth),包括車道線形式、道路寬度、人行道邊界、交通標志信息等等。
然后,Tile creator模塊會根據這些要素,自動生成一個模擬場景。
然后,場景中的物體幾何信息,與時間維度的實時狀態會被提取出來。
最后,再使用虛幻引擎將這些特征渲染成高真實度的場景。
有多真實?包括道路標牌信息上的文字、路旁樹木形成的斑駁陰影等等都能呈現。
數據閉環最后一步,就是訓練和迭代。
這張圖展示特斯拉整個數據閉環的過程:
其中,值得關注的是“影子模式”,即車主在使用過程中傳回的高價值場景數據。
這也構成了特斯拉最主要的訓練數據來源,也是FSD快速進步的最主要原因:
以識別路口靜止車輛這個具體案例來說,真實場景數據遠高于模擬場景,一年時間內識別準確率從85%左右提升到近100%。
這次的AI Day,特斯拉FSD講了很長時間,但和去年相比,顛覆性技術革新并不多。更多的是特斯拉展示已經建成的高度自動化的數據閉環體系,以及這套數據閉環帶來的高效迭代速度。
有意思的是,這些技術思路,比如對Attention機制、Transformer、語言模型化用等新進展,跟國內更早之前自動駕駛公司毫末智行的AI Day上的大同小異——也意味著對于自動駕駛的工程化探索,目前業界到了合流的時候。
最后總結一下:
數據前融合,采用基于Attention的Transformer進行。這是一個由特斯拉開創、其他自動駕駛玩家紛紛跟進的趨勢。
模型優化方面,應用了不少NLP(自然語言處理)領域的思路。
格外重視的,還云端訓練,這就帶出了AI Day的另一個重要內容:
特斯拉超算Dojo新進展
這一部分,幾乎都是黃仁勛和英偉達的受難時間。
Dojo由特斯拉自研計算芯片D1集成。
具體來看,25塊D1集成為一個計算模塊。
一個計算模塊,相當于6個通用GPU性能,而成本和能耗,僅相當于1個GPU。
另外,去年特斯拉介紹了自建超算的基本模塊單位ExaPOD,集成120個訓練模塊,包含3000個D1芯片,超過1百萬個訓練節點。算力達到1.1EFLOP。
當時只是PPT,最新消息是,明年特斯拉即將在加州Palo Alto開建,總共規劃了7個ExaPOD組成計算集群。
不用說,建成之后肯定是人類有史以來最大的AI專用訓練、模擬基礎設施。
馬斯克在問答中也透露,DOJO不光會特斯拉自己用,也會考慮AWS一樣的方式對外商用,總之有這樣的大殺器,不愁商業模式。
問答馬斯克
最后,作為AI Day的互動交流環節,馬斯克親自上陣,盡可能回答了所有問題。
這些問題主要集中在三個方向上:
第一,擎天柱機器人和通用人工智能。
第二,自動駕駛。
第三,馬斯克的認知和特斯拉未來。
我們言簡意賅傳送如下。
問:擎天柱機器人現在用的肌腱系統定型了嗎?
馬斯克:我們現在的方案是為了更快實現工程化制造,即便有很多方案可以選擇但也有取舍,但根本上依然保持開放心態,會在不斷迭代中改進方案。
問:擎天柱機器人會有認知智能嗎?比如開開玩笑。
馬斯克:肯定能跟人聊聊天,有簡短的交談,但也不要走到終結者那樣……我們希望擎天柱能夠安全、有保障地為人類服務。
現在的擎天柱核心是實用主義的完成任務,以后會推進創造性認知的一面…擎天柱機器人肯定不是無聊的執行器。
問:如何保證擎天柱機器人的“意識”始終是正確的,不會傷害人類?
馬斯克:我們的機器人跟科幻電影的里的還不一樣,主要還是你希望做什么它就執行什么,當前還是比較偏執行的機器人。
機器人工程師補充:機器人的“意識”一方面可以通過數據訓練,二是確保可以遠程控制,一旦發現有不對的傾向可以接管。
馬斯克補充:或許會有一個終極控制按鈕。
問:擎天柱機器人的開發還跟加速可持續能源的特斯拉使命有關嗎?
馬斯克:嚴格講不是一個路線。擎天柱核心還是希望讓世界更美好,能夠讓人類更美好。
我是真的想看看最酷的最前沿的技術,讓世界在5年后、10年后變成什么樣……我是真的很感興趣。
問:擎天柱機器人正在走向通用人工智能(AGI),你擔心嗎?
馬斯克:我是人工智能的忠實信徒,并且認為需要像監督汽車、飛機和藥物一樣,確保AI的正確使用。應該有一個裁判的角色,保證AGI的安全使用。
但實現AGI,可能需要一個史無前例的超大數據集。不僅是互聯網數據,還有諸多線下的數據。于是就需要有更大的超算來訓練……這樣才能實現AGI。
問:AGI的發展預估?
馬斯克:AGI一定會來。比如5年、10年會有很大的改變,但下周可能不會有大的更新…所以前途是光明的,道路是曲折的,還有很多工作要做。
機器人的本質是傳感器和執行器,以及如何控制執行器。
問:擎天柱機器人啥時候會投入使用?
馬斯克:現在就已經在特斯拉工廠測試,搬東西,從一個地方搬到另一個地方。
我希望很快能進入到開放訂購的狀態。
三五年吧。三年量產、五年隨便買,能夠當個禮物送人。
問:特斯拉FSD為什么開始引入語言模型?
工程師:車道和路口啥的,只能通過語言模型的方式,可以實現更好的……視覺信息的建模沒那么完整的時候,語言模型、語言生成模型可以起到很好的作用。
問:FSD的公測推送標準?
工程師:我們會有好幾個版本,通過公測推送的不是內部最新的那個版本。
馬斯克:內部最新的版本通常都是我來測,我是FSD的首席測試。經常給他們debug。(現場笑)
問:特斯拉會始終堅持視覺方案?
馬斯克:自動駕駛的本質就是生物神經網絡,你始終可以參照人類的方式。
問:FSD的推進計劃?
馬斯克:很多國家需要批準才能開始FSD測試,但我相信我們已經準備好了。FSD今年年底還會有大的更新。目標就是一個停車場到目的地停車場的連續自動駕駛。
問:如果回到20歲,你會告訴自己什么?
馬斯克:(認真思考了一會兒),我會想辦法給20歲的自己說點實用的吧。比如盡可能站到人前,和更多聰明人認識,讀更多的書。以及不要太羞澀內向……偶爾送送玫瑰啥的也很好。
享受每一個時刻。比如我們火箭在小島研發的時候,該喝一杯的時候就喝一杯,因為那個時刻的感覺轉瞬即逝,不會再有了。
問:特斯拉何以為特斯拉?獨特性在哪里?
馬斯克:我們現在是很大的公司了,有不同領域知識的人才,而且我們做的事情幾乎都相當成功,因為在做正確的事情。也因為我們的使命是工程師用技術讓世界變得更美好。
其實很多硅谷公司都這么想,但能讓工程師真正快樂、且發揮才能的,不多。多數就是被畫餅進去,然后得不到有效地成長。
但特斯拉不是,這里非常酷,也很辛苦,解決很多艱難的挑戰,但如果你是一個天才,不管是哪個方面的,總有你的用武之地。
問答最后,馬斯克帶動現場參會者感謝了特斯拉工程師們,還講了一下AI Day的意義,說之所以披露大量的細節,就是希望感興趣的人可以隨時挑著看自己感興趣的東西,加入我們,改變世界。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)