國泰君安認為,“具身智能”具備人類孩童般的感知和學習行動能力;“具身智能”的基本假設是,智能行為可以被具有對應形態的智能體通過適應環境的方式學習到;Tesla Bot功能進展迅速,商業化前景可期,“算力霸主”英偉達高調布局具身智能;具身智能帶來的AI價值遠比人形機器人更大。
以下為原文內容:
從符號主義到聯結主義,智能體與真實世界的交互得到日益重視。上世紀五十年代的達特茅斯會議之后的一段時期內,對人工智能的研究主要限于符號處理范式(符號主義)。符號主義的局限性很快在實際應用中暴露出來,并催動了聯接主義的發展,形成了包括多層感知機、前向神經網絡、循環神經網絡,直至今日風靡學術界與產業界的深度神經網絡等多種方法。這種用人工神經網絡模擬認知過程的方法在適應、泛化與學習方面的確取得了很大的進展,但并未真正解決智能體與真實物理世界交互的難題。該難題“莫拉維克悖論”可以通俗地表述為:要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。
針對以上問題,“具身智能”(Embodied AI)概念應運而生。針對智能體的交互問題, 明斯基從行為學習的角度提出了“強化學習”的概念。1986年,布魯克斯從控制論角度出發,強調智能是具身化(Embodied)和情境化 (Contextlized)的,傳統以表征為核心的經典AI進化路徑是錯誤的,而清除表征的方式就是制造基于行為的機器人。Rolf Pfeifer在其著作《How the Body Shapes the Way We Think》中通過分析“身體是如何影響智能的”對“智能的具身化”做了清晰的描述,闡明了“具身性”對理解智能本質與研究人工智能系統的深遠影響。以上這些工作為人工智能的第三個流派——以具身智能為代表的行為主義方法奠定了堅實基礎。
“具身智能”的基本假設是,智能行為可以被具有對應形態的智能體通過適應環境的方式學習到。可以簡單理解為各種不同形態的機器人,讓它們在真實的物理環境下執行各種各樣的任務,來完成人工智能的進化過程。拆分來理解,“具身”的基本含義是認知對身體的依賴性,即身體對于認知具有影響,換句話說,身體參與了認知,影響了思維、判斷等心智過程?!熬呱怼币馕吨J知不能脫離身體單獨存在。此外,“具身”相對的概念是“離身”(Disembodiment),指的是認知與身體解耦(ChatGPT為代表的大模型就僅僅實現了離身智能);“智能”代表智能體(生物或機械)通過與環境產生交互后,通過自身學習,產生對于客觀世界的理解和改造能力。此外,一些通過強化學習訓練的機器人,也可以被認為是具身智能的一種形式,如OpenAI的單手還原魔方機器人等。因此,具身智能旨在基于機器與物理世界的交互,創建軟硬件結合、可自主學習進化的智能體。
具身的概念是可檢驗、可測量的。人所理解的世界概念,其中既包括人類獨有的責任心、榮譽、感情、欲望等非具身的概念,也包括了杯子、車等實體以及相應行為的具身概念。而具身概念是具備可達性、可檢驗性以及可解釋性的,即具身的概念對應的實體和行為是可以被測量,可以通過任務的完成來驗證以及通過具身學習來實現概念的推斷。相比之下,非具身概念基本要素不能實現可測量及可檢驗。
“知行合一”是具身智能的科學立場。根據具身智能的技術實現邏輯,“知”是建立在“行”之上的,也就是說只有通過“具身”才能理解某個場景。比如有個臥室,其具有睡覺、休息、放衣服等行為特征,這類行為是基于人的身體設計的,因此真正理解臥室的場景,就是要能夠直接通過坐上椅子、躺在床上等行為任務去驗證。同理,機器人通過理解場景,能夠實現以上行為才能代表它真正理解了該場景。因為從本質上,物體和場景的類別大多是由功能和任務來定義的,“我能用來干什么,那它是什么”,比如錘子不能叫木棍,錘子有它獨特的行為屬性。
具身知識在中國古老漢字中都占據較高比例。甲骨文等古老漢字,絕大多數就是通過行為的表征來刻畫一個概念,比如“爭”的古老寫法中,代表兩個人的手拔一根繩子,因此,理解行為才是理解概念及場景的關鍵。
所以,計算機視覺和NLP更多是具身智能的工具,而通用人工智能才是具身智能的終極目標。具身智能要能夠實現使用身體(各個部位)完成物理任務的一些現象,比如外國人不會用筷子,但仍能叉起來吃東西,因此具身智能也要通過物理環境完成任務的過程中,表現出完成之前沒有覆蓋的場景。所以,根據具身智能的特點可以研判,如同經典力學領域的速度、動量、彈性等概念奠基了物理學領域,驅動了后續科學的發展,同理,具身智能因其實現了知識、概念、可解釋以及行為因果關系,其有望成為通用人工智能的驅動力。
具身智能首先要具備可供性。可供性意味著要讓機器知道物體和場景能夠提供的是什么,比如整個身體、部件怎么和場景進行有效擬合。根據《Gendexgrasp: Generalizable dexterous grasping》論文中的案例,用兩、三、五根手指去握一個柱子,倘若不同的手都能夠產生無誤的握桿效果,就代表有了可供性,而物理學正是機器理解可供性的關鍵。
具身智能還要具有功能性。具身智能在把物體作為工具使用的過程中,要能夠以任務執行為導向去理解功能。從智能體來理解世界,核心就在于任務——改變實體狀態,是任務實現來驅動智能體的。例如,在解決 “鏟土”任務過程中,需要實現用不同的工具去鏟土,比如杯子、鏟子、平底鍋等,都要能夠讓智能體實現“鏟土”這個任務。因此,具身智能的功能性就是賦予了物體一個功能,用來解決某個特定任務。
具身智能需要實現因果鏈。就以上提到的“鏟土”例子,智能體能否順利鏟起土來是有因果關系的,例如控制揮動錘子的方式、動量、沖量等指標的改變程度和改變過程,需要用數學和物理的因果鏈來控制。人工智能研究院朱松純教授團隊介紹了一種學習和規劃框架,并證明了所提出的學習和規劃框架能夠識別對任務成功有重要意義的基本物理量,使智能體能夠自主規劃有效的工具使用策略,模仿人類使用工具的基本特性。
智能體學習如何使用工具涉及到多個認知和智能過程,這個過程即使對人類來說也并不容易。讓機器人掌握工具使用所涵蓋的所有技能是一項有挑戰性的難題,這項工作包括三個層面:其一是底層的運動控制。很多研究基于阻抗控制(Impedance control)來跟蹤工具使用的運動軌跡,或在不同階段改變力和運動約束,或使用基于學習的方法來控制機器人運動軌跡。在底層控制中,魯棒地執行運動軌跡是關注的核心。其二是中間層表征。各種利于下游任務的中間表征被提出,以便更好地理解工具的使用。盡管引入這些表征有利于學習更多不同的工具使用技能,但它們目前仍然局限于工具的形狀和任務之間的幾何關聯。其三是理解在工具使用中的涉及的高層概念,比如物體的功能性(Functionality)和可供性(Affordance),以及工具使用中涉及的因果關系與常識,從而實現更好的泛化能力。
現有的具身智能工作大多集中在以上三種基本特性中的某一層面。要么主要關注于機器人的動作軌跡而不去理解任務本身,要么旨在高層次概念理解而過度簡化運動規劃,都不能夠較全面的涵蓋所有層面。因此,機器人還遠遠沒有辦法基于特定的情境去制定工具使用的策略,并且由于運動學結構的顯著差異,機器人觀察到的人類使用工具的策略對其來說可能并不是最理想的方式。例如給定一組物體(典型的工具或其他物體),機器人如何判斷哪一個會是完成任務的最佳選擇?一旦選擇了一個物體作為工具,根據機器人和工具特定的運動學結構和動力學限制,機器人該如何有效地使用它?這些問題也正是行業的前沿研究領域。
要機器理解實體與行為,就得回答三個核心的科學問題。首先,從機器認知角度,如何讓機器看懂行為?其次,從神經認知角度,機器認知語義與神經認知的內在關聯如何?再者,從具身認知的角度,如何將行為理解知識遷移到機器人系統?
要實現具身智能,就必須先回答機器能否克隆人類的行為這個問題。行為認知是智能科學中的重要和核心問題,要讓機器理解世界代表著:理解實體+理解行為,因為不確定性的世界空間就可以歸類為實體與行為兩者。
深度學習框架在行為認知中遇到了瓶頸。因為深度學習得到長足發展,計算機視覺領域有兩個要素,一個是以物體為中心的感知,一個是以人為中心的感知。配合不斷進化的深度學習算法,復雜物體識別可以十分成功,但是要機器明白從人類視角的這個行為的真實語義,卻十分困難。市場表現來看也是如此,很多商用產品都是基于物體檢測,行為理解的產品都是很少的。之所以人為中心的感知十分困難,是因為深度學習本身達到了瓶頸。根據盧策吾教授的研究結果,行為識別的SOTA要遠低于物體識別。
行為理解的關鍵是要在極大語義噪聲中提取行為理解要素。行為是一個抽象概念,因而需要在圖像中捕抓行為相關要素。要衡量圖像的語義判斷區間,可以用語噪比(語噪比=支撐語義判斷區間/全圖像區間)來刻畫,即抹去圖像上的某個區域使得其他人無法識別出行為類型的最小區域。盧策吾教授團隊通過計算發現,物體識別的語噪比要遠大于行為識別,這意味著遮住較大區域仍可以識別物體,但哪怕遮住一小塊區域就無法識別行為。因此,可以得出結論,行為理解的關鍵是要在極大語義噪聲中提取行為理解要素,也就是需要在很大干擾情況下,真正挖掘圖像的真實語義。而這個工作是無法通過增加深度學習的工作量來達到的。
將行為認知問題分解為感知到知識、知識到推理融合的兩個較為簡單的階段,是一個較優的科學路徑。離散語義符號是被不同行為所共享的,比如吃飯、讀書和打掃都有著“手-握-某物”的標簽,通過對這些共享標簽的遷移、復用和組合,可以形成行為原語,從而構造“中間層知識”,這種組合可以有著一定的泛化能力,即通過原語組合,機器可以做出沒見過的行為。
因此,構建海量原語知識以及邏輯規則庫是首當其沖的工作。人類理解行為的基本原因,約等于人類各個部件在干什么事情,因此首先得構建大量的基于人類局部狀態的原語知識,并能識別它們。其次,有了好的原語檢測,之后就需要對它們進行編程,實現邏輯規則引導下的數據驅動學習,但這里容易出的問題是,規則是人類自己認為的,如果規則庫錯了就會有很大的影響,因此規則學習是解決該問題的辦法。具體流程是,在行為原語知識庫中隨機采樣,形成對該行為的判斷,然后基于人類給的先驗起始點去搜索,規則空間采樣,若準確率提高就加上規則,不然就刪掉該規則,通過調整后的規則分布形成新規則。盧策吾教授發現,以“人騎車”圖像為例,經過以上技術流程,機器可以在未見過的“騎車規則”中自動識別出“騎車”這個行為,所以該技術路線可以有效逼近行為識別的人類性能。
機器能夠理解人類行為需要有科學依據的支撐。因此,科學家需要進一步確定機器視覺行為分類特征跟神經特征之間是否存在穩定映射關系。如果有穩定關系,視覺定義行為就是有客觀依據的。
實驗發現行為從模式到腦信號存在映射,且模型穩定。盧策吾教授聯合生物醫學團隊,搭建了首套大規模視覺理解-神經信號閉環系統,對小鼠的行為模式和神經信號進行了相關性分析。通過實驗發現機器學習得出行為從模式到腦信號存在映射,并可以建立一個穩定模型。另外,通過構建一套基于機器學習的行為相關的神經回路發現系統,成功發現解析了“小鼠社會等級”行為的神經回路。綜上可以得出結論,通過視覺定義行為是有科學依據的。
不僅僅理解行為,更需要能執行行為,機器能夠執行行為才是真正理解行為。通過計算機視覺以及行為認知識別,讓機器能夠確認和分辨一個行為僅僅只是第一步,這也只是傳統旁觀式AI學習所達到的功能水平,例如,傳統AI學習可以讓機器學習“盒子”概念并在新的場景中說出“盒子”這個標簽,但在具身智能學習模式中,機器通過感知環境實體,通過親身體驗完成具身學習,最終理解場景并形成“打開”這個概念。因此,當機器可以執行該行為才是具身智能的落腳點。
執行行為需要涉及到形態、行為和學習的體系化交互。在基于形態的具身智能中, 形態、行為與學習之間的關系密切。首先,需要利用形態產生行為,該過程重點強調利用具身智能體的形態特性巧妙地實現特定的行為, 從而達到部分取代“計算”的目的。其次,需要利用行為實現學習,重點強調利用具身智能體的探索、操作等行為能力主動獲取學習樣本、標注信息,從而達到自主學習的目的,此領域當前屬于研究前沿。再者,需要強調利用學習提升行為以及利用行為控制形態,后者有多種實現方法,但當前利用學習手段來提升行為,并進而控制形態的工作是現代人工智能技術發展起來后涌現出來的新型智能控制方法,特別是基于強化學習的技術已成為當前的熱點手段。最后,具身智能需要利用學習來優化形態,強調利用先進的學習優化技術實現對具身智能體的形態優化設計。
“具身感知”是以執行動作為導向的全概念的交互感知。具身智能首先第一步就得解決具身概念學習的問題,即如何定義、獲取、表達可以被機器人使用的物理概念。具身感知和傳統計算機視覺不同,計算機視覺沒有解析全部的知識,而具身感知包含了“全概念感知”和“交互感知”,從而保證機器看到的不是標簽,而是怎么利用它。例如,可以從人類認知的角度,構建大規模關節體知識庫,該知識庫涵蓋外形、結構、語義、物理屬性,同時標注關節體每個部件的質量、體積、慣性等,記錄真實世界物體操作力反饋與仿真操作力反饋,在物理屬性知識加持下,物體力反饋曲線可以完全擬合出來,這時候仿真物體操作的時候,不再是去檢測標簽,而是所有知識全部檢測出來,檢測出來后,可以通過機器執行的準確率,判斷感知的準確率。
通過行為的反饋和模式學習的空間壓縮,可以實現“具身執行”的一定泛化性。在交互感知下,機器如果只是看物體,信息量沒有增加,但如果交互它,就能迅速減少誤差。機器面對物體,初步檢測它的知識,但肯定存在知識結構不準的情況,但可以在猜測它是怎么做出這個行為的基礎上,指導機械去做,倘若做完之后跟真實不一樣,就證明猜測有問題,再反過來優化問題。并且,可以把抓取到的所有特征模式,壓縮到可以被學習的空間范圍內,通過這種機制,機器在面對沒見過的物體時,也能進行相關的行為,因而具備了一定的通用性。
Tesla Bot功能進展迅速,商業化前景可期。2021年,在“特斯拉AI日”上,馬斯克發布了特斯拉的通用機器人計劃,并用圖片展示了人形機器人Tesla Bot的大致形態。但當時的Tesla Bot只是個概念。一年后在2022特斯拉AI日上,人形機器人擎天柱(Optimus)實體亮相。2023年5月中旬的特斯拉股東大會上,馬斯克又展示了Tesla Bot的最新進展,現在Tesla Bot已經可以流暢行走,并還能靈活抓取放下物體。馬斯克在會上表示“人形機器人將會是今后特斯拉主要的長期價值來源。如果人形機器人和人的比例是2比1,則人們對機器人的需求量可能是100億乃至200億個,遠超電動車數量”。
最近的Tesla Bot功能突破來源于特斯拉改進的電機扭矩控制以及環境建模等技術。特斯拉利用一些技術方法改進了人形機器人的動作和控制,包括電機扭矩控制、環境發現與記憶、基于人類演示訓練機器人。首先,研究團隊使用電機扭矩控制(motor torque control)操縱人形機器人腿部的運動,讓機器人落腳力度保持輕緩。對于一個機器人來說,觀察或感知周圍環境是非常重要的,因此特斯拉為人形機器人添加了環境發現與記憶的能力?,F在該人形機器人已經可以對周圍環境進行大致建模。特斯拉的人形機器人具備與人類相似的身體結構,特斯拉的研究團隊使用大量人類演示訓練了機器人,特別是在手部動作方面,旨在讓其具備與人類似的物體抓取能力。
具身智能帶來的AI價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行為反饋,而不是被動的等待數據投喂。人形機器人提供了各種基于人類行為的學習和反饋系統,為實現更復雜行為語義提供了迭代的基礎和試驗場,因此,人形機器人的逐步完善也為具身智能的落地提供了方向。而面向工業等場景的具身智能應用并非一定要是人形機器人,因此具身智能背后的技術和方法論才是核心,也意味著具身智能所帶來的價值要遠遠高于人形機器人本身。換句話說,人形機器人是具身智能的重要應用場景,也將為具身智能的迭代優化提供方向和空間。
強化學習興起之后,具身智能受到了更廣泛的關注。之前隨著Alpha Go的成功,學術界對于強化學習的興趣大增,隨之很多人開始用RL來打通智能體的感知-決策-執行,希望實現具身智能。訓練RL是一個不斷試錯的過程,所以從2017、18年開始,出現了很多仿真訓練平臺,能把一個智能體以具身的形式放進去,然后通過與環境的交互中獲得reward,進而學習一個policy。但是因為仿真環境和現實環境總是有差距的(叫sim2real gap),習得的policy不一定能遷移到現實里。當前能實現技能policy從仿真遷移到現實環境中的,主要還是像移動導航、單步驟的抓取或者操作這類較為單一的技能,而且很難泛化。
最近大語言模型的風頭又壓過了強化學習。最近業界希望通過大規模sequence to sequence,用一個模型整合視覺、語言、機器人,也取得了一定效果。但是機器人的執行需要的是4D數據(三維環境和機器人運動的時序軌跡),它的數據量和豐富度都遠不如圖片和文本,采集成本也高的多,因此迭代演化的難度相比于大模型高得多。
而多模態大模型為具身智能的技術瓶頸突破提供了重要驅動力。具身智能是人工智能、機器人等各技術分支融合發展的必然結果,因為計算機視覺為圖像的采集和處理打開了窗口,圖形學也為物理仿真提供了工具支撐,NLP也為人類-機器交互提供了便捷性,也為機器從文本中學習知識提供了有效途徑,認知科學也為具身智能的行為認知原理提供了科學研究途徑。各類機器人構件也為智能體與物理環境交互提供了橋梁。因此,人工智能的技術分支以及機器人功能性的提升,為具身智能的進一步發展帶來了可能,而當前AIGC時代的大模型可以將之前的技術分支更優地集成和創新,已有不少研究者嘗試將多模態的大語言模型作為人類與機器人溝通的橋梁,即通過將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理解,從而更高效地幫助機器人處理具身推理任務,一定程度提升了具身智能的泛化水平。所以,GPT等AI大模型為具身智能的自我感知和任務處理的優化升級提供了新的研究手段。
“算力霸主”英偉達高調布局具身智能。在ITF World 2023半導體大會上,黃仁勛表示人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。同時,他也介紹了英偉達的多模態具身智能系統Nvidia VIMA,其能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學,這也標志著AI能力的一大顯著進步。
融合傳感器模態與語言模型,谷歌推出的視覺語言模型相較于ChatGPT新增了視覺功能。2023年3月,谷歌和柏林工業大學AI研究團隊推出了當時最大視覺語言模型——PaLM-E多模態視覺語言模型(VLM),該模型具有5620億個參數,集成了可控制機器人的視覺和語言能力,將真實世界的連續傳感器模態直接納入語言模型,從而建立單詞和感知之間的聯系,且該模型能夠執行各種任務且無需重新訓練,其相較于ChatGPT新增了視覺功能。PaLM-E的主要架構思想是將連續的、具體化的觀察(如圖像、狀態估計或其他傳感器模態)注入預先訓練的語言模型的語言嵌入空間,因此實現了以類似于語言標記的方式將連續信息注入到語言模型中。
谷歌實現視覺語言與機器人高水平實時互聯,且觀察到了類似多模態思維鏈推理與多圖像推理等涌現能力的出現。基于語言模型,PaLM-E 會進行連續觀察,例如接收圖像或傳感器數據,并將其編碼為一系列與語言令牌大小相同的向量。因此,模型就能繼續以處理語言的方式“理解”感官信息。而且,同一套PaLM-E模型能夠達到實時控制機器人的水準。PaLM-E 還展現出隨機應變的能力,例如盡管只接受過單圖像提示訓練,仍可實現多模態思維鏈推理(允許模型對包含語言和視覺信息在內的一系列輸入進行分析)和多圖像推理(同時使用多張輸入圖像進行推理或預測)。但谷歌展示的Demo中的空間范圍、物品種類、任務規劃復雜度等條件還比較有限,隨著深度學習模型愈發復雜,PaLM-E也將打開更多可行性應用空間。
微軟正計劃將ChatGPT 的能力擴展到機器人領域,使得能用語言文字控制機器人。目前實驗已經能夠通過給ChatGPT的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色標志的東西”等。微軟研究人員表示,“研究的目標是看ChatGPT是否能超越生成文本的范疇,對現實世界狀況進行推理,從而幫助機器人完成任務”。微軟希望幫助人們更輕松地與機器人互動,而無需學習復雜的編程語言或有關機器人系統的詳細信息。
阿里采用和微軟相似的路徑,正在實驗將千問大模型接入工業機器人。在近日舉行的第六屆數字中國建設峰會上,阿里云發布一個演示視頻中展示了千問大模型的實際應用場景。其中,千問大模型接入了工業機器人,工程師通過釘釘對話框向機器人發出指令后,千問大模型在后臺自動編寫了一組代碼發給機器人,機器人開始識別周邊環境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動作,遞送給工程師。在釘釘對話框輸入一句人類語言即可指揮機器人工作,這將為工業機器人的開發和應用帶來革命性的變化,其背后意味著大模型為工業機器人的開發打開了新的大門。因為千問等大模型為機器人提供了推理決策的能力,從而有望讓機器人的靈活性和智能性大幅提升。
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)