復盤華為AI芯片簡史 昇騰亮相算力大爆發

復盤華為AI芯片簡史 昇騰亮相算力大爆發
2019年08月23日 01:02 第一財經

  復盤華為AI芯片簡史 昇騰亮相算力大爆發

  李娜

  看似高深的人工智能(AI)技術,其實已經“潤物細無聲”地深入大眾生活,僅你手中一部華為Mate20手機,就可以實現人臉識別、物體識別、物體檢測、圖像分割、智能翻譯等AI功能。這背后,依仗的是手機算力的大幅提升。小小一枚一分錢硬幣大小的華為麒麟980手機芯片,就集成了69億個晶體管,具備每秒鐘完成萬億次級運算的能力。你可能想不到,如今自己手中任何普通智能手機的算力,甚至比美國航空航天局1969年登月計劃中最先進計算機還高出幾百上千萬倍乃至更高。

  數據、算力和算法,驅動著人工智能的第三次浪潮。其中,算力正是重要的基石。手機端的芯片算力幾年間已經發展到如此驚人,用于云端的AI芯片需要處理自動駕駛等復雜場景的海量數據,又需要多強大的算力呢?OpenAI近期發布的研究顯示,僅2012年以來,人們對于算力的需求增長六年就超過30萬倍,平均每年增長10倍,遠遠超過了摩爾定律的發展速度,因為深度學習神經網絡需要對張量(可以簡化理解為矩陣)進行大規模并行計算,顛覆了傳統的浮點計算,對算力的需求正在出現指數級的爆發式增長。例如原來1個時鐘單元只能計算1次浮點計算,現在可以通過新的算子同時對N×N的矩陣計算,如果N=10,那就是同時計算了100次,計算次數較原來增長了100倍,新算子帶來了對新芯片的強大算力訴求。

  如果說2019年最受輿論關注的ICT和智能終端廠商是華為,那么其去年10月以來一直“猶抱琵琶半遮面”的業界算力最高AI處理器——Ascend(昇騰)910芯片,則是人工智能圈本年度最期待的AI芯片。

  面對AI算力需求的爆發式增長,這幾年華為在做些什么?

  率先將專用NPUAI芯片引入手機。

  人工智能發展中,我國在數據方面具備優勢,但在算法與算力方面仍待發展,尤其是芯片與硬件代表的算力方面。算法科學家、工程師和應用廠商面臨著AI算力稀缺和昂貴問題,大大抬高了算法研究和創新門檻,阻礙著AI的全行業普及和應用。

  正因如此,盡管AI芯片在金錢、時間和人力各方面的研發成本高昂,但在AI商業賽道上,各廠商都在打造各自的芯片體系,其中多為聚焦于某一應用或某一場景的互聯網和芯片廠商,也不乏ICT大廠。國內廠商中,華為在AI芯片的布局堪稱“經典”。

  在AlphaGo一戰成名之前,絕大多數國人就已經完成了從功能手機到第一代智能手機的換代,不斷增長的手機系統自帶功能特性和第三方應用,刷新著用戶的體驗。無論是AI功能還是場景化AI服務,都需要手機完成復雜深度學習算法模型運算,計算密集復雜,計算需求巨大,實時性受到挑戰;同時運行環境受限,功耗、內存、存儲空間非常挑戰,因此強大的算力是必需的。

  如何將人工智能引入到手機終端,是彼時蘋果、華為在內的手機廠商都在努力攻破的問題。

  2017年9月的柏林電子消費展上,華為正式發布全球首款移動端AI芯片麒麟970,一個月后發布了搭載麒麟970的旗艦手機Mate10。麒麟970是全球首款內置了獨立神經網絡處理單元(即NPU)的人工智能芯片。華為第一個將NPU引入手機芯片,在此之后,蘋果、三星等廠商紛紛跟進,到今天,AI手機已成為眾多手機廠商的旗艦配置。麒麟970內置NPU性能大幅優于CPU、GPU和DSP這些通用計算單元,同時相比CPU獲得了約50倍能效和25倍性能優勢。這意味著,麒麟970芯片可以用更少的能耗更快地完成AI計算任務。

  在NPU的加持下,手機功能也會變得更加強大。例如使用語音功能時,AI會對當前語境和內容進行細致的分析,從而實現高準確率的識別體驗,將語音識別的成功率提升到更高的級別。這樣一來,以智能助手為主語音的功能就得以替代傳統的手工輸入,扮演更重要的角色,或許以后大街上見不到邊玩邊走的“低頭族”,而是更多人對著手機“自言自語”了。

  在用戶十分關心的拍照方面,AI的出現同樣為喜歡手機攝影的用戶帶來不少福利。麒麟970搭載雙通道ISP圖像信號處理器,在動態影像捕捉和低光拍照上有很大的提升。雙攝鏡頭+雙ISP軟硬件優化,再配合人工智能的計算機視覺分析,便能自動分析畫面內的物體,并選擇當前最佳的拍照模式,甚至可以進行物體追蹤對焦和預測用戶拍照時機,提供前所未有的拍照體驗。

  麒麟970的推出,成為傳統智能手機和未來AI手機的重要分水嶺,AI手機的發展也從單純的算法優化進入了硬件能力的真·人工智能比拼階段。

  2018年8月,同樣在柏林電子消費展上,華為又發布了全球首款7nm人工智能手機芯片——麒麟980。

  1納米(nm)等于1毫微米(即十億分之一米),約為10個原子的長度。一根頭發絲直徑約為0.1毫米,而7nm相當于頭發絲的萬分之一,在不到1平方厘米的麒麟980內部有高達69億個晶體管。從芯片工藝上看,7nm相當于70個原子直徑,逼近了硅基半導體工藝的物理極限,麒麟980實現了在針尖上翩翩起舞。華為消費者業務CEO余承東表示,麒麟980的7nm工藝是由1000多名半導體工程師組成的團隊歷時3年時間、經歷5000多次的工程驗證精心打磨的成果。

  相對于麒麟970來說,麒麟980全面升級。以圖像識別速度為例,麒麟970可達到約2005張每分鐘,而麒麟980在移動端雙NPU強大算力加持下,可實現每分鐘圖像識別4500張,識別速度相比上一代提升120%,遠高于業界同期水平。隨之而來的,是人臉識別、語音助手、AI拍照,及各類智能美拍P圖等APP在手機上的全面升級。

  同時,面對更海量的用戶,麒麟710讓更多消費者享受到人工智能的樂趣。到了2019年,華為推出麒麟810芯片,這是華為第二款7nm工藝的手機芯片,也是華為首款自研達芬奇架構NPU的手機芯片,這意味著更多海量用戶享受到專用NPU帶來的旗艦級的AI體驗。

  至此,華為完成第一輪在手機端的AI芯片布局(麒麟970、麒麟980、麒麟710、麒麟810),手機產業也正式走入了AI時代。

  “達芬奇”構建端邊云算力大爆發基礎

  AI賽道比拼,影響的絕不僅是手機端,邊緣側、云側的硬件算力、數據算法等元素無一不處于白熱化的競賽之中,幾乎每天都有新的論文、新的產品問世。

  如果說華為在芯片上的持續投入屬“居安思危”,顯示的是其遠見與決心。那么,華為在人工智能領域的野心則更為宏大,這一次,華為不僅要覆蓋云、邊、端各種場景,還要形成從應用到系統到芯片的閉環。

  2018年10月,華為在其全聯接大會上首次提出全棧全場景AI解決方案,華為輪值董事長徐直軍表示:“全場景,是指包括公有云、私有云、各種邊緣計算、物聯網行業終端以及消費類終端等部署環境。全棧是技術功能視角,是指包括芯片、芯片使能、訓練和推理框架和應用使能在內的全堆棧方案。”

  其中,全棧AI的基礎,是一系列基于統一的達芬奇架構的AI芯片——從IoT到終端(如麒麟芯片的NPU),到邊緣側再到云。在會上,徐直軍還宣布,“外界一直在傳華為在開發AI芯片,我要告訴大家,這是事實,我們今天發布兩顆AI芯片:華為昇騰(Ascend)910和310。”此言一出,立刻在國內外人工智能圈子驚起波瀾——華為終于祭出了大招。

  達芬奇架構針對AI運算特征而設計,以高性能3DCube計算引擎為基礎,實現了算力和能效的大幅提升。從云、邊緣、端獨立的和協同的AI實際需求出發,從極致低功耗,到極致大算力的AI場景,為云、邊、端之間的算法協同、遷移、部署、升級和運維,提供了統一架構底層核心支撐,大大降低了人工智能算法開發和迭代的門檻,降低企業人工智能部署和商用成本。

  目前,昇騰(Ascend)芯片家族中的昇騰310已經落地商用。基于昇騰310,華為陸續發布了Atlas200、Atlas300、Atlas500、Atlas800等產品,已被廣泛應用于安防、金融、醫療、交通、電力、汽車等行業,涉及攝像機、無人機、機器人、智能小站、MDC(MobileDataCenter)等產品形態。并提供基于昇騰310的AI云服務,比如華為云圖像分析類服務、OCR服務、視頻智能分析服務等超過50款API已經基于昇騰310,日均調用量超過1億次。另有大量企業客戶正在借助昇騰310芯片自己開發算法服務。

  隨著昇騰310相關產品大規模上市,外界對昇騰910的期待更盛。畢竟,去年10月,徐直軍在會上公布,“昇騰910是計算密度最大的單芯片,最大功耗為350W,半精度為(FP16)256TeraFLOPS,比英偉達V100的125TeraFLOPS還要高出近1倍。若集齊1024個昇騰910,將會出現迄今為止全球最大的AI計算集群,性能也將達到256個P,不管多復雜的模型都能輕松訓練。”簡單來說就是,昇騰910是業界算力最高的AI處理器,相同功耗情況下,它的算力是業界芯片的2倍、最強CPU的50倍。

  全棧全場景AI逐步落地

  除了昇騰系列芯片外,華為提出的全棧AI,還包括支持端、邊、云獨立的和協同的統一訓練和推理框架MindSpore,芯片算子庫和高度自動化算子開發工具——CANN,提供全流程服務(ModelArts)、分層API和預集成方案的應用使能。

  其中,在2019年已經落地實現商用的,除了昇騰310,還有其面向用戶和開發者的門戶——華為云ModelArts。作為一站式AI開發平臺,ModelArts可以提供海量數據預處理及半自動化標注、大規模分布式訓練、自動化模型生成,及端-邊-云模型按需部署能力,幫助用戶快速創建和部署模型,管理全周期AI工作流。2019年5月,在斯坦福大學DAWNBench榜單,華為云ModelArts獲得圖像識別訓練第一,ImageNet-1k數據集上用128塊V100GPU訓練ResNet-50模型僅需要2分43秒,而在2017年10月,斯坦福DAWN的訓練時間是13天10小時41分鐘。斯坦福大學DAWNBench榜單幾乎聚集了國內外領先AI廠商,ModelArts如果有強大的昇騰910加持,是否能進一步刷新世界紀錄?若再采用1024個昇騰910的全球最大AI計算集群,又將出現什么樣的成績?

  從端側到邊緣側再到云側,從底層硬件到深度學習框架再到上層應用使能,華為的全棧全場景AI戰略正在逐步落地。在一年前關于AI的豪言中,哪些是華為下一步將要向市場兌現的呢?我們拭目以待。

責任編輯:張寧

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

7X24小時

  • 08-28 中科軟 603927 --
  • 08-28 安博通 688168 --
  • 08-27 瑞達期貨 002961 --
  • 08-21 南華期貨 603093 4.84
  • 08-15 日辰股份 603755 15.7
  • 股市直播

    • 圖文直播間
    • 視頻直播間