段曉東:智算中心加速大模型發展

段曉東:智算中心加速大模型發展
2023年09月15日 14:28 市場資訊

  “2023中國AIGC產業發展論壇”于9月4日在北京召開。中國移動研究院副院長段曉東出席并演講。

  以下為演講實錄:

  尊敬的各位嘉賓大家上午好,非常高興受邀參加AIGC論壇。

  有一些專家的觀點我特別贊同,說大模型是一個比較復雜的體系,但是中間越來越重要的基礎設施,算力的重要性遠遠會超過大模型,而且會越來越重要。我今天也特別想從我們新型智算中心NICC的角度,跟大家探討如何構筑一個新的智算中心加速大模型的發展。

  先簡單介紹一下中國移動的一些工作。大模型確實帶來了人工智能的曙光,也催生出全新的范式變革,我們看到中國正在從百模大戰到千模大戰,前段時間我組織團隊對國內的大模型做了一個評測,確實參差不齊。中國移動高度重視AI這波浪潮,也觀察到剛才有的專家提到這個觀點,其實我們公司的戰略理念正在從X+AI走向AI+X發展,過去更多是引入AI,也就是大家所說的融智,讓AI能夠滲透到各個行業,包括對我們的網絡產生改變,到今天把AI做成基礎設施,把算力算法作為中間重要的基礎設施,能賦能各個行業走向AI+X的時代,我想這是一個大的主題,對于我們的業務流程、模式甚至價值呈現都會產生很大的改變。

  基于這個理念我們正在逐級構建中國移動的大模型體系。值得一提的是三個比較大的方向,一個是我們的新型智算中心,我們正在構建目前亞洲最大的單體的智算中心,后面會講到同時第二塊在構建自己的模型,第三我們正在推進網絡智能化,比如大家特別關注的6G如何內生支持AI,三個方向同時發力。今天重點介紹新型智算中心,前兩個只做簡單介紹。

  第一,AI賦能網絡走向網絡使能能AI。一方面我們要AI賦能網絡,更多是AI能力能夠實現網絡當時的設計,大家都說6G是一個算力融合的網絡,6G也面臨很多挑戰,通過AI的發展能夠助力我們滿足十年一代的發展目標。同時平臺化的網絡,讓6G賦能AI,更重要在6G如何讓算力資源平臺化服務,能助力移動技術能更多使能AI。

  第二,我們也在自研九天人工智能大模型,中國移動在十年前就組建了九天人工智能團隊,我們已經有一千名專家在攻關大模型。前一陣子發布了一個政務大模型,一個客服大模型。大家關注很多,在上海一次大會行業就發布了30多個,確實,每個大模型做得好都非常不容易。這兩個行業大模型積累了中國移動背后海量的數據,我們也希望以此為契機不斷推動大模型的發展。

  第三是如何打造一個新型算力高峰NICC新型智算中心。什么是新型智算中心,有幾個特點,是以高性能GPU、AI加速卡為核心,以前插一個GPU卡叫智算中心,今天必須是以高性能的GPU和AI加速卡為核心設計的新型智算中心,同時必須以高速互聯集群為目標,集約化建設單點超過E億的超大規模算力基礎設施。中國移動正在建設亞洲的最大的智算中心,會提供軟硬件一體化的AI全棧環境,最終能支持整個AI大模型高效訓練。新型智算中心將在五個方面,包括互聯、算效、存儲、平臺、節能都體現出與以往數據中心的不同。

  這一頁給大家展開介紹什么是新型智算中心。新型智算中心我們認為會進入兩個階段,首先當前是集群時代,后面會迎來超級池化時代,呈現完全不同的特點。舉例,在互聯方面,過去在服務器上插一張GPU卡,網卡大概10G、25G就夠了,到現在高速互聯的時代,動輒400G、800G的帶寬,是整個數量級的提升。在算效方面,到今天是8卡模組,很快會進入百卡互聯的時代。今天大模型時代有海量數據,而且是非結構化的數據,所以會要求支持融合存儲。在平臺方面,過去是軟硬一體,現在要構建云化平臺,針對異構算力要考慮到如何實現跨架構遷移的問題,當然包括節能的問題,整個系統會步入一個新的液冷時代。比如我們在做智算中心設計的時候第一步要找一個合適的地方,要做樓宇加固,做整個能效提升,因為本身的算效太高,過去一個標準服務器機架是7KW,而現在一臺服務器要到10KW,甚至更高,所以我們把機柜供電設計成40KW,否則放一臺服務器都不行。

  這邊給出一個新型智算中心的架構,包括剛才講到的存、算、網、管效方面都做了增強。首先算力,要強調幾個大的算力芯片,包括CPU、GPU、DPU的高效協同,包括要單獨考慮網絡連接的問題,深化算力協同、新增一個算力原生層,要升級整個綠色節能,大家看到它確確實實跟傳統的數據中心不同,我們也專門撰寫了一本白皮書進行描述。

  第三部分從五個新的角度給大家介紹一下為什么叫全新的設計,為什么面臨很大的挑戰?第一個互聯技術,這個技術對智算中心太關鍵,最近做評測得到一個非常關鍵的數據,過去大家非常強調GPU,其實說實話GPU比CPU要簡單,中國大概有20多家GPU的設計廠家,我們做過詳細的評測,大家的算力都能達到比較高的水平,但是如果連在一起,相互之間的協作就出現很多問題,比如很多的模型,大概一千億以上的模型,互聯通信的帶寬已經到百分之百,但是GPU的效率只有30%左右,可見關鍵的關鍵在于卡間的互聯。互聯分為兩級,這張圖片體現的是高速的計算互聯,隨著8卡到百卡的升級,未來會呈現server方的互聯。高速互聯總線就是解決大量的數據要在不同的GPU之間的搬遷的問題,這個其實是非常重要的技術,中間還有很多中國目前其實還有些卡脖子的技術,像Serdes技術,一個高速的串聯轉換是一個巨大的難題。這塊百卡互聯需要很多新的技術,比較遺憾的是中國這塊的技術比較少。

  第二個就是服務器間的以太網,服務器之間的互聯也很重要,要高速無損的互聯,會成為一個新的瓶頸。我們觀察過隨著算力的繼續提升,會面臨以太網固有的技術瓶頸,國際上都希望改變。中國移動大膽創新,改變以太網,發明了一個全調度以太網GSE技術,由過去的逐流分發變成逐包的轉發。我們的技術發布比較及時,目前全球包括英韋達,微軟UEC等等都已經在做,大家的想法其實很相似,我們也被全球評為全球三大主流技術,非常高興在這個領域能進入全球主要的門派之一。因為改動以太網不太容易,我們希望大家能攜手推動這個方向。

  第二個就是存儲,當前的存儲面臨很多的問題,大模型訓練中很關鍵的一個卡點就是訪存時延,效率問題,過去CPU旁邊有DDR,大家能觀察過GPU的設計,周圍排布了很多HBM,高帶寬內存,可見存儲非常重要,當前DDR和HBM是孤立的。未來希望引入池化技術,進一步降低數據在內存和HBM之間的反復交互,進一步提高算效。

  對于計算,我們也提了幾個發展方向,希望進一步升級計算架構,包括算法和芯片協調,包括面向低時延的技術。另外,GPU和DPU可以進一步提高算效,將很多的算法卸載在我們的DPU上,能解決目前大量的數據處理的問題。更加中長期是希望能進入新賽道,存算一體,大家知道大模型訓練AI訓練90%的消耗都來源于訪存,人腦是一個非常完美的形態,屬于生成式AI計算,我們只吃飯就可以生成那么高的計算,這是一個非常好的架構。國內很多的技術非常成熟,希望能實現彎道超車,能在AI這個領域能突破原有的架構。

  第四在平臺方面,我們引入了一個新的算力原生平臺,這個是我們原創性提出的。我們觀察中國整個GPU市場,國產產品的份額大約在10%左右,大概20多家,整個產業相對碎片化,意味著每個GPU上面都有自己的使能層,比如英偉達比較有名的CUDA,很多的使能層是不一樣的,框架主體都不一樣。引入算力原生這一層,希望能解決碎片化的問題,這個其實是純軟件的編譯技術,中國比較重視硬件,對于軟件我也在國內找到很多團隊,找到國內做編譯器很有名的團隊,攻關跨架構綜合編譯器、原生程序格式規范、原生運行時等等,希望能助力產業解決生態化碎片的問題,助力行業發展。

  第五個是新節能技術,預計新型智算中心將是大規模引入液冷的生態,我們發現中國的液冷行業還存在不少問題,我們也希望通過五個統一能進一步解決液冷技術標準化的問題。因為本身涉及到機房改造,需要整個的液冷線路改造整個服務器的改造,這個問題是比較迫在眉睫,標準化的推進將進一步降低產業門檻。我們也認為可能從當前的冷板式液冷會過渡到浸沒式液冷,隨著算力的爆發,這個技術發展力助力整個行業的發展。

  看到很多的技術有挑戰,為了大模型的發展,我們大家需要攜手共創一個新的智算中心的體系,以便在未來的發展中占有先機。希望大家能攜手共筑一個大模型發展的智能底座,謝謝。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:梁斌 SF055

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 09-22 中集環科 301559 --
  • 09-21 浩辰軟件 688657 --
  • 09-19 三態股份 301558 --
  • 09-18 愛科賽博 688719 69.98
  • 09-14 恒興新材 603276 25.73
  • 新浪首頁 語音播報 相關新聞 返回頂部