來源:中國經營報
本報記者 秦梟 北京報道
ChatGPT在全球的關注度持續火熱,再次將AI產業推到聚光燈下,科技巨頭爭相謀局落子,繼微軟、谷歌之后,國內企業百度、阿里巴巴等也先后發布大模型,并進行用戶測試和企業應用接入。隨著AI產業迎來“iPhone時刻”,算力需求正在持續釋放,以AI服務器核心零部件GPU(圖像處理器、加速芯片)為代表的供給端走俏,其價格也在不斷上漲,而在AI芯片GPU市場占據絕對優勢的英偉達也賺得盆滿缽滿。
多位業內人士在接受《中國經營報》記者采訪時表示,大型模型通常需要龐大的算力和存儲資源來進行訓練,GPU已成為 AI 加速芯片通用性解決方案,越來越多的企業和個人開始使用GPU來訓練大型深度學習模型。這種需求的增加可能導致GPU的價格上漲,從而導致顯卡價格的上漲。此外,由于供應鏈問題、半導體短缺等因素的影響,顯卡價格的波動也可能受到一定程度的干擾。
英偉達大秀肌肉
AI場景需要多核、高并發、高帶寬AI芯片。AI芯片,也被稱為AI加速器或計算卡,即專門用于處理人工智能應用中的大量計算任務的模塊。當前,AI芯片主要分為GPU 、FPGA,及以TPU、VPU為代表的ASIC芯片,而 GPU憑借其高性能、高靈活度特點成為AI 加速方案首選。據 IDC 數據,預計到2025年,GPU仍將占據AI芯片80%市場份額。
資料顯示,2018年OpenAI開發的GPT-1的預訓練大模型參數為1.1億,2019年發布的GPT-2提高至15億,2020年GPT-3的預訓練大模型參數已經提高至1750億。而為了訓練ChatGPT,OpenAI構建了由近3萬張英偉達V100顯卡組成的龐大算力集群,GPT-4更是達到了100萬億的參數規模,其對應的算力需求同比大幅增加。
TrendForce分析認為,要處理近1800億參數的GPT-3.5大型模型,需要2萬顆GPU芯片,而大模型商業化的GPT需要超過3萬顆。GPT-4則需要更多。
不僅如此,目前主流 AI 廠商都進入了“千億參數時代”,多采用了英偉達的 GPU。以科大訊飛星火認知大模型為例,其使用了英偉達的T4 Tensor Core GPU進行訓練。除了T4 Tensor Core GPU,科大訊飛還使用了其他類型的GPU和其他硬件設備來支持其深度學習平臺的開發和應用。這些硬件設備包括英偉達的PaddlePaddle、NVIDIA Tesla V100、AMD EPYC等,以及多種CPU、內存、網絡設備等。
昆侖萬維集團CEO方漢也表示: “超過千億級別的大模型,它的訓練大概需要1000—2000張A100的卡,沒有2000張A100的卡,實驗都做不了。”
招商證券指出,從通用服務器到AI服務器,一個最顯著的變化就是GPU取代了CPU成為整機最核心的運算單元以及價值量占比最大的部分,傳統服務器通常至多配備4個CPU+相應內存和硬盤,在AI服務器中,通常是2顆CPU+8顆GPU,部分高配4U服務器中甚至可以搭配16顆GPU,預計AI服務器中GPU+CPU+存儲的價值量占比有望達到80%以上的水平。
據統計,英偉達當前在售的用于大模型訓練的GPU卡至少有9款型號,其中高性能的有4款,分別是V100、A800、A100及H100。而此輪AI“軍備競賽”也讓用于上述顯卡的價格一路高漲。其中,A100此前售價在1.5萬美元(約合人民幣10.35萬元),但目前在一些平臺上,此款顯卡價格上漲到15萬元左右。
英偉達也借機賺足了“錢包”。TrendForce 數據顯示,如果以英偉達 A100 顯卡的處理能力計算,GPT-3.5大模型需要2萬塊GPU來處理訓練數據。目前英偉達 A100 顯卡的售價在 10000~15000 美元之間,預估英偉達可以賺3億美元(約20多億元人民幣)。
值得注意的是,英偉達還在源源不斷地為這場軍備競賽輸送彈藥。在此前GTC開發者大會上,英偉達推出了新的Hoppper CPU——配有雙 GPU NVLink 的 H100 NVL,這是專門針對算力需求巨大的 ChatGPT 而設計的顯卡,擁有夸張的 188GB HBM3 內存(每張卡 94GB)。
不過,即使價格上漲,目前市面上幾乎“一卡難求”。一位業內人士對記者表示,客戶對英偉達A100/H100芯片需求強勁,后者訂單能見度已至2024年,更緊急向代工廠臺積電追單。
國產廠商的機遇
雖然國內外的大模型項目接連落地,但除了百度、阿里巴巴等企業采用自研芯片外,國內大多數企業仍難求高端GPU。據透露,國內可用于訓練AI大模型的A100大約有4萬—5萬個。
英偉達在去年收到美國政府的通知,通知稱:“若對中國(含中國香港)和俄羅斯的客戶出口兩款高端GPU芯片——A100和H100,需要新的出口許可。”不僅如此,該許可證要求還包括未來所有的英偉達高端集成電路,只要其峰值性能和芯片間I/O性能均大于或等于A100的閾值,以及包括這些高端電路的任何系統,都被納入許可證限制范圍。
不過,英偉達針對中國客戶推出了替代型號A800,與原有的A100系列計算卡相比,A800系列的規格基本相同,比較大的區別在于NVLink互連總線的連接速率,前者為600GB/s,后者限制在了400GB/s。綜合使用效率只有A100的70%左右。前不久英偉達還發布了特供版的 H800,作為其旗艦芯片 H100 的替代版。
4月14日,騰訊云正式發布新一代HCC(High-Performance Computing Cluster)高性能計算集群。據悉,該集群采用騰訊云星星海自研服務器,搭載英偉達最新代次H800 GPU,H800基于Hopper架構,對跑深度推薦系統、大型AI語言模型、基因組學、復雜數字孿生等任務的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達到3TB/s。
伴隨著近期宏觀經濟回暖以及國內互聯網企業紛紛加大AI算力布局,PC和服務器的需求上升有望為國內GPU市場帶來整體拉動效應。
目前,國內已涌現出一批優秀的GPU設計和制造廠商。
其中,海光信息目前已經成功掌握高端協處理器微結構設計等核心技術,并以此為基礎推出了性能優異的DCU產品。其深算一號產品和英偉達A100及AMD高端GPU產品(MI100)進行對比,單芯片產品基本能達到其70%的性能水平。
值得注意的是,上述業內人士表示,雖然國內的GPU廠商取得了一些成績,但是由于GPU研發難度大、開發周期長,例如A100,英偉達只用了三個月的時間便研發出替代方案,而國內卻并不多見。而且目前中國GPU開發者大多使用國外廠家提供的IP,自主性不高,不過經過多年沉淀是能夠實現國產替代的。
責任編輯:李桐
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)