炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
摘要
國內算力需求的黎明已經到來。AI爆發兩年以來,海外通過前期的算力積累和模型建設,開啟了AI的商業循環之路,這對于國內的互聯網巨頭來說,意味著大規模部署AI業務的前提條件已經具備。今年以來,國內“豆包”、“可靈”等優秀模型也開始商業化嘗試,隨著頭部模型廠商開始走向放量與商業循環,我們認為,對于中國互聯網行業蛋糕的再一輪切分即將到來,而在本輪競爭之中,算力的建設,尤其是自主可控的算力建設,將是一切的先決條件。
GPGPU還是ASIC-先解決能用的問題。近期,博通在業績電話會上描述了未來ASIC芯片的宏偉藍圖,但對于國產算力來說,我們判斷,“能用與易用”的GPGPU將是未來幾年的主旋律。相較于GPGPU,當下的AIASIC主流路線雖然紙面效率較高,但是在編譯器,生態軟件上與國內客戶需求的適配度較低。從當下來看,隨著國內以“豆包”為代表的大模型應用加速放量,各廠商需要的是能夠快速部署,搶占業務入口與用戶的通用型算力,也就是GPGPU。同時對于以運營商,地方智算的建設者來說,通用算力代表著更好的用戶接受度與投資回報率。長期來看,隨著中國AI模型的競爭格局逐漸清晰,頭部玩家的業務顆粒度逐漸變大,AIASIC也將在中國找到合適的滲透場景。
中國AI通信,路在何方?隨著中國算力加速放量,自主可控的AI通信能力建設也迫在眉睫,我們認為,建設中國AI通信,同海外一樣,分為“Scale-Out”與“Scale-Up”兩個部分。對于以交換機,以太網為主導的“Scale-Out”網絡,核心是具備從芯片到整機自主可控的交換機體系。而對于過去更加封閉和專用的“Scale-Up”網絡,我們不應走英偉達NV-Link體系的老路,而是應當學習海外以博通、AMD為主導的“UA-Link”聯盟的經驗,以及博通提倡的從封裝開始的算核標準化互聯服務,憑借過往中國電信巨頭的網絡經驗和國產交換機芯片,封裝技術的革新,組成適用于所有國產算力的自主版“UA-Link”和算核封裝標準。
基建與制造:中國算力的底氣!AI算力建設發展至今,已經跳脫了單芯片計算能力的范疇,逐漸演變成從能源,通信到集群的系統性工程。如同航母一樣,是對于一個國家綜合實力的考量。雖然在地緣政治下,中國的芯片制程和單芯片能力受到限制。但我們認為,在國產算力建設過程中,我們的基建與電子制造能力將是中國算力最重要的底牌之一。從兩方面來看,首先是電子制造能力,中國的數通光模塊企業在多輪速率迭代周期中逐漸建立了競爭優勢。同時隨著連接方案多樣化,中國的銅模組,光纖光纜,長距離光模塊等也將為AI建設添磚加瓦。第二方面,中國擁有全球最先進的電網設施和充足的電力供應,當下美國AI建設受困于電網容量,不得不尋求如DCI,天然氣,小型核電等方式,但中國良好的電力基礎,將使得國內在IDC擴容方面具有不可替代的優勢。
投資建議:建議關注計算能力、通信能力、制造能力、基建能力的四大環節核心標的
計算能力:寒武紀-U
制造能力:新易盛、中際旭創、天孚通信、光迅科技、德科立、華工科技、銳捷網絡、菲菱科思、紫光股份
風險提示:AI建設不及預期,國內AI需求不及預期,海外制裁風險
投資要件
本篇報告將從一種路徑(芯片路線選擇)、兩種道路(AI、通信發展道路)、三個板塊(芯片、通信、配套)、四種能力(計算、通信、制造、基建)梳理國產算力起量過程中的投資框架與邏輯。
市場對于國內算力芯片的發展路徑理解較淺。我們堅定認為,相較于ASIC芯片,GPGPU將是更適合中國當下幾年算力市場的產品模式。首先,對于ASIC的定義,市場也較為模糊,我們認為,從國際主流來看,AIASIC是指沒有DCU部分,只保留TensorCore,且采用脈動陣列取數法為原理的芯片,即谷歌TPU、Groq、Tenstorrent等海外主流ASIC。其余保留了DCU部分的芯片,均應歸類為GPGPU類型。雖然ASIC的芯片,在同等制程和面積下,擁有更高的理論性能,但ASIC芯片的開發,需要編譯器和軟件生態層面的配合。由于沒有DCU部分的輔助,ASIC芯片的編譯器開發難度遠高于GPGPU芯片,同時新的生態軟件也給客戶帶來了極高的切換成本。因此,在當下階段,只有從模型訓練到推理應用全自有的海外頭部大廠,才能較好的運用自研ASIC。
對于國內來說,未來幾年是算力部署的初始階段,GPGPU算力的易用性將使其對客戶更有吸引力,中國需要先用海量的,可用且易用的GPGPU算力堆砌出自己的模型與商業循環,在完全成熟以及業務顆粒度放大之后,ASIC在國內的市場才會慢慢顯現。
當然在此過程中,對于GPGPU架構的優化也非常重要,例如可以同樣通過對DCU中不同算力精度小核的取舍,來強化芯片的AI精度,也就是FP16精度的算力,實現更好的追趕,我們認為這才是對于中國算力來說當下更為合適的道路。
市場對于中國AI通信該如何發展理解較淺。隨著AI集群規模的擴大,自主可控的AI通信,將會變得更加重要。發展自主可控的AI通信,有兩個領域,第一是Scale-Out領域,這個領域主要涉及到交換機芯片到整機的自主可控,第二個則是Scale-Up領域,這個從英偉達經驗來看,更加封閉且壟斷,但我們認為,國內芯片廠商不應該走與英偉達類似的純自研道路。從海外最新發展來看,從UA-Link聯盟的成立,到12月5日博通3.5D封裝方案的發布,芯片設計與通信公司的分工正在愈發明確,我們認為,行業應該學習這種趨勢,讓芯片公司專注于設計,同時集合國內電信巨頭的網絡經驗、封裝巨頭的技術積累,交換芯片公司的自主產品,從而建立自主可控的由封裝到專用芯片再到通信協議的“Scale-Up”網絡聯盟。
行業催化:
1. 國內模型廠商業務推進加速。
2. 國產算力產品能力不斷提升。
投資建議:
建議關注計算能力、通信能力、制造能力、基建能力的四大環節核心標的
計算能力:寒武紀-U
通信能力:中興通訊、盛科通信-U、通富微電
制造能力:新易盛、中際旭創、天孚通信、光迅科技、德科立、華工科技、銳捷網絡、菲菱科思、紫光股份
基建能力:潤澤科技、光環新網、奧飛數據、英維克、麥格米特
1.? 國產算力-能用與易用先行
近期,博通在財報電話會上給出指引,到2027財年,其AI業務的潛在市場規模約為600-900億美元,我們認為,海外的ASIC的業務版圖逐漸浮出水面,這也帶動博通市值也一舉突破萬億美金大關。
我們將視角拉回國內,許多投資者在這種背景下,認為ASIC作為AI專用芯片,其擁有更強的專用性,在同樣的半導體制程下,將會擁有比英偉達為代表的通用GPU更強的理論性能,是實現制程限制下算力“彎道超車”的理想之選。但從當下的客戶需求與全球ASIC芯片開發進程來看,我們認為,在未來的2-3年內,GPGPU將依然憑借“能用”與“易用”,成為國產算力的主旋律。
2.1 GPGPU與ASIC的技術對比與優劣分析
為了進一步解釋為何我們做出“GPGPU”先行的判斷,我們需要從兩種芯片的底層技術出發,來理解在進行AI計算時,兩種芯片的運算特點,與各自設計,使用場景的優劣。
隨著大模型訓練需求的躍升,Transformer算法快速風靡,Transformer算法通過大量且單一的“矩陣乘法”運算,使得模型的參數,能力快速躍升,帶動了AI的高速發展。這種通過單一,大量的矩陣乘法運算來實現“大力出奇跡”的運算特點,也給當下的芯片演進,帶去了不一樣的土壤。
(由于技術部分過于復雜,不是此篇報告論證的重點,因此在本篇報告中只做大概論述并給出主要結論,更詳細的兩者技術對比以及演進路線可以參考我們之前發布的報告《AI算力的ASIC之路——從以太坊礦機說起》)
我們先來看以英偉達為代表的GPGPU是如何在芯片微架構層面完成一次矩陣運算的。GPGPU構型的芯片,最大的特點是其芯片由兩大部分組成,專門負責矩陣運算的TensorCore(TU)與負責其他運算如向量運算,加減乘除的小核部分(DCU)。
在GPGPU構型的芯片上,進行一次矩陣乘法運算的大體過程如下,DCU中的每一個小核心先從HBM中取出一個單獨的數字,將其傳送給TU,連續多個cycle后,將TU填滿,進行一次矩陣乘法,并得出結果。
在ASIC芯片上,以當下主流的TPU架構為例,其底層原理是“脈動陣列取數法”,從微架構層面看,其拋棄了DCU小核的部分,只保留TU大核來進行矩陣乘法運算。CPU與編譯器直接從HBM中取出數字灌入TU來進行運算。
這么做有兩個好處,第一,省去了在實際運算中不參與矩陣乘法的“DCU”部分,可以將多余的面積堆積更多的TU,從而實現更高的“AI算力密度”。第二,由于采用了“脈動陣列取數法”作為填滿TU的底層原理,其將TU裝滿運算一次,并得出矩陣乘法結果的速度也更快。兩者相互結合,相同面積與制程下,此種原理的芯片相較于英偉達的GPGPU,可以擁有更好的理論算力。
但與之對應的,ASIC的芯片相較于GPGPU也有不少缺陷和劣勢。第一,在碰到稀疏數據,數據流中斷時,脈動整列取數法的效率會降低,而GPGPU因為有DCU提前處理數據,因此不會有此類隱患。而在AI場景中,大部分數據是稀疏數據,同時受制于通信,顯卡所獲取的數據并不完全連續,這在一定程度上降低了ASIC芯片的理論效率。
第二,則是ASIC芯片的設計難度,過去我們常常認為,ASIC由于用途單一,設計會更加簡單,但進入大模型芯片時代以來,由于大模型運算存在并行計算,數據切分等特點,雖然ASIC的硬件結構較GPGPU更加簡單,但是軟件編譯器層面卻成為了一個設計痛點。
我們以美國頭部ASIC創業公司Groq為例,由于脈動陣列取數法的特性以及串聯工作流的模式,一套計算流程往往需要多個計算核和存儲的配合,如何保證這些元器件同時穩定運行,保證計算的確定性,這就需要非常復雜的編譯器設計。以Groq為例,其在芯片架構內部,甚至專門增加了用來協調不同計算單元指令流的專用模塊,足以見得這項工作之復雜。同時,往后來看,隨著Transformer及其變種的持續進化,如何設計出一款優秀的編譯器,能夠讓芯片快速適應新模型以及微調的Transformer算法,將是考驗一款ASIC除了架構外最重要的能力。
回顧Groq的創業歷程,可以看到,初步的硬件架構在2020年的論文中就已完成,后續至今的四年,團隊主要專注于相關編譯器和軟件生態的研發。可謂是兩年做硬件,四年完善編譯器。由此可見軟件的重要性和難度不容小覷。
第三,則是ASIC對于客戶來說,擁有更高的學習成本,同樣以Groq為例,Groq的軟件語言也更加復雜,需要同時對多個功能單元的指令集進行設計,使用時也需要重新學習,這無疑對于新用戶上手來說更加困難。
2.2 我們的判斷:GPGPU仍將是國內的主旋律
上一節中,我們可以看到,以TPU為代表的主流ASIC,雖然憑借原理的創新在相同的制程和面積下擁有更高的理論性能和性價比,但是其編譯器工程量與難度較大,同時對于新用戶來說具有非常高的學習成本。因此在北美市場,只有頭部互聯網大廠成功實現了自有模型與自有ASIC體系的融合,因為其芯片在設計初期,就充分考慮到了針對自身業務的優化,同時隨著北美AI業務顆粒度擴大,確定的專用需求空間,也足以支持ASIC的發展費用,這才是ASIC發展的前提條件。
回到國內,國內正處于模型能力快速迭代,互聯網廠商正在快速擴充算力爭奪客戶入口的階段,同時絕大多數的B端客戶仍未能開啟AI化進程。同時受制于海外限制,中國無法獲得最新算力,因此對于當下的中國互聯網客戶來說,快速補充能用,易用的國產算力是當務之急,而ASIC則是業務發展到一定成熟階段后,需要用足夠的市場空間和時間來換取長期費用節省的一種思路,對于當下的中國算力市場并不貼合。同時,走ASIC路線的芯片公司,往往需要更長的時間去調試編譯器來釋放架構的完整性能,在國內制程受到限制的情況下,編譯器完成度不高的ASIC芯片,其競爭力和性價比會顯著弱于GPGPU架構。
總結來看,由大小核心構成的GPGPU架構,經過英偉達多年積累,對于國產算力廠商來說,無論是全球能夠找到的設計人才儲備,以及客戶對于相關軟件環境和使用習慣的積累,都是能更好形成“能用,易用”算力的路徑。但這也不代表我們要完全拋棄ASIC之路,在GPGPU構型之上,我們可以同樣通過對DCU中不同算力精度小核的取舍,來強化芯片的AI精度,也就是FP16精度的算力,實現更好的追趕。往長期來看,中國芯片廠商,在手機芯片等方面積累的優秀架構,也有憑借ASIC的性價比,再次煥發生機的機會。
3.中國AI通信路在何方?
隨著國產算力卡放量以及國內算力建設的加速,如何構建中國自主可控的AI通信體系,也成為了中國算力自主可控的重要一環。
從全球來看,英偉達選擇了從顯卡,交換機芯片再到通信協議的全自研體系,隨著開源以及擁有更高性價比的以太網協議不斷追趕,英偉達也開始推出以太網系列產品。在英偉達之外,以AMD為代表的其余的廠商普遍加入了由博通等巨頭牽頭的通信聯盟,UEC超以太網對應IB網絡,用于Scale-out,而UA-Link則對標NV-LINK,用于Scale-up。
對于中國廠商來說,當下依舊以海外芯片為主,但是在自主可控的大背景下,我們認為未來的機會將出現在兩個方向,第一是以太網交換機芯片的國產替代,第二則是隨著國產芯片放量,參與到中國版“NV-LINK”的合作與開發之中。
3.1 中國AI通信之Scale-Out-以太網主導,交換機芯片是核心
從全球來看,在Scale-Out網絡這一層面,目前主要是兩大協議在相互競爭,一個是英偉達獨有的IB協議,另一個則是博通主導的以太網協議。
在AI放量初期,英偉達的IB交換機憑借更好的集群性能以及對于AI訓練的支持獨樹一幟,但隨著在博通帶領下的以太網聯盟對于ROCE 2.0協議的迅速推廣以及調試,性價比更高且開源的以太網開始逐漸滲透。
時至今日,以太網風頭更盛,一方面是ASIC芯片的初步放量,使得以太網的用戶群體逐步擴大,另一方面,則來自于交換機層面的交付周期。在特斯拉的財報電話會上,馬斯克表示,特斯拉的10w卡集群基于以太網體系構建,而非IB協議。
將視角移回中國AI市場,當下來看,中國的主流交換機廠商推出的AI交換機普遍基于海外芯片。但正如上文提到,交換芯片與調優正逐漸成為決定網絡協議勝負和AI網絡能力的核心因素。因此,中國自主可控的交換芯片,將成為組建全國產化AI集群的關鍵一步,同時通過與國產芯片廠商與客戶的緊密合作,國產交換芯片也有望獲得更快的滲透曲線。
3.2 中國AI通信之Scale-Up-“中國版NV-Link”迫在眉睫
在Scale-Up網絡這一層面,全球目前是NV-Link發展較快,而NV-Link的持續迭代,也是英偉達在GPGPU架構下,保持對于ASIC芯片性能及性價比領先的關鍵一步。
同時,ASIC和博通為代表的競爭者們,正在從過去的各自為戰,轉變為統一聯盟,24年5月,博通、AMD、Arista、谷歌等芯片,互聯網,網絡巨頭們組成UA-Link聯盟,共同創建一種加速器到加速器的開放行業標準化互聯,也就是人人可用的“NV-link”。
回顧非英偉達系的Scale-Up網絡發展的歷史,最早是Intel用于多核CPU服務器之間互聯的片上ROCM協議,再到AMD優化后的“InfinityFabric”,隨后AMD將這份協議開放給了“思科,博通,Arista”三家網絡巨頭,再到后來AMD加入UA-Link尋求互聯方案。可以看到,在對抗英偉達的NV-Link上,博通為首的廠商,選擇了開放,標準化之路,這也符合芯片降本,提升競爭力的目標。
我們把視角拉回到國內,我們認為,海外UA-LINK聯盟的成立,給了中國自主可控的“Scale-Up”網絡以非常好的追趕機會。對于單一的芯片廠商來說,實現從基于傳統Rocm的八卡互聯到擁有全套NV-Link協議以及對應專用交換芯片的跨越需要大量的研發投入以及時間成本,這對于處于追趕期的中國芯片公司來說,很難承受。
但對比海外,中國一樣擁有具有深厚通信協議經驗積累的電信巨頭,同樣也擁有自主可控交換芯片道路上不斷探索的企業,我們認為,如果這些企業能夠帶頭組成類似于“UA-LINK”一樣的聯盟,可以快速幫助中國芯片公司形成對標“NV-LINK”一樣的互聯能力,這將助力中國算力的高速發展。
在12月5日,博通發布了下一代的3.5D封裝技術,可以使得芯片公司專注于算核的設計,隨后將一切算核與HBM,算核與外界通路的互聯,打包進3.5D封裝方案。從而變成具有極強互聯能力的算力卡。我們認為國內也可以借鑒這一趨勢,將自主可控的芯片標準延伸至封裝設計層面,幫助中國算力更好更快的成長。
4.中國基建與中國制造:中國算力的底氣
相比于美國算力的發展,中國由于受制于制程影響,在絕對的芯片性能上受到了較大的限制。進入AI時代以來,單芯片性能固然重要,但算力的部署已經逐漸成為了像航母一樣考驗一個國家綜合制造能力的系統工程。
與美國相比,中國在電子制造業上積累了深厚的產業優勢,同時在美國當下最緊缺的電力基礎設施方面,中國憑借全球領先的電網以及能源供應,有底氣支撐海量的AI算力。
4.1 通信制造業:中國工業的明珠
進入AI時代以來,由于數據中心互聯需求的加大,通信速率的迭代周期開始不斷加速,光模塊需求快速上升。以中際旭創、新易盛、天孚通信為代表的中國廠商,憑借在上一輪云計算浪潮中建立的產業地位和制造優勢,迅速成為北美客戶光模塊的主流選擇。
回到國內來看,隨著國內算力逐漸放量,國內對于光模塊的需求也將逐漸釋放,同時疊加在速率迭代下,DAC等傳統連接線纜向AEC的升級,也有望助力光模塊廠商實現在邁向制造業龍頭成長路上的品類擴張的關鍵步伐。
國內的光模塊格局,過去由于市場競爭格局,國內光模塊廠商的凈利潤率普遍偏低,但隨著供需格局在算力帶領下逐漸改善,我們認為,國內光模塊廠商也將受益此輪從市場總體供需到客戶結構的改善。
4.2 IDC:再次成為核心資產
前文提到,相較于美國,中國的電力基礎設施與容量,都相較美國來說更優。因此,美國的互聯網廠商在未來有可能走向自建核電站+DCI互聯的擴容之路。我們在最新的深度報告《AI的新視角:從算力之戰到能源之爭》中詳細闡述了基建邏輯。但對于國內來說,完善且充足的電力設施可以讓客戶通過第三方IDC提供的電力資源和機房實現算力的快速部署,從而為算力搶裝和業務擴展提供助力。同時由于不需要新建變電站、核電站等設施,中國的算力成本也有望通過基建和電力側縮小與海外先進集群的差距。
5.投資建議
我們認為,投資國產算力放量機會,主要從四個主要能力出發即計算能力、通信能力、制造能力和基建能力。
計算能力:抓住更適合中國當下需求的芯片技術路徑,從產品力出發,優選標的。
建議關注:寒武紀-U
通信能力:我們認為,未來“Scale-Out”網絡主要依靠自主可控的交換機芯片,而“Scale-Up”網絡則需要封裝、芯片、通信巨頭一起組建聯盟。
建議關注:中興通訊、盛科通信-U、通富微電
制造能力:中國的通信制造業中,光通信擁有全球領先的產品和制造能力、交換機擁有優秀的成本控制和整機工程能力。
建議關注:新易盛、中際旭創、天孚通信、光迅科技、德科立、華工科技、銳捷網絡、菲菱科思、紫光股份
基建能力:在中國優秀的電力基建下,IDC公司有望成為AI集群基建的主要承擔方之一,助力互聯網廠商快速擴張算力。
建議關注:潤澤科技、光環新網、奧飛數據、英維克、麥格米特
6.風險提示
AI建設不及預期
受制于國產顯卡交付進度,海外制裁等影響,國內AI集群建設存在不確定性、
國內AI需求不及預期,
AI模型仍在迭代,同時商業化初期進度可能較慢,這些都將影響客戶的資本開支進度
海外制裁風險
宏觀環境波動劇烈,海外國家有可能對相關供應鏈發布進一步制裁。
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)