GPU國產替代潮,無路可退,也沒有人想投降

GPU國產替代潮,無路可退,也沒有人想投降
2022年12月01日 10:26 市場資訊

  作者|玄寧

  來源|未來科技力

  [代題記]

“預計到2020年,國際上微電子技術水平將發展到14納米。我們應該清醒地認識到,核心技術是買不來的,必須靠我們自己,只是一代又一代的引進新的生產能力是趕不上世界先進水平的。我們研究人員要爭口氣,否則發達國家在核心技術方面總是要卡我們的脖子。”                                                                         

——江澤民 《努力把握微電子、軟件和計算機產業的技術主動權》(2006年12月10日)

  “如果因為層層加碼的外部限制,就直接啥也不做了。那我當初創業是為啥呢?”一名頭部國產GPU創業公司的CEO對品玩表示。

  2022年10月7日,美國商務部下屬的工業和安全局(BIS)發布厚達139頁的對華半導體出口管制措施,影響程度被形容為“把對華為的管制擴大到整個中國半導體產業”。這次擴大的限制并非毫無征兆,8月31日,英偉達披露美國政府已對其提出出口管制要求,禁止其兩款高性能GPU產品出口中國。

  這些步步緊逼的限制封鎖指向的一個重要目標,就是極度依賴GPU算力來發展的人工智能。

  支撐人工智能的深度學習系統,可以存在于你的手機里,但更多時候需要數據中心里連在一起的機器“集群”來實現。數十個鞋盒一樣大的服務器層層疊插在和人一樣高的“貨架”上,一排排架子再塞滿倉庫一般的數據中心。一顆顆GPU就運轉在這些盒子一樣的“倉庫”里。

  今天在世界各地的大“倉庫”里,英偉達的GPU最多。而這些GPU的計算能力超出普通人的想象,甚至最大膽的科幻家也會感到驚奇——在2003年的科幻電影《終結者3》里,那個差點毀滅人類的超級計算機“天網”,算力為60tflops(也就是每秒6萬億次浮點計算),今天英偉達最先進的數據中心GPU H100,在特定精度下,算力達到了67 TFLOPS。

  與算力一樣迅猛增長的還有市場規模。根據Verified Market Research 估算,預計2027年中國大陸GPU市場規模將超過345.57億美元。

  這是一個前所未有的大市場,也是一個被封鎖最深的技術領域。美國人幾近瘋狂的限制,想要遏制中國本土企業取得任何進步,但面對一生難遇的巨大機會,給外國巨頭打工多年的華人芯片從業者沒人想要再退縮。

  “我們能夠替代它”

  2018年6月,出乎業界預料的,AMD 搶在英偉達之前,發布了全球首款7納米制程的GPU芯片,命名Radeon Vega。這款產品并非針對游戲市場,而被定義為專為人工智能和深度學習設計,用于工作站和服務器。

  讓人工智能達到今天的水平的一大功臣是神經網絡。

  神經網絡本質上依靠的是大量的乘法和加法:當一個網絡中的“神經元“彼此激活時,它們也會對彼此的信號進行放大或者縮小,乘以一些權重數。

  這個過程其實就是在計算大量的加法和乘法。而GPU最初被設計出來要解決的就是類似的工作:快速的同時做大量乘法和加法,來算出所有圖形,從而生成游戲里的一個個畫面。

  GPU的巨大機會從游戲轉移到人工智能的市場,而這塊首個7納米GPU的發布,也意味著在顯卡行業追趕英偉達的AMD,把戰火也引入到了人工智能行業。

  這個激進的策略充滿挑戰,AMD的高管當時形容:“轉換到7納米制程是近幾代芯片設計最困難的路程,涉及使用新CAD工具及多項設計改變。7納米的晶體管連接方法比較特殊,AMD必須與半導體廠更加密切的合作”。

  不過,在當時對這塊芯片的各種討論中,卻基本沒人提及負責設計它的團隊。

  2018年,錢軍在AMD上海負責GPU SoC核心部門,帶領800多人的團隊,從他團隊手上流片的芯片已有40多顆。在諸多國外芯片廠商中,AMD是在中國建設研發團隊最積極的那個,到2018年這個研發團隊規模數千人。這塊全球第一枚7納米GPU芯片,就是錢軍帶領的團隊開發的。

  而六個月后,錢軍離職創業,創辦中國芯片公司——瀚博半導體。

  2018年的GPU和芯片創業領域,其實國產替代的概念還沒有今天這么強的壓迫感,也沒有伴隨而來的熱錢。在事業蒸蒸日上的時候離開AMD,錢軍自己稱,就是因為自己認為自己能做的更好。

  “做芯片的初創公司很長時間不受待見。投資人覺得投入大回報周期長,有很大不確定性。但2012年機器學習的概念把人工智能推向風口浪尖,人們意識到算力和需求的gap(鴻溝)非常大。2015年谷歌推出TPU后,從硅谷到中國出來了很多初創公司。2018年我看到這個機會,我覺得我應該出來做,我能把這事做好。”錢軍在一次分享中說。

  很快一支核心團隊成型。熟悉他的人稱,錢軍一呼百應,本就在AMD上海公司內部研發團隊里號召力強。“很多人愿意跟著他干。”

  這個新組建的有平均15年GPU開發經驗的團隊,并沒有一上來就發布和英偉達對標的GPU產品,他們先用了兩年研發并交付客戶流片了一款7納米的半定制芯片,之后在2021年第一季度量產首款服務器級別的智能芯片SV100和通用加速卡VA1。簡單來說,這些芯片針對AI+視頻的場景開發,而這些場景目前使用的主流的芯片也是英偉達的GPU芯片。

  在2022年9月的人工智能大會上,錢軍又發布了已經在用戶機房里用起來的新一代產品——VA10。

  根據他的介紹,VA10在一些主流應用場景的算力是破紀錄的,最適合各種需要高實時性的云端AI應用部署,如直播視頻增強、智慧交通管理、實時語義理解等。

  “這個芯片在客戶端,有時候可以看得見是100%打完,而且沒超功耗。這個就厲害了。業界其他的競品有他們的想法,我覺得最終不用紙上評判,你拿出來大家去跑,也別看你有多少Tops,我有多少Tops,就看做到同樣的效果,我的功耗會不會比你更好。”他說。

  “想知道具體怎么做到的,我們簽個NDA,可以聊聊。”錢軍略開玩笑的說。

  與這些枯燥的數據相比,實際上對英偉達的替代才是更直觀的實力證明。在被問到對英偉達的替代效果時,錢軍介紹,在一些功能場景上,“瀚博75瓦的卡就已經可以替代它150瓦的卡”。

  “現在任何形式的服務器結構,我都可以有對應的產品去跟我的對手去競爭,然后替代,所以完完全全現在是個全替代。”他說。

  而瀚博還在研發一款GPU,SG100。“我們很快會正式對外發布。”“有全球第一顆 7 納米GPU和第一顆 7 納米 GPGPU 架構 AI 芯片開發經驗,而且不只是一個人有。”一名國資背景的投資方對品玩說,他們正是看中了錢軍的號召力和下面成建制的團隊。“相信他未來能打仗的原因是打過勝仗。”

  但即便這樣,瀚博的團隊也不是中國GPU創業熱潮之下處在聚光燈里的最亮眼明星。

  中國GPU創業潮里,從背景看著實星光璀璨。由英偉達中國區前負責人張建中在2020年創立的摩爾線程,于今年3月發布了12納米的首款GPU——蘇堤;由 AMD 中國前圖形研發高級總監陳維良創立的沐曦等待著首款7納米工藝GPU產品的量產,2015年底成立的天數智芯去年3月已發布7納米GPU—— 天垓100。其中最被津津樂道的,則是2019年成立的壁仞,它一出生就融到超過47億元的資金,目前尚未量產產品,但今年8月正式發布了對標英偉達最精銳GPU的產品:BR100。

  因為種種原因,國內對壁仞的關注也更多聚焦在了張文的身上。多個媒體講述過這名芯片技術門外漢、原商湯科技總裁,通過一張名單拉來諸多技術高手并借此又拿到巨額融資的故事。壁仞被描述為一個資本大潮的集大成者。

  但在這個故事的另一面,是華人芯片高端人才前所未有的一次整合。

  多名中國和硅谷的芯片從業者表示,壁仞這家中國GPU公司因技術上新嘗試而受到來自全球芯片行業的關注程度,是近年中國公司少有“享受”的待遇。

  與瀚博不同,壁仞選擇的路線是“一步到位”研發GPU。在8月發布BR100后,9月,壁仞出現在全球最受矚目的芯片行業會議HotChips上,在 GPU板塊,跟在英偉達,AMD和英特爾之后做了主技術分享。

  “我發現BR100的架構思路很有意思,它打市場時顯然不想完全沿著英偉達的思路去做。”一名硅谷芯片行業的華裔資深架構師對品玩表示。

  “GPU采用多核結構,并行計算很厲害,但問題又來了,核數再多以后,數據和存儲都要從一個門進出,雖然核內計算是很厲害的,但是數據和存儲有瓶頸,就像我們經常說的CPU太快了,內存跟不上了,GPU的數據傳輸也遇到了問題,所以架構上各方面還要調整,比如說采用一些分布式的架構。”中國互聯網投資基金管理公司總經理李筱強說。

  我們可以把芯片設計類比為在一個固定面積的土地做城市規劃:如何在有限土地上組織街區之間的大路,和一戶戶房屋之間的小路,決定了這個城市的最終運輸效率。

  而根據多個芯片設計從業者的分析,從壁仞公開的架構設計來看,它用了大量的創新來提高這個運輸網絡的效率。比如建設距離街區更近的停車場,并且用一種技術讓這些停車場可以連通起來當作一個大停車場來調配;比如在它的兩個城市之間建設足夠快速的公路,從而讓兩個城市在人們的感受上也看起來像是同一個城市——BR 100 使用了Chiplet封裝,但兩個芯粒可以被軟件識別為同一個GPU來運轉。

  當然,同時也會犧牲一些其他的性能作為代價,比如計算的精度,以及高負載下的傳輸瓶頸。以及,在實現Chiplet的環節,對由芯片制造廠掌握的新技術的依賴,也帶來不小的不確定性。

  不過,前述硅谷芯片人士認為,壁仞能帶著BR100上HotChips34去分享,就是因為它的設計思路里,有些地方的確是近幾年GPU行業少見的嘗試——哪怕不是完全新的東西,但英偉達這些年壟斷不只是市場,也讓其他公司對技術路線的野心少了許多,因為試錯的代價高昂。

  據壁仞內部人士稱,在2019年成立之初壁仞設定了自己的GPU設計出來后的算力必須達到英偉達當時產品的10倍。而2019年,英偉達處在過渡到安培架構的過程,但當今年BR100推出時,英偉達最新的產品已經是Hooper架構下的H100。不過測試數據顯示,在矩陣乘法的吞吐量上,BR100的確與H100不相上下。

  在GPU領域,最接近“工業標準認定”的較權威評測,是MLPerf的比賽。它由多個行業重要公司一同發起,簡單來說,就是通過讓各家產品來跑最主流的模型來考察它們的算力。壁仞在HotChips上分享之后,9月第一次參加MLPerf,用BR100的“小弟”BR104芯片拿下兩個全球第一,分別是一個主流的自然語言理解模型和圖像分類模型。

  某種程度上,壁仞在今年就是全球華人芯片從業者最關注的焦點公司:一次采訪中,壁仞科技CTO兼首席架構師洪洲也曾形容 “從90年代開始的20多年內成長起來的(華人)架構師,基本上都在我們這邊。”

  “壁仞的節奏感很好,從發布到參加HotChips再到MLPerf,和目前定的量產節點,都是按整個芯片行業的最專業的標準在做。如果最終可以在年底按計劃量產,那這種把控力還是挺難的。”上述硅谷人士稱。

  “天天背著包到處跑客戶”

  芯片設計上有了突破,接下來的難題是芯片制造環節。

  有分析指出,美國商務部的最新限制,事實上是“假定拒絕”原則,據財新梳理,“運算速度達到4800TOPS (每秒1萬億次傳輸)、傳輸力達到600GB/s(每秒1G比特傳輸速率)的高性能計算芯片,都將被嚴格限制。”而根據壁仞在HotChips的PPT介紹,其芯粒間傳輸速度達到896GB/s。

  芯片制造廠商如臺積電,一方面忌憚于美國的長臂新規,另一方面,它們也急迫需要更多樣的芯片設計客戶,來減少對英偉達等主要客戶的依賴。這就使得其中有許多可以努力爭取的空間。

  在美國商務部的限制出臺后,傳出臺積電將暫停為壁仞流片的消息。據知情人士稱,壁仞的確在相關超過限制標準的芯片上開始主動做調整,尋找可以按計劃繼續出片的方案。

  而被問到現在的影響,另外兩家主要國產GPU創業公司透露,目前還沒有受到直接影響,但也在從訂單和客戶角度去研究調整訂單量和庫存計劃。

  一位依靠臺積電7納米制程進行量產的芯片公司高管則答到:“現在片上確實有更大可能出問題,但可以肯定地說,我們以及同行都沒人想退讓。”

  “我們這些人其實骨子里都挺驕傲的,這事我們想做成,想見證中國芯片的高光時刻”,該芯片公司高管說。

  困難很大,但方法也有。在今天的國產芯片創業熱潮中,一個最大的特點,是這些核心人才普遍擁有真刀真槍的流片與搶占市場的經驗,他們更清楚從真正的市場需求來倒逼制造廠商有多重要,也有豐富的經驗。

  “快手有3.5億的平臺,每天3000多萬視頻的大數據,我不缺數據,也有人做算法,我只做熱門視頻,熱門視頻還要分層、還要分優先級,為什么?我算力不夠。”快手一名視頻算法團隊技術負責人說。“我們測了瀚博VA1的卡,作為算法開發人員,說實話從算法的效果和加速程度以及功耗上,是勝過通用GPU的。”

  這種來自最終用戶的認可最為關鍵。“我自己一定會說自己的產品好,但是我們的客戶來說我們的產品好,那我們的產品應該是真的好。”錢軍說。

  這些芯片創業公司的進展速度有時候超過了外界對他們形成印象的速度,在不少人依然用PPT公司來形容他們時,這些公司已經建立起完備的公司體系,而產品已經實打實進入一些重要客戶的機房。這些真實的需求讓制造廠商真切感到它們給出的訂單是可持續的。

  “互聯網客戶的導入是非常嚴格的。快手的機房里面,它每天7天24小時都在跑高密度的,如果不散熱的話,溫度你是受不了的。所以在這種強度下再跑你的芯片,如果你的芯片,軟件出問題,穩定性不行的話,其實是很難做,所以進互聯網數據中心,這是一個很大的護城河。如果說你能夠邁進互聯網,那么不管你是什么樣的卡,說明方方面面從性能、視頻質量甚至遷移成本,都是完勝。”

  事實上,這些初創的公司,從第一天開始就花費著巨大的努力來拓展客戶,走著一條app driven的路線。

  據品玩了解,瀚博在組織架構上分為IP部門(自研和三方IP維護),DV部門(負責各種IP驗證等工作),SOC部門(芯片從前端到后端的全流程實現),PVP部門(用市場需求指導產品),軟件部門和解決方案部門(驗證各種算法以及云端部署需求)等。

  其中,隨著更多的產品線出現,瀚博的IP部門開始使用中臺的概念。很多可以互用的核心技術IP,做統一開發,內部要求這些技術IP在GPU和AI產品里都得可以工作。

  這樣的架構有足夠的靈活度,也處處體現出結合市場需求來指導研發的思路。

  而壁仞的組織架構同樣圍繞產品的市場需求來設計。“直接觸到用戶和市場需求的部門地位很高,甚至是大部分業務項目的出發點。”一名壁仞員工說。

  與芯片設計環節性能對標英偉達一樣,在市場拓展時,他們的對手依然是這個美國巨頭。

  被美國禁止出售給中國的英偉達高端GPU Nvidia A100 ,圖源:英偉達

  一名大廠的芯片對接負責人對國產創業公司的努力印象深刻。“英偉達對我們其實是很不care,需求要談很久,因為我們帶來的本來也是增量。他們從來沒有和我們多么密切的合作過。”

  “而和這家國產公司對接,他們的人來到我們辦公室,早上談了大致需求,然后我們就去工作了,他們的人留在會議室就開始鼓搗。”

  后來當天晚上,他們居然就跑通了這個模型。多個芯片公司管理層形容,自己公司的銷售“天天背著包到處去客戶的機房里適配,很拼。”

  “關鍵就是一定要有突破口。有了突破口,就一定會有好的客戶愿意跟你交流。“錢軍說。“我們有一些場景,世界上沒有任何另外一個芯片能夠支持,他要做這個東西只能找我,這個是一個敲門磚,剩下的就是怎么樣把你的軟件這些東西做得更易用。”

  這些努力和市場份額的變化,都在向上傳導到制造端。

  “之前芯片法案出來后我們也在評估,但其實這些年都有一樣的挑戰。”一家在使用臺積電7納米工藝代工的公司員工稱,而根據瑞銀證券的報告,臺積電7納米制程明年上半年產能利用率“恐只剩七成”。

  “芯片是個非常需要營收來反哺開發的產業。”前述CEO稱,“所以臺積電的態度也在不停變化,大客戶砍單,空出來的產能,我們接觸中明顯感到他們也很著急。”

  擊碎“投降主義”的非議

  和巨大的機會與人才井噴一同到來的,是前所未有的關注。而它們并非都是帶著善意。

  在國產廠商越來越多的發布會上,展示的PPT里少不了和“主流產品”的對比,哪怕沒有標出,所有人都知道那“主流廠商”指的就是英偉達。但在很多圍觀者的眼里,喊出挑戰英偉達的那一刻,國產廠商們就有了原罪。

  于是,在國產GPU行業最需要各種鼓舞人心的進步的同時,中國初創廠商們如何表達取得的成績,卻成了一個大問題。其中頻繁出現的一種批評更是直擊心靈——

  你也配叫做GPU。

  “如果你關注GPU相關的討論,會發現許多愛好者們總是喜歡爭論一款產品到底算不算GPU。而并不關心實現的計算需求本身。”前述CEO表示。“他們比任何地方的從業者都更喜歡討論一個架構是否是GPU架構,并以此定義一個產品是否夠先進。”

  這些看似對架構和技術的討論,背后是對英偉達塑造的敘事以及行業現狀的膜拜,讓他們瞧不上國產替代芯片廠商們的研究和產品的一個重要原因,是GPU代表的“通用性”——英偉達可以適配最多的模型,它才是真正的通用。

  但事實上,這些人所標榜的英偉達“生態”,是一個前所未有封閉的系統。

  英偉達之所以通用最強,其實除了他不停更新的GPU架構帶來的幫助外,更多是因為CUDA的適配。

  CUDA全稱compute unified device architecture,是英偉達提供的軟件平臺。它在2007年就已推出,有報道稱,初期這個軟件平臺每年就需要英偉達投入5億美元,而當時英偉達的營收還只是在30億美元規模,至今CUDA的總投入早已超過100億美元。今天它是所有GPU軟件開發和適配的“壟斷”平臺,開發者人數在以數百萬規模不停翻倍增長。

  “英偉達是他自己定義了一套東西,他不開源。里面有什么東西都不告訴你,基本上是壟斷的情況。那他自己做得好,別人沒法玩。”錢軍說。

  “你得去猜,然后你猜的不對,你的性能就掉了一大堆,所以你要做CUDA 適配,其實理論上是不可能,而且它是完全閉環。”

  “很多算法甚至連最初開發時候也是在CUDA里做出來的,這是巨大的優勢。”一名算法工程師說。而在GPU進入更快的迭代階段后,在架構被挑戰后,英偉達甚至也可以通過按照自己的新架構特點來改動CUDA 庫的方式,協同實現性能提升。“這就好比路和車,她可以把路改的更適合它的車。而你只能改車。辛辛苦苦改完車,發現路又變了。”

  “我們的團隊里其實更多的是軟件開發人員,但加班加點開發,幾年也只適配了一些主要的模型。跟CUDA能提供的庫沒法比。這就是事實。”一名壁仞員工說。

  也就是說,用英偉達投入了巨額金錢獲得的封閉的通用性,去衡量這些新創公司“通用”與否,本身就是個一廂情愿的比較標準。

  不過,與那些巴不得國產廠商趁早“投降”的人們不同,越來越多真正扎根在產業里的中國創業者已經開始有策略的走出這個陰影。

  一方面,他們深知現階段必須要從英偉達建立起的體系里找到突破口:

  “作為一個要殺入這個場景的公司,肯定不能說我自己定一套規則。如果那樣,你連卡都插不進去現在客戶的服務器,人家怎么跟你弄,你怎么證明你比它強。”錢軍說。

  “事實上,現在所謂的框架已經沒有大的顛覆,反而更多是融合與微創新。”一家使用GPU做圖像生成業務的創業公司的對品玩表示,在英偉達最新的Hopper架構里,在計算光線和物體的關系時加入了一個新的引擎,而他們在研發底層框架時也用了類似的技術思路。他認為,事實證明這樣的迭代已經都可以做到,差別在于怎么定義這種小引擎的重要性。

  而另一方面,這些年輕公司已經開始擺脫對英偉達的迷信——通用重要,但更要知道對于自己來說真正重要的技術路線是什么,而不是陷入英偉達的議程里。

  “GPU的圖形管線對我們來說只是計算機處理的一個維度。”錢軍說。“GPU整個的渲染的產品線,和核心的研發其實一直在我們的計劃當中,只不過我們一貫不會對外過多的宣傳。”

  他表示,瀚博發布的統一計算架構(Vastai Unified Compute Architecture)軟件平臺,目的就是要讓之后可以有更多的硬件加速核融入進這個框架里。“所以以后不要吃驚,我們還會有另外的一些加速核加到我們這樣子的一個產品線里面。”

  在那些擁躉眼里無敵的英偉達,在這些真正日以繼夜做著國產替代實踐的人們眼中,也不是無懈可擊。“相信我,再好的軟件工程師他也會犯錯,再好的軟件團隊也會犯錯。所以這個地方一定是一個循序漸進,不斷地把生態做出來的過程。”

  這些策略也在被一點點增加的市場份額印證著,更多的國產芯片進入各家的數據中心,也擊碎著更多的流言蜚語。

  “沒有客戶會在選擇一款芯片產品時候先討論一番它配不配叫GPU。”一名壁仞的員工表示。最能決定訂單的,就還是TCO(總體擁有成本)——一個新產品究竟能幫客戶省幾個億,省多少工程師和他們的投入的時間,都是可以計算的東西。

  而多位國產GPU 廠商的高管和負責人也表達了一個相同的觀點:未來中國GPU廠商們建立的生態,必須是一個開放的生態。“我希望這個規則是公平的、開放的,然后讓更多的人來競爭。國內需要有領袖級的公司出來做這個事情。”

  明年是英偉達成立的第30年。在1993年,黃仁勛、克里斯·馬拉科夫斯基和卡蒂斯·普里剛剛創辦了一家游戲顯卡公司,沒人想過它后來會變成今天的英偉達。“當時我們沒有任何市場機會,但我們看到一股浪潮即將到來。”馬拉科夫斯基回憶稱,“在加州海灘有一個沖浪比賽,它的舉辦窗口只有5個月。當日本的海邊出現某種浪潮時,他們會告訴所有的沖浪者到加州來,因為兩天后浪潮就會來到這里。這就是我們當時的情況。”

  今天的人工智能又進入了一個新的激變時期,下一波浪潮眼看也要到來,它很可能比黃仁勛們在加州海邊苦苦等待的來的更明顯和洶涌,而這一次,中國創業者有機會離海更近。

AMD人工智能芯片
新浪科技公眾號
新浪科技公眾號

“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)

創事記

科學探索

科學大家

蘋果匯

眾測

專題

官方微博

新浪科技 新浪數碼 新浪手機 科學探索 蘋果匯 新浪眾測

公眾號

新浪科技

新浪科技為你帶來最新鮮的科技資訊

蘋果匯

蘋果匯為你帶來最新鮮的蘋果產品新聞

新浪眾測

新酷產品第一時間免費試玩

新浪探索

提供最新的科學家新聞,精彩的震撼圖片