歡迎關注“新浪科技”的微信訂閱號:techsina
編/好困 David 袁榭
來源:新智元(ID:AI_era)
已經霸榜兩年,完成四連冠的日本富岳終于跌落了‘神壇’。
在剛剛公布的2022年全球超算Top500名單中,美國橡樹嶺國家實驗室(ORNL)的Frontier奪得第一。
憑借1.102 Exaflop/s的HPL分數,Frontier不僅是有史以來最強大的超級計算機,它也是第一臺真正的‘E級超算’。
相比之下,中國的神威·太湖之光和天河二號排名下滑至第六和第九。
去年,美國將神威·太湖之光的處理器供應商申威列入了實體清單,或多或少給中國超算的發展造成了影響。
這次Top500的64位浮點計算總算力為4.4 exaflops,比六個月前的上一期榜單增長了44.7%。
Frontier:突破百億億次
那么,Frontier的性能到底達到了怎樣‘逆天’的程度呢?!
簡單來說,就是把排在它之后的468個超算的算力加起來,都比不過一個Frontier。
除了如此炫目的算力之外,Frontier還是全球跑AI最快的超級電腦之一。在HPL-AI基準的混合精度性能測試中,Frontier跑出了6.88 ExaFlops的成績。
用白話說,這個性能相當于,給一個860億神經元組成的智能體中的每個神經元,每秒都下達6800萬個指令。
用這個訓練AI大模型,那可真是火箭發動機搭上了一級方程式賽車,可以直接在賽道上起飛。
全新的Frontier占地372平方米,由74個HPE Cray EX機柜組成,可容納9408個節點。
其中,每個節點有一個AMD Milan ‘Trento’ 7A53 Epyc CPU,搭配512GB DDR4內存和4個AMD Radeon Instinct MI250X GPU。
總的來說,該系統有602,112個CPU核心,與4.6PB的DDR4內存相連接。
此外,37,888個AMD MI250X GPU具有8,138,240個核心,并搭配了4.6PB的HBM內存(每個GPU有128GB)。
CPU和GPU使用基于以太網的HPE Cray Slingshot-11網絡結構進行連接。
儲存上則與一個性能極佳的存儲子系統相連,有著700PB的容量,75TB/s的吞吐量和150億IOPS的性能。
元數據層分布在480個NVMe SSD上,提供10PB的整體容量,而5400個NVMe SSD為主要的高速存儲層提供11.5PB的容量。
同時,47,700個PMR硬盤提供679PB的容量。
散熱方面,基于水冷的系統讓6000加侖的水在350馬力的泵在整個系統中‘移動’,由此將溫度控制在了85度左右。
直觀來說,這些水泵可以在30分鐘內填滿一個奧林匹克標準游泳池。
Frontier不僅是現在世界上最快的超算,也是最環保的超算。
Frontier的能耗比,亦居全球超算的環保程度Green500榜單之首。單個由第三代AMD的Epyc處理器與Instinct MI250x加速器組建的機柜單元,其能耗效率是每瓦電能運算62.68 gigaflops。
不過,想把Frontier組裝起來可不容易,ORNL必須采購685個不同編號的6000萬個部件。
此外,在建造過程中還不得不去應對芯片的短缺。
ORNL受影響的零件編號有167個,算下來是200萬個零件。而AMD缺少MI200 GPU的15個編號的零件。
于是ORNL與ASCR合作,為這些零件獲得了國防優先權和分配系統(DPAS)評級,這意味著美國政府可以使用年度的防務預算,用顯著高于市場價的更優厚價格來采購這些部件。
很快,‘短缺’的問題也就得到了解決。
經過這波操作,是不是可以解開很多人心中所謂的‘疑惑’了呢?
美國:為了我們的國防事業,加大力度搞超算!
雖然這么花錢,但用處不可謂不廣。在英偉達老黃這種財主老爺都要做地球數字孿生體的時代,各國官方部門的超級計算機在開發處理龐大數據的AI、模擬氣候和產業用途等方面越來越重要。
就算橡樹林自己用不完這算力,也可以租、售嘛,工業界對算力可是嗷嗷待哺。
而且這已有他國先例:在預測機床材料加工結果的實驗中,日本DMG森精機床自帶工業電腦需要8小時,但富岳只需要10分鐘就完成了。
中國:玩你們的,我就看看
在新一期榜單上,中國和美國仍然是上榜最多的國家。
在上榜超算數量上,中國仍為173臺,和上期持平,繼續位列榜首。美國從上期的150臺下降到127臺,排名次席。盡管如此,這兩個國家仍然占了TOP 500榜單總數的60%。
日本、德國、法國分別以34、31、22臺位列3-5位。
雖然此次Frontier正式成為世界上最強大的超級計算機,但它還沒有與去年被曝光的兩個中國超算進行比較。
不過,這兩個系統目前都沒有向Top500提交測試數據。
根據爆料的數據,有不少外媒推斷Sunway OceanLight(神威·海洋之光)超級計算機在HPL基準上的峰值約為1.3 exaflops/1.05 exaflops,而天河三號則能夠達到1.7 exaflops峰值/1.3 exaflops持續值。
然而,考慮到美國在芯片上的各種‘卡脖子’,中國超算刷榜的后果很有可能就變成了一個制裁的‘靶子’,想必短時間內應該不會看到任何有關數據的更新了。
上榜數量占比上,中國以34.6%的比例占據榜首,美國以25.4%的比例位列第二,中美爭霸的態勢依舊。
而在總性能排行榜上,美國的優勢仍然不可動搖,以47.3%的總算力牢牢占據首位,不難看出,此次登頂的Frontier為美國穩定霸榜貢獻不小。
此外,此次Top 500榜單還統計了自1990年起超算算力的進步趨勢,并進行了線性回歸。
表中橫軸為時間,縱軸為算力(取對數)。
綠色點為上榜超算的總算力,黃色三角為榜單冠軍的算力,藍色方塊為榜單倒數第一(第500名)超算的算力。對應顏色的直線為線性回歸的結果。
可以看到,這三條直線大致符合摩爾定律的對算力提升的預測性判斷。
都說摩爾定律已死,看起來在超算領域,它還活的很好很健壯。
歐洲崛起:Top10占據7席
美國并不是唯一取得顯著成績的地區。歐洲也表現良好,從總排名上看,美、中、日占據前3,前十中剩余的七席則全部為歐洲國家占據。
其中德國上榜31臺,法國上榜22臺,意大利上榜14臺。
芬蘭新部署的LUMI超級計算機以151.9 petaflops的FP64性能勉強超過美國的Summit,獲得第3名。
另外,法國GENCI-CINES的Adastra以46.1 petaflops的性能險些奪得第10名。雖然遠不及LUMI強大,但Adastra仍然保持著歐洲第二強大的超級計算機的殊榮。
LUMI和Adastra等系統也說明了另一個趨勢。與Frontier一樣,它們基于HPE的全AMD Cray EX平臺,使用第三代Epyc CPU和Instinct GPU。
為啥不用GPU加速:還是差錢
長久以來,AMD第一次在Top500中的系統內的主機CPU中占有代表性的份額,但英特爾至強處理器仍然占主導地位。
從本世紀初開始,英特爾在高性能計算領域開始發力,只用了幾年時間,就將IBM、惠普等幾家之前的主要玩家排擠得元氣大傷。
從2017年到2020年,英特爾在高性能計算領域達到極盛的市場占有率一度超過90%。
直到目前,英特爾的份額仍高達77.4%,下降了4.2個百分點,而AMD的份額正好上升了這個數字。預計Epycs會在與Xeon SP的競爭中獲得更大的動力。
而且,AMD有后來居上的勢頭。在2022年的全球超算Top500榜單中,現在有94臺超算依賴AMD的產品,年度增長95%。而且AMD的 Instinct MI200 加速器首次被其中7臺超算采用。
另一個問題是,為什么不用GPU加速器?可能是因為貴?
GPU加速器作為計算引擎,可以提升巨大的性能和性價比,但目前,加速器并沒有在Top500榜單上的超算架構中占據主導地位。這些GPU加速器主要是英偉達的。
但是,除了英偉達自家的HPC中心有大量應用需要移植到GPU上,而且不差錢之外,世界上成千上萬的其他HPC中心還是差錢的,這些HPC的代碼是明確為CPU編寫的。
目前的Top500榜單中,只有170臺超算采用了GPU加速器--當然大部分來自英偉達。
另一個因素是,更便宜的CPU本身現在也在陸續添加類似于GPU的加速計算功能,比如向量和現在的矩陣計算等。
這樣就比將CPU程序轉移至GPU運行更省錢,也更容易編程。我們可能永遠不會看到一個主要由GPU加速系統組成的Top500榜單了。
事實上,在‘富岳’、‘太湖之光’這樣排名靠前的超算系統中,CPU基本上充當了具備向量和矩陣計算型GPU的作用。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)