近日,黃仁勛讓海外科技圈提早過上了圣誕節。
由于硅、封裝以及芯片背板的問題,英偉達的Blackwell GPU曾多次傳出延遲發布的信息,但這并沒有讓英偉達的腳步放緩。
在GB200和B200發布6個月后,英偉達就宣布將推出全新的GPU GB300和B300。外界看來似乎是一個循序漸進的過程,但事實上,這是非常高效的迭代。全新GPU為大模型的推理和訓練性能帶來巨大的提升,對大模型公司和存儲供應商來說,無疑是一份巨大的圣誕禮物。
B300是臺積電4NP工藝(英偉達定制工藝,屬于5nm制程節點的一部分)節點上的一個全新流片。定制化工藝做了一個調整設計,專用于計算芯片,使得B300浮點運算比B200高50%,GB300和B300的熱設計功耗分別達到1.4KW和1.2KW,相比之下,GB200和B200的熱設計功耗分別為1.2KW和1KW。
此外,B300的內存從8-Hi(8層堆疊)升級到12-Hi HBM3E,每個GPU的HBM容量增加到288GB,但引腳速度將保持不變,所以每個GPU的內存帶寬仍然是8TB/s。不過,三星并沒有收到黃仁勛帶來的禮物,因為至少在未來的9個月內,他們都沒有機會拿到GB200和GB300的訂單。
GPU卷內存的背后,是大模型的下一場戰事「推理」
英偉達改進GPU內存的背后,是為滿足OpenAI O3對推理性能的更高要求。
OpenAI O3采用KVCache技術對模型的推理能力進行優化,即通過緩存注意力機制中的鍵(Key)和值(Value)來減少冗余計算,從而提高模型推理的速度。關鍵就是緩存之前的舊數據,僅對新輸入的Token進行計算,所以對緩存的性能提出了更高的要求。
下圖是在不同批處理大小下,使用H100和H200兩種GPU處理長序列時,Meta開源大模型Llama3.1405B在FP8(8位浮點數表示法)精度下的處理速度。輸入設置為1000個Token,輸出19000個Token,由此模擬OpenAI o1和o3模型中的思維鏈。
H100升級到H200的兩個改進是:內存更高,速度更快。
內存容量提升,在多個維度都會產生影響。
當然,英偉達并不是唯一一家可以提高內存容量的公司。ASIC同樣可以做到,且事實上AMD在這方面可能處于更有利的地位,MI300X的192GB、MI325X的256GB以及MI350X的288GB,這些產品的內存容量比英偉達要高。
GB200 NVL72和GB300 NVL72在性能和成本方面都有很大的提升,在推理中使用NVL72的關鍵是它使得72個GPU能夠處理同一個問題,并共享內存,且延遲極低。世界上沒有其他加速器擁有全互聯的交換連接以及能夠通過交換機進行全約簡操作。GB200 NVL72和GB300 NVL72為實現許多關鍵功能帶來了革命性的變化:
因此,NVL72的推理性價比比之前提高了10倍以上,特別是在長推理鏈上。KVCache占用內存對經濟效益是致命的,但NVL72能夠將推理長度擴展到10萬以上token并在高批量中進行。
英偉達的「轉身」,供應鏈的「震動」
英偉達在GB300的設計上有很大的改動,對于GB200, 英偉達提供整個Bianca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全部集成在一塊印刷電路板上)以及交換托盤和銅背板。
對于GB300,英偉達不再提供整個Bianca板,只提供“SXM Puck”模塊上的B300以及BGA封裝上的Grace CPU。HMC(混合內存立方體)將由美國初創公司Axiado提供,替換掉了之前的供應商Aspeed。此外,交換托盤和銅背板將仍由英偉達提供。
客戶現在需要自主采購計算板上其余的組件,外部存儲器將采用LPCAMM模塊,而不是焊接的LPDDR5X,美光或將成為這些模塊的主要供應商。
向SXM Puck的轉變,為更多的OEM和ODM提供了參與供應計算托盤的機會,以前只有緯創資通和工業富聯可以生產Bianca板。在這次供應商調整中,緯創資通成為最大輸家,因為他們失去了Bianca板的份額。相對而言,工業富聯雖然失去了Bianca板的份額,但他們是SXM Puck模塊的獨家制造商,這部分帶來的收益完全可以抵消掉Bianca板帶來的損失。英偉達雖然想找更多其他的SXM Puck模塊供應商,但目前還沒有實際下單。
另一個重大變化是VRM(電壓調節模塊),雖然SXM Puck上有一些VRM,但大部分的VRM將由超大規模廠商或者OEM直接從VRM供應商處采購。
此外,英偉達還在GB300平臺上提供了800G ConnectX-8 NIC(網絡接口卡),這使得在InfiniBand和以太網上的橫向擴展帶寬翻倍。由于上市時間的影響,英偉達之前取消了GB200的ConnectX-8,并且放棄了在Bianca板上啟用PCIe Gen 6(PCI Express接口的最新一代標準)。
市場信息表明,GB200和GB300的延遲發布,給硅谷的大廠們帶來了很大的影響。而這背后傳遞出的信號是從第三季度,大量訂單轉向了GB300。截至上周,所有大廠都決定使用GB300。一部分原因是更高的性能和更大的內存,另一方面,英偉達已經控制了大廠模型訓練的命運。
受制于產品上市時間、機架、冷卻和電源功率密度的重大變化,大廠在服務器層級無法對GB200進行太多更改。這導致Meta放棄了希望從博通和英偉達兩個渠道采購網絡接口卡(NICs)的希望,轉而完全依賴英偉達。谷歌也放棄了自家的網絡接口卡,選擇與英偉達合作。
硅谷大廠們習慣了成本優化,從CPU到網絡,再到螺絲和金屬板。
亞馬遜是一個例外,定制化讓他們“被迫”選擇了次優配置。由于亞馬遜使用了PCIe交換機和效率較低的200G彈性織物適配器NIC,無法像Meta、谷歌、微軟、甲骨文、X和Coreweave那樣部署NVL72,因此不得不使用NVL36,這也導致每個GPU的成本更高,因為背板和交換機內容更多。
GB300的出現為亞馬遜帶來轉機,大廠能夠定制主板、冷卻系統等功能。這使得亞馬遜能夠構建自己的定制主板,隨著更多組件采用水冷,以及K2V6 400G NIC在2025年第三季度支持HVM(硬件虛擬化管理),亞馬遜同樣可以使用NVL72架構,并大幅改善其總體擁有成本(TCO)。
本文由雷峰網編譯自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)