來源:華爾街見聞
GPU與高算力需求Transformer架構“互相成就”。然而如果在不遠的未來,AI世界依賴的Transformer被對算力需求并不高的架構取代,那會對“賣鏟人”英偉達構成威脅嗎?
今年的英偉達確實“猛”,不遺余力拼算力似乎已經成了科技巨頭們的共識,部分原因在于,不少大模型都以對算力需求較高的Transformer為架構,而如果在不斷迭代的過程中,Transformer逐步被對算力需求少的架構取代,這是否也將成為英偉達的“潛在風險”?
投資了OpenAI勁敵Cohere的著名風險投資家、Radical Ventures合伙人Rob Toews,在9月3日發布的專欄文章指出,Transformer在訓練時支持并行化,與GPU的“爆火”時間點吻合。GPU擁有更多流處理器,適合對密集數據進行并行處理和并發計算,非常適合且支持基于Transformer的計算工作流負載。
毫無疑問,Transformer的架構非常強大,徹底改變了AI界,但缺點也明顯,當文章長度變長,計算復雜度就變得非常高,同時,隨著模型規模不斷擴大,所需計算量呈指數級增加,這兩點都讓Transformer的算力需求激增。
Toews指出,為了彌補Transformer存在的問題,包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法來降低運算復雜度,減少算力需求。
Toews直言,盡管這些架構距離挑戰Transformer的“王座”仍有較大差距,但不可否認的是,AI發展過程中新鮮的事物接連出現,不斷更新換代的過程中,或許沒有什么是永遠屹立不倒的。
當算力需求激增之時,從某種程度上說,誰手握英偉達GPU,誰就掌握了AI時代最硬的“硬通貨”。而如果在未來Transformer被對算力需求不高的架構取代,那對最大“賣鏟人”英偉達來說將構成一定威脅。
Transformer的龐大計算成本
2017年6月12日,《Attention is All You Need》論文橫空出世,讓大模型領域變天的Transformer架構出現了。截至9月4日,Transformer誕生超過6周年,而這篇論文被引用高達87345次。
分析指出,基于Transformer不斷擴展的大模型們,都是以處理性能和功耗方面的高昂成本為代價。因此,雖然人工智能的潛力可能是無限的,但物理和成本卻是有限的。
為什么Transformer對算力的要求如此之高?
Toews解釋稱,主要有以下兩個原因:1.注意力(attention)機制的計算復雜度,2.越發龐大的模型規模:
Transformer的基本原理是使用自注意力機制來捕獲序列數據中的依賴關系,無論它們的距離有多遠。
注意力機制需要將序列中每個詞與其他所有詞進行配對比較,這導致運算量隨序列長度的平方增長,即計算復雜度為O(n^2)。這種平方級復雜度使得隨著文本長度增加,所需計算成本急劇上升。
與此同時,Transformer架構可以更好地擴展大模型,所以研究者不斷基于Transformer訓練更大規模的模型。目前主流的語言模型參數量達到了數百億級甚至萬億級,需要大量算力支持。隨著模型規模的擴大,所需算力呈指數級上漲。
谷歌母公司Alphabet首席財務官Ruth Porat在財報電話會上表示,由于需要投資AI基礎設施,資本支出將比去年的創紀錄水平“略高”。
微軟最新報告顯示,該公司季度資本支出超出預期,首席財務官Amy Hood稱原因為加大AI基礎設施建設。
微軟在今年年初又向OpenAI砸了100億美元,為了支撐起大語言模型訓練所需的龐大計算資源費用。成立僅18個月的初創公司Inflection也融資超過10億美元用于構建GPU集群,以訓練其大語言模型。
英偉達GPU在市場的“哄搶”中陷入產能瓶頸。最新的H100芯片早已全部賣空,現在下單要等2024年第一季度甚至第二季度才能排上隊。
Toews指出,上述種種都不難看出,基于Transformer的模型對計算資源的需求之大,以至于當前的人工智能熱潮引發了全球GPU供應短缺,硬件制造商無法跟上激增的需求。
Transformer面臨的難題
同時,Toews指出,Transformer處理的句子長度受限,已有的方法大多使用截斷的方式,這會導致信息損失,因此如何實現長文本的預訓練是目前的一大難題。
而這場AI軍備競賽注定還將持續下去,如果 OpenAI、Anthropic或任何其他公司繼續使用Transformer架構,那么它們模型的文本序列長度會受限。
Toews指出,人們已經進行了各種嘗試來更新Transformer架構,仍然使用注意力機制,但能夠更好地處理長序列。然而,這些改進后的Transformer架構(如Longformer、Reformer、Performer、Linformer和Big Bird)通常會犧牲部分性能,因此未能獲得采用。
Toews強調,沒有一樣事物會是完美的,歷史的發展也不會停下腳步,盡管Transformer在現在占據絕對的優勢地位,但它也并非沒有缺點,而這些缺點為新的架構打開了大門。
“王位”挑戰者出現了?
Toews認為,現在尋找可以替代“Transformer”的架構成了最有潛力的領域,而其中的一個研究方向是用一種新的函數替代注意力機制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法來降低運算復雜度,減少算力需求。
Toews強調,斯坦福和Mila的研究人員提出了一種名為Hyena的新架構,具有代替Transformer的潛力,它是一種無注意力、卷積架構,可以匹配注意力模型的質量,同時可以降低計算成本。在次二次多項式NLP任務上表現出色:
據稱,Hyena可達到與GPT-4同等的準確性,但使用的算力比后者減少了100倍。這是第一個能夠在總FLOPS減少20%的情況下與GPT質量相匹配的無注意力架構,具有成為圖像分類的通用深度學習運算符的潛力。
Toews表示,需要注意的是,最初的“Hyena”研究是在相對小的規模下進行的。最大的“Hyena”模型具有13億個參數,而GPT-3有1750億個參數,而GPT-4據說達到1.8萬億個參數。因此針對“Hyena”架構的一個關鍵測試將是,在將其擴展到當前“Transformer”模型規模的情況下,它是否能繼續表現出強大的性能和效率提升。
Toews認為,而液態神經網絡是另一個具有取代“Transformer”潛力的架構。麻省理工學院的兩名研究人員從微小的秀麗隱桿線蟲(Caenorhabditis elegans)中汲取靈感,創造了所謂的 “液態神經網絡” (liquid neural networks)。
據稱,液態神經網絡不僅速度更快,而且異常穩定,這意味著系統可以處理大量的輸入而不至于失控。
Toews認為這種較小的架構意味著液態神經網絡比“Transformer”更加透明且更易于人類理解:
畢竟,對于人類來說,更容易解釋具有253個連接的網絡發生了什么,而不是擁有1750億個連接的網絡。
當架構不斷改進,逐漸減少了對算力的依賴,是否也意味著會對未來英偉達的營收產生影響?
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
責任編輯:周唯
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)