財經科技創事記

傳頭部大廠AI模型被實習生入侵，一個多月訓練成果原地踏步，損失超千萬美元

2024-10-18 11:41:14 創事記作者：

10月18日，微信群中流傳著一段對話，內容是某頭部大廠的大模型訓練被實習生入侵，注入了破壞代碼，導致其訓練成果不可靠，可能需要重新訓練。據稱遭到入侵的代碼注入了8000多張卡，帶來的損失可能超過千萬美元。

（圖片來自豆包AI生成）

該入侵的實習生（下文稱之為T）畢業于國內頂尖的兩所大學之一，曾頻頻出現在媒體上，分享其對大模型訓練的觀點和看法，屬于十分活躍的“大模型明星員工”。

在入侵過程中，“T利用了HF的漏洞，在公司的共享模型里寫入破壞代碼，隨機sleep，隨機梯度數值，導致模型的訓練效果忽高忽低，無法產生預期的訓練效果，而且AML團隊無法核查原因”。（根據聊天記錄原文整理）

-----

1、sleep是大模型訓練中的訓練策略，目的在于：緩解過擬合：通過在訓練過程中周期性地停止對模型參數的更新，可以防止模型過度擬合訓練數據，從而提高模型在未見過的數據上的泛化能力。

加速收斂：在某些情況下，通過適當的睡眠設置，可以幫助模型跳出局部最優解，更快地收斂到全局最優解。

節省計算資源。

2、梯度指的是大模型訓練中的最優解。它在大模型訓練中是一個非常重要的概念。你可以把它想象成一座山上的路徑，梯度就是告訴你往哪個方向走才能最快下山（也就是找到最優解）。梯度數值隨機，會讓訓練陷入迷茫之中，無法取得預期效果。

3、AML團隊，全稱是“Algorithm Monitoring Team”，即算法監測團隊。這個團隊的主要職責是：

監控模型訓練過程：跟蹤模型在訓練過程中的表現，包括損失函數、準確率、召回率等指標。

評估模型性能：對訓練好的模型進行全面的評估，確保其符合預期的性能要求。

發現并解決問題：在模型訓練過程中發現并解決各種問題，例如過擬合、欠擬合、梯度消失等。

保證模型質量：保證模型的質量和可靠性，確保其能夠在實際應用中發揮作用。

-------------

為了解釋清楚這三個概念，我就用了這么長的篇幅。因此，我認為這個事情的真實概率很大，普通人即使編造，也不知道這么細節的東西。

后續：

我詢問了熟悉大模型行業的朋友，他們說該廠的大模型效果在最近一兩個月沒有出現明顯的問題。但該廠也很久沒向外界通報大模型訓練的進展，公司高層很可能會傾向于掩蓋此次入侵。

同時，該實習生的聊天工具也正常在線，貌似不像傳言中說的那么嚴重。（入侵造成公司千萬美元損失，都涉及刑事犯罪了）

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

分享到:

保存 | 打印 | 關閉

首页国产亚洲小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看