安裝新浪財經客戶端第一時間接收最全面的市場資訊→【下載地址】
作者: 后歆桐
在2000年最鼎盛時期,相片桶(Photobucket)是全球頂級的圖像托管網站,一度擁有7000萬用戶,占據了美國在線照片市場的近一半市場。
根據分析追蹤機構Similarweb的數據,如今只有約200萬人仍在使用Photobucket。但該公司首席執行官(CEO)倫納德(Ted Leonard)透露,目前正在與多家科技公司進行談判,以授權其130億張照片和視頻,讓科技公司用于訓練生成式人工智能(AI)大模型,使得這些模型能夠響應文本提示,生成新內容。目前談判的每張照片的價格在5美分~1美元之間,每條視頻的價格都超過1美元,各個買家所需圖像、視頻的類型都存在差異。
“許多科技企業告訴我們,他們需要更多AI訓練數據。一位潛在買家想要超過10億個視頻,比我們平臺擁有的還多。突然之間,我們不再擔心沒生意可做,而是要抓耳撓腮地想,我們去哪里弄那么多數據?”他表示。
倫納德以商業機密為由拒絕透露潛在買家的身份,但根據其透露的數據推算,其擁有的數據內容將價值數十億美元。Photobucket的境遇可謂該行業的縮影。除了對人才的競爭外,科技巨頭新一輪競賽還轉向了對AI訓練數據。生成式AI革命可能會給這類企業賦予新生命。但同時,這一競賽背后的數據仍存在一些風險。
最初,谷歌、Meta和OpenAI等科技巨頭使用互聯網上免費的大量數據來訓練生成式AI模型。這些科技公司表示,這樣做既合法,也合乎道德。并且,如果不能使用大量免費抓取的、在他們看來“公開可用”的網頁數據,例如非營利機構Common Crawl提供的數據,訓練AI模型的成本將難以承受。
但隨著生成式AI領域的熱潮和競爭加劇,他們開始面臨一系列來自版權持有人的訴訟和監管關注,同時也促使部分內容發布者采取措施阻止科技公司的數據抓取。科技公司還開始需要解釋如何獲取并使用大量數據來訓練他們的模型。
也因此,在繼續為自己的行為辯護的同時,科技巨頭們也開始悄悄針對一些付費內容進行談判,涉及的內容從聊天記錄到那些已經式微的社交媒體應用程序所擁有的、被遺忘已久的個人照片和視頻等,使得相關隱性交易逐漸火熱起來。
例如,據媒體援引知情人士消息,在ChatGPT于2022年底推出后的數月內,Meta、谷歌、亞馬遜和蘋果等科技巨頭都與圖片平臺Shutterstock簽訂協議,以使用其數億張圖片、視頻和音樂文件進行AI模型訓練。Shutterstock的首席財務官亞哈斯(Jarrod Yahes)透露,與大型科技公司的最初交易額在2500萬~5000萬美元,大多數交易規模后來均有所擴大。一些較小的科技公司也加入了這一“淘數據熱”,在過去兩個月中加入談判。
Shutterstock的競爭對手Freepik也透露,已與兩家大型科技公司達成協議,授權擁有的2億張圖片檔案中的大部分,每張圖片的價格在2~4美分。公司CEO阿布拉(Joaquin Cuenca Abela)表示,目前還有五筆類似交易正在談判中,但他不愿透露買家身份。
作為Shutterstock早期客戶的OpenAI,還與包括美聯社、Axel Springer和湯森路透(Thomson Reuters)等至少四家新聞機構簽署了數據授權協議,以幫助訓練其AI大語言模型,但未披露具體細節。
Klaris law律師事務所的克拉里斯(Edward Klaris)稱:“目前,科技公司正競相爭取那些擁有私人數據版權的持有者,這些私人數據無法通過網絡免費抓取。”他補充稱,該事務所也正在為私人數據持有者提供咨詢服務,涉及價值數千萬美元的交易,通過交易,這些數據持有者會將照片、電影和書籍檔案授權給科技公司,用于AI訓練。
對于上述情況,谷歌、Meta、微軟、蘋果、亞馬遜和OpenAI均拒絕置評,不過微軟和谷歌提供了包含數據隱私條款的供應商行為準則。谷歌并表示,如果發現數據供應商違規,將立即采取行動,包括終止與其合作協議。
許多主要的市場研究機構表示,他們尚未開始評估這個不透明的、隱形的AI數據交易市場的規模,因為在這個市場中,公司通常不會公開協議內容。少數正在試圖對該市場進行評估的研究機構,比如Business Research Insights,估計該市場目前價值約25億美元,預測在未來十年內可能增長至近300億美元規模。
責任編輯:王許寧
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)