財經科技創事記

《權力的游戲》作者起訴ChatGPT侵權，AI訓練要不要獲得著作權人的授權？

2023-09-22 15:40:43 創事記作者：游云庭

　　作者：游云庭

　　據媒體報道[i]，近日美國作家協會攜包括《冰與火之歌：權力的游戲》的作者喬治馬丁在內的17名作家在美國紐約南區法院對人工智能公司OpenAI發起集體訴訟，指控后者未經許可使用了受版權保護的作品訓練人工智能模型。作為律師，筆者對原告如何證明OpenAI用《冰與火之歌：權力的游戲》訓練ChatGPT很感興趣，就查閱了美國作家協會網站上的起訴狀，本文會結合著作權法律跟大家聊聊這個事情。

　　眾所周知，人工智能服務的解答能力要強，高質量的訓練數據必不可少，但世界上多數國家的著作權法都要求人工智能開發者使用他人享有著作權的內容進行訓練前，應當取得著作權人的許可。而人工智能開發者出于種種考慮（比如避免繁瑣冗長的授權商務談判、開發時限要求他們只爭朝夕、減少版權成本等種種考慮、部分著作權人授權拿不到哪怕給錢也不愿意給他們授權），直接在人工智能開發時使用了盜版內容作為訓練數據。

　　但對于這種做法，因為大模型的訓練數據是不公開的，訓練過程也是黑箱操作，著作權人即使知道存在侵權也很難舉證，美國現在既然有訴訟，下面我們就看看美國律師是怎么證明的。

　　一、被告自認（其實是ChatGPT自認）

　　訴狀稱，OpenAI為了訓練其大型語言模型，在未征得作者同意的情況下復制了由原告撰寫的受版權保護的書籍，并且OpenAI已公開承認了。因為原告的律師向ChatGPT提問，然后聊天機器人回應稱：

　　用于訓練我的一些書籍可能是受版權保護的。不過，我的訓練數據來自互聯網上的各種公開來源，我的訓練數據集中包含的一些書籍很可能沒有被授權使用....如果我的訓練數據中包含了任何受版權保護的資料，那么這些資料的使用是在版權持有者不知情或未征得版權持有者同意的情況下進行的。

　　同時，原告律師發現，直到最近，ChatGPT還能準確無誤地返回受版權保護的書籍中的文字原文，這表明底層大型語言模型在訓練過程中一定完整地錄入了這些書籍。雖然最近ChatGPT對此進行了修改，會以"我無法提供版權文本的逐字摘錄"來回應此類提示。從時間上看，ChatGP對輸出規則的這一明顯修改很可能是因為原告作家協會給OpenAI和其他公司發了公開信。

　　筆者認為，雖然ChatGPT自認其訓練素材可能沒有授權，但鑒于人工智能經常在回復里沒有依據的胡說八道（ChatGPT曾說筆者這個知識產權律師是刑事律師，最近處理過一起很有名的強奸案，明顯在胡編，沒有任何依據），這段回復要有其他證據佐證才能被法院認定為案件的事實。

　　二、訓練素材包來自知名盜版網站

　　訴狀稱：ChatGPT現在提供的不是逐字摘錄，而是受版權保護的書籍的摘要，其中通常包含評論和其他公開資料中沒有的細節——這再次表明，基礎大型語言模型在訓練期間必須錄入整本書。但OpenAI對于從何處以及如何獲得原告受版權保護的作品，始終語焉不詳。OpenAI承認，它用來訓練模型的訓練數據集包括"Common Crawl"和兩個高質量的基于互聯網的書籍語料庫，它稱之為"Booksl"和 "Books2.T2"。

　　Common Crawl是一個龐大且不斷增長的語料庫，包含從數十億網頁中抓取的"原始網頁數據、元數據提取和文本提取"。它被廣泛用于訓練大型語言模型，除OpenAI的GPT外，還被用于訓練臉書和谷歌的人工智能引擎。眾所周知，它包含從盜版網站復制的書籍文本（鏈接到 Z-Library——一個擁有 1,100多萬冊圖書的大型盜版圖書庫出現在Common Crawl語料庫中，并被納入其他大型語言模型的訓練數據集）。

　　OpenAI拒絕討論Books2數據集的來源。但一些獨立的Al研究人員懷疑 Books2 包含或由從大型盜版圖書庫下載的電子書文件組成，如Library Genesis或 "LibGen"，"它提供了一個龐大的盜版文本庫：LibGen 作為一個臭名昭著的版權侵權者已為法院所熟知。而Books2的其他可能來源包括Z-Library和 Bibliotik 等盜版種子跟蹤器，這些跟蹤器允許用戶批量下載電子書。

　　原告律師無法證明Books2的數據來源，所以舉了著名包含大量盜版內容的訓練素材庫"Books3"作為類比證據（《連線》雜志報道過，臉書和彭博社的大型語言模型使用了"Books3"的素材庫[ii]）：已披露的 Books2 數據集的規模表明，該數據集包含10萬多本書。Books2和Books3的大小相似，而且互聯網上允許批量下載電子書的盜版存儲庫寥寥無幾，這有力地表明Books2中的書籍也是從上文討論過的臭名昭著的存儲庫中獲取的。

　　如果這個訴訟是在中國進行的，如果原告初步證明了被告的訓練素材存在盜版，此時，舉證責任就在被告，被告要證明其訓練素材不存在盜版，否則法院就會支持原告的證明內容。

　　三、喬治馬丁如何證明OpenAI用其作品訓練了ChatGPT？

　　訴狀稱，喬治馬丁是包括《權力的游戲》在內的十五部小說作品的著作權人，OpenAI在未經許可的情況下錄入并復制了喬治馬丁的全部或多部作品，并將其用于訓練OpenAI的大型語言模型。訴狀中舉了兩個第三方新聞的例子：

　　1、2023 年 7 月，一個叫LiamSwayne的程序員[iii]使用 ChatGPT 生成了《凜冬的寒風》、《春曉的夢想》的版本，這兩本書是馬丁正在創作的《冰與火之歌》系列的最后兩部作品。

　　2、美國加州大學伯克利分校的研究人員對ChatGPT對作品的"記憶"程度進行了一項實驗[iv]，發現馬丁的小說《權力的游戲》在"記憶"程度方面排名第12位。

　　然后，原告律師使用ChatGPT進行測試，輸入提示后，ChatGPT 準確生成了幾部馬丁作品的摘要，包括冰與火之歌》系列的前三部《權力的游戲》、《列王的紛爭》、《冰雨的風暴》以及《末日審判布條》最后一章的準確摘要。

　　原告律師輸入提示后，ChatGPT還為馬丁作品《列王的紛爭》的另一部續集生成了一份詳細大綱，并將該衍生作品命名為"A Dance With Shadows"，其中使用了馬丁《冰與火之歌》系列現有書籍中的相同角色。ChatGPT還生成了一份《權力的游戲前傳》的詳細大綱，并將該衍生作品命名為"A Dawn of Direwolves"，其中使用了與《冰與火之歌》系列叢書中相同的人物。

　　訴狀總結：如果OpenAI大型語言模型沒有攝取馬丁侵權作品并對其進行訓練，ChatGPT 就不可能產生上述結果。筆者認為，如果訴訟在中國法院進行，馬丁的律師已經證明了ChatGPT使用了馬丁的作品進行訓練，并且其服務器目前仍然留存著馬丁作品的復制件。

　　四、人工智能訓練可以不用獲得著作權人的授權嗎？

　　法律原理上，讓人工智能學習網上內容的過程是一個復制行為或者臨時復制行為，人工智能公司要先將網上的或者線下獲得的內容爬取，然后輸入到人工智能程序中，無論這個內容是文字、圖片、音頻、視頻還是程序，復制行為都應當獲得相應權利人許可，否則就涉嫌侵權。

　　實際上我國法律法規也是這么規定的，根據我國《著作權法》和七部門聯合發布的《生成式人工智能服務管理暫行辦法》，我國的生成式人工智能服務提供者（以下稱提供者）開展預訓練、優化訓練等訓練數據處理活動時，不得侵害他人依法享有的知識產權，也就是說，訓練素材需要取得著作權人的許可。在美國，如前文所述，訓練人工智能的版權素材需要著作權人授權。

　　但對這個問題，也有國家的規定不太一樣，比如根據日本著作權法第30條第4款，用版權內容訓練人工智能屬于合理使用：如果不以欣賞作品中表達的思想或情感為目的，且沒有不合理的損害著作人權人權益的，可以合理使用他人享有著作權的作品。

　　筆者覺得，雖然日本的規定立法目的可能是為了振興該國的人工智能產業，但其實也是一個思路，因為人工智能生成的內容不受著作權法保護，那其創造的內容就是全民共有的，那把所有的版權作品都讓其學習一下，成果出來了大家都不需要授權就可以用，這個說不定也挺好。

　　本文作者：游云庭，上海大邦律師事務所高級合伙人，知識產權律師。電話：8621-52134900，Email: yytbest@gmail.com，本文僅代表作者觀點。

　　[i] https://finance.eastmoney.com/a/202309212853452095.html

　　[ii] https://www.wired.com/story/battle-over-books3/

　　[iii] https://game.sohu.com/a/704547146_114760

　　[iv] https://hub.baai.ac.cn/view/26572