作者:游云庭
據媒體報道,近日世界三大唱片公司之一的環球唱片在美國起訴了人工智能引擎公司Anthropic,該公司的Claude引擎和ChatGPT齊名。環球唱片的訴狀附件列出了約 500 件被侵權作品,要求對每件賠償15萬美元,這意味著訴訟請求至少7500萬美元。今天就聊聊本案訴狀中的法律看點。
一、用侵權歌詞訓練人工智能過程中有哪些違法
Claude人工智能模型能以貌似人類的方式響應用戶的提示,這是因為被告復制并向底層模型輸入了大量文本。具體來說,被告通過以下步驟訓練其Claude人工智能模型如何生成文本:
1. 首先, 被告用爬蟲從互聯網上復制了包含原告享有版權的歌詞在內的大量文本,這些構成了輸入或 “語料庫”,Claude人工智能模型就是在這些輸入或 “語料庫的基礎上進行訓練的。
筆者的解讀:被告獲取訓練數據未經授權。
2. 其次,被告會“清理 ”復制的文本,刪除它認為技術上和商業上與其商業模式不一致的材料,無論是技術性的還是商業性的。比如刪除冒犯性語言,但多數情況下,這種 “清理 ”過程似乎完全忽視了復制文本所體現的版權侵權行為。
筆者的解讀:被告既然可以對文本進行清理,就無法適用“版權避風港”,避風港是因為服務提供商(如搜索引擎)對海量數據無法進行甄別,法律上才給服務提供商一個特權,收到通知后及時刪除侵權內容即可免責。但如果服務商有技術能力對獲取的數據進行甄別,那就不能適用避風港原則,合規的做法應該是有用戶問歌詞問題時,給一個歌曲所在唱片公司的官方鏈接。這才是進入避風港的正確姿勢。
3. 被告將以前復制的大量文本復制到計算機中,并通過多種方式處理這些數據,以訓練Claude人工智能模型,包括“標記”、“微調”、“強化學習”,所有這些都可能需要對收集到的文本進行額外的復制。一旦輸入和訓練過程完成,被告的Claude人工智能模型就會生成在結構和風格上與訓練語料庫中的文本一致的輸出結果。
筆者的解讀:原告主張被告在訓練Claude人工智能模型時會多次復制和使用原告享有版權的作品。
4. 被告在很大程度上隱瞞了其用于訓練人工智能模型的文本的具體來源。只表示:Claude模型的訓練依據包括從互聯網上公開獲取的信息、從第三方獲得許可的數據集,Claude2號接受訓練所依據的文本將持續到2023年初,其中90%為英語。而數據集(如 “Common Crawl ”數據集)中包含大量流行歌詞內容。被告拒絕透露其用于培訓Claude的材料的原因是因為意識到自己在未經版權所有者授權的情況下復制了受版權保護的材料。
筆者的解讀:被告明知侵權的存在,所以隱瞞數據來源。這是一個獲取懲罰性賠償的依據。
二、Claude人工智能模型在回答問題時有哪些侵權?
1. 人工智能訓練完成后,被告并未刪除侵權的訓練素材,被告的人工智能模型傳播了大量與出版商受版權保護的歌詞相同或近乎相同的副本,進一步侵犯了出版商的權利。訴狀列舉的例子,用戶要求Claude對凱蒂佩里的《咆哮》、滾石樂隊的《You Can‘t Always Get What You Want》輸出歌詞,然后得到了和原版幾乎相同的歌詞。
筆者的解讀:以上內容構成直接侵權。
2. 被告的Claude人工智能模型還能為新歌曲生成歌詞,有時會包含現有版權歌曲的歌詞。當Claude被要求按照某位藝術家或詞曲作者的風格創作其他類型的版權作品(如詩歌、短篇小說)時,人工智能模型也會經常有直接抄襲原告享有版權的歌詞。Claude甚至可能會將一部受版權保護的作品的部分內容與其他受版權保護的作品的部分內容放在一起,有時甚至有悖于歌曲作者的初衷。
筆者的解讀:以上內容除了侵犯原作者的版權中的財產權,還侵犯人身權,將他人的作品標識為人工智能創作,侵犯了原作者的署名權。鑒于人工智能沒有法律上的人格,所以侵權者是開發運營人工智能的本案被告。
寫到這里,筆者忽然想試試國內的人工智能模型有沒有歌詞功能,隨機問了下文心一言,發現還真有,不知道有沒有拿到歌詞版權授權。
3. Claude還能為歌詞生成和弦譜,環球的律師認為也構成侵權。當Claude被要求為某首歌曲提供和弦行進時,其往往會生成包含出版商受版權保護的歌詞以及和弦的輸出結果。訴狀舉了約翰尼-卡什(Johnny Cash)的《Daddy Sang Bass》的例子。
筆者的解讀:生成和弦是一個有用的功能,現在Claude生成的方式是在全歌的歌詞上進行和弦標注,這個被侵權,有一定爭議,因為《著作權法》規定,為評論一部作品而進行適當引用的,屬于合理使用。本案中的問題在于,Claude標注和弦的方式不是合理引用,而是全文引用,故構成實質性替代,不屬于合理使用的范疇。如果Claude只標每句歌詞的第一個詞,其后的字母用*號表示,其實是可以達到向用戶提供和弦詞譜,又不侵權的目的的。
4. 盡管被告公然利用出版商的歌詞和內容用于開發和訓練人工智能模型,但被告禁止他人將被告擁有版權的內容用于同樣的目的,其服務條款明確禁止使用被告內容 “開發或訓練任何人工智能或機器學習算法或模型”。
筆者的解讀:這個自相矛盾的點在法庭上提出,會讓被告方的律師挺尷尬,因為邏輯不能自洽。
三、被告的回應
媒體報道稱,被告目前尚未對本次訴訟進行回應,但筆者詢問了被告的Claude人工智能模型,如何評價環球唱片對Anthropic的訴訟,Claude的回復倒是挺全面的:
1. 版權法 - 訴訟的核心在于Anthropic的AI助手Claude是否侵犯了環球的歌詞版權。法院將要評估Claude對歌詞的概括是否構成版權侵犯或合理使用。
2. 合理使用原則 - Anthropic可能會辯稱Claude的歌詞概括屬于合理使用,允許為評論、批評和教育目的進行有限的版權材料使用。但是環球會爭辯這些概括超出了界線。
3.建立新的法律先例 - 這個案件可能會在版權和AI方面建立新的先例。法院還沒有對AI版權問題做出大量判決。該案件可能有助于澄清標準和界限。
4.對AI訓練的潛在寒蟬效應 - 如果判Anthropic敗訴,可能會對使用版權文本訓練自然語言AI系統產生寒蟬效應。開發者可能不得不限制用于訓練的來源材料。
5. 言論自由意義 - Anthropic可能會聲稱Claude的歌詞概要屬于受保護的言論,判他們敗訴會違反第一修正案權利。然而,版權法的言論保護是有限度的。
6. 行業反應 - 如果Anthropic敗訴,可能會促使其他科技公司限制在AI訓練中使用版權內容。但如果Anthropic勝訴,可能會鼓勵更開放的使用。
總體而言,該案件將對AI發展和版權法產生復雜影響。法院在做出判決時將不得不平衡各種利益和原則。最終的裁決將會塑造AI和知識產權的未來格局。
筆者的評價:這個回復很得體,重點突出又很全面。一方面,人工智能是新生事物,用版權素材訓練人工智能是否侵權或者說,是否構成合理使用,現行的著作權法律確實沒有明文規定,回復強調了這一點。另一方面,本案的對人工智能產業發展、言論自由等的影響確實也會是被告抗辯的重點。然后筆者又問了個問題:Claude的回復中含有版權內容,會不會對版權人的利益和版權行業的秩序造成損害。
Claude的答復:您提出了一個非常好的問題。Claude未經授權使用歌詞確實可能對版權人的利益和版權行業的秩序造成一定程度的負面影響:
1. 可能侵犯版權人的經濟權益 - 未經授權使用他人創作可能對版權人的收益造成損害,減少其合法獲取報酬的機會。
2. 可能降低創作激勵 - 如果未經授權使用盛行,版權人的創作激勵可能會降低,長期影響創作活力。
3.可能擾亂正常許可秩序 - 大規模未經授權使用也可能擾亂正常的版權許可秩序,增加版權人的許可成本。
4. 可能引發過度依賴的風險 - AI系統過度依賴未經授權使用存在被依賴方侵權或斷供的風險。
但是,也需要注意以下幾點:
1. Claude似乎僅使用了非實質性部分。
2. 合理使用條款給予了一定的合法空間。
3. 對未來AI的訓練模式轉變也可能帶來一定正面影響。
4. 可以通過多方討論確定新的平衡點。
所以這需要案件審理后基于具體情況做出權衡。但您提出了一個涉及此案核心的非常好的視角。
筆者的評價:Claude作為一款人工智能,智能程度確實不低,回答全面且有導向性。
最后,二十多年前,以雅虎、網景、Napster為代表的美國互聯網產業崛起的時候,版權人的利益受到了很大的傷害,當時通過一系列的訴訟和博弈,美國通過了《千禧年數字版權法》,以版權避風港劃定了版權人和互聯網平臺之間的利益分界線。
今天當人工智能產業崛起并野蠻生長,吞噬版權人的利益時,版權行業再次用訴訟捍衛自己的利益。筆者之前曾在《《權力的游戲》作者起訴ChatGPT侵權,AI訓練要不要獲得著作權人的授權?》一文中介紹了文字作品的作者起訴人工智能服務公司侵權;今天介紹了唱片公司起訴人工智能服務公司侵權;其實最近一直很熱的好萊塢罷工也和影視公司使用人工智能奪走了一部分從業人員的工作有關。希望最近的一系列博弈會幫助人工智能產業和版權產業劃分出利益的合理界限,以利于產業更好的長遠發展。
本文作者:游云庭,上海大邦律師事務所高級合伙人,知識產權律師。電話:8621-52134900,Email: yytbest@gmail.com,本文僅代表作者觀點。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)