科技首頁創事記互聯網電信 IT業界投稿

侵權、搶功爭議不斷，Stability AI陷入漩渦

2022-10-26 08:21:51 創事記作者：硅星人

圖片來源 | Stability AI

　　歡迎關注“新浪科技”的微信訂閱號：techsina

　　侵權、“搶功”爭議不斷，Stability AI 陷入漩渦。

　　文｜杜晨編輯｜VickyXiao

　　來源：硅星人

　　無數創業產品和業余項目出現，谷歌、字節等巨頭公司也都紛紛入局——最近 AI 創作這條賽道有多擁擠，已經無需多言。

　　所有參賽選手當中，最火的一家莫過于 Stable Diffusion。該項目背后的公司之一 Stability AI，也成為了行業的當紅炸子雞。號稱“要讓10億人用上開源大模型”的它，前不久剛剛完成了1億美元融資，估值達到10億美元躋身獨角獸行列，

　　然而就在上周，Stable Diffusion 項目，以及這家風頭正勁的公司，突然接連卷入兩場爭議：

　　不僅被藝術創作者“群起而攻之”，

　　還被合作伙伴“反水”，被質疑“搶功”……

　　/ 偷風格，算偷嗎？ /

　　上周，美國媒體 CNN 采訪了多位藝術家。這些受訪者憤怒地表示：無法接受 Stable Diffusion 用他們的作品，卻砸他們的飯碗。

　　這些藝術家的作品，或者更準確來說，他們在作品中所體現的風格，都被 Stable Diffusion 用于訓練模型了。

　　受訪者之一是在藝術節有一定知名度的油畫家 Erin Hanson。她的油畫作品用色風格非常獨特，采用了更加多樣化、具有視覺沖擊力的色彩，且飽和度極高，已經在藝術圈內形成了個人特色。

　　前段時間 Stable Diffusion 爆紅之后，Hanson 注意到有人用這個模型生成的一些圖片結果，竟然有自己作品的味道。

　　經過進一步調查，她更加驚訝了：用戶甚至可以在生成圖片的時候，直接輸入“Erin Hanson 風格”作為文字提示的一部分。Stable Diffusion 生成的結果，和 Hanson 已經發表的作品幾乎一模一樣……

　　如果不注意畫中 Hanson 的簽名水印的話，你可能完全會以為兩張都是 Hanson 的親筆創作：

圖片來源：Erin Hanson（左）、Rachel Metz via Stable Diffusion（右）

　　但其實左邊有簽名水印的才是 Hanson 的正版作品 "Crystalline Maples"；右邊則是 CNN 記者通過 Stable Diffusion 生成的結果，使用的文字提示包括：水晶油畫，光和影，背光的樹，強烈輪廓，彩色玻璃，現代印象派，Erin Hanson 風格等。

　　“如果我把它掛在我的墻上，應該毫不違和吧？”Hanson 對 Stable Diffusion 的“創作能力”表示相當驚訝。

　　但在仔細研究了 Stable Diffusion 工作機制之后，她才明白過來：這個 AI 模型根本沒有自己的創作能力。

　　因為它的風格，屬實是“抄”來的。

　　Stable Diffusion 是一個具備文字轉圖片/視頻能力的生成模型，可以用幾秒鐘時間就生成高分辨率、具備真實性和/或“藝術性”的視覺結果。在訓練方面，這個模型的初代版本采用了大約4000臺A100顯卡集群，用了一個月的時間。

　　而它的訓練數據，則來自于德國AI非營利機構 LAION（全稱大規模人工智能開放網絡）。初代版本所采用的的訓練數據集，包括了近60億條圖片-文字平行數據。

　　很多和 Henson 一樣感到憤怒的藝術家們發現，原來是自己的作品，以及對應的文字平行數據（比如姓名），被收錄到了 LAION 相關數據集里——才導致了自己的作品和風格，被這個爆紅的 AI 創作模型所“剽竊”。

　　從網上大規模搜集資料作為 AI 模型的訓練數據，早已不是什么新鮮事。事實上，今天我們正在使用的很多基于 AI 的技術和產品，包括并不限于搜索引擎、短視頻推薦算法、翻譯、圖像識別等，背后的模型在訓練階段都重度使用了一些知名數據集。

　　這些數據集的內容，絕大多數是沒有版權/使用目的限制的，無論最終是商業還是非商業目的，任何人都可以使用，只需要遵守相應的來源引用和使用規范即可。

　　一些比較常用的圖片數據集舉例圖片來源：Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples

　　不過，隨著AI技術越來越先進，應用領域越來越多樣，新的使用場景（比如今天討論的AI文字生成圖片）就對更大規模的訓練數據集，更多來自公開網域的各種形式（文字、圖片、音頻、視頻等）的信息和資料，產生了巨大的需求。

　　當數據集從幾萬，幾十萬張圖片，“擴容”到幾億甚至幾十億張的規模時，這一過程當中，難免存在一些權利方面的漏洞。

　　而今天這些出離憤怒的藝術家們，就成為了權利漏洞，以及利用這些漏洞進行商業化獲益行為的受害者。

　　他們的憤怒并非沒有理由。

　　畢竟 AIGC（AI生成內容）這一或將導致藝術家們失業的新技術領域，已經成為現如今科技創業的大熱門，無數創業者、投資人瘋狂涌入。結果奪走他們工作的這個玩意兒，居然正是用他們的創作風格所訓練出來的。

　　本來藝術家們已經是一個普遍比較拮據的群體了。現在這些 AI 端了人家的碗，還要砸人家的鍋——你說他們能不生氣么……

Erin Hanson 圖片來源：本人

　　在藝術家和版權人士的呼吁和努力之下，現在已經有人開發出了一些工具，幫助權利人在大型數據集當中搜索自己主張權利的作品。

　　比如 LAION 自己做了一個網頁工具可以把文字轉換為 CLIP embedding，用于搜索描述相同或者相似的內容。

　　再比如還有一個取名很巧妙的網站，叫做“Have I Been Trained”，幫助創作者搜索 LAION 數據集，查看自己的作品是否被用于訓練了。

圖片來源：Have I Been Trained?

　　“Have I Been Trained” 的背后是一對居住在德國的藝術家和開發者，他們表示：在幫助藝術家確認自己的作品是否被大規模數據集收錄之余，他們很快還將發布一套新的工具，允許藝術家能夠自主選擇作品是否被數據集所收錄。為此，這兩位開發者已經和多家從事大規模 AI 模型研發的機構和公司進行了接洽。

　　對于“藝術家應該掌握作品是否被收錄控制權”這件事，Stability.AI 和 LAION 也表示同意。

　　然而即便如此，Stable Diffusion 也只是眾多 AIGC 類模型的其中一個而已。還有更多模型/產品/項目處于未開源狀態，藝術家和權利人想要正當維護自己的權益，所面臨的挑戰和阻礙，只會隨著時間變得更多和更艱難。

　　直到這一問題在全行業通過規范或制度解決之前，Stable Diffusion，以及包括 DALL·E 2、Midjourney 等在內的主流模型，仍將作為“AI侵權”指控的對象長期存在。

　　/ 多方心血，一家獨占？ /

　　由于 Stability AI 這家公司在過去一直正面和側面將自己宣傳為 Stable Diffusion 項目幕后的功臣，像侵權這樣的鍋，也被該公司背上了。

　　然而侵權只是 Stability AI 當前面臨的諸多煩惱之一。就在前不久該公司完成1億美元融資，正式晉升為獨角獸之際，它突然發現：

　　正因為攬了太多的功勞，過去一起做項目的好伙伴，對自己意見很大……

　　故事要先從上周四說起：一家名叫 Runway ML 的公司，在 Twitter 賬號上表示發布了 Stable Diffusion 1.5 版本。

　　網友一下子懵了：

　　等一下，你們這是正式版嗎？為啥 Stability AI 沒有任何公開宣布或者支持呢？

圖片來源：@ScottieFoxTTV

　　你們這個是 Stability AI 做的么？

圖片來源：@buZztiaan

　　緊接著就在發布當天，發布網站 Hugging Face 透露，收到了來自 Stability AI 的刪除請求：

　　Stability AI 表示這個版本屬于其“知識產權泄露”，并要求 Hugging Face 下架這一發布……

　　就連 Hugging Face 自己也懵了，因為這樣的請求過去幾乎從沒有過。它在這個刪除請求下面加了一行字：為了保證過程透明公開，請這個repo的所有者（Runway）和Stability AI 提供更多資料……

圖片來源：Hugging Face

　　這究竟是怎么一回事呢？

　　首先我們需要再回顧一下 Stable Diffusion 的來歷：

　　需要明確的是，Stable Diffusion 的技術本身，其實來自于慕尼黑大學機器視覺學習組，和 Runway 公司。

　　今年的 CVPR22 大會上，這些研究者共同發表了一篇論文，研究的是潛伏擴散模型，論文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是這篇論文里的研究，在后來成為了 Stable Diffusion 模型的理論技術基礎。