關於AI訓練資料侵權的碎碎念

强梁發表於2024-04-05

  從ChatGPT開始對於AI使用的訓練資料是否侵權就一直爭論不休,經常能看到xx行業聯合抵制的新聞。儘管我個人認為是“侵權”的,但也知道大機率這並不違反任何現行法律(可能違法的是爬取訓練資料這個過程),等到相關法律出臺的時候網際網路上的優質資料大概都已經被收集完成了,所以除了感慨一句快速變革的時期總是有漏子可鑽之外也沒多想。
  結果今天看到音樂人抵制Suno AI的帖子,順藤摸瓜看了看知乎上相關的問題和回答,震驚於居然有如此多的人認為不應該算侵權,甚至大力支援,我實在是有些不敢苟同,於是寫下了這些碎碎念。
  討論這個問題之前,需要先界定一下“侵權”的概念。就我瞭解到的情況,“爬取公開資料訓練AI”這件事應該是不違背現行的著作權法或專利法之類的法律,所以自然不構成現行法律意義上的侵權。我所說的“侵權”是一種我構想中的應然而非實然。為了避免概念過於寬泛可能導致的諸多問題,我姑且只針對這個問題將“權”定義為“作品創作人可以拒絕公開發表的作品被拿來訓練AI”的權力。
  認為爬取公開資料訓練AI不算侵權的人最多複述的一個觀點就是,人和AI的學習過程沒有任何差別。這類觀點大意如下:即便你的作品表明了不能商用,你也無法避免“一個人看了你的作品,學習到了一些東西,然後基於此創作一些不違反現行法律的作品並進行商用”,而顯然沒有創作者因此控告自己被侵權了。把這個表述中的人換成AI,依舊成立,如果人這麼做不算侵權,為什麼AI就算?
  從我的觀點來看,人這麼做其實也侵權了,只不過被侵權者沒有追究,或者ta們認為這種侵權是自己可以接受的(當然客觀上也沒有能力追究或不接受);或者從創作者的角度出發,ta們授權了人們可以這麼做,不然完全可以跟賣課一樣,只有交錢了才能看且不得作他用。這屬於某種在特定時代程序下的約定俗成:現行法律已經能比較好的維護創作者的權利,因此一些“侵權”行為已經被默許或者授權了。而“訓練AI”這件事,在我看來屬於尚沒有被法律約束而又沒有被默許或者授權的“侵權”行為,屬於由於生產力發展新產生的灰色地帶。隨著時代發展,這個灰色地帶一定會越來越小,只是會偏向哪側並不好說。我個人當然是傾向被法律約束,但從實操層面也確實存在諸多困難,因為授權問題將其一刀砍死也多少有些因噎廢食(這也是一部分人認為不應該侵權的理由)。

相關文章