美國第一起生成式AI構成合理使用判決:加州北區地院Bartz v. Anthropic PBC案

※如欲轉載本文,請與北美智權報聯絡
楊智傑/雲林科技大學 科技法律研究所 教授
文字生成式人工智慧(Gen AI)軟體 — Claude的開發公司Anthropic PBC,未經授權使用數百萬本他人書籍著作用以訓練Claude,因而被控告侵害書籍著作權。其是否能主張合理使用?美國加州北區法院William Alsup法官做出美國第一起判決(初步即決判決),認為:(1)用於訓練AI軟體用途可構成合理使用;(2)購買實體書數位化建置通用資料庫構成合理使用;(3)盜版取得的數百萬本書籍檔案放在資料庫中則不構成合理使用。
被告Anthropic PBC乃開發Claude的公司
被告Anthropic PBC是一家開發AI軟體的公司,由前OpenAI員工於2021年1月創立。其核心產品是一項名為Claude的Gen AI軟體[1]。
在2021年1、2月時,Anthropic共同創辦人Ben Mann下載了Books3資料集 — 一個包含196,640本書的線上資料庫。於同年6月,Ben Mann以同樣方式從Library Genesis(LibGen)下載了至少5,000,000本書。2022年7月,Anthropic又從Pirate Library Mirror(PiLiMi)下載了至少2,000,000萬本書。就此,Anthropic共非法下載超過7,000,000本書,其中包含每位原告作者至少2本涉訟著作的複本[2]。
之後,為了尋找獲取書籍的新途徑,Anthropic於2024年2月聘請Google Books計畫前合作夥伴的部門主管Tom Turvey。Anthropic斥資數千萬美元,購買數百萬本的實體書籍後,再將這些書籍拆除書脊、裁切書頁,並掃描成數位格式,被破壞的原始紙本書籍則被丟棄[3]。
Anthropic將二種來源的書籍複印檔建置了一個中央資料庫,主要目的是用於訓練其大型語言模型(LLM)。每一個經過完整訓練的LLM本身都保留了其訓練資料的「壓縮」複本。實質上,每個LLM所建立的關聯映射(mapping)極為完整,其幾乎逐字「記憶」這些用於訓練的著作。因此,若要求這些訓練完成的LLM背誦其訓練過的著作,它們能夠做到[4]。
然而,訓練用複本的流通僅止於此,並未擴散至外部市場。另外,當每一LLM被整合至Claude的對外版本時,還會配合其他軟體,對使用者輸入給LLM的內容進行過濾,並對LLM回應給使用者的輸出結果也加以過濾[5]。
最後,即便Anthropic決定某些盜版書籍或掃描書籍的複本將完全不再用於訓練Claude,或未來永不使用,該公司仍會保留這些中央「研究資料庫」或「通用資料區」作為其公司內部的「硬性資源」,以供其他用途或未來用途使用[6]。
原告為三位書籍作者
此起判決原告是Andrea Bartz、Charles Graeber與Kirk Wallace Johnson三位書籍作者(由Bartz代稱之),主張其書籍著作權被Anthropic侵權[7]。2024年8月向加州北區地院提起本件之集體訴訟[8]。
Anthropic則提出動議,請求在集體訴訟認證之前,提前審理有關合理使用(fair use)的簡易判決動議[9]。本案法官William Alsup於2025年6月23日做出對「合理使用」議題的即決判決。法官對本案的用途區分為二項 — 第一用途是Anthropic為了訓練LLM,第二用途則是Anthropic為了建立中央資料庫(保留作為未來其他用途)。
合理使用的二項用途
用途1:訓練LLM
第一因素:訓練LLM具有轉化性目的與性質
法院認為,將本案所涉書籍用於訓練Claude及其前身模型的「目的與本質」具有高度轉化性[10]。如同每位讀者渴望自己能成為作家一般,Anthropic開發的LLM是為了產出嶄新內容而訓練,而非簡單複製、替代原作。若此訓練過程在合理情況下需要於LLM中複製作品,該等複製行為即屬轉化性使用[11]。
至於AI的生成紀錄顯示,Claude系統中設有額外軟體層,用以過濾LLM的輸出內容,確保不會向使用者傳遞侵權內容。這與Google Books計畫中所施加的限制類似,該服務限制每位使用者可見未購買之書籍摘錄字數,防止其搜尋工具淪為可以免費完整閱讀著作的工具[12]。
法院指出,Anthropic的LLM並未對公眾重現任何作品的創作性內容,甚至也未重現某位作者可辨識的表達風格(即使假設這些內容可受著作權保護)[13]。
第二因素:不利於主張合理使用
第二因素上,所有被複製的書籍內容都是內容豐富且文法正確、良好書寫的句子,因此在第二因素上,不利於主張合理使用[14]。
第三因素:屬合理必要
第三因素上,使用著作的質與量。此因素的核心在於:使用的數量是否與其複製的目的「合理必要」(reasonably necessary)[15]。
在這裡的使用要區分為二個問題,一是為了訓練LLM有需要複製到數百萬本的書籍嗎?二是LLM輸出的內容是否過多呢?
就第一個問題,法院認為答案為肯定。雙方皆同意,訓練任一LLM所需的文字總量為數十億詞彙。若僅使用書籍作為來源,Anthropic每一模型至少需數百萬本書籍。即便使用包含書籍與其他文本的混合資料集,仍需數十萬本書[16]。
其次,就第二個針對輸出內容的使用問題,並沒有被指控構成侵權。雖然這些高品質作品對LLM訓練所帶來的益處,並未造成作品本身洩漏給大眾。因此,這類複製更顯其合理與正當[17]。
第四因素:未產生市場替代效果
在第四因素判斷上,著重於利用結果是否會對原著作產生市場替代效果。法院認為,用於訓練特定LLM的複製品,既未、也不會取代市場對原告著作複本的需求[18]。
法院再次強調,Bartz承認,訓練LLM並未導致任何原告著作之完整複本或侵權仿作向公眾提供[19]。Bartz主張,訓練LLM將引發大量與其著作競爭的作品。法院在本判決中先假定此說成立。但原告的主張與其抱怨學童若被訓練寫作能力提升,將導致市場上出現大量競爭作品並無不同。《著作權法》關注的並非此類創作或競爭替代。《著作權法》的目的是促進原創性著作的產出,而非保護作者免受競爭[20]。
Bartz另主張,現在已經出現一個訓練AI的著作授權市場,而Anthropic未經授權使用傷害了這個訓練授權市場。Anthropic則反駁稱,進行此類授權交易的成本將超過其所預期可得之利益,這將迫使其放棄與任何權利人洽談,甚至終止開發該項技術。法院紀錄可支持任一主張,故法院認為,該授權市場的確有可能發展。但即便如此,目前並未成熟,且該市場用途並非《著作權法》賦予Bartz專屬控制之對象[21]。
綜合分析
合理使用分析最後需要綜合分析四因素。法院認為,除第二項因素(著作性質)外,其他所有因素皆支持構成合理使用。原因在於,所涉技術是本世代所能見證最具轉化性的技術之一[22]。
用途2:建立中央通用資料庫之行為
法院在本判決中,另外將Anthropic用數位盜版和購買實體書掃描後建立的中央資料庫永久保留,是否構成合理使用,獨立進行分析。
就下載數位盜版著作以建構中央資料庫
法院認為此一行為無法構成合理使用。所有因素皆不利於主張合理使用,尤其這些書籍檔案乃非法取得。Anthropic的員工表示,即使某些作品(包括盜版品)已被決定不再用於訓練LLM,該公司仍將其永久保留於「通用用途」之資料庫中。此類利用用每一項都應有獨立正當化理由,而Anthropic並未提說明這類未來用途是否能主張合理使用,僅出於自身的成本與便利考量[23]。
將購買所得之實體書庫複本轉為數位圖書館複本
就合法購買實體書轉為數位檔後銷毀實體書,只將數位檔保留在中央資料庫中,由於這些書籍是合法購買,法院認為構成合理使用,但其合理性基礎與訓練用的複製不同。此種情況下,第一因素強烈支持該使用,第三因素亦支持,第四因素則呈中立,僅第二因素略為不利。但在綜合考量下,由於Anthropic購置的原始實體書籍已被拆解銷毀,且其數位複本未再被散布,法院認定此類使用屬於合理使用[24]。
結語
本案是Gen AI訓練是否構成合理使用的第一起判決,受各界關注。一方面,其參考了Google Books計畫的Authors Guild v. Google案判決,認為Gen AI的輸出成果對原著作的利用量與市場替代效果,必須納入參考;二方面,其認為合法取得著作進行AI訓練沒問題,但非法取得盜版進行AI訓練則有問題。這個區分可能會影響其他Gen AI訓練侵權的案件判決。然而,其他法院是否會採取本案提供的觀點?我們也只能繼續觀察。
延伸閱讀:
備註:
- [1] Bartz v. Anthropic PBC, No. C 24-05417 WHA, 2025 WL 1741691, at *1 (N.D. Cal. June 23, 2025).
- [2] Id. at *2.
- [3] Id. at *2.
- [4] Id. at *4.
- [5] Id. at *4.
- [6] Id. at *4.
- [7] Id. at *1.
- [8] Id. at *5.
- [9] Id. at *5.
- [10] Id. at *7-8.
- [11] Id. at *8.
- [12] Id. at *7.
- [13] Id. at *8.
- [14] Id. at *14-15.
- [15] Id. at *15.
- [16] Id. at *15-16.
- [17] Id. at *15-16.
- [18] Id. at *16.
- [19] Id. at *16-17.
- [20] Id. at *17.
- [21] Id. at *17.
- [22] Id. at *18.
- [23] Id. at 18.
- [24] Id. at 18.
責任編輯:盧頎
【本文僅反映專家作者意見,不代表本報立場。】
|
延伸閱讀&電子報訂閱連結:
【詳細內容請見《北美智權報》384期;歡迎加入NAIPNews網站會員成為我們的訂戶,以掌握最關鍵的專利商標智財消息!】
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言