※如欲轉載本文，請與北美智權報聯絡

楊智傑／雲林科技大學科技法律研究所教授

文字生成式人工智慧（Gen AI）軟體 — Claude的開發公司Anthropic PBC，未經授權使用數百萬本他人書籍著作用以訓練Claude，因而被控告侵害書籍著作權。其是否能主張合理使用？美國加州北區法院William Alsup法官做出美國第一起判決（初步即決判決），認為：（1）用於訓練AI軟體用途可構成合理使用；（2）購買實體書數位化建置通用資料庫構成合理使用；（3）盜版取得的數百萬本書籍檔案放在資料庫中則不構成合理使用。

被告Anthropic PBC乃開發Claude的公司

被告Anthropic PBC是一家開發AI軟體的公司，由前OpenAI員工於2021年1月創立。其核心產品是一項名為Claude的Gen AI軟體[1]。

在2021年1、2月時，Anthropic共同創辦人Ben Mann下載了Books3資料集 — 一個包含196,640本書的線上資料庫。於同年6月，Ben Mann以同樣方式從Library Genesis（LibGen）下載了至少5,000,000本書。2022年7月，Anthropic又從Pirate Library Mirror（PiLiMi）下載了至少2,000,000萬本書。就此，Anthropic共非法下載超過7,000,000本書，其中包含每位原告作者至少2本涉訟著作的複本[2]。

之後，為了尋找獲取書籍的新途徑，Anthropic於2024年2月聘請Google Books計畫前合作夥伴的部門主管Tom Turvey。Anthropic斥資數千萬美元，購買數百萬本的實體書籍後，再將這些書籍拆除書脊、裁切書頁，並掃描成數位格式，被破壞的原始紙本書籍則被丟棄[3]。

Anthropic將二種來源的書籍複印檔建置了一個中央資料庫，主要目的是用於訓練其大型語言模型（LLM）。每一個經過完整訓練的LLM本身都保留了其訓練資料的「壓縮」複本。實質上，每個LLM所建立的關聯映射（mapping）極為完整，其幾乎逐字「記憶」這些用於訓練的著作。因此，若要求這些訓練完成的LLM背誦其訓練過的著作，它們能夠做到[4]。

然而，訓練用複本的流通僅止於此，並未擴散至外部市場。另外，當每一LLM被整合至Claude的對外版本時，還會配合其他軟體，對使用者輸入給LLM的內容進行過濾，並對LLM回應給使用者的輸出結果也加以過濾[5]。

最後，即便Anthropic決定某些盜版書籍或掃描書籍的複本將完全不再用於訓練Claude，或未來永不使用，該公司仍會保留這些中央「研究資料庫」或「通用資料區」作為其公司內部的「硬性資源」，以供其他用途或未來用途使用[6]。

原告為三位書籍作者

此起判決原告是Andrea Bartz、Charles Graeber與Kirk Wallace Johnson三位書籍作者（由Bartz代稱之），主張其書籍著作權被Anthropic侵權[7]。2024年8月向加州北區地院提起本件之集體訴訟[8]。

Anthropic則提出動議，請求在集體訴訟認證之前，提前審理有關合理使用（fair use）的簡易判決動議[9]。本案法官William Alsup於2025年6月23日做出對「合理使用」議題的即決判決。法官對本案的用途區分為二項 — 第一用途是Anthropic為了訓練LLM，第二用途則是Anthropic為了建立中央資料庫（保留作為未來其他用途）。

合理使用的二項用途

用途1：訓練LLM

第一因素：訓練LLM具有轉化性目的與性質

法院認為，將本案所涉書籍用於訓練Claude及其前身模型的「目的與本質」具有高度轉化性[10]。如同每位讀者渴望自己能成為作家一般，Anthropic開發的LLM是為了產出嶄新內容而訓練，而非簡單複製、替代原作。若此訓練過程在合理情況下需要於LLM中複製作品，該等複製行為即屬轉化性使用[11]。

至於AI的生成紀錄顯示，Claude系統中設有額外軟體層，用以過濾LLM的輸出內容，確保不會向使用者傳遞侵權內容。這與Google Books計畫中所施加的限制類似，該服務限制每位使用者可見未購買之書籍摘錄字數，防止其搜尋工具淪為可以免費完整閱讀著作的工具[12]。

法院指出，Anthropic的LLM並未對公眾重現任何作品的創作性內容，甚至也未重現某位作者可辨識的表達風格（即使假設這些內容可受著作權保護）[13]。

第二因素：不利於主張合理使用

第二因素上，所有被複製的書籍內容都是內容豐富且文法正確、良好書寫的句子，因此在第二因素上，不利於主張合理使用[14]。

第三因素：屬合理必要

第三因素上，使用著作的質與量。此因素的核心在於：使用的數量是否與其複製的目的「合理必要」（reasonably necessary）[15]。

在這裡的使用要區分為二個問題，一是為了訓練LLM有需要複製到數百萬本的書籍嗎？二是LLM輸出的內容是否過多呢？

就第一個問題，法院認為答案為肯定。雙方皆同意，訓練任一LLM所需的文字總量為數十億詞彙。若僅使用書籍作為來源，Anthropic每一模型至少需數百萬本書籍。即便使用包含書籍與其他文本的混合資料集，仍需數十萬本書[16]。

其次，就第二個針對輸出內容的使用問題，並沒有被指控構成侵權。雖然這些高品質作品對LLM訓練所帶來的益處，並未造成作品本身洩漏給大眾。因此，這類複製更顯其合理與正當[17]。

第四因素：未產生市場替代效果

在第四因素判斷上，著重於利用結果是否會對原著作產生市場替代效果。法院認為，用於訓練特定LLM的複製品，既未、也不會取代市場對原告著作複本的需求[18]。

法院再次強調，Bartz承認，訓練LLM並未導致任何原告著作之完整複本或侵權仿作向公眾提供[19]。Bartz主張，訓練LLM將引發大量與其著作競爭的作品。法院在本判決中先假定此說成立。但原告的主張與其抱怨學童若被訓練寫作能力提升，將導致市場上出現大量競爭作品並無不同。《著作權法》關注的並非此類創作或競爭替代。《著作權法》的目的是促進原創性著作的產出，而非保護作者免受競爭[20]。

Bartz另主張，現在已經出現一個訓練AI的著作授權市場，而Anthropic未經授權使用傷害了這個訓練授權市場。Anthropic則反駁稱，進行此類授權交易的成本將超過其所預期可得之利益，這將迫使其放棄與任何權利人洽談，甚至終止開發該項技術。法院紀錄可支持任一主張，故法院認為，該授權市場的確有可能發展。但即便如此，目前並未成熟，且該市場用途並非《著作權法》賦予Bartz專屬控制之對象[21]。

綜合分析

合理使用分析最後需要綜合分析四因素。法院認為，除第二項因素（著作性質）外，其他所有因素皆支持構成合理使用。原因在於，所涉技術是本世代所能見證最具轉化性的技術之一[22]。

用途2：建立中央通用資料庫之行為

法院在本判決中，另外將Anthropic用數位盜版和購買實體書掃描後建立的中央資料庫永久保留，是否構成合理使用，獨立進行分析。

就下載數位盜版著作以建構中央資料庫

法院認為此一行為無法構成合理使用。所有因素皆不利於主張合理使用，尤其這些書籍檔案乃非法取得。Anthropic的員工表示，即使某些作品（包括盜版品）已被決定不再用於訓練LLM，該公司仍將其永久保留於「通用用途」之資料庫中。此類利用用每一項都應有獨立正當化理由，而Anthropic並未提說明這類未來用途是否能主張合理使用，僅出於自身的成本與便利考量[23]。

將購買所得之實體書庫複本轉為數位圖書館複本

就合法購買實體書轉為數位檔後銷毀實體書，只將數位檔保留在中央資料庫中，由於這些書籍是合法購買，法院認為構成合理使用，但其合理性基礎與訓練用的複製不同。此種情況下，第一因素強烈支持該使用，第三因素亦支持，第四因素則呈中立，僅第二因素略為不利。但在綜合考量下，由於Anthropic購置的原始實體書籍已被拆解銷毀，且其數位複本未再被散布，法院認定此類使用屬於合理使用[24]。

結語

本案是Gen AI訓練是否構成合理使用的第一起判決，受各界關注。一方面，其參考了Google Books計畫的Authors Guild v. Google案判決，認為Gen AI的輸出成果對原著作的利用量與市場替代效果，必須納入參考；二方面，其認為合法取得著作進行AI訓練沒問題，但非法取得盜版進行AI訓練則有問題。這個區分可能會影響其他Gen AI訓練侵權的案件判決。然而，其他法院是否會採取本案提供的觀點？我們也只能繼續觀察。