︿
Top

AI之LLM訓練真有白吃的午餐? —從Anthropic著作侵權15億美金天價和解談起

瀏覽次數:736| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 陳家駿 發表於 2025年11月14日
facebook twitter wechat twitter
圖、AI之LLM訓練真有白吃的午餐? —從Anthropic著作侵權15億美金天價和解談起

在智慧財產權領域中,著作權雖不像專利有那麼高的壟斷性,但長久以來,基本上維持著一項經濟法律次序,要使用他人擁有著作權的素材,需先取得授權,而只有在相對少數的情況下,可主張合理使用。譬如說,為了個人使用的目的、或為了研究分析等非營利之目的等。但生成式AI的問世,卻徹底打破了這項行之已久的機制。

LLM訓練成為著作權人之全民公敵
自ChatGPT 2022年底在全球風起雲湧以來,一時之間,以「預訓練模型」(transformer)為基礎的各項聊天機器人應運而生,不論是Open AI的GPT、Meta的Llama、Google的Gemini,還是Anthropic的Claude、再到Elon Musk的Grok等,除少數之外都不先取得授權,而是直接將他人在網路上的素材,以爬蟲的方式搜刮殆盡,作為其訓練LLM之用。

這些AI工具開發商的說辭是,浩瀚網海中資訊太多,根本不可能全部取得授權。尤其重要的是,其認為作為大語言模型LLM訓練之用複製本身,是不構成侵權的一種合理使用行為。不僅這些AI巨擘如此認為,其他的AI開發商都有樣學樣:先斬後奏!也因此,使得傳統著作權向來的市場秩序,完全被打亂。此種不告而取的行為,導致這些工具商變成著作權人之全民公敵,因為AI的應用,囊括著作權可能涵蓋的所有保護標的,也因此單在美國,迄今就衍生了50件的著作權侵害訴訟!


AI訴訟被告常提駁回原告起訴之動議
目前在全美有關的AI著作侵權訴訟當中,大部分都只是中間程序判決:
  1. Anderson et al, v. Stability AI, DeviantArt & Midjourney案,北加州1/23起訴,程序判決 10/30/23
  2. Kadrey, Silverman & Golden v. Meta 案,北加州 7/23起訴,程序判決11/20/23
  3. Getty Images (US) v. Stability AI 案,英國英格蘭及威爾斯高院 1/23起訴,程序判決12/1/23
  4. Doe 1~5  v. OpenAI、Github、Microsoft 案,北加州11/23起訴,二次程序判決1/22/24
  5. Tremblay et al, & Silverman et al, v. OpenAI案合倂,北加州 6&7/23起訴,程序判決2/12/24
  6. Raw Story Media, Inc. & AlterNet Media v. OpenAI,紐約州南區地院8/24起訴,程序判決11/8/24
  7. Intercept Media Inc. v. OpenAI & Microsoft,紐約州南區地院2024/2/28起訴,程序判決11/24
  8. Thomson Reuters Enterprise Centre GMBH v. Ross Intelligence 德拉瓦州5/20起訴,程序判決9/23 & 2/11/25

美國訴訟的程序冗長,從管轄的法庭地選擇(forum shopping),到證據開示(Discovery)再到審判,其間不僅耗時廢日且律師費昂貴。因此,被告常會利用民事訴訟法的規定,在訴訟一開始時,就主張原告的訴求不明或欠缺請求基礎,因此向法院聲請「駁回原告起訴之動議」(motion to dismiss claim)。抗辯原告缺乏請求賠償之適格性,例如「未能陳述適格之訴求」(failure to state a claim)等。而在眾多的AI侵權案中,在好幾個案件中,被告的確都成功地讓法官核准其駁回原告起訴的動議。然而,有鑒於AI實在是太新了,針對原告訴狀中說不清楚講不明白的論點,法官卻也常網開一面,賦予原告得以修改其訴求(motion granted with leave to amend)的機會。

被告直搗黃龍直接提即席判決之動議
但到了今年六月下旬,在以下這兩案:Bartz v. Anthropic(北加州8/19//24起訴,即席判決 6/23/25);Kadrey v. Meta(北加州7/7/23起訴,即席判決6/25/25)中,被告再出奇兵,不再糾結於所謂駁回原告之起訴,而是直搗黃龍挑明:作為訓練LLM目的所進行的複製,根本就構成合理使用而非侵權。

簡單講,在過去是否構成合理使用,因為常是訴訟的核心爭點,往往會由陪審團來決定。但以上兩案中,被告成功的申請了所謂的「即席判決動議」(motion for summary judgement),即針對「任何重要事實因為不存在真正爭議」(no genuine issue of material fact),要求法官而非陪審團,來決定AI聊天機器人的大量複製
行為,是否可構成合理使用。而這二個案子,法官不約而同的都予以受理,也就是由法官自己來決定:複製可否構成合理使用。

這兩件北加州地院法官,係針對合理使用在全世界頭一次做出即席判決,再度吸引全球的目光,看看美國這個智財權強國,如何看待AI科技在著作權方面的適用。這兩項關於AI訓練中複製他人擁有著作權素材的判決出爐後,不少媒體或論者認為,Meta等被告可構成合理使用。但,這樣的論調應有待商榷!

從技術層面看 -- LLM訓練為何具有轉化性
在美國,由於判斷合理使用有四項重要的因素,而根據美國最高法院的案例,不斷宣示如具有轉化性,則二次使用就比較可能構成合理使用。因此,先來看一下AI訓練的LLM,為何具有轉化性。

當今以網路爬蟲橫掃全領域之網路資料,已是進行生成式AI訓練最快速而有效的不二法門。但由於電腦看不懂人類的文字圖畫,所以需先以編碼的運作讓電腦看得懂,也就是利用線性代數中之矩陣數值運算,將AI資料處理適用一種「向量嵌入」(vector embedding)應用,將文本轉換為「向量」的數值代碼(numerical codes),然後用這些向量從大型語言模型接收的輸出回應來創建。

而從網站爬取資料縱使涉及製作過程之複製,但其主要是拷貝全文後,再「抽取元數據」(abstracting metadata)。尤其是關於字和字、句子和句子之間的關連性與權重、與不受著作權保護之統計模式或詞頻等資訊,結合這些數據,來創建一種「關於詞彙順序、出現頻率(哪些詞被使用及使用頻率)、文法與語法」的統計資料。由此可知,生成式AI模型並非設計來「複製資料」,其主要目的係從資料中,找出著作權表達層面以外的抽象化知識。因此,不少論者認為,基於LLM訓練而進行之複製,從其使用之目的和性質上言,其二次利用與原作相較,已具有轉化性。


二案法官都認為LLM訓練具顯著轉化性
不知是否受以上推論之影響,William Alsup與Vince Chhabria兩位法官皆認為,以受保護作品進行AI訓練的行為本身,可構成轉化性。Alsup法官甚至指明,本案涉及之AI技術,是人們可能見到的最具轉化性的技術之一,並特別強調AI訓練的「轉化性」(transformative)特質。他認為,使用書籍來訓練生成式AI系統,屬於「極具轉化性」的使用,類似於人類閱讀、內化書籍內容後,再以其主題或風格創作新作品的過程。法院指出,AI的輸出內容並未重現或模仿原告的作品,而訓練過程本身也與書籍的原始用途完全不同。但是否構成合理使用,則需進一步再判斷。

Chhabria法官則認為,如複製行為具有轉化性目的,則其承擔侵權責任的可能性相對較低;然而,合理使用判斷係高度依賴個案之具體事實,並無固定或明確的適用規則。所以說,不能認為:「只要使用受保護作品的方式具有『轉化性』,就能自動豁免侵權責任」。因此,無論複製行為多麼具高度的轉化性,若其最終吐出之產品對原作市場造成實質損害,從而嚴重削弱人類的創作力,仍可能構成侵權。依合理使用原則,評估侵權與否時,對原作市場的潛在影響,往往較複製行為本身的目的更為關鍵。


Bartz v. Anthropic核心問題:轉化性 & 合理使用界限
合法購得紙本書將其數位化係合理使用
Bartz v. Anthropic一案中,Alsup法官處理的核心問題是:Anthropic使用數百萬本受著作權保護的書籍訓練其Claude AI模型,是否受「合理使用」原則保護。法官雖然肯認訓練LLM可以構成「轉化性」,但他不認為構成轉化性,就可以得到被告是合理使用的結論。法院接著處理——Anthropic購買受著作權保護書籍(其中部分與從盜版網站取得的書籍重複),將書籍拆除裝訂後,逐頁掃描並儲存為可搜尋的數位檔案,再將所有這些複製物,匯集成一「中央圖書館」(central library),此時其轉為數位化使用之複製是否合法?

法院認為,如將合法購買的實體紙本書籍轉換成數位版本,主要是為了內部研究與訓練方便而替代紙本形式,並未創造新作品或對外散布資料時,即屬於合理使用。就本案言,針對被告建構其中央圖書館所有儲存的複製,只要是合法買來的書籍,然後將其拆解轉成數位格式檔案,因係基於檢索之便利性,該項格式轉換提升儲存效率與可檢索性,其目的並未侵犯著作權人之權益 ——因此具轉化性。再加上這些書籍是原告所合法購買,具有處置的權利,因此可構成合理使用。

針對此點,過去其實一直都未有定論。也就是說,只要是合法買來的,可否加以複製將其轉化成不同的媒介!這在美國或我國的著作權法,有規定在電腦程式的場合,擁有合法重製物軟體版本的所有人,可以因為備份的需要加以複製,但這是針對軟體電腦程式,並未延伸至書籍!這一次法官很明顯的,認為隨著科技的進步,是可將著作物格式加以轉換,但重點是轉換之後並未對外、而是完全自己內部之使用!


建構中央圖書館內所有盜版素材非合理使用
然而,法院在本案中特別劃清界線:若AI以盜版書籍建立並保存永久性通用數位資料庫,則不受合理使用保護。針對建構中央圖書館內所有盜版的素材,法官認定,就被告在網路上抓取的網路爬蟲抓取的非經授權素材,即所謂的盜版部分,法院一概認為不可構成合理使用!法官認為,Anthropic為了建立一個可供其自由運用的一般性數位圖書館,而非法下載大量受著作權保護的作品,此行為不屬於合理使用(fair use)。

依法官的見解,Anthropic違法處在於——其擅自拷貝數百萬本以上受著作權保護作品。理論上,Anthropic只要是合法購買的作品,則可合法地用於AI訓練。法官明確指出:「以未付費的盜版副本建立研究圖書館,並保留副本以備未來各種用途,本身即是一種獨立使用,且並非轉化性使用」。因此,雖然AI訓練行為可被視為合理使用,但「取得與持有盜版書籍」的行為仍屬侵權,不受豁免。

這項判決在六月下旬做出之後,因為基於盜版的部分不構成合理使用,所以本案針對是否合理使用由被告所提起的即席判決動議,因沒能勝訴而未終結,因此針對盜版的部分是否構成侵權以及是否賠償,接下去必須再由陪審團加以處理,而非是由法官來認定。但接下來有的驚人的發展!基於盜版的部分法官認為不構成合理使用,所以九月份被告和三位原告達成和解。


史上最大規模的著作權和解金
之後Alsup法官於2025年7月批准一項集體訴訟,涉及數百萬名美國著作權人,其作品被由Anthropic從影子圖書館下載。法定著作權賠償金最高可達每件侵權作品15萬美元。2025年8月,本案原告(即多位書籍作者與著作權人)與Anthropic達成擬議和解,各方提交擬議的集體訴訟和解通知,並表示已簽署具有約束力的條款清單,預計將達成全面和解協議 -- 該和解金高達15億美元!Alsup法官將正式批准此項和解協議。

此次和解,平均每件著作權作品約可獲得3,000美元的賠償,這筆15億美元和解協議,此案被稱為「是美國史上迄今公開金額最大、具標誌性的生成式AI著作權和解」,係極具里程碑意義的AI和解案[1]。扣除管理費、律師費及其他費用後,分配給所有涉案書籍的著作權人,包括作者和出版商。每本書將獲相同金額賠償。和解協議披露,在Anthropic據稱從LibGen和PiLiMi下載的700萬冊圖書中,約有50萬冊符合集體訴訟的定義(已扣除重複和不符合條件的作品)。這意味著,扣除律師費和其他費用後,每位著作權所有者預計每冊圖書可獲得約3000美元的賠償,該賠償金將由該書的所有著作權人平分。

如作品目前有出版商,作者將與出版商平分3000美元。任何合作作者將分享作者部分,如果有多家出版商(例如,不同的出版商擁有不同格式的獨家著作權),則其將分享出版商部分。除非合約另有規定,否則合作之作者和合作出版商將平分。非教育類文本的出版商和作者之間的標準預設分成比例為50/50。該和解在2025年獲得初步法院程序認可(尚待最終法院核准程序)。

此案原定開庭審理,如法院認定Anthropic故意侵害著作權,其可能面臨高達1兆美元的賠償。Alsup法官對於盜版之合理使用的否定,可能是導致這項和解協議之主因。而其意義在於,或許可能成為日後其他AI公司在處理類似侵權訴訟時所需支付金額的基準。其更促使AI發展向合法、基於市場的訓練數據授權機制邁出必要的一步,其標誌著更成熟、可持續的生態系統的開端,以確保創作者能獲得合理的補償。


Kadrey v. Meta 核心問題:「間接替代」&「市場稀釋」
在Anthropic案判決二天之後,Meta案在同一地院之Vince Chhabria法官也作出判決。針對訓練過程進行複製,被告Meta也申請動議案,提起可以構成合理使用的動議,本案法官最後判被告勝訴!但,這是否就表明:被告大量取用網路上他人的素材來訓練AI工具,這種複製是合理使用!實則不然!因為法官在一開頭,就特別言明,即使被告使用他人著作具有高度的轉化性,但不代表就當然可以導出其構成合理使用的結論!而是必須在進行合理使用的四項要素的判斷,而其中最重要的,法官認為就是在於該項使用,是否造成原告市場可能產生的損害。

生成式AI對潛在的價值影響:「間接替代」和「市場稀釋」
針對此,法官特別強調第四項要素當中所謂對市場潛在價值之影響!也就是說,如果被告二次創作出來的東西,是跟原告的著作構成實質近似,那當然可能就構成侵害,而這是所謂直接的市場替代效果。反之,如果被告的AI二次創作,其所吐出來的東西並不跟原告有近似,此時,就必須要去檢驗被告的輸出,是否仍能構成所謂的「間接替代」,而該間接替代會導致市場稀釋的效果,甚而造成「大規模的淹沒」。

本案法官認為,對於生成式的AI而言,雖然調查的結果,被告工具所吐出來的生成內容,並不會構成近似。法院認為證據顯示,即便設計使用「對抗性提示」(“adversarial” prompts,目的是讓LLM「吐出」或「重現」(regurgitate)原來的訓練資料),Llama也不會讓任何模型從原告的書籍中,生成超過50個單詞(tokens)的內容,亦即,Llama無法輸出或重現「任何顯著之比例」。

但即使如此,法官還是大篇幅的分析,的確是有可能造成以上所謂「間接替代」和「市場稀釋」的影響,而AI的威力很可能是會形成所謂的大規模淹沒市場的可能,而損及所謂潛在的市場傷害,因此就這個部分來說,當然是對被告不利!然而,本案之所以被告仍能夠勝出,主要在於原告不論是在法律主張或舉證方面,都沒有針對上訴法院所在意的所謂市場稀釋的部分加以論述或證明。反之,被告前另外提出13位被原告的作品,在市場銷售上沒有受到不利的影響,兩相對照之下,法院裁判決被告勝訴!

法官最終不得不基於事證顯示判原告敗訴
但法官字裡行間明白宣示,本案只針對13個原告,而不及於將來任何其他的著作權人。也就是說,日後如有人提告,而且能積極的建構上述間接替代和市場稀釋所產生的損害時或潛在損害時,反而很可能對被告不利。因此簡單說,本案是被告在訴訟技巧上,直接將原告KO,不代表從實體的法律理由,得出結論認為,Meta公司大量複製他人的作品來訓練其AI工具,也就是針對盜版的部分直接就是構成合理使用!

其實,從訴訟程序的角度言,由於原告舉證不足,法官最終不得不判其敗訴,但有鑒於一般人的觀念,被告肆無忌憚地在網路上海量複製他人的著作,與過去一般傳統的著作觀念有別。也因此,法官在判決的一開頭,就語重心長地提到,不代表一旦有轉化性就能自動升格,將非法複製轉化為合法。也就是說,即使具有轉化性還是有可能構成侵權,關鍵在於,其對被告潛在市場是否造成損害之負面影響。法官甚至在判決裡直接挑明,本案結論,也許與現實的情況有明顯的落差!

至於法院將來是否、以及如何統一以上二案之間的裁判標準,仍有待觀察。但就目前而言,Bartz案的作者群已贏得一場勝利。儘管案件背景複雜,這項鉅額和解或許能大幅促使其他AI公司,在使用受著作權保護作品時,合理補償作者。總之,依這二項裁定可確認:LLM訓練其實沒有白吃的午餐,未經授權使用盜版素材,前一案法院認定不構成合理使用!後一案法院則認定,在特定情況下,以受著作權保護之作品,必須是該使用具有轉化性,且未對原作市場造成「間接替代」和「市場稀釋」之潛在損害時,方可構成合理使用。(6079字;圖1)
 

[1] 論者以為,Anthropic這家快速發展的新創公司之潛曾宣布,已完成130億美元的新創投,公司估值達1,830億美元,早該支付該15億美元之授權費代價。該筆賠償金額雖然可觀,但還不至於威脅到Anthropic的生存能力或競爭地位。
 
作者資訊:
陳家駿律師  台灣資訊智慧財產權協會理事長  


 
參考文獻: AI Infringement Case. McKool Smith, 2025/9/7
Welcome to the Anthropic Copyright Settlement Website. JND Legal Administration
Bartz v. Anthropic Settlement: What Authors Need to Know. The Authors Guild, 2025/10/2
Anthropic reaches $1.5 Billion settlement with authors in landmark copyright case. Fortune, 2025/9/5
Unpacking the Canadian news media vs. OpenAI battle. The Brandon Sun, 2024/12/2
AI Legal Battles: Canada and Beyond. Lexology, 2025/3/18
AI Litigation Insights: Abdi Nazemian v. NVIDIA Corporation. Lexology


 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。