︿
Top

GPU巨擘Nvidia在美國被控侵害YouTube影片著作權訴訟 -- Millette、Nazemian、Dubus三個案例

瀏覽次數:1044| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 陳家駿 發表於 2025年4月11日
facebook twitter wechat twitter
圖、GPU巨擘Nvidia在美國被控侵害YouTube影片著作權訴訟 -- Millette、Nazemian、Dubus三個案例
 
一、GPU巨擘Nvidia之「Cosmos」AI
目前全世界幾個AI大咖中,與台灣人息息相關且最熟悉的,莫過於黃仁勳領軍的GPU晶片巨擘Nvidia(即輝達公司)。近年來,只要黃仁勳回台就會刮起一陣旋風,如2025年3月在GTC輝達大會上做的AI趨勢演講,更風靡了無數台灣人!

Nvidia推出一名為「Cosmos」的一種AI深度學習服務(以下稱Cosmos),旨在協助第三方快速建構、訓練及部署神經網絡模型,並支援圖像生成、自動駕駛等技術,以滿足多元商業需求。Cosmos目標是打造一款全方位的視頻基礎模型,融合光線傳輸、物理模擬及智慧模擬,為Nvidia產品線中的各類應用提供支援。其中,Omniverse平台(3D世界建構工具)是Cosmos的核心之一,使開發者能創建各種應用程式與軟體。

簡而言之,Cosmos是一款能理解和生成視頻內容的高級AI模型,專為「自動駕駛、人形AI虛擬人以及Omniverse」提供核心演算法。在生成式AI領域,Cosmos提供深度學習AI處理的視頻內容至關重要,因為其模型可從現有內容(例如大眾上傳的YouTube影片)的模式中學習,以提升視覺內容的理解與生成能力。此外,Nvidia早前推出的大型語言模型(LLM)系列NeMo Megatron–GPT(以下稱NeMo Megatron)[1]則專注於自然語言處理,能根據用戶提示生成流暢且具說服力的文本內容。

在美國針對生成式AI相關的著作侵權訴訟中,Nvidia也難逃這一波被權利人追索的命運,目前為止針對上述之Cosmos和NeMo Megatron,在美國共被告了三個案件。有鑑於Nvidia是全球AI科技發展不可或缺的重鎮,其涉及的訴訟案勢將受到各界密切關注,本文因此對其被告案件加以介紹。


二、Nvidia被控侵害YouTube影片上傳者之著作權
(一)Millette v. Nvidia
本案最早是由YouTube創作者David Millette,於2024年8月中在加州北區地院對Nvidia(註冊於美國加州,據報導市值估約達2.4兆美元,以下稱「被告」或「Nvidia」)提起集體訴訟,但最初僅起訴不當得利、不公平競爭法加州商業及專業法典,且訴訟僅基於州法主張,這可能是因為原告當時未註冊其影片,故並未提告著作權。隨後,2024年12月中Millette修正起訴狀,除新增依麻薩諸塞州不公平與欺詐性商業行為法之違反外,並特別增加第二原告即另一位YouTube創作者Ruslana Petryazhna,對OpenAI的直接著作侵權亦加以指控。

(二)原告指控Nvidia秘密轉錄YouTube影片內容之侵權
原告Petryazhna係代表自己及其他所有情況相似者(著作權集體,以下稱「原告等」),都是YouTube使用者及影片創作者,指控Nvidia為開發其Cosmos軟體,未經授權擅自擷取數百萬YouTube使用者的影片[2],秘密轉錄其內容,並在創作者不知情的情況下,使用該等YouTube數據訓練Cosmos來支持其Omniverse平台,從而藉此大幅獲利,此不僅違反YouTube服務條款,亦損害影片創作者的權益,原告等因此對Nvidia起訴,尋求損害賠償及禁制令救濟。

原告指控,以上所謂之秘密轉錄,係Nvidia指示其員工使用開源YouTube影片下載工具,同時使用「虛擬機器下載完整影片,以規避YouTube的偵測並避免被封鎖。此外,NVIDIA還使用Amazon Web Services(AWS)上的虛擬機器來刷新IP地址,使其每天能下載約80年時長(80 years' worth)的影片內容,Nvidia使用這些工具來規避YouTube的監控。


(三)原告之直接著作權侵權訴求
原告主張,原告等作為其影片之合法著作權擁有者,依美國著作權法第106(1)和(2)條,對其創作的原創作品擁有著作權專屬權限,並已正式向美國著作權局完成註冊(此為起訴之前提要件)。指控Nvidia為訓練Cosmos,在未經許可的情況下,從網路大規模爬取並轉錄包括原告等的YouTube影片。在訓練過程中,Nvidia擅自製作原告影片的複製品,但原告從未授權Nvidia進行轉錄、製作複製品、創作衍生作品、公開展示或發行這些作品。

由於Cosmos程式在運行過程中,需從原告作品中提取其具有表達性之資訊,因此該程式本身即已構成未經授權的衍生作品,直接侵犯原告依法享有的著作權專屬權益。基於Nvidia的未經許可之使用行為,原告依法有權主張法定賠償、實際損害賠償、侵權所得返還等救濟措施。


(四)Nvidia駁回起訴之抗辯 -- 欠缺訴訟適格
相對的,Nvidia亦已就原告修訂之後訴狀,於2025年2月上旬向法院提交「駁回起訴之動議」(Motion to Dismiss the Amended Claim),其二大主要理由是:
1. 主張原告欠缺「訴訟適格」(lacks standing),因其未能提出「事實上的損害」(injury in fact),而僅僅是基於抓取YouTube影片來訓練AI的這種空洞指控,欠缺原告已遭受或將遭受「具體且特定個別化」損害所需要之訴訟適格要求,不符合美國憲法第三條(Article III)訴訟適格要求,因此無法在聯邦法院提起訴訟。
2. 指控《著作權法》應優先處理,而預先排除(pre-empted)其他法律訴求,Nvidia認為原告原先的索賠訴求,應屬聯邦著作權法管轄範圍,因此不應適用其他法律來提起訴訟。

針對以上之關鍵論點,Nvidia認為:起訴中甚至缺乏最基本的資訊,例如:原告上傳了什麼影片內容,以及其在2009年至2024年之間上傳的時間;並援引Bell Atlantic v. Twombly案,反駁原告僅提出籠統的指控,不僅沒有指出原告遭受到任何具體傷害(particularized harm),使其個人權益受損,而且也未能充分讓被告足以了解其法律主張之內容和依據。此外,原告沒有提供任何事實,來支持其影片被Nvidia抓取或使用的合理推論。目前YouTube上有數十億個影片。然而,原告僅聲稱Nvidia已「下載100,000部影片…..,依一封電郵顯示,其已爬取了1600萬個YouTube影片,並編譯了3,850萬部影片URL…..」。因此,原告未提供任何合理的依據來指控:YouTube上這一小部分內容包含其擁有之影片內容。


三、從美國案例法觀點看Nvidia抗辯
(一)近期之Brantley與Doe 1案例可能支持Nvidia立場
在最近之Brantley v. Prisma Labs, Inc.一案中,伊利諾伊州北區地院於2024年8月初的判決明確表明,單憑原告的影片內容僅僅存在被爬取的可能性,不足以賦予其訴訟適格(to confer standing),該案中原告聲稱自己的照片,可能是數十億張中被告未經同意,從社群媒體網站以AI模型爬取,儘管涉案模型據稱從2021年9月到2022年1月抓取幾乎所有網站,但原告並未提供另外的事實,來證明其照片「包含在相關數據集中」。因此,起訴狀所提出「僅僅與被告的法律責任相符」之事實,但仍未達到從『可能性』到『合理可行性』之間的標準,以證明其有權獲得救濟」。該案法院認為,單憑這樣的指控缺乏具體損害事實,不足以證明原告照片遭到被告之AI使用,因而法院遂以缺乏訴訟適格為由,駁回原告起訴。

另外,J. Doe 1, et al., v. Github案也表明,原告未能提出其「程式碼內容確實遭被告的AI模型非法複製」之具體事實,法院裁定其不具訴訟適格駁回起訴。看來訴訟適格問題,將成為AI著作權訴訟中的重大議題。但特別的是,在Millette提起的三起訴訟中[3],到目前為止,Nvidia是目前唯一以《美國憲法》第三條所要求的訴訟適格為理由,提出駁回動議。然而,Millette提出的這三起訴訟均由同一法官負責審理。即使當事人未主動提出,法院也可依職權主動審查此問題。


(二)Raw Story Media案之借鏡
Nvidia提出駁回動議的幾天後,紐約南區地院於Raw Story Media v. OpenAI案中作出裁決,駁回依據DMCA《數位千禧年著作權法》第1202條對OpenAI提出的訴訟。(請參閱美國新聞媒體控告生成式AI侵害著作權管理資訊案判決 -- Raw Story v. OpenAI) 法官裁定該訴訟因缺乏訴訟適格(lack of standing)而被駁回,理由是原告未能確定,僅僅因OpenAI使用其去除CMI著作權管理資訊(copyright management information)作品,來進行AI模型訓練會造成何種具體損害。正如該案法官所述:「我不認為,僅僅從受著作權保護的作品中移除識別資訊,而未進行散布,便能對應到任何歷史或普通法上類似之侵害行為(historical or common-law analogue)」。此判決可能對AI相關的著作權訴訟產生重要影響,特別是在訴訟適格的認定方面。

四、Nvidia被控侵害作家之著作權 -- Nazemian et al v. Nvidia
(一)NeMo Megatron AI模型涉訟
相較於上述之YouTube影片創作者案,Nvidia另二件訴訟之原告,則係三位小說作家Abdi Nazemian、Brian Keene和Stewart O'Nan,代表自己及所有其他有類似情況的集體訴訟當事人,於2024年3月初向加州北區地院,對Nvidia提起集體訴訟,原告等指控其已註冊受著作權保護的小說,被Nvidia透過大規模擷取複製,置入於約196,640本書籍之數據集(book dataset)的一部分,從這些作品中提取表達內容,將該等表達轉換為儲存在模型中的權重數值,來訓練其NeMo Megatron AI模型。且原告表示,被告後來下架其作品更反映出Nvidia「承認」在資料集上訓練NeMo;而該訓練數據集大部分的內容,係Nvidia在未經授權、未提供補償的情況下複製原告的作品,從而侵犯其著作權

(二)Nvidia涉及使用「影子圖書館」訓練AI侵權
原告聲稱,Nvidia旗下的NeMo Megatron模型,是在一個包含數十萬本盜版電子書的數據集上訓練而成。該數據集是源自現已無法造訪的Bibliotik數據庫,即所謂的「影子圖書館」之一,此類的平台還包括Library Genesis、Z-Library、Sci-Hub和Anna’s Archive等網站,均以託管與散布未經授權的受著作權保護內容而聞名。原告指控,Bibliotik儲存於快取(cache)之未經授權的著作權材料中,至少包含每位原告一部已出版的小說,例如Keene的《鬼步Ghost Walk》、Nazemian的《像一個愛情故事Like a Love Story》以及O'Nan的《龍蝦店的最後一夜Last Night at the Lobster》。Nvidia因而違反著作權法,尋求未指明金額的賠償,適用過去三年內其作品被用來訓練NeMo Megatron模型計算。

原告聲稱,NeMo Megatron模型託管於Hugging Face平台上,其模型卡(model card)顯示,該模型係基於在EleutherAI所編製的「The Pile」數據集進行訓練,而其中包含極具爭議的Books3書籍集合。Books3曾在機器學習與數據科學平台Hugging Face上供人下載,直到2023年10月才被移除,並附上聲明稱該數據集「因涉及著作權侵害而已失效,無法再存取」。由於Books3的內容據稱來自Bibliotik電子書庫及其他未經授權電子資源的集合,而Bibliotik是眾多「影子圖書館」之一,專門以託管和散布大量未經許可的著作權資料迭遭惡評。基於此,原告指控Nvidia於訓練NeMo Megatron時,採用該等包含Books3數據集,未經授權於開發模型中納入原告作品。因此,該NeMo Megatron使用原告受保護的作品進行訓練,構成未經授權之著作權直接侵害。

本案突顯了LLM發展中的關鍵問題:這些模型的訓練數據來源缺乏透明度,使外界難以追蹤其訓練材料的實際來源。然而,根據所揭露的資料,NeMo Megatron模型的訓練數據中,包括上述具爭議性的Books3數據集。原告更主張,依Books3數據集的創建者Shawn Presser曾公開表示,Bibliotik的所有內容均被納入該數據集,因此,這證明原告作品已被複製,並用於Nvidia AI模型訓練,構成直接侵犯著作權。


(三)NeMo Megatron訓練過程構成直接侵權?
本案起訴狀中僅提出一項指控:基於AI模型的「訓練過程」,Nvidia違反美國著作權法第501條構成直接侵害著作權(17 USC § 501),而非針對該模型所生成「輸出結果」的內容。原告指控,Nvidia未經許可複製其書籍,來訓練其大型語言模型NeMo Megatron,並聲稱其一旦「複製並吸收訓練數據集中的文本後……,就能根據使用者提示,生成逼真的自然語言模擬」,原告進而指稱,「每當LLM根據使用者提示生成文本輸出時,實際上都在執行計算……其目的即是模仿從訓練數據集中提取受保護的著作表達。」

本案的核心問題是,在LLM的訓練數據集中,使用受著作權保護的作品,是否可被視為合理使用,如是,則即使該行為在從構成要件上構成複製,Nvidia也可豁免責任。依美國著作權法,合理使用通常允許在未經許可的情況下,將受著作權保護的作品用於批評、評論、新聞報導、教學、學術或研究等目的。若涉案之AI模型訓練可歸於此類而得視為合理使用,則不會被認定為侵權。然而,如何界定AI訓練是否屬於合理使用,目前仍無明確法律或判例支持,將成為此案審理的重要焦點。


(四)「合理使用」之簡易判決動議申請
本案加州北區地院Jon Tigar法官,於2024年9月初作出一項重要的裁決,允許Nvidia在集體訴訟確認前,提出「合理使用」(Fair Use)之簡易判決動議(motion for summary judgment,亦稱即席判決)。在法院決定是否認證集體訴訟原告之前,允許Nvidia基於「合理使用」抗辯所申請之即決判決之動議申請。該簡易判決是一種審前動議,法院可根據所提交的事實並將其應用於相關法律,然後決定是否就該問題做出最終裁定,還是留待交由陪審團在審判時再來裁決。因此本案法官是想自己來決定,AI科技公司所普遍主張的「合理使用」,是否適用於這種生成式AI訓練環境中。如法院最終駁回Nvidia的抗辯,這將成為其他法院可效仿的重要先例。

目前,在AI著作權訴訟中,除了Thomson Reuters v. Ross Intelligence近期的簡易判決動議之外,(請參閱美國著名法律資料庫控告AI新創著作侵權之即席判決出爐) Nvidia可能是唯一一個以「合理使用」為抗辯理由,提出簡易判決動議的被告。當然,法院允許提交動議並不代表其內容具備法律效力,也不代表法院將作出有利於Nvidia的裁決;而「合理使用」所涉及的事實爭議,可能也無法透過即決判決解決,但某些情況下,法院確實會在簡易判決階段對「合理使用」作出裁定。


五、Nvidia被控侵害作家之著作權 -- Dubus v. Nvidia
小說家Andre Dubus III和記者兼非小說類作者Susan Orlean,於2024年5月初向加州北區地院對Nvidia提起集體訴訟,主張其已註冊著作權的書籍作品,遭Nvidia納入用於訓練其NeMo Megatron模型的數據集中。該模型於2022年9月發布。起訴狀稱,所有NeMo Megatron模型均託管於一名為Hugging Face的網站上,每個模型皆附有模型卡,其中提供包括訓練數據集等模型資訊。模型卡明載,NeMo Megatron模型是基於EleutherAI準備的「The Pile」數據集進行訓練,而該數據集包含Book3數據集,係源自Bibliotik影子圖書館,原告據此主張Nvidia直接侵犯著作權。

起訴狀亦稱,用於訓練模型的數據集的一部分,包括從Bibliotik提取的108GB 數據,Bibliotik是個託管和分發未經授權著作權材料的「影子圖書館」。Bibliotik的創始人Shawn Presser在公開聲明中證實,該網站包含近20萬冊書籍。本案原告的主張與前述Nazemian等訴訟相似,這些案例挑戰訓練AI大型語言模型的核心前提,該模型使用來自大型資料集的數百萬至數十億的輸入(其中大部分可能是受著作權保護的作品),來學習模仿人類的創造力。

以上兩組原告團體Nazemian和Dubus,對Nvidia提起集體訴訟,指控Nvidia未經授權透過複製其受著作權保護的書籍,訓練其LLM Nemo Megatron侵犯著作權,該二案現已合併審理中(Nazemian and Dubus v. Nvidia)。


六、向量嵌入 v. 著作權法複製之思辯 -- 代結論
生成式AI在運作過程中,大都要將網路上海量資料加以擷取訓練,而這個爬取資料的動作,依美國複製(Reproduction)的定義:以副本或錄音製品複製受著作權保護的作品,該作品以固定形式複製、轉錄、模仿或模擬,從中可「直接地或藉助機器或設備被感知、複製或以其他方式傳播」。因此,就形式外觀上爬取已構成著作權法上所謂的複製。基於此,持保守的見解認為,有鑑於LLM支援的生成式AI平台激增,業者不僅必須揭露哪些數據已輸入其系統中,更須努力排除未經著作權人許可用受保護的材料作為訓練材料,否則,將會面臨著作權侵權主張的衝擊。

不過,就算構成複製是否一定構成違法侵權呢?這又未必,2015年Google的Authors Guild v. Google案,雖然在「過程」中抓取複製大量的書籍內容資料,而且最後呈現出來的「結果」內容,更明確含有原告之若干著作內容,卻被巡迴上訴法院判定,其產出結果得構成轉化性合理使用,連帶的其中間過程複製大量書籍,也毋庸探究。準此,中間過程構成複製不代表當然違法!不過,要達到合理使用,甚至是「轉化性之合理使用」,基本上,從美國各相關判決來看並不容易。(請參閱從美國人工智慧擴散模型訴訟案 -- 談生成式 AI 圖像之著作侵權議題)

值得注意的是,所有這些生成式AI工具提供商,當然深知訓練的過程抓取資料構成複製,但當眾多AI大咖像Open AI、Google與Meta等引領下之Transformers大模型(如ChatGPT、Llama、Gemini、Claude、Deepseek與Elon Musk的Grok-3)等包括本案之Nvidia,不約而同都擺脫過去應事先取得授權的模式,堂而皇之直接擷取他人具有著作權素材做營利之用(即先斬而後奏 – 被告了後再主張合理使用之抗辯),尤其是美國生成式AI相關訴訟,迄今被告AI業者尚未逕被判定侵權。

例如,不論是Doe 1~5 v. Github, OpenAI & Microsoft與Raw Story v. OpenAI針對CMI「著作權管理資訊」,或是Andersen et al v. Stability AI, Midjourney & DeviantArt針對圖形影像,再或是Kadrey, Silverman & Golden v. Meta與Tremblay & Silverman v. OpenAI等針對小說文字方面之案件,目前為止原告權利人完全暫屈居下風;至於Thomson Reuters v. Ross Intelligence案,原告在地院雖勝訴,(請參閱美國著名法律資料庫控告AI新創著作侵權之即席判決出爐) 但該案系爭法律資料庫Westlaw並非係生成式AI,其判斷原則是否可做為他山之石?答案尚不肯定,因生成式AI的運作,遠非單純文字相關編輯著作可比,後續尚待釐清!不過卻已讓人感受到天平是否逐漸產生巧妙移動。

相對於以上保守之見解,另一種可能的辯護,則是從更基本的立場主張:「訓練過程中之複製,並非實際抄襲不構成侵權」。準此,有論者倡議AI發展應解除著作權束縛,隨著科技進步應將複製的概念與時俱進加以轉換,即過程中之複製並非違法複製。因為,在當今生成式AI時代下訓練資料已不可逆,由於電腦看不懂人類的文字圖畫,所以必須將其透過數學向量以編碼的方式來運作,因此應把複製轉化為科技上的「向量嵌入」(Vector Embedding)來看待,而不再僅從形式外觀上,機械式地套用傳統複製概念。換言之,將資料爬取置入訓練這個動作,當成是數學上向量之一種必經的運作過程,以此來突破傳統上著作侵權的認定。

但筆者認為,向量議題固然值得探討,但在現行各國著作權法制之下,生成式AI運作過程中的複製,適用現行法恐仍免不了會構成複製之結果。因此,以上倡議,尚須透過像日本著作權法第30條之4與第47條之5、或歐盟之下的歐洲國家將「資料探勘」形成著作權豁免,但這些都必須透過用立法或修法來處理!甚者,以上只解決了訓練過程中的複製,即使立法通過,但針對生成式AI自動產生的結果,會不會構成侵權,則是另一個爭論議題!

總之,AI對現行的著作權法帶來莫大的衝擊,在此風口浪尖上如何平衡權利人和使用者間之利益,還必須要看各國目前待決之判決結果,是否會形成一個著作侵害豁免的新思維,甚至在國際之間透過立法或修法來解決,都有待密切觀察。(6854字;圖1)
 
作者資訊:
陳家駿律師   台灣資訊智慧財產權協會 理事長
 
[1] Nvidia NeMo大型語言模型服務BioNeMo LLM服務,使開發人員能輕鬆採用LLM並部署定製的AI應用程式,用於內容生成、文本摘要、聊天機器人、代碼開發以及蛋白質結構和生物分子特性預測等。
[2] 根據YouTube的服務條款,上傳YouTube影片之使用者,仍保有其上傳影片內容的所有權。
[3] David Millette連同本案共提起3件獨立訴訟,另二件為:Millette v. OpenAI, Inc., (Aug. 2, 2024); Millette v. Google LLC (N.D. Cal. Aug. 2, 2024),此三個案件相互關聯,指控3家不同的AI模型:OpenAI、Google和Nvidia抓取YouTube影片來訓練其AI,直接提出侵權索賠。


參考資料:
Millette v. Nvidia, Case 5:24-cv-05157-EJD, Filed 08/14/24.
Millette & Petryazhna v. Nvidia, Amended Complaint, Case 5:24-cv-05157-EJD, Filed 12/16/24.
Millette & Petryazhna v. Nvidia, Motion to Dismiss the Amended Claim, Case 5:24-cv-05157-EJD Document 31 Filed 02/10/25.
Nazemian et al v. Nvidia , 3:23-cv-01454, Filed 03/08/24.
Dubus v. Nvidia, Case 4:24-cv-02655, Filed 05/02/24.
Nazemian and Dubus v. Nvidia, Nos. 3:24-cv-01454, 3:24-cv-02655 (N.D. Cal.), Filed 08/13/24.
Nvidia Large Language Model Litigation. Joseph Saveri Law Firm.
Copyright Law Revision (Senate Report No. 94-473).djvu/58.
Millette files First Am. Complaint v. Google, NVIDIA adding copyright claim. AI cases hit 38 in U.S. Chat GPT Is Eating the World.2024/12/17.
Generative AI – Intellectual property cases and policy tracker. (Millette v Nvidia, Case reference
5:24-cv-05157) Mishcon de Reya
AI Litigation Insights: Abdi Nazemian v. NVIDIA Corporation. Lexology.2024/03/21.
Nvidia is sued by authors over AI use of copyrighted works. Reuters.2024/03/12.
Generative AI – Intellectual property cases and policy tracker. Mishcon de Reya.
Nvidia, Databricks Sued in Latest AI Copyright Class Actions. Bloomberg Law.2024/05/03.
Nvidia faces class-action lawsuit for training AI model on ‘shadow library’. Charles Russell Speechlys.2024/04/30.
Judge Tigar allows NVIDIA to file summary judgment motion on fair use, before class certification decided. Chatgpt is eating the world.2024/09/09.
Judge May Decide Generative AI's "Fair Use" Defense Pre-Trial. The Brain.2024/09/16.
Nvidia Asserts Millette Lacks Standing Due To Failure To Alleged A Concrete Particularized Injury In-Fact Under Constitution Simply Based On Scraping Youtube Videos To Train Ai. Chatgpt is eating the world.2024/11/16.
 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。