GPU巨擘Nvidia在美國被控侵害YouTube影片著作權訴訟 -- Millette、Nazemian、Dubus三個案例

關鍵字：；；；；；；；；；

瀏覽次數：6388｜歡迎推文：

科技產業資訊室(iKnow) - 陳家駿發表於 2025年4月11日

圖、GPU巨擘Nvidia在美國被控侵害YouTube影片著作權訴訟 -- Millette、Nazemian、Dubus三個案例

一、GPU巨擘Nvidia之「Cosmos」AI
目前全世界幾個AI大咖中，與台灣人息息相關且最熟悉的，莫過於黃仁勳領軍的GPU晶片巨擘Nvidia（即輝達公司）。近年來，只要黃仁勳回台就會刮起一陣旋風，如2025年3月在GTC輝達大會上做的AI趨勢演講，更風靡了無數台灣人！

Nvidia推出一名為「Cosmos」的一種AI深度學習服務（以下稱Cosmos），旨在協助第三方快速建構、訓練及部署神經網絡模型，並支援圖像生成、自動駕駛等技術，以滿足多元商業需求。Cosmos目標是打造一款全方位的視頻基礎模型，融合光線傳輸、物理模擬及智慧模擬，為Nvidia產品線中的各類應用提供支援。其中，Omniverse平台（3D世界建構工具）是Cosmos的核心之一，使開發者能創建各種應用程式與軟體。

簡而言之，Cosmos是一款能理解和生成視頻內容的高級AI模型，專為「自動駕駛、人形AI虛擬人以及Omniverse」提供核心演算法。在生成式AI領域，Cosmos提供深度學習AI處理的視頻內容至關重要，因為其模型可從現有內容（例如大眾上傳的YouTube影片）的模式中學習，以提升視覺內容的理解與生成能力。此外，Nvidia早前推出的大型語言模型(LLM)系列NeMo Megatron–GPT（以下稱NeMo Megatron）[1]則專注於自然語言處理，能根據用戶提示生成流暢且具說服力的文本內容。

在美國針對生成式AI相關的著作侵權訴訟中，Nvidia也難逃這一波被權利人追索的命運，目前為止針對上述之Cosmos和NeMo Megatron，在美國共被告了三個案件。有鑑於Nvidia是全球AI科技發展不可或缺的重鎮，其涉及的訴訟案勢將受到各界密切關注，本文因此對其被告案件加以介紹。

二、Nvidia被控侵害YouTube影片上傳者之著作權
（一）Millette v. Nvidia
本案最早是由YouTube創作者David Millette，於2024年8月中在加州北區地院對Nvidia（註冊於美國加州，據報導市值估約達2.4兆美元，以下稱「被告」或「Nvidia」）提起集體訴訟，但最初僅起訴不當得利、不公平競爭法加州商業及專業法典，且訴訟僅基於州法主張，這可能是因為原告當時未註冊其影片，故並未提告著作權。隨後，2024年12月中Millette修正起訴狀，除新增依麻薩諸塞州不公平與欺詐性商業行為法之違反外，並特別增加第二原告即另一位YouTube創作者Ruslana Petryazhna，對OpenAI的直接著作侵權亦加以指控。

（二）原告指控Nvidia秘密轉錄YouTube影片內容之侵權
原告Petryazhna係代表自己及其他所有情況相似者（著作權集體，以下稱「原告等」），都是YouTube使用者及影片創作者，指控Nvidia為開發其Cosmos軟體，未經授權擅自擷取數百萬YouTube使用者的影片[2]，秘密轉錄其內容，並在創作者不知情的情況下，使用該等YouTube數據訓練Cosmos來支持其Omniverse平台，從而藉此大幅獲利，此不僅違反YouTube服務條款，亦損害影片創作者的權益，原告等因此對Nvidia起訴，尋求損害賠償及禁制令救濟。

原告指控，以上所謂之秘密轉錄，係Nvidia指示其員工使用開源YouTube影片下載工具，同時使用「虛擬機器下載完整影片，以規避YouTube的偵測並避免被封鎖。此外，NVIDIA還使用Amazon Web Services(AWS)上的虛擬機器來刷新IP地址，使其每天能下載約80年時長(80 years' worth)的影片內容，Nvidia使用這些工具來規避YouTube的監控。

（三）原告之直接著作權侵權訴求
原告主張，原告等作為其影片之合法著作權擁有者，依美國著作權法第106(1)和(2)條，對其創作的原創作品擁有著作權專屬權限，並已正式向美國著作權局完成註冊（此為起訴之前提要件）。指控Nvidia為訓練Cosmos，在未經許可的情況下，從網路大規模爬取並轉錄包括原告等的YouTube影片。在訓練過程中，Nvidia擅自製作原告影片的複製品，但原告從未授權Nvidia進行轉錄、製作複製品、創作衍生作品、公開展示或發行這些作品。

由於Cosmos程式在運行過程中，需從原告作品中提取其具有表達性之資訊，因此該程式本身即已構成未經授權的衍生作品，直接侵犯原告依法享有的著作權專屬權益。基於Nvidia的未經許可之使用行為，原告依法有權主張法定賠償、實際損害賠償、侵權所得返還等救濟措施。

（四）Nvidia駁回起訴之抗辯 -- 欠缺訴訟適格
相對的，Nvidia亦已就原告修訂之後訴狀，於2025年2月上旬向法院提交「駁回起訴之動議」(Motion to Dismiss the Amended Claim)，其二大主要理由是：
1. 主張原告欠缺「訴訟適格」(lacks standing)，因其未能提出「事實上的損害」(injury in fact)，而僅僅是基於抓取YouTube影片來訓練AI的這種空洞指控，欠缺原告已遭受或將遭受「具體且特定個別化」損害所需要之訴訟適格要求，不符合美國憲法第三條(Article III)訴訟適格要求，因此無法在聯邦法院提起訴訟。
2. 指控《著作權法》應優先處理，而預先排除(pre-empted)其他法律訴求，Nvidia認為原告原先的索賠訴求，應屬聯邦著作權法管轄範圍，因此不應適用其他法律來提起訴訟。

針對以上之關鍵論點，Nvidia認為：起訴中甚至缺乏最基本的資訊，例如：原告上傳了什麼影片內容，以及其在2009年至2024年之間上傳的時間；並援引Bell Atlantic v. Twombly案，反駁原告僅提出籠統的指控，不僅沒有指出原告遭受到任何具體傷害(particularized harm)，使其個人權益受損，而且也未能充分讓被告足以了解其法律主張之內容和依據。此外，原告沒有提供任何事實，來支持其影片被Nvidia抓取或使用的合理推論。目前YouTube上有數十億個影片。然而，原告僅聲稱Nvidia已「下載100,000部影片…..，依一封電郵顯示，其已爬取了1600萬個YouTube影片，並編譯了3,850萬部影片URL…..」。因此，原告未提供任何合理的依據來指控：YouTube上這一小部分內容包含其擁有之影片內容。

三、從美國案例法觀點看Nvidia抗辯
（一）近期之Brantley與Doe 1案例可能支持Nvidia立場
在最近之Brantley v. Prisma Labs, Inc .一案中，伊利諾伊州北區地院於2024年8月初的判決明確表明，單憑原告的影片內容僅僅存在被爬取的可能性，不足以賦予其訴訟適格(to confer standing)，該案中原告聲稱自己的照片，可能是數十億張中被告未經同意，從社群媒體網站以AI模型爬取，儘管涉案模型據稱從2021年9月到2022年1月抓取幾乎所有網站，但原告並未提供另外的事實，來證明其照片「包含在相關數據集中」。因此，起訴狀所提出「僅僅與被告的法律責任相符」之事實，但仍未達到從『可能性』到『合理可行性』之間的標準，以證明其有權獲得救濟」。該案法院認為，單憑這樣的指控缺乏具體損害事實，不足以證明原告照片遭到被告之AI使用，因而法院遂以缺乏訴訟適格為由，駁回原告起訴。

另外，J. Doe 1, et al., v. Github案也表明，原告未能提出其「程式碼內容確實遭被告的AI模型非法複製」之具體事實，法院裁定其不具訴訟適格駁回起訴。看來訴訟適格問題，將成為AI著作權訴訟中的重大議題。但特別的是，在Millette提起的三起訴訟中[3]，到目前為止，Nvidia是目前唯一以《美國憲法》第三條所要求的訴訟適格為理由，提出駁回動議。然而，Millette提出的這三起訴訟均由同一法官負責審理。即使當事人未主動提出，法院也可依職權主動審查此問題。

（二）Raw Story Media案之借鏡
Nvidia提出駁回動議的幾天後，紐約南區地院於Raw Story Media v. OpenAI案中作出裁決，駁回依據DMCA《數位千禧年著作權法》第1202條對OpenAI提出的訴訟。(請參閱美國新聞媒體控告生成式AI侵害著作權管理資訊案判決 -- Raw Story v. OpenAI) 法官裁定該訴訟因缺乏訴訟適格(lack of standing)而被駁回，理由是原告未能確定，僅僅因OpenAI使用其去除CMI著作權管理資訊(copyright management information)作品，來進行AI模型訓練會造成何種具體損害。正如該案法官所述：「我不認為，僅僅從受著作權保護的作品中移除識別資訊，而未進行散布，便能對應到任何歷史或普通法上類似之侵害行為(historical or common-law analogue)」。此判決可能對AI相關的著作權訴訟產生重要影響，特別是在訴訟適格的認定方面。

四、Nvidia被控侵害作家之著作權 -- Nazemian et al v. Nvidia
（一）NeMo Megatron AI模型涉訟
相較於上述之YouTube影片創作者案，Nvidia另二件訴訟之原告，則係三位小說作家Abdi Nazemian、Brian Keene和Stewart O'Nan，代表自己及所有其他有類似情況的集體訴訟當事人，於2024年3月初向加州北區地院，對Nvidia提起集體訴訟，原告等指控其已註冊受著作權保護的小說，被Nvidia透過大規模擷取複製，置入於約196,640本書籍之數據集(book dataset)的一部分，從這些作品中提取表達內容，將該等表達轉換為儲存在模型中的權重數值，來訓練其NeMo Megatron AI模型。且原告表示，被告後來下架其作品更反映出Nvidia「承認」在資料集上訓練NeMo；而該訓練數據集大部分的內容，係Nvidia在未經授權、未提供補償的情況下複製原告的作品，從而侵犯其著作權。

（二）Nvidia涉及使用「影子圖書館」訓練AI侵權
原告聲稱，Nvidia旗下的NeMo Megatron模型，是在一個包含數十萬本盜版電子書的數據集上訓練而成。該數據集是源自現已無法造訪的Bibliotik數據庫，即所謂的「影子圖書館」之一，此類的平台還包括Library Genesis、Z-Library、Sci-Hub和Anna’s Archive等網站，均以託管與散布未經授權的受著作權保護內容而聞名。原告指控，Bibliotik儲存於快取(cache)之未經授權的著作權材料中，至少包含每位原告一部已出版的小說，例如Keene的《鬼步Ghost Walk》、Nazemian的《像一個愛情故事Like a Love Story》以及O'Nan的《龍蝦店的最後一夜Last Night at the Lobster》。Nvidia因而違反著作權法，尋求未指明金額的賠償，適用過去三年內其作品被用來訓練NeMo Megatron模型計算。

原告聲稱，NeMo Megatron模型託管於Hugging Face平台上，其模型卡(model card)顯示，該模型係基於在EleutherAI所編製的「The Pile」數據集進行訓練，而其中包含極具爭議的Books3書籍集合。Books3曾在機器學習與數據科學平台Hugging Face上供人下載，直到2023年10月才被移除，並附上聲明稱該數據集「因涉及著作權侵害而已失效，無法再存取」。由於Books3的內容據稱來自Bibliotik電子書庫及其他未經授權電子資源的集合，而Bibliotik是眾多「影子圖書館」之一，專門以託管和散布大量未經許可的著作權資料迭遭惡評。基於此，原告指控Nvidia於訓練NeMo Megatron時，採用該等包含Books3數據集，未經授權於開發模型中納入原告作品。因此，該NeMo Megatron使用原告受保護的作品進行訓練，構成未經授權之著作權直接侵害。

本案突顯了LLM發展中的關鍵問題：這些模型的訓練數據來源缺乏透明度，使外界難以追蹤其訓練材料的實際來源。然而，根據所揭露的資料，NeMo Megatron模型的訓練數據中，包括上述具爭議性的Books3數據集。原告更主張，依Books3數據集的創建者Shawn Presser曾公開表示，Bibliotik的所有內容均被納入該數據集，因此，這證明原告作品已被複製，並用於Nvidia AI模型訓練，構成直接侵犯著作權。

（三）NeMo Megatron訓練過程構成直接侵權？
本案起訴狀中僅提出一項指控：基於AI模型的「訓練過程」，Nvidia違反美國著作權法第501條構成直接侵害著作權(17 USC § 501)，而非針對該模型所生成「輸出結果」的內容。原告指控，Nvidia未經許可複製其書籍，來訓練其大型語言模型NeMo Megatron，並聲稱其一旦「複製並吸收訓練數據集中的文本後……，就能根據使用者提示，生成逼真的自然語言模擬」，原告進而指稱，「每當LLM根據使用者提示生成文本輸出時，實際上都在執行計算……其目的即是模仿從訓練數據集中提取受保護的著作表達。」

本案的核心問題是，在LLM的訓練數據集中，使用受著作權保護的作品，是否可被視為合理使用，如是，則即使該行為在從構成要件上構成複製，Nvidia也可豁免責任。依美國著作權法，合理使用通常允許在未經許可的情況下，將受著作權保護的作品用於批評、評論、新聞報導、教學、學術或研究等目的。若涉案之AI模型訓練可歸於此類而得視為合理使用，則不會被認定為侵權。然而，如何界定AI訓練是否屬於合理使用，目前仍無明確法律或判例支持，將成為此案審理的重要焦點。

（四）「合理使用」之簡易判決動議申請
本案加州北區地院Jon Tigar法官，於2024年9月初作出一項重要的裁決，允許Nvidia在集體訴訟確認前，提出「合理使用」(Fair Use)之簡易判決動議（motion for summary judgment，亦稱即席判決）。在法院決定是否認證集體訴訟原告之前，允許Nvidia基於「合理使用」抗辯所申請之即決判決之動議申請。該簡易判決是一種審前動議，法院可根據所提交的事實並將其應用於相關法律，然後決定是否就該問題做出最終裁定，還是留待交由陪審團在審判時再來裁決。因此本案法官是想自己來決定，AI科技公司所普遍主張的「合理使用」，是否適用於這種生成式AI訓練環境中。如法院最終駁回Nvidia的抗辯，這將成為其他法院可效仿的重要先例。

目前，在AI著作權訴訟中，除了Thomson Reuters v. Ross Intelligence近期的簡易判決動議之外，(請參閱美國著名法律資料庫控告AI新創著作侵權之即席判決出爐) Nvidia可能是唯一一個以「合理使用」為抗辯理由，提出簡易判決動議的被告。當然，法院允許提交動議並不代表其內容具備法律效力，也不代表法院將作出有利於Nvidia的裁決；而「合理使用」所涉及的事實爭議，可能也無法透過即決判決解決，但某些情況下，法院確實會在簡易判決階段對「合理使用」作出裁定。

五、Nvidia被控侵害作家之著作權 -- Dubus v. Nvidia
小說家Andre Dubus III和記者兼非小說類作者Susan Orlean，於2024年5月初向加州北區地院對Nvidia提起集體訴訟，主張其已註冊著作權的書籍作品，遭Nvidia納入用於訓練其NeMo Megatron模型的數據集中。該模型於2022年9月發布。起訴狀稱，所有NeMo Megatron模型均託管於一名為Hugging Face的網站上，每個模型皆附有模型卡，其中提供包括訓練數據集等模型資訊。模型卡明載，NeMo Megatron模型是基於EleutherAI準備的「The Pile」數據集進行訓練，而該數據集包含Book3數據集，係源自Bibliotik影子圖書館，原告據此主張Nvidia直接侵犯著作權。

起訴狀亦稱，用於訓練模型的數據集的一部分，包括從Bibliotik提取的108GB 數據，Bibliotik是個託管和分發未經授權著作權材料的「影子圖書館」。Bibliotik的創始人Shawn Presser在公開聲明中證實，該網站包含近20萬冊書籍。本案原告的主張與前述Nazemian等訴訟相似，這些案例挑戰訓練AI大型語言模型的核心前提，該模型使用來自大型資料集的數百萬至數十億的輸入（其中大部分可能是受著作權保護的作品），來學習模仿人類的創造力。

以上兩組原告團體Nazemian和Dubus，對Nvidia提起集體訴訟，指控Nvidia未經授權透過複製其受著作權保護的書籍，訓練其LLM Nemo Megatron侵犯著作權，該二案現已合併審理中(Nazemian and Dubus v. Nvidia)。

六、向量嵌入 v. 著作權法複製之思辯 -- 代結論
生成式AI在運作過程中，大都要將網路上海量資料加以擷取訓練，而這個爬取資料的動作，依美國複製(Reproduction)的定義：以副本或錄音製品複製受著作權保護的作品，該作品以固定形式複製、轉錄、模仿或模擬，從中可「直接地或藉助機器或設備被感知、複製或以其他方式傳播」。因此，就形式外觀上爬取已構成著作權法上所謂的複製。基於此，持保守的見解認為，有鑑於LLM支援的生成式AI平台激增，業者不僅必須揭露哪些數據已輸入其系統中，更須努力排除未經著作權人許可用受保護的材料作為訓練材料，否則，將會面臨著作權侵權主張的衝擊。

不過，就算構成複製是否一定構成違法侵權呢？這又未必，2015年Google的Authors Guild v. Google案，雖然在「過程」中抓取複製大量的書籍內容資料，而且最後呈現出來的「結果」內容，更明確含有原告之若干著作內容，卻被巡迴上訴法院判定，其產出結果得構成轉化性合理使用，連帶的其中間過程複製大量書籍，也毋庸探究。準此，中間過程構成複製不代表當然違法！不過，要達到合理使用，甚至是「轉化性之合理使用」，基本上，從美國各相關判決來看並不容易。(請參閱從美國人工智慧擴散模型訴訟案 -- 談生成式 AI 圖像之著作侵權議題)

值得注意的是，所有這些生成式AI工具提供商，當然深知訓練的過程抓取資料構成複製，但當眾多AI大咖像Open AI、Google與Meta等引領下之Transformers大模型（如ChatGPT、Llama、Gemini、Claude、Deepseek與Elon Musk的Grok-3）等包括本案之Nvidia，不約而同都擺脫過去應事先取得授權的模式，堂而皇之直接擷取他人具有著作權素材做營利之用（即先斬而後奏 – 被告了後再主張合理使用之抗辯），尤其是美國生成式AI相關訴訟，迄今被告AI業者尚未逕被判定侵權。

例如，不論是Doe 1~5 v. Github, OpenAI & Microsoft與Raw Story v. OpenAI針對CMI「著作權管理資訊」，或是Andersen et al v. Stability AI, Midjourney & DeviantArt針對圖形影像，再或是Kadrey, Silverman & Golden v. Meta與Tremblay & Silverman v. OpenAI等針對小說文字方面之案件，目前為止原告權利人完全暫屈居下風；至於Thomson Reuters v. Ross Intelligence案，原告在地院雖勝訴，(請參閱美國著名法律資料庫控告AI新創著作侵權之即席判決出爐) 但該案系爭法律資料庫Westlaw並非係生成式AI，其判斷原則是否可做為他山之石？答案尚不肯定，因生成式AI的運作，遠非單純文字相關編輯著作可比，後續尚待釐清！不過卻已讓人感受到天平是否逐漸產生巧妙移動。

相對於以上保守之見解，另一種可能的辯護，則是從更基本的立場主張：「訓練過程中之複製，並非實際抄襲不構成侵權」。準此，有論者倡議AI發展應解除著作權束縛，隨著科技進步應將複製的概念與時俱進加以轉換，即過程中之複製並非違法複製。因為，在當今生成式AI時代下訓練資料已不可逆，由於電腦看不懂人類的文字圖畫，所以必須將其透過數學向量以編碼的方式來運作，因此應把複製轉化為科技上的「向量嵌入」(Vector Embedding)來看待，而不再僅從形式外觀上，機械式地套用傳統複製概念。換言之，將資料爬取置入訓練這個動作，當成是數學上向量之一種必經的運作過程，以此來突破傳統上著作侵權的認定。

但筆者認為，向量議題固然值得探討，但在現行各國著作權法制之下，生成式AI運作過程中的複製，適用現行法恐仍免不了會構成複製之結果。因此，以上倡議，尚須透過像日本著作權法第30條之4與第47條之5、或歐盟之下的歐洲國家將「資料探勘」形成著作權豁免，但這些都必須透過用立法或修法來處理！甚者，以上只解決了訓練過程中的複製，即使立法通過，但針對生成式AI自動產生的結果，會不會構成侵權，則是另一個爭論議題！

總之，AI對現行的著作權法帶來莫大的衝擊，在此風口浪尖上如何平衡權利人和使用者間之利益，還必須要看各國目前待決之判決結果，是否會形成一個著作侵害豁免的新思維，甚至在國際之間透過立法或修法來解決，都有待密切觀察。(6854字；圖1)

作者資訊：
陳家駿律師台灣資訊智慧財產權協會理事長

[1] Nvidia NeMo大型語言模型服務和BioNeMo LLM服務，使開發人員能輕鬆採用LLM並部署定製的AI應用程式，用於內容生成、文本摘要、聊天機器人、代碼開發以及蛋白質結構和生物分子特性預測等。

[2] 根據YouTube的服務條款，上傳YouTube影片之使用者，仍保有其上傳影片內容的所有權。

[3] David Millette連同本案共提起3件獨立訴訟，另二件為：Millette v. OpenAI, Inc., (Aug. 2, 2024); Millette v. Google LLC (N.D. Cal. Aug. 2, 2024)，此三個案件相互關聯，指控3家不同的AI模型：OpenAI、Google和Nvidia抓取YouTube影片來訓練其AI，直接提出侵權索賠。

參考資料：
Millette v. Nvidia, Case 5:24-cv-05157-EJD, Filed 08/14/24.
Millette & Petryazhna v. Nvidia, Amended Complaint, Case 5:24-cv-05157-EJD, Filed 12/16/24.
Millette & Petryazhna v. Nvidia, Motion to Dismiss the Amended Claim, Case 5:24-cv-05157-EJD Document 31 Filed 02/10/25.
Nazemian et al v. Nvidia , 3:23-cv-01454, Filed 03/08/24.
Dubus v. Nvidia, Case 4:24-cv-02655, Filed 05/02/24.
Nazemian and Dubus v. Nvidia, Nos. 3:24-cv-01454, 3:24-cv-02655 (N.D. Cal.), Filed 08/13/24.
Nvidia Large Language Model Litigation. Joseph Saveri Law Firm.
Copyright Law Revision (Senate Report No. 94-473).djvu/58.
Millette files First Am. Complaint v. Google, NVIDIA adding copyright claim. AI cases hit 38 in U.S. Chat GPT Is Eating the World.2024/12/17.
Generative AI – Intellectual property cases and policy tracker. (Millette v Nvidia, Case reference
5:24-cv-05157) Mishcon de Reya
AI Litigation Insights: Abdi Nazemian v. NVIDIA Corporation. Lexology.2024/03/21.
Nvidia is sued by authors over AI use of copyrighted works. Reuters.2024/03/12.
Generative AI – Intellectual property cases and policy tracker. Mishcon de Reya.
Nvidia, Databricks Sued in Latest AI Copyright Class Actions. Bloomberg Law.2024/05/03.
Nvidia faces class-action lawsuit for training AI model on ‘shadow library’. Charles Russell Speechlys.2024/04/30.
Judge Tigar allows NVIDIA to file summary judgment motion on fair use, before class certification decided. Chatgpt is eating the world.2024/09/09.
Judge May Decide Generative AI's "Fair Use" Defense Pre-Trial. The Brain.2024/09/16.
Nvidia Asserts Millette Lacks Standing Due To Failure To Alleged A Concrete Particularized Injury In-Fact Under Constitution Simply Based On Scraping Youtube Videos To Train Ai. Chatgpt is eating the world.2024/11/16.

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------