印度首宗生成式AI之著作侵權案 -- ANI Media v. Open AI

關鍵字：；；()；；；；()；；()；；；；；；

瀏覽次數：7088｜歡迎推文：

科技產業資訊室(iKnow) - 陳家駿發表於 2025年5月15日

圖、印度首宗生成式AI之著作侵權案 -- ANI Media v. Open AI

生成式AI訴訟在歐美遍地開花，至於亞洲的國家，除了中國在這方面也已經有好幾個案例之外，AI著作侵權的戰火也延燒到印度，媒體機構也對全球IP權利人之「大眾公敵」 -- ChatGPT的創建者OpenAI開出第一槍！

一、ANI Media Pvt Ltd. v. OpenAI Inc
ANI（Asian News International，亞洲國際新聞社）是印度一家將新聞資料授權給媒體與新聞機構的新聞通訊社（運作模式類似路透社Reuters），擁有大量文字、圖像和影片檔案的獨家著作權，向付費訂閱者提供新聞。其與多家新聞機構於2024年11月19日，對OpenAI向德里高等法院提起訴訟(ANI Media Pvt Ltd. v. OpenAI Inc. (CS COMM 1028/2024)。這些新聞機構包括印度歷史悠久的出版物，如《印度快報》、《印度教徒報》、《今日印度》集團、NDTV等媒體。ANI稱，OpenAI未經授權使用其內容訓練ChatGPT，這導致聊天機器人不斷進步使OpenAI受益。ANI在起訴前，曾告知OpenAI非法使用，並表示願意授權，但遭OpenAI拒絕。

本案是印度此類案件首例，將對OpenAI在印度的業務產生重大影響，該公司每週3億活躍的ChatGPT用戶中，印度占9.5%約2,850萬用戶，因此本案起訴以來引發廣泛關注，由於其觸及快速發展的科技環境中，AI、數據所有權與智財權之間的敏感交叉議題，對數位時代下的法律規範具重大意義。ANI起訴OpenAI侵權、虛假歸因和不當使用其內容，基於以下幾項關鍵指控：

（一）、ANI指稱ChatGPT不當使用資料
ANI指稱，OpenAI訓練其大型語言模型ChatGPT時，所使用存取的資料來源包含三個主要來源：公開資料、第三方合作夥伴提供的內容、以及OpenAI自行蒐集或研究之資料。ANI主張，其原創內容涵蓋在上述類別中，且OpenAI未經授權擷取並用於模型訓練，構成不當使用。ANI指出，雖然其部分資料為公開資訊可能供公眾獲取，但仍有許多新聞專訪、特定報導與內部資料，非可公開取得之內容，僅限付費之訂閱者才能閱覽，並非全面公開直接向公眾提供。因此，ANI聲稱OpenAI無權取得、複製、儲存或使用這些內容將做為其訓練之用。

（二）、ANI控告OpenAI三項訟因
ANI指出，基於印度擁有近450個新聞頻道和17,000家報紙製作的內容，對ChatGPT而言具有巨大潛力。據調查，印度因為擁有ChatGPT最大的用戶群，此案對其來說具重要意義。ANI指控ChatGPT非法使用其著作權資料，並要求賠償2千萬盧比（23萬美元）。ANI的起訴主要基於以下三個訴因：

1. 著作權侵害：
ANI認為OpenAI未經許可複製、儲存、並使用其受著作權保護之內容訓練AI模型，明顯侵害其著作權，儘管有些內容是公開的，也不意味OpenAI無需獲得授權即可擅自取用。

2. 輸出內容近似構成抄襲：
ANI聲稱ChatGPT輸出之內容，與其新聞報導在文字或架構上高度相似，構成未經授權之使用而侵犯其著作權。

3. 虛假引用與損害聲譽：
ANI舉例指出，ChatGPT吐出的回應中，在某些情況下會將訪談內容錯誤或虛假歸因(false attribution)於新聞機構而誤導公眾。例如，ChatGPT錯誤輸出甘地(Rahul Gandhi)曾接受ANI的採訪，但實際上根本沒有進行過該採訪。ANI聲稱這種資訊之虛假歸因，損害其公信力與聲譽並破壞ANI新聞報導的準確性，戕害其可信度。

（三）、OpenAI之抗辯
針對ANI的指控，OpenAI聲稱行為合法透明。首先，其認為記者對新聞報導的表達方式固然享有著作權，但主張ANI並不擁有報導中所引用內容的著作權。OpenAI表示名人說話屬於事實，惟事實本身不受著作權保護。主張新聞僅享有「薄弱著作權」(thin copyright)，因為新聞只是對事實的表達。若他人基於相同事實撰寫報導，可能會出現類似敘述，這樣的相似性並不構成實質相似(substantial similarity)，因此不構成侵權。此外，OpenAI更宣稱，其聊天機器人並不是新聞訂閱的「替代品」，也不會用於此類目的。並提出下列抗辯：

1. 公開資料可透過協定阻止造訪否則不構成侵權
OpenAI強調，因為ANI的材料是公開的。若ANI不希望其內容被OpenAI的爬蟲程式(web crawlers)擷取，可透過「Robots.txt」協定(“Robots.txt” protocol)阻止此類造訪，這是一種業界廣泛使用的通行標準，可限制網路爬蟲索引內容(indexing content)，若無採取此措施，即視為內容可公開擷取。

2. 原告無具體證據且被告迄未被判侵權
OpenAI聲稱其運作方式透明，辯稱其AI工具不會逐字逐句地複製ANI的資料，而是根據包括公開內容在內的多種資料來源產生回應。OpenAI並否認複製ANI的著作權資料，辯稱ANI並未提供證據，證明其著作權資料被ChatGPT複製的任何具體例子。OpenAI表示用於訓練的內容，其儲存方式不允許在與ChatGPT互動中重現實際的內容。OpenAI強調，儘管它在美國、加拿大和德國面臨多起訴訟，但迄今沒有任何法院頒發禁制令或判定OpenAI侵權。其中包括其他媒體組織提出類似主張的案例。

3. 沒有存取付費牆或專屬內容
OpenAI否認曾造訪任何需要付費或僅透過訂閱才能獲得的內容，例如ANI的獨家報導。其辯稱，除非是公開內容，否則OpenAI的模型不會存取基於訂閱或授權的內容。

4. 虛假引用非故意且可修正
OpenAI亦否認虛假歸因之指控，辯稱ANI沒有提出任何有關歸因不正確的控投訴。OpenAI表示已及時修正所發現的錯誤，此種辯解雖然承認，該模型偶爾會產生不完美的結果，因為ChatGPT係Transformer模型，透過機率分佈預測下一個詞彙或字串，所以難免會混雜不相關的文字，導致ChatGPT偶爾會產生「幻覺」，但OpenAI認為這種「反芻情況」(regurgitating)很少見，而且已積極解決。(請參閱媒體巨擘控告ChatGPT著作侵權案--New York Times v. Microsoft & OpenAI)

5. 被告已將ANI網域列入「封鎖清單」
OpenAI並辯稱，已將ANI的網域(www.aninews.in)列入「封鎖清單」(blocklist)，透過「選擇退出機制」(opted to block its crawlers)，阻止爬蟲程式抓取ANI網站的數據。因此，OpenAI已防止其材料進一步用於AI訓練。

6. 不適用印度司法管轄
最後，OpenAI也抗辯管轄權問題，辯稱其在印度並無辦公實體(physical presence)，且其儲存訓練資料的伺服器皆設於境外之美國，由於該AI模型的訓練作業亦係於印度境外進行，故主張印度法院對本案不具屬地管轄權。

（四）、法院初步命令
德里高等法院意識到這些新興法律待審議題：1. 儲存用於訓練ChatGPT的受著作權保護的資料是否構成侵犯著作權；2. 利用受著作權保護的資料產生使用者回應是否構成侵權；3. 根據《著作權法》第52條，此使用是否屬於「合理使用」。法院程序上對本案採取初步處置，包括：法院注意到有關管轄權的異議，但允許案件仍應繼續審理，管轄權問題將在後續之開庭上解決；法院記錄顯示，ANI已將OpenAI的爬蟲類列入封鎖清單，確保OpenAI的網路爬蟲不會再造訪ANI的網站擷取資料；法院並任命「法庭之友」[1](amicus curiae)來協助訴訟審理過程中各方之意見，確保從所有相關的角度考慮案件。該法庭之友為：NLSIU班加羅爾分校著作權法學教授Arul Scaria博士和智財權律師Adarsh Ramanujan。

二、ChatGPT之侵權議題
（一）、ChatGPT繼續存取ANI的內容？
OpenAI表示已將ANI網站列入禁止AI之訓練，但ANI於2025年3月中向法院指稱，OpenAI透過其使用者仍繼續存取ANI的內容，指控OpenAI違反先前聲明：即自2024年10月起停止抓取ANI網站的數據，然而其實際上卻持續向ANI網站發送爬蟲程式。ANI提供一個ChatGPT提示作為範例，要求從ANI新聞入口網站獲取「最新頭條新聞」，收到此提示後，OpenAI的聊天機器人繼續輸出ANI網站上的最新新聞及連結。ANI認為這已清楚表明，OpenAI仍持續擷取其內容，並以此為由尋求法院頒臨時禁制令，禁止其使用收集ANI的內容。但OpenAI辯稱，其系統看似仍繼續製作與ANI內容相關的材料，但這是因為這些材料可能來自其他公開數據或第三方合作夥伴所致。

（二）、ChatGPT的搜尋或訓練是否侵害著作權？
OpenAI則強調其搜尋功能與訓練不同，解釋其係在網路上抓取內容，再用「自己的話」向使用者提供摘要而不重複任何標題，並添加指向來源的連結。辯稱：這並未以任何方式違反聲明，而且也不存在侵權行為，因為簡短摘要是OpenAI的話，並沒有複製材料。然而，ANI控稱，OpenAI的搜尋功能不透明，且其拒絕其等新聞機構索取資訊，而且由於其大型語言模型(LLM)基於訓練數據，使其能產生回應，因此OpenAI仍在抓取ANI的數據，無論是用於訓練還是搜尋。ANI的律師也將ChatGPT的搜尋功能與Google搜尋引擎進行對比較，他指出Google搜尋引擎與ANI簽訂顯示標題的授權協議，表示搜尋引擎只是索引並提供確切頁面的預覽……它不託管內容，更不會儲存內容。

三、數據標記化是否侵犯著作權？
（一）、法庭之友就AI模型過程之解釋
法庭之友Adarsh Ramanujan對訓練AI模型過程的解釋，其將AI的發展分為三個部分：1. 原始資料(raw data)之收集 2. 收集資料之「數據標記化」(Tokenisation of Data) 3. 模型訓練。Ramanujan認為，第一步和第三步可能涉及侵犯著作權，而第二步則不會，因為這是對內容的「非表達性」(non-expressive)使用。ANI在此意見的基礎上進一步指出，所有數位內容的工作方式都相同：程式設計師將人類可讀的內容轉換為機器可讀的格式，然後再轉換回人類可讀的格式。ANI並表示，在標記化的過程中也發生同樣的事情，標記只是原始數據(raw data)所代表的數值表示(numerical representations)而已。

（二）、法庭之友建議採二步驟分析法
就使用著作權材料於AI訓練是否構成侵權，法庭之友Arul Scaria認為，法院應採取「二步驟分析法」(Two-Step Analysis)。首先，應判斷相關使用是否屬於私人/個人使用、批評/評論或時事報導等例外情況。其次，應進行公平性分析(fairness analysis)，討論AI訓練機制，Scaria解釋語言模型的技術細節，描述標記化的過程，其中收集的資料（包括可能受著作權保護的內容）被轉換為數位標記。他澄清，這些模型並不是逐字保留或複製來源材料，而是識別單字之間的統計關係。法官對這此感興趣，詢問這一過程是否涉及一次性存取受著作權保護的材料，還是需要反覆引用。Scaria回應，一旦標記化就沒有必要回到原始內容，從而提出一個重要的問題 -- 這種非表達性使用是否構成侵權。

法院進一步追問這種使用，是否符合第51條的合理使用例外規定，Scaria指出印度著作權架構內建基於學習的使用規定。他引用第52條，該條允許某些非表達性使用和合理使用例外。法官再提出一個關鍵的假設：如果AI公司必須為其訓練的每個數據集支付授權費，那麼這種模式是否可行？Scaria強調，法院必須平衡著作權人的利益和技術創新，特別是LLM仍處於發展階段。並指出，ANI已經將其內容授權給其他實體，這引發人們對AI訓練的退出機制(Opt-out)是否足夠的質疑。隨後，轉向討論「錯誤資訊」(misinformation)議題，Scaria認為，限制AI存取資訊可能使問題更惡化，他主張提高透明度與開放存取，以減輕虛假敘述的擴散。

四、就向量化運作ANI主張對其內容仍擁有專屬權
針對生成式AI運作過程中，擷取資料究竟是否構成複製這個議題，已經有論者倡議將「向量嵌入」(Vector Embedding)，視為不屬於著作權法中的複製。(請參閱從加拿大三件著作侵權案 -- 談生成式AI訴訟之核心爭辯)。而本案中，也許意識到與此相關的爭議，因此原告主張，即使是進行向量化的運作，就其運行過程和產生的結果，原告都認為仍然對其內容享有專屬權利。基於此論點，ANI主張其對儲存於任何媒體上的內容都擁有專屬權，AI運作之「向量化過程」(Vectorisation Process)，也不是其作品的一種改編(adaptation)，因為OpenAI的流程中不涉及任何創造性或技巧，因此無法創作出真正的「衍生作品」(derivative works)。根據《著作權法》第14條進行改編的權利也屬於新聞機構，因此ANI認為，以任何媒體形式儲存和發行副本的專屬權仍屬於ANI，而任何侵犯這些權利的行為，都構成第51條所規定的侵權。

五、各產業競相申請參與訴訟
就ANI對OpenAI的起訴，代表出版商的機構印度出版商聯合會(FIP)提交申請加入訴訟(intervention)；沒幾天，代表多家數位媒體的數位新聞出版商協會(DNPA)也表示，該案件影響記者的生計和該國整個新聞業，已提交介入此案之參與訴訟申請，尋求成為訴訟的當事人。而印度音樂產業例如IMI（成員包括索尼音樂、環球音樂(印度)、華納音樂、Super Cassettes Industries (T-Series)、Saregama India和Zee Music）等主要寶萊塢唱片公司，亦尋求參與，因其擔心其音樂著作在AI訓練中被未經授權使用，並認為這構成侵權行為。

唱片公司聲稱，OpenAI可從網路上提取歌詞、音樂作品和錄音，可能侵犯其著作權。IMI的介入在本案中可能發揮重要作用，因其成員擁有大量受著作權保護的作品目錄，包括音訊和視聽歌曲。這些作品是其商業模式的命脈，嚴重依賴授權來確保創作者和權利人獲得公平的報酬。AI可能對這些作品進行不受監管的開發，對該行業構成生存威脅。

但德里高院負責此案的法官表示，受影響的各方必須提起自己的訴訟，並指出目前ANI提起的訴訟範圍不能再繼續擴大。然而，代表IMI的律師辯稱，該組織直接受到案件的影響，應該被允許就當前的法律問題提出自己的論點，ANI的律師請求允許回應干預申請。

六、本案之啟示 -- 法律意涵與潛在影響
針對未經授權使用受著作權保護內容，以訓練AI模型所引發訴訟糾紛，在全球各國已日益增加，本案這場法律攻防戰將為印度的AI監管，樹立重要的先例。從案件進展可見，印度在訴訟審理上雖然也面臨程序性問題（如法院管轄權），但很快就進入核心爭執部分，比起美國諸多AI侵權案例中常深陷繁瑣之程序泥淖（如被告申請「駁回原告之訴」(motion to dismiss)），印度司法實務似能迅速切入實體爭點，聚焦於著作權之複製本質與合理使用界線。

本案不僅突顯出AI技術、媒體著作權與資訊透明三者間的交錯與張力，也定義這些AI模型未來的運作規範，在AI驅動之資訊治理趨勢下，為印度建立起一指標性的發展里程碑。ANI主張其新聞內容應享有「強著作權」保護，彰顯出現實數位時代下，資料歸屬與使用界定的複雜性；而OpenAI則質疑新聞內容僅有「弱著作權」保護，並強調其使用符合產業慣例且具合法性。二造的法律攻防，清楚揭示AI應用與著作權保護交會下浮現的法律灰色地帶，使本案成為印度未來在AI監管與媒體智財保護機制的重要參考。

有鑒於目前美德英等國，尚未就生成式AI引發的糾紛做出實體判決之際，如印度能率先睿智地做出具前瞻性與法理基礎的判決，則其將對全球同類型案件產生深遠影響。面對AI應用日益普及，當前法律治理的關鍵在於，如何明確界定合法使用界線、促進資料合理共享，同時確保資訊來源清楚，以兼顧維護創作者權益與公共利益之間的平衡，形塑更健全的AI時代之法律架構。

對當前全球面對AI所引發的法律爭議，普遍陷於「科技發展快於法律規範」的困境，且訴訟實務上亦乏先例可循，更考驗各國司法體系回應能力與判斷的智慧。隨著AI技術不斷演進，圍繞在內容取得、再利用的爭議勢必更加頻繁，如何建構具前瞻性且明確之法律體系，已成為當代數位治理無法迴避的核心挑戰，本案法院如能率先判定，將成為繼中國之後，為亞洲國家提供具體的法理參考借鏡。(5502字)

[1] 「法院之友」是指雖非案件當事人，但能向法院提供相關資訊或專業知識或意見，以協助法院釐清案件中的關鍵議題的人或團體，使法院得以做出更全面而正確的裁決。

作者資訊：
陳家駿律師台灣資訊智慧財產權協會理事長

參考資料：
ANI v OpenAI: A copyright, AI training and false attribution dispute. Law.Asia. 2024/12/05.
Indian media pile into lawsuit against OpenAI chatbot ChatGPT. BBC. 2025/02/06.
ANI vs OpenAI: Delhi HC orders OpenAI to respond to plea by Indian music industry in copyright case. Mint. 2025/02/17.
ANI vs. OpenAI: Is the AI Giant Still Using ANI’s Content? Medianama. 2025/03/19.
[ANI v OpenAI] Employ Two-Step Analysis To Decide Copyright Infringement: Amicus Before Delhi HC. Law Beat. 2025/02/22.
Vatsalya Vishal, Hearing in Copyright Case Against OpenAI Brought by Indian Publishers Set for March. Tech Policy. Press. 2025/02/14.
Indian Music Industry files intervention application in ANI v. OpenAI copyright case. The Trademark Lawyer. 2025/03/20.
ANI v. Open AI: Time to Talk About 'Machine Unlearning'. Spicy IP. 2025/01/31.
ANI v. OpenAI in the Delhi HC: Everything so far and all that is at stake. The Leaflet. 2025/03/17.

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------