印度首宗生成式AI之著作侵權案 -- ANI Media v. Open AI
科技產業資訊室(iKnow) - 陳家駿 發表於 2025年5月15日

圖、印度首宗生成式AI之著作侵權案 -- ANI Media v. Open AI
生成式AI訴訟在歐美遍地開花,至於亞洲的國家,除了中國在這方面也已經有好幾個案例之外,AI著作侵權的戰火也延燒到印度,媒體機構也對全球IP權利人之「大眾公敵」 -- ChatGPT的創建者OpenAI開出第一槍!
一、ANI Media Pvt Ltd. v. OpenAI Inc
ANI(Asian News International,亞洲國際新聞社)是印度一家將新聞資料授權給媒體與新聞機構的新聞通訊社(運作模式類似路透社Reuters),擁有大量文字、圖像和影片檔案的獨家著作權,向付費訂閱者提供新聞。其與多家新聞機構於2024年11月19日,對OpenAI向德里高等法院提起訴訟(ANI Media Pvt Ltd. v. OpenAI Inc. (CS COMM 1028/2024)。這些新聞機構包括印度歷史悠久的出版物,如《印度快報》、《印度教徒報》、《今日印度》集團、NDTV等媒體。ANI稱,OpenAI未經授權使用其內容訓練ChatGPT,這導致聊天機器人不斷進步使OpenAI受益。ANI在起訴前,曾告知OpenAI非法使用,並表示願意授權,但遭OpenAI拒絕。
本案是印度此類案件首例,將對OpenAI在印度的業務產生重大影響,該公司每週3億活躍的ChatGPT用戶中,印度占9.5%約2,850萬用戶,因此本案起訴以來引發廣泛關注,由於其觸及快速發展的科技環境中,AI、數據所有權與智財權之間的敏感交叉議題,對數位時代下的法律規範具重大意義。ANI起訴OpenAI侵權、虛假歸因和不當使用其內容,基於以下幾項關鍵指控:
(一)、ANI指稱ChatGPT不當使用資料
ANI指稱,OpenAI訓練其大型語言模型ChatGPT時,所使用存取的資料來源包含三個主要來源:公開資料、第三方合作夥伴提供的內容、以及OpenAI自行蒐集或研究之資料。ANI主張,其原創內容涵蓋在上述類別中,且OpenAI未經授權擷取並用於模型訓練,構成不當使用。ANI指出,雖然其部分資料為公開資訊可能供公眾獲取,但仍有許多新聞專訪、特定報導與內部資料,非可公開取得之內容,僅限付費之訂閱者才能閱覽,並非全面公開直接向公眾提供。因此,ANI聲稱OpenAI無權取得、複製、儲存或使用這些內容將做為其訓練之用。
(二)、ANI控告OpenAI三項訟因
ANI指出,基於印度擁有近450個新聞頻道和17,000家報紙製作的內容,對ChatGPT而言具有巨大潛力。據調查,印度因為擁有ChatGPT最大的用戶群,此案對其來說具重要意義。ANI指控ChatGPT非法使用其著作權資料,並要求賠償2千萬盧比(23萬美元)。ANI的起訴主要基於以下三個訴因:
1. 著作權侵害:
ANI認為OpenAI未經許可複製、儲存、並使用其受著作權保護之內容訓練AI模型,明顯侵害其著作權,儘管有些內容是公開的,也不意味OpenAI無需獲得授權即可擅自取用。
2. 輸出內容近似構成抄襲:
ANI聲稱ChatGPT輸出之內容,與其新聞報導在文字或架構上高度相似,構成未經授權之使用而侵犯其著作權。
3. 虛假引用與損害聲譽:
ANI舉例指出,ChatGPT吐出的回應中,在某些情況下會將訪談內容錯誤或虛假歸因(false attribution)於新聞機構而誤導公眾。例如,ChatGPT錯誤輸出甘地(Rahul Gandhi)曾接受ANI的採訪,但實際上根本沒有進行過該採訪。ANI聲稱這種資訊之虛假歸因,損害其公信力與聲譽並破壞ANI新聞報導的準確性,戕害其可信度。
(三)、OpenAI之抗辯
針對ANI的指控,OpenAI聲稱行為合法透明。首先,其認為記者對新聞報導的表達方式固然享有著作權,但主張ANI並不擁有報導中所引用內容的著作權。OpenAI表示名人說話屬於事實,惟事實本身不受著作權保護。主張新聞僅享有「薄弱著作權」(thin copyright),因為新聞只是對事實的表達。若他人基於相同事實撰寫報導,可能會出現類似敘述,這樣的相似性並不構成實質相似(substantial similarity),因此不構成侵權。此外,OpenAI更宣稱,其聊天機器人並不是新聞訂閱的「替代品」,也不會用於此類目的。並提出下列抗辯:
1. 公開資料可透過協定阻止造訪否則不構成侵權
OpenAI強調,因為ANI的材料是公開的。若ANI不希望其內容被OpenAI的爬蟲程式(web crawlers)擷取,可透過「Robots.txt」協定(“Robots.txt” protocol)阻止此類造訪,這是一種業界廣泛使用的通行標準,可限制網路爬蟲索引內容(indexing content),若無採取此措施,即視為內容可公開擷取。
2. 原告無具體證據且被告迄未被判侵權
OpenAI聲稱其運作方式透明,辯稱其AI工具不會逐字逐句地複製ANI的資料,而是根據包括公開內容在內的多種資料來源產生回應。OpenAI並否認複製ANI的著作權資料,辯稱ANI並未提供證據,證明其著作權資料被ChatGPT複製的任何具體例子。OpenAI表示用於訓練的內容,其儲存方式不允許在與ChatGPT互動中重現實際的內容。OpenAI強調,儘管它在美國、加拿大和德國面臨多起訴訟,但迄今沒有任何法院頒發禁制令或判定OpenAI侵權。其中包括其他媒體組織提出類似主張的案例。
3. 沒有存取付費牆或專屬內容
OpenAI否認曾造訪任何需要付費或僅透過訂閱才能獲得的內容,例如ANI的獨家報導。其辯稱,除非是公開內容,否則OpenAI的模型不會存取基於訂閱或授權的內容。
4. 虛假引用非故意且可修正
OpenAI亦否認虛假歸因之指控,辯稱ANI沒有提出任何有關歸因不正確的控投訴。OpenAI表示已及時修正所發現的錯誤,此種辯解雖然承認,該模型偶爾會產生不完美的結果,因為ChatGPT係Transformer模型,透過機率分佈預測下一個詞彙或字串,所以難免會混雜不相關的文字,導致ChatGPT偶爾會產生「幻覺」,但OpenAI認為這種「反芻情況」(regurgitating)很少見,而且已積極解決。(請參閱媒體巨擘控告ChatGPT著作侵權案--New York Times v. Microsoft & OpenAI)
5. 被告已將ANI網域列入「封鎖清單」
OpenAI並辯稱,已將ANI的網域(www.aninews.in)列入「封鎖清單」(blocklist),透過「選擇退出機制」(opted to block its crawlers),阻止爬蟲程式抓取ANI網站的數據。因此,OpenAI已防止其材料進一步用於AI訓練。
6. 不適用印度司法管轄
最後,OpenAI也抗辯管轄權問題,辯稱其在印度並無辦公實體(physical presence),且其儲存訓練資料的伺服器皆設於境外之美國,由於該AI模型的訓練作業亦係於印度境外進行,故主張印度法院對本案不具屬地管轄權。
(四)、法院初步命令
德里高等法院意識到這些新興法律待審議題:1. 儲存用於訓練ChatGPT的受著作權保護的資料是否構成侵犯著作權;2. 利用受著作權保護的資料產生使用者回應是否構成侵權;3. 根據《著作權法》第52條,此使用是否屬於「合理使用」。法院程序上對本案採取初步處置,包括:法院注意到有關管轄權的異議,但允許案件仍應繼續審理,管轄權問題將在後續之開庭上解決;法院記錄顯示,ANI已將OpenAI的爬蟲類列入封鎖清單,確保OpenAI的網路爬蟲不會再造訪ANI的網站擷取資料;法院並任命「法庭之友」[1](amicus curiae)來協助訴訟審理過程中各方之意見,確保從所有相關的角度考慮案件。該法庭之友為:NLSIU班加羅爾分校著作權法學教授Arul Scaria博士和智財權律師Adarsh Ramanujan。
二、ChatGPT之侵權議題
(一)、ChatGPT繼續存取ANI的內容?
OpenAI表示已將ANI網站列入禁止AI之訓練,但ANI於2025年3月中向法院指稱,OpenAI透過其使用者仍繼續存取ANI的內容,指控OpenAI違反先前聲明:即自2024年10月起停止抓取ANI網站的數據,然而其實際上卻持續向ANI網站發送爬蟲程式。ANI提供一個ChatGPT提示作為範例,要求從ANI新聞入口網站獲取「最新頭條新聞」,收到此提示後,OpenAI的聊天機器人繼續輸出ANI網站上的最新新聞及連結。ANI認為這已清楚表明,OpenAI仍持續擷取其內容,並以此為由尋求法院頒臨時禁制令,禁止其使用收集ANI的內容。但OpenAI辯稱,其系統看似仍繼續製作與ANI內容相關的材料,但這是因為這些材料可能來自其他公開數據或第三方合作夥伴所致。
(二)、ChatGPT的搜尋或訓練是否侵害著作權?
OpenAI則強調其搜尋功能與訓練不同,解釋其係在網路上抓取內容,再用「自己的話」向使用者提供摘要而不重複任何標題,並添加指向來源的連結。辯稱:這並未以任何方式違反聲明,而且也不存在侵權行為,因為簡短摘要是OpenAI的話,並沒有複製材料。然而,ANI控稱,OpenAI的搜尋功能不透明,且其拒絕其等新聞機構索取資訊,而且由於其大型語言模型(LLM)基於訓練數據,使其能產生回應,因此OpenAI仍在抓取ANI的數據,無論是用於訓練還是搜尋。ANI的律師也將ChatGPT的搜尋功能與Google搜尋引擎進行對比較,他指出Google搜尋引擎與ANI簽訂顯示標題的授權協議,表示搜尋引擎只是索引並提供確切頁面的預覽……它不託管內容,更不會儲存內容。
三、數據標記化是否侵犯著作權?
(一)、法庭之友就AI模型過程之解釋
法庭之友Adarsh Ramanujan對訓練AI模型過程的解釋,其將AI的發展分為三個部分:1. 原始資料(raw data)之收集 2. 收集資料之「數據標記化」(Tokenisation of Data) 3. 模型訓練。Ramanujan認為,第一步和第三步可能涉及侵犯著作權,而第二步則不會,因為這是對內容的「非表達性」(non-expressive)使用。ANI在此意見的基礎上進一步指出,所有數位內容的工作方式都相同:程式設計師將人類可讀的內容轉換為機器可讀的格式,然後再轉換回人類可讀的格式。ANI並表示,在標記化的過程中也發生同樣的事情,標記只是原始數據(raw data)所代表的數值表示(numerical representations)而已。
(二)、法庭之友建議採二步驟分析法
就使用著作權材料於AI訓練是否構成侵權,法庭之友Arul Scaria認為,法院應採取「二步驟分析法」(Two-Step Analysis)。首先,應判斷相關使用是否屬於私人/個人使用、批評/評論或時事報導等例外情況。其次,應進行公平性分析(fairness analysis),討論AI訓練機制,Scaria解釋語言模型的技術細節,描述標記化的過程,其中收集的資料(包括可能受著作權保護的內容)被轉換為數位標記。他澄清,這些模型並不是逐字保留或複製來源材料,而是識別單字之間的統計關係。法官對這此感興趣,詢問這一過程是否涉及一次性存取受著作權保護的材料,還是需要反覆引用。Scaria回應,一旦標記化就沒有必要回到原始內容,從而提出一個重要的問題 -- 這種非表達性使用是否構成侵權。
法院進一步追問這種使用,是否符合第51條的合理使用例外規定,Scaria指出印度著作權架構內建基於學習的使用規定。他引用第52條,該條允許某些非表達性使用和合理使用例外。法官再提出一個關鍵的假設:如果AI公司必須為其訓練的每個數據集支付授權費,那麼這種模式是否可行?Scaria強調,法院必須平衡著作權人的利益和技術創新,特別是LLM仍處於發展階段。並指出,ANI已經將其內容授權給其他實體,這引發人們對AI訓練的退出機制(Opt-out)是否足夠的質疑。隨後,轉向討論「錯誤資訊」(misinformation)議題,Scaria認為,限制AI存取資訊可能使問題更惡化,他主張提高透明度與開放存取,以減輕虛假敘述的擴散。
四、就向量化運作ANI主張對其內容仍擁有專屬權
針對生成式AI運作過程中,擷取資料究竟是否構成複製這個議題,已經有論者倡議將「向量嵌入」(Vector Embedding),視為不屬於著作權法中的複製。(請參閱從加拿大三件著作侵權案 -- 談生成式AI訴訟之核心爭辯)。而本案中,也許意識到與此相關的爭議,因此原告主張,即使是進行向量化的運作,就其運行過程和產生的結果,原告都認為仍然對其內容享有專屬權利。基於此論點,ANI主張其對儲存於任何媒體上的內容都擁有專屬權,AI運作之「向量化過程」(Vectorisation Process),也不是其作品的一種改編(adaptation),因為OpenAI的流程中不涉及任何創造性或技巧,因此無法創作出真正的「衍生作品」(derivative works)。根據《著作權法》第14條進行改編的權利也屬於新聞機構,因此ANI認為,以任何媒體形式儲存和發行副本的專屬權仍屬於ANI,而任何侵犯這些權利的行為,都構成第51條所規定的侵權。
五、各產業競相申請參與訴訟
就ANI對OpenAI的起訴,代表出版商的機構印度出版商聯合會(FIP)提交申請加入訴訟(intervention);沒幾天,代表多家數位媒體的數位新聞出版商協會(DNPA)也表示,該案件影響記者的生計和該國整個新聞業,已提交介入此案之參與訴訟申請,尋求成為訴訟的當事人。而印度音樂產業例如IMI(成員包括索尼音樂、環球音樂(印度)、華納音樂、Super Cassettes Industries (T-Series)、Saregama India和Zee Music)等主要寶萊塢唱片公司,亦尋求參與,因其擔心其音樂著作在AI訓練中被未經授權使用,並認為這構成侵權行為。
唱片公司聲稱,OpenAI可從網路上提取歌詞、音樂作品和錄音,可能侵犯其著作權。IMI的介入在本案中可能發揮重要作用,因其成員擁有大量受著作權保護的作品目錄,包括音訊和視聽歌曲。這些作品是其商業模式的命脈,嚴重依賴授權來確保創作者和權利人獲得公平的報酬。AI可能對這些作品進行不受監管的開發,對該行業構成生存威脅。
但德里高院負責此案的法官表示,受影響的各方必須提起自己的訴訟,並指出目前ANI提起的訴訟範圍不能再繼續擴大。然而,代表IMI的律師辯稱,該組織直接受到案件的影響,應該被允許就當前的法律問題提出自己的論點,ANI的律師請求允許回應干預申請。
六、本案之啟示 -- 法律意涵與潛在影響
針對未經授權使用受著作權保護內容,以訓練AI模型所引發訴訟糾紛,在全球各國已日益增加,本案這場法律攻防戰將為印度的AI監管,樹立重要的先例。從案件進展可見,印度在訴訟審理上雖然也面臨程序性問題(如法院管轄權),但很快就進入核心爭執部分,比起美國諸多AI侵權案例中常深陷繁瑣之程序泥淖(如被告申請「駁回原告之訴」(motion to dismiss)),印度司法實務似能迅速切入實體爭點,聚焦於著作權之複製本質與合理使用界線。
本案不僅突顯出AI技術、媒體著作權與資訊透明三者間的交錯與張力,也定義這些AI模型未來的運作規範,在AI驅動之資訊治理趨勢下,為印度建立起一指標性的發展里程碑。ANI主張其新聞內容應享有「強著作權」保護,彰顯出現實數位時代下,資料歸屬與使用界定的複雜性;而OpenAI則質疑新聞內容僅有「弱著作權」保護,並強調其使用符合產業慣例且具合法性。二造的法律攻防,清楚揭示AI應用與著作權保護交會下浮現的法律灰色地帶,使本案成為印度未來在AI監管與媒體智財保護機制的重要參考。
有鑒於目前美德英等國,尚未就生成式AI引發的糾紛做出實體判決之際,如印度能率先睿智地做出具前瞻性與法理基礎的判決,則其將對全球同類型案件產生深遠影響。面對AI應用日益普及,當前法律治理的關鍵在於,如何明確界定合法使用界線、促進資料合理共享,同時確保資訊來源清楚,以兼顧維護創作者權益與公共利益之間的平衡,形塑更健全的AI時代之法律架構。
對當前全球面對AI所引發的法律爭議,普遍陷於「科技發展快於法律規範」的困境,且訴訟實務上亦乏先例可循,更考驗各國司法體系回應能力與判斷的智慧。隨著AI技術不斷演進,圍繞在內容取得、再利用的爭議勢必更加頻繁,如何建構具前瞻性且明確之法律體系,已成為當代數位治理無法迴避的核心挑戰,本案法院如能率先判定,將成為繼中國之後,為亞洲國家提供具體的法理參考借鏡。(5502字)
[1] 「法院之友」是指雖非案件當事人,但能向法院提供相關資訊或專業知識或意見,以協助法院釐清案件中的關鍵議題的人或團體,使法院得以做出更全面而正確的裁決。
作者資訊:
陳家駿律師 台灣資訊智慧財產權協會理事長
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。
|