︿
Top

以RAG技術為主軸之著作侵權風險 談Advance Local Media v. Cohere案程序判決

瀏覽次數:129| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 陳家駿 發表於 2026年2月6日
facebook twitter wechat twitter

圖、以RAG技術為主軸之著作侵權風險 談Advance Local Media v. Cohere案程序判決

一、RAG的技術背景與定位[1]
自生成式AI大行其道以來,「檢索增強生成」(Retrieval-Augmented Generation 以下稱RAG)技術的重要性日益凸顯,然而,RAG並非取代大型語言模型(LLM),而是作為一種架構性的補充機制,以增強其即時性與可驗證性之能力。

由於主流LLM多係依賴大規模預訓練,其模型參數一旦訓練完成便趨於固定,難以即時反映之後發生的最新事件、動態資訊或特定領域內容;若要透過重新訓練或微調(fine-tuning)來更新模型本身知識,不僅運算成本高昂、消耗巨大能源,還可能衍生資料治理、版本控管及合規性等複雜議題,因此不適合短期內頻繁進行。更遑論,LLM係基於機率分布所進行之文本生成,其本身並不具備「查證」之機制,因而容易產生一般所謂之「幻覺(hallucination)」現象,即生成表面上看似合理、實則不正確或欠缺依據之內容。

正是在此背景下,RAG架構遂應運而生。其技術邏輯並非在改變或重塑LLM本身,而是在模型推理與生成內容之前,引入外部可即時更新之知識來源。系統會先就使用者所提出之指令提示,透過檢索機制(例如向量資料庫或全文檢索系統),從外部資料庫中即時擷取相關之資料片段,再將該等檢索結果作為上下文(context)提供予LLM,以輔助其生成回應。換言之,RAG乃是一種結合「資訊檢索(Retrieval)」、「增強」(Augmentation)後,再「生成內容(Generation)」之系統架構設計。

簡言之,透過此程序,RAG讓LLM根據擷取的知識來輔助生成的文本,從而有助於減少生成內容的矛盾、不一致或錯誤,並在整體上大幅提升文本的準確性與實用性,並改善使用者體驗[2]

藉由此種「檢索+生成」的協作模式,RAG得以在一定程度上降低幻覺風險,並提升答案的即時性、可驗證性與精準度,尤其適用於高度重視正確性、專業性或可追溯性的應用場景。然而,以上RAG這種技術流程本身,並不保證最終輸出結果,一定會顯示原始來源或提供明確之引用標註;而且事實上,並非所有RAG的實作方式,都會對使用者展示檢索到之原始資料內容;有些系統僅在後端使用檢索結果作為生成輔助,最終輸出仍為模型自行生成的文本,而未揭示其依據來源[3]

值得注意的是,現行各大預訓練模型的AI供應商,皆已在其系統中不同程度地採用RAG架構,但相較之下,部分業者如加拿大的AI公司Cohere,就刻意強調其RAG設計的「可溯源性」與「引用顯示」功能,主打會在回應中向使用者呈現原始資料片段、標題或來源連結,藉此提高其可信度與透明度。從技術角度觀之,這屬於RAG的一種設計選擇,而非該架構必然帶來之結果。


二、RAG與著作權風險的關鍵差異[4]
然而,正因為Cohere刻意強調其RAG架構做為產品特色,反而引發了以RAG為主軸之Advance Local Media v. Cohere案件。而這種「顯示原始資訊及其出處」的RAG實作方式,使其在法律層面上,特別是著作權與商標侵害爭議中,呈現出與傳統LLM生成模式不同的風險結構。例如在多數僅涉及LLM生成的著作侵權案件中,權利人必須舉證模型是否曾實際「使用」或「重製」其受保護作品,並證明生成內容與原作品之間具有實質相似性。

相對而言,Cohere強調其RAG系統在回應過程中,直接檢索並呈現受著作權保護之原始文本片段,甚至明確標示來源,這種宣傳固然有助於吸引客戶,但另一方面則又等同於公開揭示該系統已實際使用並再現原作相關內容。在此情形下,原告權利人就更易於指證AI工具供應商,已實施著作權法上的重製行為,得據以建立具體可查驗之指控基礎,而非僅是抽象推論。因此,從訴訟角度觀之,RAG系統反而成為權利人提供明確依據,主張被告在未經授權使用其受保護內容,進而坐實著作權之侵害。

 
三、Advance Local Media v. Cohere案程序判決
本案法院認定事實
本案為包括 Advance Local Media、Conde Nast、The Atlantic Monthly Group等在內的一群知名出版商,起訴從事企業解決方案的AI公司Cohere,指控其未經授權使用版權作品和商標來開發其LLM。該等出版商係美國及全球最大、歷史最悠久且最具重要性的新聞、雜誌與數位出版商之一。被告Cohere 則為一家加拿大公司,從事人工智慧模型之開發、營運與授權業務,其主要投資者包括Oracle、NVIDIA與Salesforce等大型企業科技公司。

Cohere的主要產品為一LLM,統稱為「Command 模型家族」(Command Family of Models)。Cohere 將Command 行銷為一種特別適合商業社群使用的「知識助理」,其設計目的在於「縮短研究與內容分析流程」。Cohere 亦將Command宣傳為可用以取得最新新聞的工具。Command的聊天介面包含基本介面,以及為較具技術背景之使用者所設計的Playground介面。該介面提供一項稱為「Under the Hood」的功能,讓使用者得以查看Command在生成回應時所依賴的具體來源。使用者亦可進一步展開「Under the Hood」,以檢視任何用於生成Command輸出內容之文件的完整副本[5]


本案原告針對關鍵之RAG的法律主張
原告主張,Cohere為訓練其 LLMs(包括Command),而複製出版商之作品。為建立訓練LLMs所需之資料集,Cohere使用網路爬蟲(web crawlers)及其他機器人程式,直接自網站複製並下載大量文本至其伺服器。但LLMs僅能基於原始訓練資料集中所包含之資訊來訓練。基於此限制,Command的一項核心功能為,該功能允許Command在生成回應時存取外部資料來源。

簡言之,被告利用RAG使Command 得以即時掌握最新資訊。Cohere 將第三方包括原告出版商之網站,作為RAG的內容來源。當RAG功能啟用時,Command會針對一般常識性、自然語言之使用者查詢,輸出重製出版商受著作權保護內容之結果。Command可能在回應中提供完整逐字之複本、相當比例之摘錄,或具替代性之摘要內容,無論使用者是否明確要求該特定作品,或僅一般性地詢問某一主題之資訊,皆可能發生上述情形。
此外,當Command將文章複本作為輸出內容提供使用者時,Cohere會先行製作該文章之複本,並將該複本納入其回應中,且透過Under the Hood功能進一步向使用者展示該文章的複本。使用者得以透過Under the Hood檢視原告作品之完整內容。原告遂基於此而主張,當RAG功能關閉時,會產生另一個法律問題。具體而言,若使用者在未使用RAG的情況下,要求Command提供某一特定文章之複本,Command「經常會產生幻覺,完全捏造所請求文章之內容」。另外,Cohere在生成及散布此類並非由原告撰寫之「幻覺文章」時,使用與出版商經註冊之商標無法區別的標識(marks)。

原告據此對Cohere提起以下請求:
1. 依《著作權法》17 U.S.C. §§ 106(1)–(3)、(5)及§ 501構成直接著作權侵害;
2. 間接(次級)著作權侵害(secondary copyright infringement);
3. 依 15 U.S.C. § 1114(1) 構成商標侵害;以及
4. 依 15 U.S.C. § 1125(a)(1)(A) 構成不實來源標示(false designation of origin 虛偽原產地)。

Cohere則依《聯邦民事訴訟規則》第12(b)(6)條,以原告未能提出可獲救濟之請求權為由,提出動議聲請駁回起訴中之第2、第3及第4請求。Cohere並另請求,於原告之直接侵權主張係基於「替代性摘要」(substitutive summaries)理論範圍內,駁回第一項請求。

本案紐約州南區地院針對動議聲請,於2025年11月13日作出程序判決(以下僅就著作權而暫不論及商標)[6]


法院就Cohere申請之駁回原告起訴動議予以駁回
基本上,要主張《聯邦民事訴訟規則》第12(b)(6)條之規定,必須以原告未能陳述可獲救濟之請求為由,因為起訴狀本來「必須包含充分之事實主張,且該等事實在被視為真實之情況下,足以『在表面上構成一項具合理可能性之救濟請求』」。否則,被告可向法院申請駁回起訴之動議(motion to dismiss claim)。

而法院於審查時,「應將所有合理之推論作有利於原告之解釋」,按起訴狀「必須包含足夠之主張,使請求權得以『由僅屬可想像(conceivable)跨越至合理可行(plausible)之界線』」,否則其起訴即應予以駁回。第12(b)(6)條「於起訴階段,並不要求原告證明其主張具有高度之可能性;其僅要求提出足夠之事實,使法院合理期待在證據開示(discovery)階段,將可發現支持該等主張真實性之證據」。

 
法院駁回Cohere關於「直接著作侵權」之動議聲請
Cohere僅就原告主張其因生成「替代性摘要」而構成直接著作權侵害之部分,申請駁回該項訴求。Cohere主張,原告之「替代性摘要」理論不能成立,理由在於Command所生成之摘要,依法並未與原告原始作品構成實質相似(substantial similarity)。Cohere抗辯其Command所產生的多數摘要,並未複製任何受保護之表達,因為Command僅是將抽象化後的事實,重新整合為全新且原創的句子。即便部分摘要確實複製原告作品中的內容,Cohere亦主張其複製程度極為有限,尚不足以構成侵權。

法院並不否認Cohere有權重新發表原告作品中所包含的基礎事實。因此,在判斷原告是否已合理主張存在實質相似性時,法院僅檢視原告在呈現該事實時所具備的原創性表達要素。法院認為適當的判斷標準在於,該複製行為是否在「量」與「質」上均已達到足以支持侵權認定之程度。就此點而言,原告已充分主張Command的輸出,在數量與品質上均與其原作品高度相似。原告指出,Command的輸出內容大量改寫、甚至逐字複製原始文章中的語句,且該等摘要「遠遠超出僅限於簡要陳述事實的範圍」,包括「直接擷取原文表達,或模仿文章的組織結構、寫作風格及標點使用方式」。

此外,原告提出75個Cohere涉嫌侵權的具體例證,其中有50個案例被主張包含對原告作品的逐字複製,其餘25個案例則顯示逐字複製與高度近似之改寫交錯存在。這與Cohere所稱Command的所有摘要在風格、語氣、篇幅與句型結構上皆與原告文章不同的說法相反,原告所提出的例證顯示,在某些情況下,Command所產生的輸出內容與原告原文幾乎完全相同。

因此,Cohere主張Command的輸出,僅在事實層面與原告作品相同之說法,已被原告所提出的指控與具體例證所推翻,因該等例證顯示Command的輸出內容,確實存在整段逐字複製原告文章的情形。法院遂拒絕駁回就原告基於「替代性摘要」(substitutive summaries)」理論提出的直接版權侵權主張。


法院駁回Cohere關於「間接著作侵權」之動議聲請
原告另主張,Cohere就其非法重製、公開展示、散布以及製作原告受著作權保護作品之衍生著作,應依三種理論負間接著作權侵權責任,包括:1. 基於實質協助之輔助侵權(contributory infringement by material contribution)、2. 基於誘導之輔助侵權(contributory infringement by inducement),以及3. 代理侵權(vicarious infringement)。

為支持其駁回原告間接侵權所主張之動議,Cohere主張:
1. 原告未能就上述三種理論中的任何一種,充分陳述請求權的基礎,因其未充分主張存在直接侵權,而直接侵權乃成立間接侵權之必要前提;
2. 原告所主張之二種幫助侵權理論均告失敗,因其未具體指稱Cohere對使用者所從事之任何特定侵權行為具有「實際知情」;
3. 基於誘導之幫助侵權理論亦不能成立,因原告僅提出空泛、結論式之誘導指控。
但法院不同意Cohere之論點,裁決如下。

A. 出版社已充分主張基礎之直接侵權行為
依Cohere之說法,原告僅提供其調查人員所取得之輸出範例,無法證明Command的一般使用者確實從事直接侵權行為,因該等範例並不反映使用者的「典型使用情形」。然而,本案中,原告已提出75個由其調查人員所取得之輸出範例,並主張該等調查人員係使用「各種符合常識、自然語言之使用者查詢方式」。原告並主張,使用者極可能以相同方式使用Command,例如,在Cohere所提供之Command免費線上示範中,Cohere甚至「預先在介面中填入要求摘要近期科技新聞的指令,藉此邀請潛在客戶使用Command來存取新聞報導。

在起訴階段,法院認為出版社之指控已屬充分。如原告所指出,使用Command進行侵權的紀錄,對第三人而言通常並不可見,因侵權行為「通常是在不公開的情況下進行」。基於此,法院實務上一再認為,原告之調查人員所進行之行為,得作為侵權主張之基礎。

在New York Times案中,法院即駁斥被告所提出的相同論點,因在起訴階段,原告只要提出超過100頁之具體範例,並主張存在廣為人知的終端使用者侵權情形即屬充分。本案法院亦採相同結論,認為原告所提出指控,連同75個涉嫌侵權之輸出範例(共125頁),已足以「引發合理期待」,使人相信在證據開示階段,將可發現更多第三人侵權之證據。

B. 出版社已充分主張Cohere對直接侵權行為具有知情
Cohere接著主張,原告所提出之二種幫助侵權理論均應遭駁回,理由在於,原告未指稱Cohere對第三人所為之任何特定侵權行為,具有「實際知情」。之前在New York Times案中,Stein法官已明確拒絕採用嚴格的「實際知情」標準,並指出第二巡迴法院並未採納第九巡迴法院所採行較高的知情門檻,本案法院在此亦得出相同結論。與New York Times案原告相同,本案原告亦主張Cohere明知其以原告作品訓練包括Command在內大型語言模型,將導致該等作品遭未經授權之展示,因其系統設計本即以此為目的。

而且原告主張,已透過在作品中標示著作權聲明、於網站載明服務條款,並透過robots.txt協議向Cohere爬蟲程式發送禁止抓取指令,明確告知其未獲授權使用其作品。此外,原告亦指稱Cohere即便在收到告知其侵權行為之停止侵權函(cease-and-desist letter)後,仍持續非法複製原告之作品。但是在起訴階段,法院認為原告所提出之指控,已足以形成一項合理且可採信之推論,認定Cohere對第三人侵權行為具有實際或推定之知情。

C. 出版社已充分主張「引誘侵權」
依2005年最高法院Metro-Goldwyn-Mayer v. Grokster案判例,被告促成侵權之意圖,可透過其對該等意圖之「明確表達」,或其所採取之積極促進侵權的具體行為來證明。如被告若透過「宣傳侵權用途」或「指導如何從事侵權」,即屬促進侵權之積極行為。

而原告已合理主張,Cohere透過將Command 宣傳為可用以取得新聞內容工具,以招攬客戶從而採取促進侵權積極行為。訴狀列舉多項Cohere推廣Command新聞功能實例。其並主張,Cohere Chat介面向消費者暗示其模型能提供最新的新聞摘要;在Command免費線上展示版本中,Cohere甚至「預先在介面中填入請求,要求系統摘要近期科技新聞,藉此邀請潛在客戶使用該模型來取得新聞內容」。因此法院認為,在起訴階段指控已充分。

Cohere則反駁稱,原告的指控不足以證明其採取「積極行為」來促成侵權,因為「僅僅將產品宣傳為可用以掌握『最新新聞』的工具,並不構成可歸責的侵權誘引」。然而,原告所提出的理論並非僅止於行銷用語,而是指稱Cohere有意設計並編程Command,使其生成並向第三人交付原告作品之複本。因此,法院認為,原告所提出之指控,已足以在起訴階段擊敗Cohere對其間接著作權侵權請求所提出之駁回動議。


小結
綜上所述,被告原來是想從訴訟技術上出奇兵,用程序判決來擊倒原告,但法院認為從程序面看,原告的主張尚屬充分,但實際上將來勝負如何,目前還未可知。只不過,被告申請駁回原告之訴,在這第一回合遭到否決,因此案子還必須審下去,而且很可能會是由陪審團而非法官來做出最終的判決。(5567字;圖1)
 


 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。