從我國唯一AI侵權之中央通訊社案 - - 著作權法刑責之再檢討

關鍵字：；；；；；；；；()；；

瀏覽次數：4454｜歡迎推文：

科技產業資訊室(iKnow) - 陳家駿、許正乾發表於 2026年6月4日

圖、從我國唯一AI侵權之中央通訊社案 - - 著作權法刑責之再檢討

一、中央社案件始末
我國司法實務上，還沒有與生成式AI訓練有關之任何訴訟案，但2025年爆發了一件涉及AI的著作侵權 -- 中央通訊社案。

據報導，被告是開源繁體中文語料集「fineweb-zhtw」的博士生志工，他看到開發者在Hugging Face開源社群平台（被稱為AI界的GitHub）釋出對話式語料集，供其他開發者使用。但有鑑於繁體中文資料佔比極低，該生便想予以填補該缺口。於是自行擷取包含網路公開文章、媒體新聞內容，經其整理成繁體中文資料集，將其公開提供予任何想用於AI訓練的人使用。

該生爰將中央通訊社（下稱中央社）的新聞內容放入該語料集中，擬以開放資料授權方式，無償公開分享繁體中文語料集。後來中央社發現其新聞內容，未經授權被納入該語料資料集，遂於2025年7月提起著作權侵害之刑事告訴，引發業界高度關注。這早已在全球引起無數爭議的法律問題，對國內AI訓練本來是個值得審視並檢討的機會，惟因刑事控訴的危險太大，雙方後來和解，以致於我國法院完全沒有機會表達對此議題的見解。

由於該案未公開，推估其或係指控：重製權侵害（將新聞資料轉入語料集）、公開傳輸問題（將資料集提供他人下載），而此案的核心法律爭點可能在於：
1.「網上抓資料」是否構成著作權法之重製侵害？
2. 語料集是否被儲存且又供公開傳輸？是否違反使用條款（Terms of Service）？
3. AI訓練是否屬於著作權法之「合理使用」？
基本上，被告可能主張：其係為研究之非商業性用途；但中央社則可能反駁：完整複製且系統性蒐集，已影響其市場授權機制而造成損害。以下先從AI運作之開源語料集談起。

二、AI運作之「開源語料集」
（一）、科學研究領域中開放資料是常態
首先，有價值的開源語料集怎麼會公開？這是因為在AI領域，價值往往不在資料內容本身，而在於模型訓練的能力、算力、微調技術（fine-tuning）。因此，公開語料常是業界一種科技文化上的慣例，而非技術上必然：

研究文化使然：在AI/機器學習領域，開放資料是常態：像Common Crawl[1]、LAION、FineWeb、ImageNet等，都是開源文化下的公共基礎設施，原因在於其需要「可再現性」（reproducibility）、促進模型的改進、學術發表要求資料透明。
FineWeb類型資料的邏輯：這類資料集通常是從Common Crawl抽取、清理、標註、再釋出，而參與者的「心態」，通常認為其只是整理公開資料。
為何會放在GitHub / HuggingFace開源平台上？因為一般GitHub 是用來放程式碼與小規模的資料集，而HuggingFace則是用來存放各種語言模型與大規模的資料集。
AI運作中包括爬蟲、清洗、去重、格式化等成本高：許多技術人員認為，既然做了不妨「天下為公」，乾脆讓大家來使用，因此公開語料在科技界的文化裡常被視為正常，能幫助研究、促進科技發展。

這些在AI領域中都是一種常態，都是標準方式。然而在法律體系裡，若語料包含未經授權的著作，整理資料本身就可能構成重製，可能有觸法之侵權疑慮。

（二）、語料集的性質：工具 v 產品
其實，語料集本身之資料蒐集，也是一個智力的成果，因此是否公開，仍取決於其定位與價值。這觸及一核心問題：語料集到底是「工具」還是「產品」？導致不同的公開策略，此大致可分為兩種類型：

基礎型語料特徵（通常會公開）：來源主要是「網路公開資料」，建立者自認只是「整理者」而非內容「創作者」，例如上述之Common Crawl、FineWeb等。這些語料集不擁有內容本身，只是提供「資料集合」作為研究工具，因此常以開源或免費形式公開，以促進學術與科技發展。
高價值語料特徵（通常不公開）：其經過資料清理與標註等繁瑣的工作程序後，即包含可對外授權、具有商業價值之內容，例如：Google內部語料、新聞媒體的授權資料、Bloomberg GPT語料等，這類語料集本身就是「產品」，具有商業競爭力並受法律授權之限制，因此通常不會對外公開，只在需付費授權環境中才能使用。

（三）、高值AI語料集通常「預設不公開」
由以上可以推得，產業界中的語料集通常預設也是「不公開」。公開只是學術或開源文化下的選擇，而非技術上的必然。從純技術角度來看，語料集本來就不需公開，也就是說：語料集可以是完全私有（private corpus），例如像Google、Meta、OpenAI等的部分資料，他們的訓練資料幾乎都不公開、也不提供下載，甚至不說明來源細節。其實有很多AI團隊已開始改變策略，例如：

只公開「處理流程」而不公開資料：例如爬蟲程式、清理方法，但不提供最終語料集。
只提供索引（index）而不是內容：例如：提供URL列表，不提供文章內容，這是法律風險較低的做法。
只釋出模型，但不公開訓練資料集：這是現在的主流趨勢，像是Llama-3、Gemma-3等開源模型，其模型公開但訓練資料集不公開。

三、本案中央社是如何發現本案
回到本案，據中央社的聲明，此案涉及的資料集為「fineweb-zhtw」，該資料集內含14萬筆來自中央社、時間橫跨2011年至2021年的新聞內容，且未經授權。而本案的關鍵點是：中央社之所以能發現自家新聞被納入AI語料集，係由於「語料集公開釋出」這個破口。因為像 FineWeb 類型的繁體中文語料，往往是開源或可下載的，這意味著權利人可以直接透過 HuggingFace、GitHub 等平台，檢視或下載資料集。一旦資料是公開的，權利人就能自行檢索，這使得侵權檢測變得相對容易。

更進一步推敲，中央社也可能是透過關鍵字與句子比對，因為新聞稿件通常具有固定寫作格式和高辨識度的語句，中央社只要搜尋特定新聞標題或獨特句型，就能發現與自家新聞幾乎完全一致的文本。這種比對方法在新聞領域非常有效，因為新聞語言的結構化特徵，使得相似度檢測更為精準。另一個可能的線索是「資料來源標記」。部分語料集會保留URL或來源之元數據（source metadata）。舉例來說，若資料集中出現「cna.com.tw」或與中央社相關的連結，那這幾乎就是直接證據，立即能確認資料來源。

此外，實務上也可能透過「AI模型輸出反查」的輔助，來判斷侵權檢測，其主要分為兩類：
第一類：提示詞或系統指令反推，即由模型輸出逆向推測其隱藏提示；PILS（Prompt Inversion from Logprob Sequences）即屬此類，在特定設定下可把精確恢復率[2]由17%提升至60%。

第二類：訓練資料溯源或記憶檢測，即檢驗輸出是否與訓練資料中的既有文本高度對應；像OLMoTrace[3]這類模型輸出訓練資料追溯工具，可將模型生成文字中的部分片段，回溯比對至其訓練語料中，可能對應的原始文件來源，而資訊同位素（Information Isotopes）是一種訓練資料使用鑑識框架，透過在目標資料中設定可追蹤的資訊特徵，並檢測其是否出現在模型生成內容中，來推論該資料是否曾被納入模型訓練。

如用以上方式去測試本案之某些AI模型，發現AI模型能生成高度接近自家新聞的內容，進而反推訓練資料來源，不過該案中使用這種方式的可能性相對低，因為模型輸出往往是間接跡象推論，難以作為確鑿之直接證據。綜上所述，根據各種可能性分析，本案較合理的推測是，中央社直接在公開語料集中檢索並比對後，才發現自家新聞被收錄。

四、中央社可能掌握的證據
就其新聞內容遭人納入語料集，中央社究竟可能掌握哪些證據？這當然是整起案件中很關鍵的一點。目前雖無公開資料揭露完整細節，但從媒體報導與AI語料運作方式，或可合理推測出中央社可能掌握的證據。

首先，最直接的證據就是「逐字相同或高度近似」的文本。如果語料集中出現中央社之完整新聞稿、或是與新聞高度相似版本（而非僅是摘要而已）。這種情況下證據力頗強，因其能清楚顯示原始內容未經授權地被複製。其次，如果中央社能證明其新聞被系統性收錄，例如成千上萬篇大量新聞出現在語料集中，則更能強化被告「故意系統性重製」的法律主張，因大規模蒐集與寥寥數篇偶然收錄，在法律效果上有明顯差異。

再者，若該語料集是可公開下載或透過API提供存取，則可能涉及著作權法上之公開傳輸權的侵害，這將會使責任從「單純重製」，躍升為「對外發散」的傳輸共享（making available on line），法律後果也將更為嚴峻。開源平台通常會保留時間戳與版本紀錄，例如開發者常慣用的GitHub的提交（commit）記錄、上架時間、更新歷史等。中央社若能掌握這些紀錄，就能證明資料何時被放上去、由誰上傳，進而能鎖定所對應之侵害「行為人」。

最後，若中央社進一步掌握來源程式碼或爬蟲規則，尤其是針對新聞網站的抓取設定，將成為更具殺傷力的證據。因為這不僅顯示技術行為本身，更能證明行為人之「主觀故意」，即被告有意識地針對新聞內容進行收集。

五、本案關鍵之技術與法律交叉點 -- 開源 v. 責任
綜上，正由於系爭語料集就是開源可下載，推測中央社才可能透過Hugging Face或GitHub等平台查看，遂發現其中出現自家新聞連結（例如語料集中出現中央社連結之證據），基於將大量相關的新聞內容放到語料集中，這在構成要件上已屬於複製行為。而AI訓練的關鍵法律風險不在模型，而在「語料集本身是否可被檢索複製與傳播」。

本案技術上也揭露了一個更深層之本質問題：中央社之所以能「逮個正著」，原因即在於該語料集是「明文可讀的文本資料」；反之，如語料集已經被做嵌入（embedding，即語料集被處理成人類難以看懂之高維度的數學向量），那舉證難度就會增高。準此，中央社之所以能提告，關鍵不在AI技術本身，而在於：第一，語料集是公開可下載；第二，內容可直接比對；第三，文本高度還原（即接近原文）。

換句話說：中央社是「抓到一個未經授權的新聞資料庫」。但如果語料集未公開，而是只存在於模型權重之中，中央社是否還能取得充分證據提告，將是一個更具挑戰性的問題。這個案件「表面上」，是涉及資料庫重製與公開傳輸之侵權，但「本質上」仍只是AI訓練的一部分，只是停在「資料準備階段」就先出師未捷。

要理解這個交叉點，可將AI訓練過程拆解為三個階段：
第一，資料爬取與語料建立（scraping / corpus building），即將新聞蒐集下來並儲存成為語料集，這一步外觀上就已經是「重製行為」；
第二，模型訓練（training），將語料集餵進語言模型並轉換成權重（weights），這才是一般常說的「AI訓練」；
第三，模型輸出（generation），AI生成文字時是否重現原文。

理論上，以上每個階段都可能涉及侵權，而本案的爭議，主要發生在第一階段的「資料蒐集與語料建立」。更精確地說，當新聞被抓入至語料集並公開散布於GitHub或HuggingFace時，重製的基本構成要件就已成立（至於是否侵權仍需往下判斷審酌）。這些要素使得案件不僅是單純的語料集侵權，也凸顯出AI訓練過程中資料準備階段的法律風險。

六、本案不算是真正AI訓練之著作權紛爭
嚴格來說，本案不算是AI訓練所導致的著作權紛爭，因為被告僅是「複製貼上」而尚未進入真正的AI訓練階段。或者說，本案其實是「語料庫侵權」，但該語料庫就被告之主觀上，本來或許只是為了「AI訓練的一部分」（但並非為自己而是「利他」），所以也並非與AI訓練無關，只是還沒來得及進入AI訓練階段就被告。因此，本案充其量僅是「AI訓練」之前置階段，在進入AI訓練之前，就已在語料集階段被控訴，因此無緣真正呈現出AI的爭議問題。

進而言之，如果被告不公開語料集而實際做出AI模型，則「語料庫侵權」之舉證即有待考驗，那案件爭點除了抓取之重製外，還將延伸到：模型產出是否重現中央社之著作內容、其訓練（包括input與output）是否構成合理使用等議題，而這些正是美國現在打的眾多AI侵權訴訟官司。惟本案沒走到那一步，因為被告已先把訓練資料「本體」重製並公開，而憑著其單純有使用素材之「主觀意圖」，尚無從檢視其訓練素材是否構成合理使用，遑論其是否具有公共利益之轉化價值。

抑有甚者，本案被告有機會主張其係為了研究目的所做之重製嗎？誠然，著作權法上固有所謂之因「學術研究用途」的「合理使用」，但該規範就使用幅度上必須在「合理範圍內」之限制[4]，而AI訓練動輒需要海量資料之複製，因此在我國現行體制下抗辯「合理使用」可能難度頗高。無論如何，這位博士生縱使出於善意，最終或需付出若干代價才能換得和解（條件未公開），但這已明確顯示：即便非商業目的之資料整理與分享，在現行法制下仍有觸法風險。

此案凸顯的是，台灣著作權刑事處罰的強大威嚇影響，或將導致學術研究者自我審查、開源語料發展隨之受阻、本土AI模型的發展成本提高等。而由此更彰顯，光是訓練前爬取資料的階段，行為人就得承受刑事追訴的壓力，這明確指出：即便非商業目的之資料整理與分享，在我國現行法制下仍有被告之風險，遑論台灣想發展在地語料集的生成式AI、實現主權AI的願景了。

七、美中二國生成式AI司法發展趨勢 -- 定位於民事責任
就侵害之本質而言，企業之間的著作權爭議，原本屬於商業領域中私權之利益糾葛。在此脈絡下，吾人可比較美中二國之實務運作，以資借鑑。彼等司法實務上，幾乎罕見兩家公司在刑事法庭上，對簿公堂之案例。在美國，也一樣有著作侵權刑責[5]，惟迄今已有近百件由著作權人，對生成式AI開發者提起之侵權訴訟，所有這些被告之AI大廠，如OpenAI、Meta、Google、Anthropic、Midjourney、Stability AI、Perplexity AI與Grok的XAI等，沒有一家事先取得完整且合法的授權，多半都是「先斬」（不告而取）「後奏」，被告了才主張其係「轉化性合理使用」。

然而，諷刺的是，正因為這群AI巨頭「不約而同」、毫不避諱地在未取得授權下，將他人作品用作訓練，但這些案件全都是民事訴訟範疇，實務上之核心爭點，均環繞於合理使用（fair use）抗辯之成立與否，未曾有任何一家因此被追究刑事責任。這明確顯示在商場中之著作權侵害爭議，本質上是透過民事損害賠償做為解決之道。

而在中國，其司法發展趨勢亦呈現類似樣貌。其法院於生成式AI相關之侵權爭議，絕大多數亦以民事訴訟處理。自生成式AI技術普及以來，中國法院受理之AI相關著作權爭議案件，涉訓練資料取用、AI生成物侵權、平台責任等類型者，以近幾年的案例觀之，亦大多以民事損害賠償為請求基礎，少見刑事追訴之發動。目前已公開之生成式AI相關著作權案例觀察，就一般人或企業間之著作權商業爭議，中國司法實務仍以民事責任體系作為主要處理機制，刑事追訴案件相對少見。司法實務亦傾向將未達大規模盜版程度之著作權爭議，定位為民事問題處理[6]。

八、著作權法之刑責規範之再定位
我國著作權法所設之刑事責任，向為學術與實務界高度爭議之課題。從比較法之觀點，許多國家之著作權法雖亦設有刑事處罰規定，但司法實務上，刑事制裁之適用，通常被審慎限縮於特定之侵害態樣，例如傳統市場中有形盜版商品之販賣，或網路上惡意侵害關於電影、音樂等著作之盜版網站。此類違法行為，因具備大規模、營利性，且對著作權人權益造成重大損害，將其納入刑事處罰範疇，對其課予刑責誠屬無可厚非。

這些法制之走向，與我國當前實務中，企業界得將對方公司負責人或經手處理者訴諸刑事追訴之情況，形成鮮明對比。而此種制度上落差，與當代成熟商業社會所應有之法治面貌有所扞格。換言之，動輒以刑事制裁介入商業糾紛，在法律政策上不僅可能導致「刑法肥大症」——刑罰規範過度擴張而失其最後手段性——更易於助長「以刑逼民」的怪現象：競爭者以刑事告訴為手段壓制，迫使對方為避免刑事追訴風險，而及早支付賠償以達成和解。此種潛規則所造成之「寒蟬效應」（chilling effect），對健全之市場競爭秩序形成實質干擾，實有重新深入檢討之必要。

九、我國著作權法刑事責任之法制檢討
誠然，針對具規模性、營利性之盜版行為（例如以盜版市場或網上直接取代原作市場的惡意侵權），課以刑事處罰，係為履行TRIPS協定第61條所定「應對具有商業規模之著作權盜版規定刑事程序」之國際義務，殊屬合理。然而，企業間因商業上所生之AI相關著作權爭議，其侵權態樣與傳統盜版顯有不同，是否能一體適用刑法管制，甚有商榷之餘地。過度擴張刑事處罰之適用範圍，不僅可能牴觸刑法「比例原則」下之「最後手段性」及「刑法謙抑原則」，更可能導致司法資源不當配置，對新興產業之創新發展形成非預期之制度障礙。

綜上所述，我國著作權法刑事責任之適用，應回歸刑法核心價值與民法之私權自治精神，將刑事處罰妥適地限縮於大規模、惡意且以營利為目的之盜版案件，殊有必要；但針對商業社會所生之著作權爭議，則應回歸民事損害賠償為主要救濟途徑才是正辦，以避免刑法過度介入而干預市場秩序。

事實上，我國主管機關多年前曾嘗試推動相關修法，擬將刑事處罰限縮於大規模盜版之情形，惟最終因諸多因素未能完成立法。此一未竟之修法工程，在當今產業快速發展、新興爭議層出不窮之背景下，實有重新審視並加速推動之必要，以使著作權法制與時俱進，兼顧產業創新發展之需求。

十、小結
本案被告之博士生，並非一般具有商業利益衝突之競爭廠商。若就其行為動輒以刑事追訴相逼，或已背離前述主流國家之法制趨向。本文認為，該博士生之侵害行為（若經認定成立），其法律效果應儘量限於該行為對中央社所造成之損害，以一般民事損害賠償來處理即可。然而，目前現實情況卻是：權利人一旦提起刑事告訴，就可有效壓制並能迅速迫使被告達成和解。此種法制下之威嚇效果，固有一定之功能，然實非當代著作權法治政策下所應秉持之理念。

總之，我國在政策上，縱若暫不採納日本《著作權法》第30條之4，這種較為寬廣的重製責任豁免的立法例，至少也應考慮引介歐盟「文字與資料探勘」（Text and Data Mining, TDM）相關法制 (請參閱因應生成式AI我國應修改著作權法嗎？ -- 以美國、日本與歐盟模式為例)，針對科學研究目的之利用給予豁免（須特別強調者，此一豁免範圍不應包括生成式AI，因其本質上係TDM下游之另一應用途徑，二者在技術與政策層面上不宜等量齊觀）。

再不濟，退而求其次，也應考量為AI訓練法制上可能之鬆綁。基於此，針對生成式AI訓練所引發之著作權爭議，可考慮參考《無人載具科技創新實驗條例》之規範，引入「AI著作權沙盒」機制，在一定條件和範圍內，得暫時豁免刑責。(7888字；圖1)

[1] Common Crawl已成為當今生成式AI最重要的訓練資料來源之一，像是OpenAI的ChatGPT、Google的Gemini、Meta的Llama等大語言模型，其中有很大一部分的訓練資料來源，都是來自於Common Crawl。
[2] 研究者拿一批原本隱藏的提示指令，讓攻擊方法去反推；只有在反推出來的提示指令與原提示指令完全一致（通常是逐個token對上，不只是意思相近）時，才算成功一次。最後用「成功次數 ÷ 全部測試次數」得到精確恢復率。
[3] OLMoTrace是2025年公開的系統，其用途為把語言模型產生的某段輸出後，再回頭對照到該模型的訓練語料中，找出可能對應的原始文本片段與文件來源。

[4] 著作權法第52條規定：為報導、評論、教學、研究或其他正當目的之必要，在「合理範圍內」，得引用已公開發表之著作。

[5] 美國著作權法§ 506(a)(1)(A)~(C)規定：構成刑事責任的著作權侵害，該行為人故意侵害著作權：係為獲取商業利益或私人經濟利益（for purposes of commercial advantage or private financial gain），在任何180天期間內，透過複製或散佈（包括透過電子方式）一份或多份受版權保護作品的副本或錄音製品，且這些作品的總零售價值超過1000美元，且行為人明知或應知其將用於商業發行。

[6] 「著作權侵權行為之規制，中國法制中呈現民事賠償、行政處罰、刑事制裁階梯式遞進之結。刑法作為最嚴厲之法律制裁手段，其適用應以公共利益受損為前提。依2025年最高人民法院、最高人民檢察院司法解釋，侵犯著作權罪之成立，須具備未經權利人許可實施法定侵權行為，並達到法定數額或情節嚴重標準。違法所得、侵權規模、營利性質及社會危害程度等因素，均為區分一般民事侵權與刑事犯罪之重要判斷基準。

作者資訊：

陳家駿台灣資訊智慧財產權協會理事長
許正乾因子數據股份有限公司共同創辦人

參考資料：
和解案後，未解的台灣主權AI語料困局：開發者和內容方能否終結授權衝突？報導者，2026/3/23
Auditing unauthorized training data from AI generated content using information isotopes. Nature Communications, 2026/2/21
Going beyond open data – increasing transparency and trust in language models with OLMoTrace. Ai2, 2025/4/9
Unclear legal landscape for AI spawns licensing as US sees 100 copyright cases. MLex, 2026/4/8
Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes. arXiv, 2025/3/24
Supreme People's Court Judicial Interpretation of Criminal Cases of Intellectual Property Rights infringement. Lexology, 2025/4/6
著作權vs.開源：發展生成式AI在台灣正面臨法制撞牆期。TechNews科技新報，2025/7/25
讓AI更懂繁中，博士生分享資料集險被告？中央社版權案吵什麼？遠見，2025/7/17
因為14萬筆AI語料訓練資料，中央社提告台大生！AI訓練在台灣遇到什麼難題？數位時代，2025/7/9
社論--積極打造主權AI訓練語料庫。人間福報，2025/7/20
14萬筆新聞未經授權遭開源分享《中央社》提告。自由時報，2025/7/7
著作權犯罪的界定及其司法適用 ——基於最新智慧財產權刑事司法解釋的思考。中國知識產權資訊網，2025/12/12
AI並非侵權“擋箭牌”。北京市人民政府，20206/4
研究员破解AI聊天机器人训练数据来源之谜。至頂網，2025/11/24

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------