︿
Top

從我國唯一AI侵權之中央通訊社案 - - 著作權法刑責之再檢討

瀏覽次數:174| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 陳家駿、許正乾 發表於 2026年6月4日
facebook twitter wechat twitter

圖、從我國唯一AI侵權之中央通訊社案 - - 著作權法刑責之再檢討

一、中央社案件始末
我國司法實務上,還沒有與生成式AI訓練有關之任何訴訟案,但2025年爆發了一件涉及AI的著作侵權 -- 中央通訊社案。

據報導,被告是開源繁體中文語料集「fineweb-zhtw」的博士生志工,他看到開發者在Hugging Face開源社群平台(被稱為AI界的GitHub)釋出對話式語料集,供其他開發者使用。但有鑑於繁體中文資料佔比極低,該生便想予以填補該缺口。於是自行擷取包含網路公開文章、媒體新聞內容,經其整理成繁體中文資料集,將其公開提供予任何想用於AI訓練的人使用。

該生爰將中央通訊社(下稱中央社)的新聞內容放入該語料集中,擬以開放資料授權方式,無償公開分享繁體中文語料集。後來中央社發現其新聞內容,未經授權被納入該語料資料集,遂於2025年7月提起著作權侵害之刑事告訴,引發業界高度關注。這早已在全球引起無數爭議的法律問題,對國內AI訓練本來是個值得審視並檢討的機會,惟因刑事控訴的危險太大,雙方後來和解,以致於我國法院完全沒有機會表達對此議題的見解。

由於該案未公開,推估其或係指控:重製權侵害(將新聞資料轉入語料集)、公開傳輸問題(將資料集提供他人下載),而此案的核心法律爭點可能在於:
1.「網上抓資料」是否構成著作權法之重製侵害?
2. 語料集是否被儲存且又供公開傳輸?是否違反使用條款(Terms of Service)?
3. AI訓練是否屬於著作權法之「合理使用」?
基本上,被告可能主張:其係為研究之非商業性用途;但中央社則可能反駁:完整複製且系統性蒐集,已影響其市場授權機制而造成損害。以下先從AI運作之開源語料集談起。


二、AI運作之「開源語料集」
(一)、科學研究領域中開放資料是常態
首先,有價值的開源語料集怎麼會公開?這是因為在AI領域,價值往往不在資料內容本身,而在於模型訓練的能力、算力、微調技術(fine-tuning)。因此,公開語料常是業界一種科技文化上的慣例,而非技術上必然:
  1. 研究文化使然:在AI/機器學習領域,開放資料是常態:像Common Crawl[1]、LAION、FineWeb、ImageNet等,都是開源文化下的公共基礎設施,原因在於其需要「可再現性」(reproducibility)、促進模型的改進、學術發表要求資料透明。
  2. FineWeb類型資料的邏輯:這類資料集通常是從Common Crawl抽取、清理、標註、再釋出,而參與者的「心態」,通常認為其只是整理公開資料。
  3. 為何會放在GitHub / HuggingFace開源平台上?因為一般GitHub 是用來放程式碼與小規模的資料集,而HuggingFace則是用來存放各種語言模型與大規模的資料集。
  4. AI運作中包括爬蟲、清洗、去重、格式化等成本高:許多技術人員認為,既然做了不妨「天下為公」,乾脆讓大家來使用,因此公開語料在科技界的文化裡常被視為正常,能幫助研究、促進科技發展。
這些在AI領域中都是一種常態,都是標準方式。然而在法律體系裡,若語料包含未經授權的著作,整理資料本身就可能構成重製,可能有觸法之侵權疑慮。

(二)、語料集的性質:工具 v 產品
其實,語料集本身之資料蒐集,也是一個智力的成果,因此是否公開,仍取決於其定位與價值。這觸及一核心問題:語料集到底是「工具」還是「產品」?導致不同的公開策略,此大致可分為兩種類型:
  1. 基礎型語料特徵(通常會公開):來源主要是「網路公開資料」,建立者自認只是「整理者」而非內容「創作者」,例如上述之Common Crawl、FineWeb等。這些語料集不擁有內容本身,只是提供「資料集合」作為研究工具,因此常以開源或免費形式公開,以促進學術與科技發展。
  2. 高價值語料特徵(通常不公開):其經過資料清理與標註等繁瑣的工作程序後,即包含可對外授權、具有商業價值之內容,例如:Google內部語料、新聞媒體的授權資料、Bloomberg GPT語料等,這類語料集本身就是「產品」,具有商業競爭力並受法律授權之限制,因此通常不會對外公開,只在需付費授權環境中才能使用。
 
(三)、高值AI語料集通常「預設不公開」
由以上可以推得,產業界中的語料集通常預設也是「不公開」。公開只是學術或開源文化下的選擇,而非技術上的必然。從純技術角度來看,語料集本來就不需公開,也就是說:語料集可以是完全私有(private corpus),例如像Google、Meta、OpenAI等的部分資料,他們的訓練資料幾乎都不公開、也不提供下載,甚至不說明來源細節。其實有很多AI團隊已開始改變策略,例如:
  1. 只公開「處理流程」而不公開資料:例如爬蟲程式、清理方法,但不提供最終語料集。
  2. 只提供索引(index)而不是內容:例如:提供URL列表,不提供文章內容,這是法律風險較低的做法。
  3. 只釋出模型,但不公開訓練資料集:這是現在的主流趨勢,像是Llama-3、Gemma-3等開源模型,其模型公開但訓練資料集不公開。

三、本案中央社是如何發現本案
回到本案,據中央社的聲明,此案涉及的資料集為「fineweb-zhtw」,該資料集內含14萬筆來自中央社、時間橫跨2011年至2021年的新聞內容,且未經授權。而本案的關鍵點是:中央社之所以能發現自家新聞被納入AI語料集,係由於「語料集公開釋出」這個破口。因為像 FineWeb 類型的繁體中文語料,往往是開源或可下載的,這意味著權利人可以直接透過 HuggingFace、GitHub 等平台,檢視或下載資料集。一旦資料是公開的,權利人就能自行檢索,這使得侵權檢測變得相對容易。

更進一步推敲,中央社也可能是透過關鍵字與句子比對,因為新聞稿件通常具有固定寫作格式和高辨識度的語句,中央社只要搜尋特定新聞標題或獨特句型,就能發現與自家新聞幾乎完全一致的文本。這種比對方法在新聞領域非常有效,因為新聞語言的結構化特徵,使得相似度檢測更為精準。另一個可能的線索是「資料來源標記」。部分語料集會保留URL或來源之元數據(source metadata)。舉例來說,若資料集中出現「cna.com.tw」或與中央社相關的連結,那這幾乎就是直接證據,立即能確認資料來源。

此外,實務上也可能透過「AI模型輸出反查」的輔助,來判斷侵權檢測,其主要分為兩類:
第一類:提示詞或系統指令反推,即由模型輸出逆向推測其隱藏提示;PILS(Prompt Inversion from Logprob Sequences)即屬此類,在特定設定下可把精確恢復率[2]由17%提升至60%。
第二類:訓練資料溯源或記憶檢測,即檢驗輸出是否與訓練資料中的既有文本高度對應;像OLMoTrace[3]這類模型輸出訓練資料追溯工具,可將模型生成文字中的部分片段,回溯比對至其訓練語料中,可能對應的原始文件來源,而資訊同位素(Information Isotopes)是一種訓練資料使用鑑識框架,透過在目標資料中設定可追蹤的資訊特徵,並檢測其是否出現在模型生成內容中,來推論該資料是否曾被納入模型訓練。

如用以上方式去測試本案之某些AI模型,發現AI模型能生成高度接近自家新聞的內容,進而反推訓練資料來源,不過該案中使用這種方式的可能性相對低,因為模型輸出往往是間接跡象推論,難以作為確鑿之直接證據。綜上所述,根據各種可能性分析,本案較合理的推測是,中央社直接在公開語料集中檢索並比對後,才發現自家新聞被收錄。


四、中央社可能掌握的證據
就其新聞內容遭人納入語料集,中央社究竟可能掌握哪些證據?這當然是整起案件中很關鍵的一點。目前雖無公開資料揭露完整細節,但從媒體報導與AI語料運作方式,或可合理推測出中央社可能掌握的證據。

首先,最直接的證據就是「逐字相同或高度近似」的文本。如果語料集中出現中央社之完整新聞稿、或是與新聞高度相似版本(而非僅是摘要而已)。這種情況下證據力頗強,因其能清楚顯示原始內容未經授權地被複製。其次,如果中央社能證明其新聞被系統性收錄,例如成千上萬篇大量新聞出現在語料集中,則更能強化被告「故意系統性重製」的法律主張,因大規模蒐集與寥寥數篇偶然收錄,在法律效果上有明顯差異。

再者,若該語料集是可公開下載或透過API提供存取,則可能涉及著作權法上之公開傳輸權的侵害,這將會使責任從「單純重製」,躍升為「對外發散」的傳輸共享(making available on line),法律後果也將更為嚴峻。開源平台通常會保留時間戳與版本紀錄,例如開發者常慣用的GitHub的提交(commit)記錄、上架時間、更新歷史等。中央社若能掌握這些紀錄,就能證明資料何時被放上去、由誰上傳,進而能鎖定所對應之侵害「行為人」。

最後,若中央社進一步掌握來源程式碼或爬蟲規則,尤其是針對新聞網站的抓取設定,將成為更具殺傷力的證據。因為這不僅顯示技術行為本身,更能證明行為人之「主觀故意」,即被告有意識地針對新聞內容進行收集。
 
五、本案關鍵之技術與法律交叉點 -- 開源 v. 責任
綜上,正由於系爭語料集就是開源可下載,推測中央社才可能透過Hugging Face或GitHub等平台查看,遂發現其中出現自家新聞連結(例如語料集中出現中央社連結之證據),基於將大量相關的新聞內容放到語料集中,這在構成要件上已屬於複製行為。而AI訓練的關鍵法律風險不在模型,而在「語料集本身是否可被檢索複製與傳播」。

本案技術上也揭露了一個更深層之本質問題:中央社之所以能「逮個正著」,原因即在於該語料集是「明文可讀的文本資料」;反之,如語料集已經被做嵌入(embedding,即語料集被處理成人類難以看懂之高維度的數學向量),那舉證難度就會增高。準此,中央社之所以能提告,關鍵不在AI技術本身,而在於:第一,語料集是公開可下載;第二,內容可直接比對;第三,文本高度還原(即接近原文)。

換句話說:中央社是「抓到一個未經授權的新聞資料庫」。但如果語料集未公開,而是只存在於模型權重之中,中央社是否還能取得充分證據提告,將是一個更具挑戰性的問題。這個案件「表面上」,是涉及資料庫重製與公開傳輸之侵權,但「本質上」仍只是AI訓練的一部分,只是停在「資料準備階段」就先出師未捷。

要理解這個交叉點,可將AI訓練過程拆解為三個階段:
第一,資料爬取與語料建立(scraping / corpus building),即將新聞蒐集下來並儲存成為語料集,這一步外觀上就已經是「重製行為」;
第二,模型訓練(training),將語料集餵進語言模型並轉換成權重(weights),這才是一般常說的「AI訓練」;
第三,模型輸出(generation),AI生成文字時是否重現原文。

理論上,以上每個階段都可能涉及侵權,而本案的爭議,主要發生在第一階段的「資料蒐集與語料建立」。更精確地說,當新聞被抓入至語料集並公開散布於GitHub或HuggingFace時,重製的基本構成要件就已成立(至於是否侵權仍需往下判斷審酌)。這些要素使得案件不僅是單純的語料集侵權,也凸顯出AI訓練過程中資料準備階段的法律風險。


六、本案不算是真正AI訓練之著作權紛爭
嚴格來說,本案不算是AI訓練所導致的著作權紛爭,因為被告僅是「複製貼上」而尚未進入真正的AI訓練階段。或者說,本案其實是「語料庫侵權」,但該語料庫就被告之主觀上,本來或許只是為了「AI訓練的一部分」(但並非為自己而是「利他」),所以也並非與AI訓練無關,只是還沒來得及進入AI訓練階段就被告。因此,本案充其量僅是「AI訓練」之前置階段,在進入AI訓練之前,就已在語料集階段被控訴,因此無緣真正呈現出AI的爭議問題。

進而言之,如果被告不公開語料集而實際做出AI模型,則「語料庫侵權」之舉證即有待考驗,那案件爭點除了抓取之重製外,還將延伸到:模型產出是否重現中央社之著作內容、其訓練(包括input與output)是否構成合理使用等議題,而這些正是美國現在打的眾多AI侵權訴訟官司。惟本案沒走到那一步,因為被告已先把訓練資料「本體」重製並公開,而憑著其單純有使用素材之「主觀意圖」,尚無從檢視其訓練素材是否構成合理使用,遑論其是否具有公共利益之轉化價值。

抑有甚者,本案被告有機會主張其係為了研究目的所做之重製嗎?誠然,著作權法上固有所謂之因「學術研究用途」的「合理使用」,但該規範就使用幅度上必須在「合理範圍內」之限制[4],而AI訓練動輒需要海量資料之複製,因此在我國現行體制下抗辯「合理使用」可能難度頗高。無論如何,這位博士生縱使出於善意,最終或需付出若干代價才能換得和解(條件未公開),但這已明確顯示:即便非商業目的之資料整理與分享,在現行法制下仍有觸法風險。

此案凸顯的是,台灣著作權刑事處罰的強大威嚇影響,或將導致學術研究者自我審查、開源語料發展隨之受阻、本土AI模型的發展成本提高等。而由此更彰顯,光是訓練前爬取資料的階段,行為人就得承受刑事追訴的壓力,這明確指出:即便非商業目的之資料整理與分享,在我國現行法制下仍有被告之風險,遑論台灣想發展在地語料集的生成式AI、實現主權AI的願景了。


七、美中二國生成式AI司法發展趨勢 -- 定位於民事責任
就侵害之本質而言,企業之間的著作權爭議,原本屬於商業領域中私權之利益糾葛。在此脈絡下,吾人可比較美中二國之實務運作,以資借鑑。彼等司法實務上,幾乎罕見兩家公司在刑事法庭上,對簿公堂之案例。在美國,也一樣有著作侵權刑責[5],惟迄今已有近百件由著作權人,對生成式AI開發者提起之侵權訴訟,所有這些被告之AI大廠,如OpenAI、Meta、Google、Anthropic、Midjourney、Stability AI、Perplexity AI與Grok的XAI等,沒有一家事先取得完整且合法的授權,多半都是「先斬」(不告而取)「後奏」,被告了才主張其係「轉化性合理使用」。
 
然而,諷刺的是,正因為這群AI巨頭「不約而同」、毫不避諱地在未取得授權下,將他人作品用作訓練,但這些案件全都是民事訴訟範疇,實務上之核心爭點,均環繞於合理使用(fair use)抗辯之成立與否,未曾有任何一家因此被追究刑事責任。這明確顯示在商場中之著作權侵害爭議,本質上是透過民事損害賠償做為解決之道。

而在中國,其司法發展趨勢亦呈現類似樣貌。其法院於生成式AI相關之侵權爭議,絕大多數亦以民事訴訟處理。自生成式AI技術普及以來,中國法院受理之AI相關著作權爭議案件,涉訓練資料取用、AI生成物侵權、平台責任等類型者,以近幾年的案例觀之,亦大多以民事損害賠償為請求基礎,少見刑事追訴之發動。目前已公開之生成式AI相關著作權案例觀察,就一般人或企業間之著作權商業爭議,中國司法實務仍以民事責任體系作為主要處理機制,刑事追訴案件相對少見。司法實務亦傾向將未達大規模盜版程度之著作權爭議,定位為民事問題處理[6]


八、著作權法之刑責規範之再定位
我國著作權法所設之刑事責任,向為學術與實務界高度爭議之課題。從比較法之觀點,許多國家之著作權法雖亦設有刑事處罰規定,但司法實務上,刑事制裁之適用,通常被審慎限縮於特定之侵害態樣,例如傳統市場中有形盜版商品之販賣,或網路上惡意侵害關於電影、音樂等著作之盜版網站。此類違法行為,因具備大規模、營利性,且對著作權人權益造成重大損害,將其納入刑事處罰範疇,對其課予刑責誠屬無可厚非。

這些法制之走向,與我國當前實務中,企業界得將對方公司負責人或經手處理者訴諸刑事追訴之情況,形成鮮明對比。而此種制度上落差,與當代成熟商業社會所應有之法治面貌有所扞格。換言之,動輒以刑事制裁介入商業糾紛,在法律政策上不僅可能導致「刑法肥大症」——刑罰規範過度擴張而失其最後手段性——更易於助長「以刑逼民」的怪現象:競爭者以刑事告訴為手段壓制,迫使對方為避免刑事追訴風險,而及早支付賠償以達成和解。此種潛規則所造成之「寒蟬效應」(chilling effect),對健全之市場競爭秩序形成實質干擾,實有重新深入檢討之必要。
 
九、我國著作權法刑事責任之法制檢討
誠然,針對具規模性、營利性之盜版行為(例如以盜版市場或網上直接取代原作市場的惡意侵權),課以刑事處罰,係為履行TRIPS協定第61條所定「應對具有商業規模之著作權盜版規定刑事程序」之國際義務,殊屬合理。然而,企業間因商業上所生之AI相關著作權爭議,其侵權態樣與傳統盜版顯有不同,是否能一體適用刑法管制,甚有商榷之餘地。過度擴張刑事處罰之適用範圍,不僅可能牴觸刑法「比例原則」下之「最後手段性」及「刑法謙抑原則」,更可能導致司法資源不當配置,對新興產業之創新發展形成非預期之制度障礙。

綜上所述,我國著作權法刑事責任之適用,應回歸刑法核心價值與民法之私權自治精神,將刑事處罰妥適地限縮於大規模、惡意且以營利為目的之盜版案件,殊有必要;但針對商業社會所生之著作權爭議,則應回歸民事損害賠償為主要救濟途徑才是正辦,以避免刑法過度介入而干預市場秩序。

事實上,我國主管機關多年前曾嘗試推動相關修法,擬將刑事處罰限縮於大規模盜版之情形,惟最終因諸多因素未能完成立法。此一未竟之修法工程,在當今產業快速發展、新興爭議層出不窮之背景下,實有重新審視並加速推動之必要,以使著作權法制與時俱進,兼顧產業創新發展之需求。


十、小結
本案被告之博士生,並非一般具有商業利益衝突之競爭廠商。若就其行為動輒以刑事追訴相逼,或已背離前述主流國家之法制趨向。本文認為,該博士生之侵害行為(若經認定成立),其法律效果應儘量限於該行為對中央社所造成之損害,以一般民事損害賠償來處理即可。然而,目前現實情況卻是:權利人一旦提起刑事告訴,就可有效壓制並能迅速迫使被告達成和解。此種法制下之威嚇效果,固有一定之功能,然實非當代著作權法治政策下所應秉持之理念。

總之,我國在政策上,縱若暫不採納日本《著作權法》第30條之4,這種較為寬廣的重製責任豁免的立法例,至少也應考慮引介歐盟「文字與資料探勘」(Text and Data Mining, TDM)相關法制 (請參閱因應生成式AI我國應修改著作權法嗎? -- 以美國、日本與歐盟模式為例),針對科學研究目的之利用給予豁免(須特別強調者,此一豁免範圍不應包括生成式AI,因其本質上係TDM下游之另一應用途徑,二者在技術與政策層面上不宜等量齊觀)。

再不濟,退而求其次,也應考量為AI訓練法制上可能之鬆綁。基於此,針對生成式AI訓練所引發之著作權爭議,可考慮參考《無人載具科技創新實驗條例》之規範,引入「AI著作權沙盒」機制,在一定條件和範圍內,得暫時豁免刑責。(7888字;圖1)
 
[1] Common Crawl已成為當今生成式AI最重要的訓練資料來源之一,像是OpenAI的ChatGPT、Google的Gemini、Meta的Llama等大語言模型,其中有很大一部分的訓練資料來源,都是來自於Common Crawl。
[2] 研究者拿一批原本隱藏的提示指令,讓攻擊方法去反推;只有在反推出來的提示指令與原 提示指令完全一致(通常是逐個token對上,不只是意思相近)時,才算成功一次。最後用「成功次數 ÷ 全部測試次數」得到精確恢復率。
[3] OLMoTrace是2025年公開的系統,其用途為把語言模型產生的某段輸出後,再回頭對照到該模型的訓練語料中,找出可能對應的原始文本片段與文件來源。
[4] 著作權法第52條規定:為報導、評論、教學、研究或其他正當目的之必要,在「合理範圍內」,得引用已公開發表之著作。
[5] 美國著作權法§ 506(a)(1)(A)~(C)規定:構成刑事責任的著作權侵害,該行為人故意侵害著作權:係為獲取商業利益或私人經濟利益(for purposes of commercial advantage or private financial gain),在任何180天期間內,透過複製或散佈(包括透過電子方式)一份或多份受版權保護作品的副本或錄音製品,且這些作品的總零售價值超過1000美元,且行為人明知或應知其將用於商業發行。
[6] 「著作權侵權行為之規制,中國法制中呈現民事賠償、行政處罰、刑事制裁階梯式遞進之結。刑法作為最嚴厲之法律制裁手段,其適用應以公共利益受損為前提。依2025年最高人民法院、最高人民檢察院司法解釋,侵犯著作權罪之成立,須具備未經權利人許可實施法定侵權行為,並達到法定數額或情節嚴重標準。違法所得、侵權規模、營利性質及社會危害程度等因素,均為區分一般民事侵權與刑事犯罪之重要判斷基準。
 
作者資訊:
陳家駿  台灣資訊智慧財產權協會 理事長
許正乾  因子數據股份有限公司 共同創辦人


 
參考資料:
和解案後,未解的台灣主權AI語料困局:開發者和內容方能否終結授權衝突?報導者,2026/3/23
Auditing unauthorized training data from AI generated content using information isotopes. Nature Communications, 2026/2/21
Going beyond open data – increasing transparency and trust in language models with OLMoTrace. Ai2, 2025/4/9
Unclear legal landscape for AI spawns licensing as US sees 100 copyright cases. MLex, 2026/4/8
Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes. arXiv, 2025/3/24
Supreme People's Court Judicial Interpretation of Criminal Cases of Intellectual Property Rights infringement. Lexology, 2025/4/6
著作權vs.開源:發展生成式AI在台灣正面臨法制撞牆期。TechNews科技新報,2025/7/25
讓AI更懂繁中,博士生分享資料集險被告?中央社版權案吵什麼?遠見,2025/7/17
因為14萬筆AI語料訓練資料,中央社提告台大生!AI訓練在台灣遇到什麼難題?數位時代,2025/7/9
社論--積極打造主權AI訓練語料庫。人間福報,2025/7/20
14萬筆新聞未經授權遭開源分享 《中央社》提告。自由時報,2025/7/7
著作權犯罪的界定及其司法適用 ——基於最新智慧財產權刑事司法解釋的思考。中國知識產權資訊網,2025/12/12
AI並非侵權“擋箭牌”。 北京市人民政府,20206/4
研究员破解AI聊天机器人训练数据来源之谜。至頂網,2025/11/24

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。