讓AI更懂繁中，博士生分享資料集險被告？中央社版權案吵什麼？

利用網路資料訓練AI模型的著作權爭議，不僅在美國遍地開花，如今也在台灣新聞業掀起漣漪。一名台大博士生在臉書社團中，分享一份源自於開源平台、經他額外整理繁體中文資料集，卻因為資料集中包含未經授權的資料，遭《中央社》提告侵犯著作權。儘管雙方很快迎來和解，但科技創新與內容版權間的衝突，是否真能就此平息？開源就能免責？從公開開源平台Hugging Face取得資料，會有著作權上的疑慮？想發展AI的人士需要理解哪些法律問題？

2025年7月初，台大博士生Eric Lam在個人臉書上發文表示，自己曾在聚集AI愛好者的臉書社團裡，分享一份源自於開源平台Hugging Face、經他清整後僅剩下繁體中文的資料集「fineweb-zhtw」，方便AI同好者取用。

因為資料中包含未經《中央社》授權的新聞內容，《中央社》因此一度提起告訴，也讓這位博士生接到警方聯繫。他在臉書貼文中喊話，自己並非海盜，而是抱持讓AI更懂繁體中文的初衷，才會努力在開源社群裡貢獻。

「如果今天是一個志工因為整理資料而站上被告席，明天誰還願意為台灣的 AI 努力？」這是他的沉痛呼聲。

《中央社》隨後（7/7）發出聲明，指出此份資料集中，包含自家約14萬筆《中央社》2011年至2021年間報導內容，但並未獲得授權。

所幸，這場風波進入司法程序後不久，迅速迎來轉機。雙方經過友善溝通後，了解此事基於學術研究目的，該名學生也表示尊重與認同《中央社》維護新聞著作權的立場，7月11日宣布已達成和解。

儘管事件本身和平落幕，但AI發展與著作權保護間的爭議，仍然是難以迴避的衝突。本案是如該博士生所說，台灣法規制度落後、已跟不上AI發展變遷，還是不尊重著作權，因而踢到鐵板？

AI訓練涉及具著作權資料，雙方發生碰撞

「每一則新聞背後，都是記者與編輯團隊的心血結晶。」中央社表示，他們的報導皆為第一線記者採訪、整理或經外電授權編譯的內容，理應受著作權尊重與保障。

事發當時即在社群發文、反思著作權爭議與解方的台灣人工智慧實驗室內容執行長黃兆徽，向《遠見》說明，她身兼中央社董事，但無法代表中央社發言。不過她一開始就主張和解，就是因為了解AI資料使用與保障新聞內容產業智慧財產的兩難之處。

黃兆徽指出，單純為傳達事實之新聞報導，不受台灣目前的著作權法保護，但具有記者創作性、個性、觀念性的新聞分析和論述等，則在台灣著作權保護範圍內，因此資料使用者必須要檢查是否屬於「合理使用」。

「AI的學習訓練是否屬於合理使用？這部分在台灣仍不明確，有待修法。」她也認為，由政府提撥經費以購買高品質內容、打造「台灣本土語料庫」，便是可行的多贏解方之一。

台灣人工智慧實驗室執行長黃兆徽（左一）倡議打造「台灣本土語料庫」。台灣人工智慧實驗室提供

不過，長期深耕開源文化的CC Taiwan Chapter計畫主持人、鈞理知識產權事務所法制顧問林誠夏，抱持不同看法。

「當繁體中文已經日漸劣勢的時候，《中央社》若真的提告，打擊力道有點太大，」林誠夏舉例，國際大型的資通訊產業看待中文資料時，只會將繁體與簡體當作相同語言的不同格式，若沒有刻意篩選，搜尋時大多會顯示簡體中文的資料，「因為你抓得很緊（指著作權控管過嚴），最後你的東西也沒有人要了。」

另一方面，他認為，《中央社》屬於公設財團法人，部分營運資金來自政府撥補，一定程度上肩負「公益疏導」角色。況且，根據侵害著作權訂立的刑事程序與罰則，主要是針對「蓄意而具有商業規模之行為」，而該名學生是以學術研究目的為初衷，無須以法律訴訟手段來處理。

開源不等於免責，經手資料便有義務負責

這起案件也引起許多網友議論，若要追溯法律責任，《中央社》應該向上游平台Hugging Face，或是最原始的爬蟲專案Common Crawl提告。畢竟，這名博士生只是開源志工，從公開開源平台Hugging Face取得資料並整理資料，為什麼使用上會有著作權的疑慮？

根據Hugging Face平台說明，原始資料集「FineWeb-2」提供使用者商業或個人自由共享、修改和使用，但同時也帶有免責聲明，不提供任何擔保與承擔損害賠償責任。

「免責聲明是說，我用沒有問題，不代表你用也沒有問題。你必須看自己的行為模式，有沒有侵犯到原作者既定的財產利益。」林誠夏指出，幾乎所有開源授權條款都有類似聲明。

JavaScript.tw技術社群發起人王景弘也提醒，不能因為資料取得方便，就忽略了背後可能存在的侵權風險。他表示開發者在經手任何資料集時，有確認使用權利的義務，這也包含使用開放資料，同樣需要經過審議、確認相關權利人問題，確認都有妥善處理。

活動免費報名>>優人神鼓創辦人劉若瑀親臨，邀你一起共振台灣之聲

林誠夏補充，數位時代裡「著作權蟑螂（Copyright troll）」非常頻繁，這些人會利用著作權規定進行不當警告、恐嚇與牟利。因此使用資料前最好先進行權利盤點，選擇權威網站來取用資料訓練AI模型，降低資料風險。

提供創作者誘因，訓練AI模型收取授權費

現有制度下，AI模型訓練面臨的開發環境，仍面臨許多使用與法規上的不確定性。林誠夏認為，除了開發者端的風險管控，也需要內容提供方釋出善意。

他建議，《中央社》可以採用創用CC（Creative Commons）中的「姓名標示─非商業性（CC BY─NC）」條款，釋出部分內容作為非營利應用，允許使用者重製、散布、傳輸與修改原作，「大家也期待繁體中文有更多語料，可以提升AI大型語言模型應用的準確度。」

ChatGPT雖然取得極大成功，但背後的OpenAI也因著作權問題官司纏身。Photo by Solen Feyissa on Unsplash

「當大家熟悉國外的開源資料，就不會用國內的。」林誠夏舉例，國內許多文化館藏機構仍不願以CC授權釋出資料，讓藝術科系學生製作畢業展時，較傾向使用國外具開放授權的素材。因此，他認為應該讓非商業性目的者也可使用這些資財，提升台灣本土資料在國際社群的能見度與貢獻。

不過，林誠夏提出的授權模式，界定的是非商業性使用的規範。但現在於國際競爭中領先、訴訟纏身的ChatGPT，就是把AI模型用在商業上，如此一來，應該如何處理著作權的歸屬？

東吳大學法學院兼任助理教授章忠信認為，即便有著訓練AI模型、推進繁體中文AI的宏大想法，但還是要取得同意或者授權，才能使用他人資料。「不能說因為他是《中央社》，就應該要給人家自由利用。」

針對AI模型拿去商用，應該如何補償著作權方的議題，章忠信表示，「如果機器學習有經濟利益，我們就可以給作者一個AI訓練利用權。」如同廣播電視出現後的「公開播送權」、網路興起後的「公開傳輸權」，當AI模型能閱讀資料從中學習、產生新的經濟利益時，也應給與相應權利。

數發部建語料庫，推動繁中AI

在政府端，目前也已研擬類似的授權規劃。數發部6月16日公告「促進資料創新利用發展條例」草案，期待促進多元的資料應用，推動政府部門與產業間的資料開放與共享，建構出資料應用的生態系。

數發部資料創新司長莊明芬表示，各機關目前釋出的政府開放資料將持續擴大，並且以標準授權條款提供所有人免費自由使用。

數發部資料創新司長莊明芬說明，目前政府開放資料庫有5萬多筆資料，其中適合大型語言模型訓練的文本型資料約有1000多筆，未來也將陸續盤點更多可用資料。數發部提供

為因應AI快速發展，各部會也根據「台灣主權AI訓練授權條款」，盤點其他受著作權保障、語意結構完整的資料及出版品，採取非專屬授權方式，預計將於2025年第4季釋出「台灣主權AI語料庫」，提供外界申請使用。

莊明芬說明，此項AI授權條款先以輔導、獎勵或補助措施，鼓勵各部門機關釋出共享資料，未來也規劃透過公開表揚等獎勵機制，期待民間一同參與，多方展現台灣的文化觀點與語境。

然而，僅以鼓勵性質推動資料共享，對民間產業而言，誘因顯然還不夠。

軟體內容產業也需有保障

「台灣的硬體供應鏈很強，軟體內容也需要被扶持，這是民主的價值，也是這個多元社會中很珍貴的資產。」黃兆徽指出，新聞產業已被社群平台瓜分廣告收益，又要面對AI搜尋引擎的衝擊，政府應購買授權，才能保障內容創作者的權益。

她認為，政府可先撥出一筆授權經費，設定新聞、書籍、期刊、影音等不同領域，分別成立「資料品質審議委員會」篩選優質內容，再逐步討論分潤機制，鼓勵更多內容創作者願意投入。從美國到英國，不乏國際權威媒體控告AI企業侵權的案例，「台灣是有條件能當世界的先行者，建立一個新聞業跟科技業共好的平台架構。」

AI發展與版權的對峙，持續激盪著各界的價值思辨，這道由中央社提告到和解延伸的考題，考驗眾人如何在擁抱創新的同時，也為內容產業打造一個得以永續發展的生態系。

（採訪／曾子軒、傅莞淇、吳季柔、羅卉昀；撰文／羅卉昀）