Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

與領袖面對面 與領袖面對面 最後席次!與台積電等高階代表聊企業決策

讓AI更懂繁中,博士生分享資料集險被告?中央社版權案吵什麼?

曾子軒
user

曾子軒

實習記者羅卉昀
user

實習記者羅卉昀

2025-07-17

瀏覽數 1,150+

中央通訊社辦公室。wikimedia commons
中央通訊社辦公室。wikimedia commons

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

利用網路資料訓練AI模型的著作權爭議,不僅在美國遍地開花,如今也在台灣新聞業掀起漣漪。一名台大博士生在臉書社團中,分享一份源自於開源平台、經他額外整理繁體中文資料集,卻因為資料集中包含未經授權的資料,遭《中央社》提告侵犯著作權。儘管雙方很快迎來和解,但科技創新與內容版權間的衝突,是否真能就此平息?開源就能免責?從公開開源平台Hugging Face取得資料,會有著作權上的疑慮?想發展AI的人士需要理解哪些法律問題?

2025年7月初,台大博士生Eric Lam在個人臉書上發文表示,自己曾在聚集AI愛好者的臉書社團裡,分享一份源自於開源平台Hugging Face、經他清整後僅剩下繁體中文的資料集「fineweb-zhtw」,方便AI同好者取用。

因為資料中包含未經《中央社》授權的新聞內容,《中央社》因此一度提起告訴,也讓這位博士生接到警方聯繫。他在臉書貼文中喊話,自己並非海盜,而是抱持讓AI更懂繁體中文的初衷,才會努力在開源社群裡貢獻。

「如果今天是一個志工因為整理資料而站上被告席,明天誰還願意為台灣的 AI 努力?」這是他的沉痛呼聲。

《中央社》隨後(7/7)發出聲明,指出此份資料集中,包含自家約14萬筆《中央社》2011年至2021年間報導內容,但並未獲得授權。

所幸,這場風波進入司法程序後不久,迅速迎來轉機。雙方經過友善溝通後,了解此事基於學術研究目的,該名學生也表示尊重與認同《中央社》維護新聞著作權的立場,7月11日宣布已達成和解。

儘管事件本身和平落幕,但AI發展與著作權保護間的爭議,仍然是難以迴避的衝突。本案是如該博士生所說,台灣法規制度落後、已跟不上AI發展變遷,還是不尊重著作權,因而踢到鐵板?

AI訓練涉及具著作權資料,雙方發生碰撞

「每一則新聞背後,都是記者與編輯團隊的心血結晶。」中央社表示,他們的報導皆為第一線記者採訪、整理或經外電授權編譯的內容,理應受著作權尊重與保障。

台灣人工智慧實驗室內容執行長、中央社董事黃兆徽進一步向《遠見》說明,客觀事實報導是為了促進大眾「知」的權利,因此在著作權法上不受到保護。然而,該資料集中涵蓋了事實陳述與深度分析兩種新聞內容,「我們做的各種資料彙整、深度報導或專欄帶有觀點,那個就一定要受到智慧財產權的保障。」

中央社董事黃兆徽(左一)指出,自家報導包含深度分析內容,受到《著作權法》保障。台灣人工智慧實驗室提供

中央社董事黃兆徽(左一)指出,自家報導包含深度分析內容,受到《著作權法》保障。台灣人工智慧實驗室提供

不過,長期深耕開源文化的CC Taiwan Chapter計畫主持人、鈞理知識產權事務所法制顧問林誠夏,抱持不同看法。

「當繁體中文已經日漸劣勢的時候,《中央社》若真的提告,打擊力道有點太大,」林誠夏舉例,國際大型的資通訊產業看待中文資料時,只會將繁體與簡體當作相同語言的不同格式,若沒有刻意篩選,搜尋時大多會顯示簡體中文的資料,「因為你抓得很緊(指著作權控管過嚴),最後你的東西也沒有人要了。」

另一方面,他認為,《中央社》屬於公設財團法人,部分營運資金來自政府撥補,一定程度上肩負「公益疏導」角色。況且,根據侵害著作權訂立的刑事程序與罰則,主要是針對「蓄意而具有商業規模之行為」,而該名學生是以學術研究目的為初衷,無須以法律訴訟手段來處理。

開源不等於免責,經手資料便有義務負責

這起案件也引起許多網友議論,若要追溯法律責任,《中央社》應該向上游平台Hugging Face,或是最原始的爬蟲專案Common Crawl提告。 畢竟,這名博士生只是開源志工,從公開開源平台Hugging Face取得資料並整理資料,為什麼使用上會有著作權的疑慮?

根據Hugging Face平台說明,原始資料集「FineWeb-2」提供使用者商業或個人自由共享、修改和使用,但同時也帶有免責聲明,不提供任何擔保與承擔損害賠償責任。

「免責聲明是說,我用沒有問題,不代表你用也沒有問題。你必須看自己的行為模式,有沒有侵犯到原作者既定的財產利益。」林誠夏指出,幾乎所有開源授權條款都有類似聲明。

JavaScript.tw技術社群發起人王景弘也提醒,不能因為資料取得方便,就忽略了背後可能存在的侵權風險。他表示開發者在經手任何資料集時,有確認使用權利的義務,這也包含使用開放資料,同樣需要經過審議、確認相關權利人問題,確認都有妥善處理。

林誠夏補充,數位時代裡「著作權蟑螂(Copyright troll)」非常頻繁,這些人會利用著作權規定進行不當警告、恐嚇與牟利。因此使用資料前最好先進行權利盤點,選擇權威網站來取用資料訓練AI模型,降低資料風險。

歡慶遠見39週年|訂閱享優惠 再送各式好禮>>>快來看看

提供創作者誘因,訓練AI模型收取授權費

現有制度下,AI模型訓練面臨的開發環境,仍面臨許多使用與法規上的不確定性。林誠夏認為,除了開發者端的風險管控,也需要內容提供方釋出善意。

他建議,《中央社》可以採用創用CC(Creative Commons)中的「姓名標示─非商業性(CC BY─NC)」條款,釋出部分內容作為非營利應用,允許使用者重製、散布、傳輸與修改原作,「大家也期待繁體中文有更多語料,可以提升AI大型語言模型應用的準確度。」

ChatGPT雖然取得極大成功,但背後的OpenAI也因著作權問題官司纏身。Photo by Solen Feyissa on Unsplash

ChatGPT雖然取得極大成功,但背後的OpenAI也因著作權問題官司纏身。Photo by Solen Feyissa on Unsplash

「當大家熟悉國外的開源資料,就不會用國內的。」林誠夏舉例,國內許多文化館藏機構仍不願以CC授權釋出資料,讓藝術科系學生製作畢業展時,較傾向使用國外具開放授權的素材。因此,他認為應該讓非商業性目的者也可使用這些資財,提升台灣本土資料在國際社群的能見度與貢獻。

不過,林誠夏提出的授權模式,界定的是非商業性使用的規範。但現在於國際競爭中領先、訴訟纏身的ChatGPT,就是把AI模型用在商業上,如此一來,應該如何處理著作權的歸屬?

東吳大學法學院兼任助理教授章忠信認為,即便有著訓練AI模型、推進繁體中文AI的宏大想法,但還是要取得同意或者授權,才能使用他人資料。「不能說因為他是《中央社》,就應該要給人家自由利用。」

針對AI模型拿去商用,應該如何補償著作權方的議題,章忠信表示,「如果機器學習有經濟利益,我們就可以給作者一個AI訓練利用權。」如同廣播電視出現後的「公開播送權」、網路興起後的「公開傳輸權」,當AI模型能閱讀資料從中學習、產生新的經濟利益時,也應給與相應權利。

數發部建語料庫,推動繁中AI

在政府端,目前也已研擬類似的授權規劃。數發部6月16日公告「促進資料創新利用發展條例」草案,期待促進多元的資料應用,推動政府部門與產業間的資料開放與共享,建構出資料應用的生態系。

數發部資料創新司長莊明芬表示,各機關目前釋出的政府開放資料將持續擴大,並且以標準授權條款提供所有人免費自由使用。

數發部資料創新司長莊明芬說明,目前政府開放資料庫有5萬多筆資料,其中適合大型語言模型訓練的文本型資料約有1000多筆,未來也將陸續盤點更多可用資料。數發部提供

數發部資料創新司長莊明芬說明,目前政府開放資料庫有5萬多筆資料,其中適合大型語言模型訓練的文本型資料約有1000多筆,未來也將陸續盤點更多可用資料。數發部提供

為因應AI快速發展,各部會也根據「台灣主權AI訓練授權條款」,盤點其他受著作權保障、語意結構完整的資料及出版品,採取非專屬授權方式,預計將於2025年第4季釋出「台灣主權AI語料庫」,提供外界申請使用。

莊明芬說明,此項AI授權條款先以輔導、獎勵或補助措施,鼓勵各部門機關釋出共享資料,未來也規劃透過公開表揚等獎勵機制,期待民間一同參與,多方展現台灣的文化觀點與語境。

然而,僅以鼓勵性質推動資料共享,對民間產業而言,誘因顯然還不夠。

軟體內容產業也需有保障

「台灣的硬體供應鏈很強,軟體內容也需要被扶持,這是民主的價值,也是這個多元社會中很珍貴的資產。」黃兆徽指出,新聞產業已被社群平台瓜分廣告收益,又要面對AI搜尋引擎的衝擊,政府應購買授權,才能保障內容創作者的權益。

她認為,政府可先撥出一筆授權經費,設定新聞、書籍、期刊、影音等不同領域,分別成立「資料品質審議委員會」篩選優質內容,再逐步討論分潤機制,鼓勵更多內容創作者願意投入。從美國到英國,不乏國際權威媒體控告AI企業侵權的案例,「台灣是有條件能當世界的先行者,建立一個新聞業跟科技業共好的平台架構。」

AI發展與版權的對峙,持續激盪著各界的價值思辨,這道由中央社提告到和解延伸的考題,考驗眾人如何在擁抱創新的同時,也為內容產業打造一個得以永續發展的生態系。

(採訪/曾子軒、傅莞淇、吳季柔、羅卉昀;撰文/羅卉昀)

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務