從AI主權談發展在地AI模型的資料生態系挑戰

李德財
user

李德財

2025-11-28

瀏覽數

從AI主權談發展在地AI模型的資料生態系挑戰
 
00:00
00:00

本文出自 2025 / 12月號雜誌 突圍焦慮時代

生成式人工智慧正以前所未有的速度重塑全球產業格局,然而,在這技術熱潮之下,關乎國家利益與競爭力、甚至國家安全的深層議題「AI主權」(AI Sovereignty)已然浮現。從資訊科技發展的長遠視角觀察,台灣若要在這場全球AI競賽中確立自主地位,其根基始於對資料的佈局、治理與應用。

當前許多企業與政府部門,已相當熟稔運用ChatGPT、Gemini等國外AI工具,並能運用於日常工作。然而這普及與便利性潛藏著相當的風險,將企業營運的機敏資料輸入其中,請求其分析或提供決策建議,無異於將自身的數位資產控制權讓渡於他人,長期而言,勢必削弱市場競爭力,甚至在宏觀層面上動搖國家數位主權。

其次,依賴外來語言模型,意味著AI工具產出的內容建立在他者資料庫與所建構的價值體系之上,生成的內容難免存在偏見或意識形態,甚至可能與我國社會現實脫節。因此,建立自有語料庫、發展本土大型語言模型,具有不可替代的戰略意義。台灣打造的TAIDE生成式AI對話引擎模型,致力建構可信任的AI環境,正是實踐AI主權的重要一步。

開放資料、公眾授權有其必要

《紐約時報》於2023年對OpenAI及微軟提起侵權訴訟,也突顯當前AI訓練模型的法律風險。大型語言模型的訓練需仰賴海量資料,透過網路爬蟲大規模擷取資料,將未經授權的內容下載並儲存至本地端伺服器進行處理,此行為即構成對原著作的「重製」,如同影印出版書籍,而俾利機器學習所做的文本分割、標記等預處理,則可能構成對原著作進行「改作」,再加上生成內容,經網路公開傳輸,這一連串未經授權具營利目的之行為鏈,可作為侵權之論據,讓「合理使用」(Fair Use)的辯護充滿不確定性。

面對AI發展與著作權保護的張力,台灣須建立一套清晰且具前瞻性的「資料治理政策」(Data Governance Policy),在開放與規範間取得平衡。「開放資料」(Open Data)是資料共享政策的基石,由政府公帑產出的資料,理應視為公共財,建議採具法律效力的「公眾授權」(Creative Commons, CC)模式釋出,透過CC授權標章,由著作權人宣告其作品在特定條件下,例如註明出處、非商業用途等,開放公眾利用。

數發部已宣示帶頭將公開資料以此模式釋出,為本土AI產業提供合法的訓練語料,此政策框架亦可延伸至政府資助的學術研究成果,使其在合理範圍內回饋社會。

產業界面臨的困境亦需正視。部分業者呼籲,將模型訓練階段的資料耙梳取用「除罪化」。只是若逕行除罪,忽略私人企業產出版權內容所投入之資源,也將嚴重衝擊內容產業的根基。

至於「國外大廠亦然,為何獨苛台廠」的質疑,反映的是小型經濟體在全球競爭下的現實壓力,這終究是企業必須納入考量的風險管理課題。政府的角色仍在於建立清晰的法治框架,而非因權宜之計而動搖法規根本。

總而言之,台灣發展AI主權的決勝點,不在於複製出多少個大型模型,而在於能否建構一個高品質、具在地特色,且權利清晰的資料生態系。這需要政府加速制定並落實開放資料政策,同時產業也應建立尊重智慧財產權的共識,循授權機制或利用開放資料進行創新。

唯有奠基於穩固的資料治理與法治基礎之上,台灣的AI主權方能真正實現,數位未來也才能走得更加穩健與自主。

(作者為中研院院士,資創中心、資訊所客座講座,曾任中興大學校長。曾子軒採訪整理)