從AI主權談發展在地AI模型的資料生態系挑戰

生成式人工智慧正以前所未有的速度重塑全球產業格局，然而，在這技術熱潮之下，關乎國家利益與競爭力、甚至國家安全的深層議題「AI主權」（AI Sovereignty）已然浮現。從資訊科技發展的長遠視角觀察，台灣若要在這場全球AI競賽中確立自主地位，其根基始於對資料的佈局、治理與應用。

當前許多企業與政府部門，已相當熟稔運用ChatGPT、Gemini等國外AI工具，並能運用於日常工作。然而這普及與便利性潛藏著相當的風險，將企業營運的機敏資料輸入其中，請求其分析或提供決策建議，無異於將自身的數位資產控制權讓渡於他人，長期而言，勢必削弱市場競爭力，甚至在宏觀層面上動搖國家數位主權。

其次，依賴外來語言模型，意味著AI工具產出的內容建立在他者資料庫與所建構的價值體系之上，生成的內容難免存在偏見或意識形態，甚至可能與我國社會現實脫節。因此，建立自有語料庫、發展本土大型語言模型，具有不可替代的戰略意義。台灣打造的TAIDE生成式AI對話引擎模型，致力建構可信任的AI環境，正是實踐AI主權的重要一步。

開放資料、公眾授權有其必要

《紐約時報》於2023年對OpenAI及微軟提起侵權訴訟，也突顯當前AI訓練模型的法律風險。大型語言模型的訓練需仰賴海量資料，透過網路爬蟲大規模擷取資料，將未經授權的內容下載並儲存至本地端伺服器進行處理，此行為即構成對原著作的「重製」，如同影印出版書籍，而俾利機器學習所做的文本分割、標記等預處理，則可能構成對原著作進行「改作」，再加上生成內容，經網路公開傳輸，這一連串未經授權具營利目的之行為鏈，可作為侵權之論據，讓「合理使用」（Fair Use）的辯護充滿不確定性。

面對AI發展與著作權保護的張力，台灣須建立一套清晰且具前瞻性的「資料治理政策」（Data Governance Policy），在開放與規範間取得平衡。「開放資料」（Open Data）是資料共享政策的基石，由政府公帑產出的資料，理應視為公共財，建議採具法律效力的「公眾授權」（Creative Commons, CC）模式釋出，透過CC授權標章，由著作權人宣告其作品在特定條件下，例如註明出處、非商業用途等，開放公眾利用。

數發部已宣示帶頭將公開資料以此模式釋出，為本土AI產業提供合法的訓練語料，此政策框架亦可延伸至政府資助的學術研究成果，使其在合理範圍內回饋社會。

產業界面臨的困境亦需正視。部分業者呼籲，將模型訓練階段的資料耙梳取用「除罪化」。只是若逕行除罪，忽略私人企業產出版權內容所投入之資源，也將嚴重衝擊內容產業的根基。

至於「國外大廠亦然，為何獨苛台廠」的質疑，反映的是小型經濟體在全球競爭下的現實壓力，這終究是企業必須納入考量的風險管理課題。政府的角色仍在於建立清晰的法治框架，而非因權宜之計而動搖法規根本。

總而言之，台灣發展AI主權的決勝點，不在於複製出多少個大型模型，而在於能否建構一個高品質、具在地特色，且權利清晰的資料生態系。這需要政府加速制定並落實開放資料政策，同時產業也應建立尊重智慧財產權的共識，循授權機制或利用開放資料進行創新。

唯有奠基於穩固的資料治理與法治基礎之上，台灣的AI主權方能真正實現，數位未來也才能走得更加穩健與自主。

（作者為中研院院士，資創中心、資訊所客座講座，曾任中興大學校長。曾子軒採訪整理）