2024年年底,中華民國資訊經理人協會(IMA)宣布展開「Taiwan Tongues」計畫,目標建起台灣在地語料庫,用以訓練AI模型。現在,他們更進一步推出資料集,用來測試AI模型對台灣文化語境的理解程度。在科技大廠努力研發演算法、力拚算力、挖角人才的時候,為何IMA要回頭發展基礎建設?
演算法、算力與資料,是資料科學與人工智慧發展的三大支柱。但檢視現有環境,台灣可說是三項皆有不足。
台灣不僅缺乏品質優異且數量足夠的資料,也不像Meta、xAI能夠以萬張為單位添購GPU,更難以千萬等級高薪爭搶頂級人工智慧人才。既然如此,IMA優先投入資料戰場的理由為何?
缺乏高品質資料訓練AI,政府燒錢買、企業偷偷用
自2022年底ChatGPT掀起全球AI浪潮後,台灣便出現是否該開發「本土GPT」的呼聲。
國科會從維繫文化、促進主權AI的立場出發,開發「可信任AI對話引擎TAIDE」;民間企業台智雲、聯發科等,則因為看見商業需求,相繼推出自家模型。與此同時,數發部提供算力給新創使用,也有企業投入算力租賃服務,從不同面向推進主權AI的發展。
IMA之所以從中優先鎖定資料,原因在於要先有好資料,才會有好的模型。
「所有訓練(模型)的基礎,一定都是從語料來的。不管是國際或者是在地,大型語言模型其實都是從語料開始。」參與「Taiwan Tongues」計畫的IMA成員、同時也是吳三連文學獎得主胡長松接受《遠見》專訪時,解釋投入蒐集並尋求授權語料的原因。
觀察現有台灣本土語言模型,由公部門主導的TAIDE相對公開,有在計畫中揭露訓練資料來源;企業自研模型則較為隱晦,難以得知其語料組成與授權情況。
雖然政府機關帶頭添購資料,但TAIDE計畫顧問、中研院資訊科學研究所副研究員黃瀚萱在演講時分享,TAIDE需要每年支出資料授權費用,長遠來說頗有壓力。此外,想採購合法資料不只有成本考量,資料擁有者也未必知道應該以何種價格與模式授權給模型開發者。
至於企業的模糊以對,有模型開發者私下向透露,這是有意為之。因為台灣現行著作權法規,尚未明確處理訓練AI模型,是否屬於合理使用(fair use)。若企業貿然取用網路資料並用於訓練模型,可能有侵權疑慮,因此即便在論文裡,也都無法說清楚細節。
企業可能會擔心侵權,政府則有使用者付費的壓力,對照之下,倘若要號召蒐集資料,位於民間、提倡公共利益的IMA恰好處在適合推行的位置。
「我蓋個碼頭,不太可能靠一個漁民,或者靠一家漁業公司,還得是公共建設,而且一旦做了,就能讓大家都可以用。」蔡祈岩表示,期待能夠完善資料的基礎建設,讓本土和國際級的模型業者,都能夠充實中文語料。
主動推廣本土資料,讓大廠訓練模型能想到台灣
充實繁體中文語料的好處,在於讓模型能夠更懂台灣。
胡長松解釋,語言的意義不只在於表層的詞彙選擇,究竟要講馬鈴薯還是土豆。「語言背後的價值觀正在影響 AI,這事關重大,」因為語言背後,還能夠反映出文化與價值觀。
蔡祈岩補充,他更傾向於使用「AI主權」,而非「主權AI」,因為IMA推動計畫的目標,不是要打造能夠由台灣控制的AI模型,而是要讓全世界的AI模型在台灣落地時,都能夠發揮台灣應用的主體性。
目前OpenAI、Google等模型開發商的訓練資料集沒有足夠的繁體中文資料,但問題不在於他們不願使用繁中資料,而是在於他們可能無法取得。
「我們也會主動出擊,接觸這些國際AI公司,告訴他們有這個東西,也會和他們討論格式、缺乏的語料,跟國際協作。」如此一來,使用ChatGPT或者Gemini時,就不用擔心簡中腔,或者錯把國慶日當成十月一日的窘境。
目前,IMA正在多頭並進準備語料,除了向創作者尋求授權以外,也會尋找已經沒有版權的公共領域資料,並且參考維基百科共同編輯的框架,號召民眾翻譯缺乏繁體中文、台語的條目,藉此擴大Taiwan Tongues的語料範圍。
有課本、考題跟教案,才能真正傳遞台灣知識
蒐集資料,只是Taiwan Tongues計畫的第一步。本週(7/4)的記者會上,Taiwan Tongues正式端出「Taiwan Tongues Scoring」資料集,用來測試AI模型有多了解台灣,包含用語、句法、價值觀和文化,都在評測範圍。
胡長松援引電腦科學的用語,「這就是在測試文化上的語境(context),」不只會問類似「象山在哪裡」的知識性問題,也會有「世界上有沒有神明的存在」這類偏向文化的提問。
測試模型的Taiwan Tongues分數,不是要政治審查,而是想兼顧文化主權以及商業應用場景,讓模型能夠更在地、更懂台灣。
有了語料作為課本,還有測試資料集作為考卷,最後還缺課程。Taiwan Tongues計畫的參與者群聯電子,還會提供訓練框架,輔助有意提升模型台灣理解能力的企業,微調客製化模型。
「我們希望全世界的AI,在台灣就講台灣腔。」率先響應計畫,捐出約百萬字台語著作內容的胡長松感性地說,希望讓AI可以懂台灣的文字、台灣的語言,藉此讓台灣的存在感和影響力,能夠更為深遠。這也就是Taiwan Tongues的終極目標了。