台版GPT玩家有限的最根本原因,是開發大語言模型很花錢,而且,有錢也不一定好辦事,因為要買得到GPU、要準備夠多高品質資料,還要擔心版權。
算力不夠、資料太少、版權路障,是台灣發展本土化LLM的三大挑戰。
不管是國科會的TAIDE、聯發科的BreeXe,台灣幾個在地LLM都不是憑空建造,而是在前人地基上,以持續預訓練(continued pre-training)方式加入繁中資料。「讓模型多讀一點中文書,」前Google台灣董事總經理簡立峰如此比喻。
挑戰1〉有錢未必能解決
為什麼不自己打地基,要站在Meta、Mistral等巨人肩膀上?「從零開始成本太高,我可以說,財力完全做不到。」國科會TAIDE計畫負責人李育杰強調,微軟投資OpenAI高達100億美元。但就算加上前瞻基礎建設經費,台灣政府的科技預算也不到新台幣1500億,等於是集國家之力,仍做不出GPT-3、4的同等級模型。
遠見會員 限定文章
時刻掌握趨勢 時刻都有遠見
- ✓ 免費瀏覽 每天 1 篇限定文章
- ✓ 文章收藏 喜愛好文隨時回看
- ✓ 會員專屬 主題型知識轉譯包
- ✓ 會員獨享 生日禮百元購物金
成為訂戶,
即可瀏覽全部「限定文章」