有錢不一定好辦事!台版GPT上路還有哪三關要闖?

曾子軒
user

曾子軒

2024-04-30

瀏覽數

簡立峰向政府喊話,應處理大語言模型訓練資料的著作權問題,「 你認為要保有文化、歷史和價值觀,就應該要把資料拿出來。」曾子軒攝
簡立峰向政府喊話,應處理大語言模型訓練資料的著作權問題,「 你認為要保有文化、歷史和價值觀,就應該要把資料拿出來。」曾子軒攝

喜歡這篇文章嗎 ?

登入 後立即收藏 !
聽遠見

本文出自 2024 / 5月號雜誌 直擊中國新能源車廠 揭密台灣供應鏈布局

台版GPT玩家有限的最根本原因,是開發大語言模型很花錢,而且,有錢也不一定好辦事,因為要買得到GPU、要準備夠多高品質資料,還要擔心版權。 

算力不夠、資料太少、版權路障,是台灣發展本土化LLM的三大挑戰 

不管是國科會的TAIDE、聯發科的BreeXe,台灣幾個在地LLM都不是憑空建造,而是在前人地基上,以持續預訓練(continued pre-training)方式加入繁中資料。「讓模型多讀一點中文書,」前Google台灣董事總經理簡立峰如此比喻 

挑戰1〉有錢未必能解決 

為什麼不自己打地基,要站在Meta、Mistral等巨人肩膀上?「從零開始成本太高,我可以說,財力完全做不到。」國科會TAIDE計畫負責人李育杰強調,微軟投資OpenAI高達100億美元。但就算加上前瞻基礎建設經費,台灣政府的科技預算也不到新台幣1500億,等於是集國家之力,仍做不出GPT-3、4的同等級模型。 

加入會員 每月免費讀4篇

鎖文
  • 註冊即可免費閱讀四篇​
  • 累積深度知識,掌握時代變化​
  • 立即加入會員,開始你的遠見
訂閱遠見線上讀

加入會員, 每月免費讀 0 篇