去年,Meta曾公開分享旗下翻譯技術計畫拓展到客家話的努力,團隊也包含台灣工程師。本週Meta更發表能識別全球4000餘種口語的大型語言模型。它靠聖經,克服了訓練AI的挑戰。
23日,臉書母公司Meta發表了一篇名為「透過人工智慧保護世界語言多樣性」的文章,發表其新推出的大型語言模型,能識別4000餘種口語,是過往所有技術的40倍;此外,也支援1100餘種語言的雙向文字轉語音,原本的技術,只能做到100種語言。Meta表示,未來每個人都可以選擇自己喜歡的語言來操作AR、VR等設備,什麼樣的聲音都能被理解。
Meta觀察到,世界上許多語言都瀕臨消失,目前的語音識別及生成技術恐怕只會加劇此現象,因此決定拓展AI模型,增加科技設備的近用性。不僅如此,Meta也決定不藏私,公開分享模型的開放原始碼,讓其他研究人員可以繼續發展相關技術。
訓練AI模型過程挑戰多
訓練模型的過程並非毫無困難,語音識別和文本轉語音模型通常需要利用數千小時長度的音檔進行訓練,並附帶轉錄標籤,標籤對機器學習至關重要,如此演算法才能正確分類、理解數據。但許多工業化國家未廣泛使用所有口語、方言,造成其中有些語言在幾十年內瀕臨消失,「相關數據根本不存在。」Meta坦言。
Meta選擇使用非常規的方法來蒐集音檔數據:翻譯聖經等宗教文本的錄音!
「我們選擇宗教文本,包括聖經。它們已被翻譯成多種不同的語言,其譯文也已被廣泛使用於書面語言翻譯研究,這些譯文都有公開的錄音,人們方能用不同語言閱讀這些文本。」
這種方法吸引外界目光,因為乍聽之下,Meta在養一個世界觀嚴重傾向基督教的AI模型,但Meta表示情況並非如此:「雖然音檔內容是宗教性的,但我們的分析顯示,模型不會產生更多宗教語言。」
此外,儘管大多數宗教音檔都是男性的聲音,但並未帶偏模型,它在女性和男性的聲音辨識上表現同樣出色。
然而,Meta也警告,新模型並不完美。
「語音轉文字模型可能會錯誤轉錄特定的單詞或短語,這存在一定風險,輸出結果可能包含攻擊性或不準確的語言。但我們仍然相信,整個AI社群的協作對於開發技術至關重要。」
扭轉現況的開源模型受到科技界大力支持,技術發展的同時,也保全各種語言不輕易流失,作為一個輔助技術,讓人們可以充分利用自己的母語使用科技、學習、溝通。
「一個技術可以扭轉反效果,藉由科技鼓勵人們保持母語的活力,透過使用自己喜歡的語言來獲取資訊。」Meta如此描繪美好想像。