Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

想讓AI聽懂台灣國語 先克服四大難題

科技大廠力拚語音助理 中文化卻踢鐵板

陳育晟
user

陳育晟

2017-11-02

瀏覽數 15,250+

想讓AI聽懂台灣國語 先克服四大難題
 

本文出自 2017 / 11月號雜誌 非正職大軍來了

近來全球吹起全球語音熱,但國際大廠開發的系統多半不支援中文,該如何克服中文難以被人工智慧破解的痛點,提升辨識精準度?

10月底的週末午後,華山文創園區古色古香的紅磚建築裡,不少新創團隊正展示他們研發的語音助理。

這是科技部主辦的「科技大擂台,與AI對話」活動,目標要讓以往只聽得懂字正腔圓標準國語的語音助理,也能輕鬆和「台灣國語」互動。

放眼全球,目前蘋果、亞馬遜、Google、微軟等科技巨擘都看好語音助理的發展,紛紛投入資源開發語音助理的產品,陣容龐大。

如Amazon內建語音助理Alexa的Echo系列產品,2014年推出後,至今仍然不斷推出新款。而Google也推出內建Google Assistant的語音助理產品;近兩年來已經大大地改變美國人的生活。

消費者只要對著這些產品說話,不需要操作電腦或手機介面,就能操控居家電器、冰箱、音樂等,甚至可以直接線上購物,完成金流與物流。

但坊間的語音助理,幾乎不支援中文。就算有中文,辨識度也偏低。

Gartner個人技術研究部研究總監李良達觀察,今年年初,百度與北京新創公司在大陸發表的對話機器人「小魚在家」,銷售不理想,原因之一就是辨識精準度還不夠好。

語音助理中文化,到底為什麼這麼難?

難題1〉腔調導致判斷失準

第一個難關,就是中文南腔北調的差異。

參與開發OLAMI語音助手的威盛電子OLAMI人工智慧開放平台產品總監杭志明指出,過去該公司在大陸累積較成熟數據,且大陸人腔調跟台灣不同。

特別是大陸業者對台灣國語普遍不熟悉,沒有加入特別的處理或支持,就會造成機器聽不懂、辨識不出來。

負責智慧語音機器人Zenbo研發的華碩科技創新實驗室技術長龐台銘也坦言,確實收到客戶反映,台灣國語口音導致Zenbo判讀錯誤,後來除把常用的台灣國語詞彙放入機器訓練,還加到語音辨識資料庫進行校正,強化機器人的詞彙辨識能力。

難題2〉中文有五聲聲調

第二個難題是聲調。「華語和英語,語言結構差異很大,最明顯的差別之一是聲調,」國內語音辨識權威、中央研究院院士李琳山分析,華語的五種聲調,代表不同意思,這種情況在很多語言中沒有,包括英語。

例如,穿「著」念二聲或念輕聲,意義就有差別。杭志明解釋,中文一字多音的情況很多,必須訓練機器去判讀詞彙在整句話中代表什麼意涵,才不致判斷失準。

難題3〉一字多義難判斷

另一個中文語音辨識面臨的問題,就是「一字多義」。例如,我現在不太「方便」通電話、我要去「方便」、我在吃「方便」麵,雖然三種「方便」讀起來一樣,但代表的意義卻天差地遠。

西堤餐券+雜誌一年才 $2,680,這組合太划算!立即訂閱>>

李琳山分析,機器必須把前後文都考慮進去,才能清楚分辨一字多義。

如果把一字多義,和正體字、簡體字的差異放在一起討論,問題會變得更複雜。例如,台灣人煮麵時會說「下麵」,而描述方位時則說「下面」,即便兩者讀音相同,但用字卻有差異。

若把情境拉到大陸,不管是描述方位或煮麵,都稱為「下面」,因為簡體字並無「麵」這個字。

對此,杭志明認為,台灣使用正體字,用字的歧異度較高,使得台灣語音辨識要比大陸困難。

難題4〉與外語、方言混用

此外,中文常與英語、日語、方言混用,加上網路不時出現的火星文,對機器而言不僅沒有邏輯,更難以回應。

「語言夾雜是全球化帶來的自然現象,強勢語言本來就會入侵比較弱的在地語言,」李琳山觀察,很多語言都有多語切換的現象,而且每種語言也都有機器解不出來的句子,要能做到更完美,得人工慢慢調整。

為了解決這個問題,華碩Zenbo團隊導入更多語料、更複雜的演算法來訓練模型。但龐台銘指出,國台語混雜較中英混雜困難,目前各家廠商均無較完整的解法。

而針對網路火星文,如近期用「seafood」表示「師父」,威盛OLAMI語音平台在與軟體開發者合作時,平均每星期都會導入時下流行語言,讓平台能支援流行用語。

儘管各家科技大廠掀起語音助理熱潮,但李琳山認為,語音技術應用在產品才剛剛開始,未來還有很長時間使其慢慢優化,「現在看起來這裡有一點,那裡有一點,但都不能算是它最主要的產品。」要讓中文語音助理更成熟,未來有哪些必走的路?

解方〉分類更細、客製化

由於英式英語、美式英語有不同的腔調和用字,不少語音助理早將這兩種英語視為不同的語言體系。

「想要真正把語音助理做好,分類一定要更細緻,」李琳山認為,無論是地域、性別、年齡或口音,倘若能把族群區分得更細,語音辨識精準度就會提升,但這仰賴大量人力、物力,也和各業者投資意願有關,「不見得有人很快去做這件事。」

此外,針對各種使用者行業、情境客製化,滿足客戶需求,也是未來語音助理發展的趨勢。

威盛電子嵌入式系統與物聯網事業處總經理吳億盼觀察,市面上不少語音助理雖宣稱辨識度高達97%以上,但那通常是針對同一句話不斷優化的結果,如果是接收各種訊息的通用型語音助理,辨識度頂多80%上下。

「金融、醫療會有很多專有名詞和術語,如果遇到實際商業應用,必須針對其用途與情境客製化,就能把個別行業的應用做得更好,」吳億盼說。

同時,語音助理也能針對不同地域,設計出不同的詞彙資料庫,提升判讀精準度。

李琳山指出,如果是台北人使用的語音助理,裡面出現「101、鼎泰豐」詞彙的機率會較高,因而當語音聽起來像是101、鼎泰豐時,系統會優先判讀為這兩個台北常出現的詞彙。

說穿了,語音助理優化其實就是數據是否夠多、夠好的問題,倘若能滿足上述條件,辨別能力就會提升。

李良達觀察,不少語音助理大廠都用數十萬個小時的數據訓練機器,相當於一個嬰兒呱呱墜地到30歲所經歷的時間,儘管現在可能離每個人都能輕鬆使用的語音助理有段距離,但未來發展一定會更成熟。

延伸閱讀

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務