Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

聽話的電腦-國語聽寫機

李琳山
user

李琳山

1994-11-15

瀏覽數 12,000+

聽話的電腦-國語聽寫機
 

本文出自 1994 / 12月號雜誌 第102期遠見雜誌

中文電腦可以用國語輸入嗎?

就今天而言,中文輸入是不是非常方便呢?事實上,電腦鍵盤的設計完全是西方拼音文字的產物,對於不是拼音文字的中文而言,實在是格格不入。雖然目前有不少快速的輸入法,但是均需經過專業的訓練,久不使用就會遺忘。此外,幾乎所有的鍵盤輸入法都必須打斷原有的文句思想,所以很少人可以一邊造字,一邊把字輸進電腦中,使得一般人在日常生活及工作中,因使用不便,而成為中文社會資訊化的極大障礙。

到底話音輸入能不能解決造個問題呢?我們一直試圖尋找出一個技術上可行而實際上有用的應用領域,這才是今天電腦技術可以發揮效果的地方。

語者特定

十二年前我就開始思考這個問題,並為這樣的構想取名為「國話聽寫機」(Mansarin Dictation Machine),也就是一台會聽國語的中文電腦,使用者只要對著麥克風說國語,它就可以將中文文字顯示在螢幕上,使用快速方便,不需要經過專業訓練,也沒有遺忘的困擾。

事實上,這樣的研究也有文化上的意義,由於中文一字一音的特性及音的總數有限,用聲音輸入實在是最理想的選擇,也最符合中文的特性,不但降低了簡體字的需要空間,更有助於傳統文化的保存及發揚。

儘管如此,國語聽寫機所涉及的技術問題卻十分困難而複雜。中文字型千變萬化,因此它必須能聽寫出極大字彙所組成的任意文句,並兼顧正確率及速度,這就是為何多年來始終沒有成功的產品問世的原因。其中的主要問題包括:

一、中文常用字至少五千以上,常用詞至少上萬以上,這種龐大的數字造成語音辨認上的困難。

二、中文的同音字極多,必須靠前後文才能確認每個字。

三、中文單音節的混淆音極多,不易辨認,如巴、搭、他、發、拉、媽……。

針對這些困難,開始著手此一研究時,所考慮的是希望做到「語者特定」,即讓電腦一次只需聽懂一個人的國語;使用者輸入時念不連續的單音節;以及當使用者發現錯誤時,再用滑鼠或鍵盤更正即可。這是當時覺得技術上可行而實際上也可以用的方法。

在早期的努力中,採用的是「聲母、韻母二段式辨認法」,以及引進當時辨認西方語音十分成功的「隱藏式馬可大模型」(Hidden Markov Models)。前者是把未知的單音節切開,分成聲母及韻母兩部分;先設法辨認韻母,然後再抓出聲母來。不過,由於聲、韻母問的界限並不明顯,容易造成機器辨認的困難。後者則是一種相當有用的統計數學模型,起初由於某些單音節間的差異太少,不易分辨,經過幾年的努力,最後發展出針對國語四百零八個不計聲調音節的「加強聲母、考慮聲調特性的兩段式隱藏式馬可夫模型」,而提高了不少正確率。

此外,還有同音字的問題。由於單字詞和雙字詞很多,所以並不只是靠查詞典就可解決問題,特別是在音難以辨認的情況下,同音的單字詞、雙字詞辨認更是困難。早期所想的辦法是用「構詞和語法分析」,也就是讓電腦根據前後文的關係,找出合乎該句語法的字詞來。

金聲玉振

雖然我們花了很大的功夫來作構詞及語法分析的研究,可是因為中文的話法變化實在太多,需要電腦搜尋的空間仍然太大,而無法正確分析任意文句的句型。

後來發展出的改良方法,就是所謂的「中文語言模型」,其基本的原理是來自於人們根據經驗而可由前後文判斷所需要的字或詞,經驗其實就是統計的結果,所以我們可以利用電腦,在大量的文字檔案中計算出字、詞間兩可相連的機率(也就是次數),電腦便依此而選擇機率最高的路徑為答案。當時是以十二冊小學國語課本作為建立文字檔案的來源。

【會員限定活動】想懂護國神山的背後?和《造山者》導演一起看見時代的選擇!立即報名>>

由於上述二項技術的研究,使我們在民國八十年完成了第一代的「國語聽寫機」,並參考古文中「金聲玉振」的成語,取名為「金聲一號」。

從民國七十三年開始研究至今,整整七年之後,才有了一個雛型誕生。「金聲一號」的最大貢獻是證明了「國話聽寫機」在技術上是可以做到的。但仍有許多先天上的困難尚待克服,使得它與實用產品的目標相距仍遠。

由於「金聲一號」在成本價格、體積及操作上都有實際的困難存在,自八十年起,我們的近期努力便是朝此方向進行。

首先,第一個關鍵性的突破是放棄了西方語言辨認技術的經典「隱藏式馬可夫模型」,而嘗試採用專為國語單音節所設計的「分段機率模型」(Segmental Probalility Model)。二者之間的原理很相似,只是「分段機率模型」是將每一個音都依據比例分段,使得計算量大為減少,增加了調整時的彈性,並使得速度加快了不少。

另一項突破則是在「中文語言模型」上,原有的模型是以小學國語課本中字與字相連的機率或次數為依據,但事實上中文的文句應是以詞為構造單位的。

因此,我們便設計讓許多的詞構成一個詞群。(Word Class),並以詞群為基礎,建立了計算詞群與詞群相連機率的「詞群雙連中文語言自模型」。利用一群事先被製造好的「同頭詞群」和「同尾詞群」,根據他們之間兩兩相連的機率,便很容易找到正確的句子。此外,也利用各種期刊、報紙,增加了訓練的語量,不僅限於小學課本範圍。

經由上述「分段機率模型」及「詞群雙連中文語言模型」的結合,完成了第二代的「國語聽寫機」--「金聲二號」。「金聲二號」於民國八十二年九月底完成,國科會在同年舉辦發表會,正式向國人宣布此語言輸入技術的里程碑。資訊業者幾乎一致認為已達到具有方便好用的產品要求了。

「金聲二號」和「金聲一號」相比,除了因計算簡化使得軟硬體的條件更為簡單、速度加快、正確率提高之外,也由於「分段機率模型」及「詞群雙連中文語言模型」本身的強健性和彈性調整的能力,使得「金聲二號」具備了豐富的「智慧型學習功能」。可以在最短時間內,學習新使用者的聲音、環境雜訊,甚至適應使用者的運用領域、用字、遣詞構句的習慣。

會取代其他輸入法?

即使使用者的國語不標準也不用擔心。因為操作時是由使用者訓練機器聽他的國語,所以使用者當然可以訓練機器聽「不標準」的國語。事實上,機器是自動學習每一個使用者的國語,對它而言並沒有所謂標準國語在。如果是使用者本身混淆的音,如「師」、「司」不分等,機器自然也會因此提高失誤率,但在「中文語言模型」中仍可做相當程度的更正,而不會有把「老師好」寫成「老司好」的情形發生。

「金聲二號」的基本操作方式是:使用者得先訓練電腦聽他的國語,(我們有一套經過設計的學習範本),並將自己的語音特徵在電腦中建檔,使不同的人可以使用同一台機器。當使用音念斷開的單音節時,中文字即自動輸入電腦,使用者在螢幕上發現錯誤時,可立即用鍵盤或滑鼠更正。

「金聲二號」不僅速度很快(平均約0.六秒一字),正確率可達九0%以上,且只需一片數位訊號處理電路卡(DSP Card)即可,可以放入任何AT級以上的個人電腦,很快就可以變成實用的產品,且將漸漸達到低價位、大眾化的目標。

根據資策會的一項資料顯示,一九九三年各國人民日常工作使用電腦的比例,美國為五一%,日本為五九%,台灣則只有七%,希望藉由「國語聽寫機」的出現,拓展中文電腦新的應用空間,提高中文社會的電腦使用率,並加速中文社會的資訊化。

另外一個大家關心的問題是,「語音輸入法」是否會逐漸取代其他的中文輸入法?我認為未來各種輸入法都將擁有各自的應用空間。例如鍵盤輸入雖需要專業人員,但其快速、大量輸入的能力是無法被取代的。而「國語聽寫機」的理想使用者,是針對平常文字使用量不大,學習鍵盤輸入法覺得費時費事且容易遺忘的人。希望因此而能普遍提升國人使用電腦的興趣,進人真正資訊化的社會。

(王慧雲整理)

你可能也喜歡

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務