(圖片擷取自Youtube)
機器人的時代正式來臨了。許多人擔心機器人將會搶走人類現有的工作,但以樂觀角度來看,機器人也可以做很多我們不想做、做不動,甚至不可能做的事情,像美國麻省理工學院(MIT)最近發表的音效機器人,就是又一個令人驚喜的成果。
根據MIT新聞和英國金融時報六月間的報導,MIT電腦及人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory)以「深度學習」演算法,訓練他們的「視覺指示聲音系統」(Visual Indicated Voice System,簡稱Vis)製造出和現實環境如出一轍的聲音。這是全球第一個通過圖靈測試(Turing Test)的聲音系統。
(影片來源:Youtube)
MIT團隊給機器人看1000支影片,裏頭含有多達4萬6000種聲音,譬如一根鼓棒敲打、摩擦各種不同物體如樹葉、水、地面或金屬所發出的聲音,然後利用「深度學習」演算法,讓電腦從大量數據找到模式,成功地分析、解構多種聲音,知道它們的音高、音量等等特色。
為了測試Vis製造出來的音效是否夠逼真,研究團隊找來400個人看兩支影片,影片的視覺內容是一樣的,但有一支的聲音是從現實環境收音的,另一支是Vis製造的音效,受試者必須指出哪一支影片是真實的聲音。
測試的結果,有多達40%的人認為Vis版是真的,證明Vis可以騙過人的聽覺。
研究人員表示,對Vis來說,模仿乾淨清脆的聲音,例如敲木頭或鐵,比較容易穿幫;如果模仿輕柔悠長的聲音,如沙沙的樹葉等等,Vis的表現最好。
這項技術將有許多應用,對於電視電影的音效來說,以前要模仿下雨的聲音,傳統做法是把鹽灑在鋁箔紙上,以後只需要Vis幫忙,就可以得到栩栩如生的雨聲。
接下來的研究方向是讓機器人了解物體所在的環境,和四周產生更佳的互動。例如,機器人看到影片中的人行道,就馬上知道水泥是硬的,看到草坪就知道是軟的,踩在上頭各會是什麼聲音。
這種預測的能力很重要。如果給Vis看一部無聲電影,它就可以預測新的聲音:一拳搥在靠枕的低沈感、敲在鐵欄杆上的清脆聲響、微風吹過長春藤……,各種快、慢、輕、重聲音的微妙之處,它都可以預測。
團隊還希望Vis未來能做到在沒有清楚的視覺指示下,製造出適合的音效,因為我們的周遭環境其實無時無刻都充滿各種聲音,譬如清風徐徐、電腦滋滋作響,是乍看之下不會察覺的。