未來，機器人的新工作之一：音效師

看影片就能製造音效

黃維玲

黃維玲

2016-06-29

瀏覽數

（圖片擷取自Youtube）

機器人的時代正式來臨了。許多人擔心機器人將會搶走人類現有的工作，但以樂觀角度來看，機器人也可以做很多我們不想做、做不動，甚至不可能做的事情，像美國麻省理工學院（MIT）最近發表的音效機器人，就是又一個令人驚喜的成果。

根據MIT新聞和英國金融時報六月間的報導，MIT電腦及人工智慧實驗室（Computer Science and Artificial Intelligence Laboratory）以「深度學習」演算法，訓練他們的「視覺指示聲音系統」（Visual Indicated Voice System，簡稱Vis）製造出和現實環境如出一轍的聲音。這是全球第一個通過圖靈測試（Turing Test）的聲音系統。

（影片來源：Youtube）

MIT團隊給機器人看1000支影片，裏頭含有多達4萬6000種聲音，譬如一根鼓棒敲打、摩擦各種不同物體如樹葉、水、地面或金屬所發出的聲音，然後利用「深度學習」演算法，讓電腦從大量數據找到模式，成功地分析、解構多種聲音，知道它們的音高、音量等等特色。

為了測試Vis製造出來的音效是否夠逼真，研究團隊找來400個人看兩支影片，影片的視覺內容是一樣的，但有一支的聲音是從現實環境收音的，另一支是Vis製造的音效，受試者必須指出哪一支影片是真實的聲音。

測試的結果，有多達40%的人認為Vis版是真的，證明Vis可以騙過人的聽覺。

研究人員表示，對Vis來說，模仿乾淨清脆的聲音，例如敲木頭或鐵，比較容易穿幫；如果模仿輕柔悠長的聲音，如沙沙的樹葉等等，Vis的表現最好。

【讓我們一起挺中華隊】2026 線上書展應援倒數>>現在訂遠見讀3月號《紅不讓經濟學》，深度認識國球

這項技術將有許多應用，對於電視電影的音效來說，以前要模仿下雨的聲音，傳統做法是把鹽灑在鋁箔紙上，以後只需要Vis幫忙，就可以得到栩栩如生的雨聲。

接下來的研究方向是讓機器人了解物體所在的環境，和四周產生更佳的互動。例如，機器人看到影片中的人行道，就馬上知道水泥是硬的，看到草坪就知道是軟的，踩在上頭各會是什麼聲音。

這種預測的能力很重要。如果給Vis看一部無聲電影，它就可以預測新的聲音：一拳搥在靠枕的低沈感、敲在鐵欄杆上的清脆聲響、微風吹過長春藤……，各種快、慢、輕、重聲音的微妙之處，它都可以預測。

團隊還希望Vis未來能做到在沒有清楚的視覺指示下，製造出適合的音效，因為我們的周遭環境其實無時無刻都充滿各種聲音，譬如清風徐徐、電腦滋滋作響，是乍看之下不會察覺的。