輝達新AI模型Fugatto亮相！能改變口音、生成「新聲音」

中央社

2024-11-30

瀏覽數

輝達（NVIDIA）發表全新AI研究成果Fugatto。取自NVIDIA官網

00:00

輝達（NVIDIA）美國時間25日發表全新人工智慧（AI）研究成果Fugatto，只要使用文字就能控制音訊輸出，並可以將任何文字提示轉換為音訊，也能根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音口音或情感。

輝達發布新聞稿說明，Fugatto是Foundational Generative Audio Transformer Opus 1的縮寫，可使用文字與音訊檔案的任何組合，產生或轉換描述的音樂、語音與聲音。

輝達應用音訊研究部門經理巴耶（Rafael Valle）表示，「我們希望創造一個能夠像人類一樣理解和生成聲音的模型」，Fugatto是邁向未來的第一步。

輝達指出，音樂製作人可以使用Fugatto快速製作聲音的原型或編輯歌曲構想，嘗試各種風格、聲音和樂器，也能加入效果並提升現有曲目整體音訊品質。

此外，輝達表示，廣告公司可以運用Fugatto，針對現有廣告內容的配音，套用不同口音和情感。語言學習工具可以變得個人化，例如線上課程能使用家人或朋友的聲音講授。

Fugatto可使用文字與音訊檔案的任何組合，產生或轉換描述的音樂、語音與聲音。僅為情境示意，Unsplash by Elias Lobos

輝達推Fugatto AI，改造、創作新聲音都行

全球人工智慧（AI）晶片霸主輝達（Nvidia）瞄準音樂、電影和電玩遊戲製作人，26日展示一款用於生成音樂和音頻的AI新模型，不僅可用於改造現有音頻，還能自行創造、生成新聲音。

路透社報導，輝達表示，目前並未打算立即公開推出這項Fugatto（Foundational Generative Audio Transformer Opus 1）技術。

Runway等新創公司以及諸如Meta Platforms等更大型企業，都有發表可根據文字提示生成音訊或視訊的技術。

而輝達的版本會根據文字描述生成音效和音樂，包括新奇的聲音，例如小號會發出像狗叫的聲音。

Fugatto與其他AI技術不同的地方，在於它能接收和修改現有音頻，例如將鋼琴彈奏的一段音樂轉換為人聲演唱版本，或讓錄下來的口語改變口音及其情緒表達。

輝達深度學習應用研究副總裁卡坦察羅（Bryan Catanzaro）表示：「想想過去50年的合成音頻，就會發現當下的音樂聽起來不一樣，因為有電腦、合成器。」

「我認為生成式AI將為音樂、電玩和想創作的普通人帶來新的能力。」

本文轉載自2024.11.26「中央社」，僅反映作者意見，不代表本社立場。