2月中旬,作為人工智慧先驅企業的OpenAI再度以全新AI工具「Sora」引爆話題。根據上週《華爾街日報》的訪談,OpenAI技術長米拉·穆拉蒂(Mira Murati)表示,Sora即將在「今年」推出,也有可能在「幾個月內」面市。訪談中,對於訓練Sora的資料來源卻含糊回答,進而在網上掀起軒然大波,引起熱議。
Sora影片生成效果驚艷,未來也將加入音訊生成
AI模型Sora並非首個影片生成AI工具,但它將文字指令轉換成影片的功能更上一層樓。除了能夠生成長達1分鐘的影片,還可同時生成多個角色及複雜的場景。除此之外,它在單一影片中能夠創建多鏡頭視角,讓畫面更加精緻與流暢。雖然目前尚未開放給大眾使用,但相關生成影片已經在X等社群平台上出現,著實引發話題,也令許多視覺藝術工作者及電影製作人感到不安。
13日,OpenAI技術長米拉·穆拉蒂接受《華爾街日報》的訪談。她透露,Sora將在今年問世。除了將開放給大眾之外,依據OpenAI的發展規劃,「最終」將會把音訊也納入影片生成的一環,讓場景更加逼真。「我們正在努力將這項技術變成工具,供大眾編輯使用。」穆拉蒂表示,AI工具未必能生成最準確的圖像,因此OpenAI也將允許用戶編輯Sora生成的影片內容。
訓練使用數據來源不明,引發外界憂慮
然而,當被問及OpenAI訓練Sora所使用的數據資料來源時,穆拉蒂巧妙回避了該問題。「我不會透露數據使用細節,但這些數據資料是公開可用的或經過授權的。」她說道。Sora確實使用美國圖片素材庫Shutterstock的內容,因為OpenAI與其有合作關係。然而,她並無正面回應Sora是否使用來自YouTube、Facebook和Instagram的影音內容。
根據OpenAI官方說法,在正式發佈Sora之前,將採取多方安全測試。首先,與其對話式AI服務ChatGPT相同,Sora也將檢查所輸入的文本指令是否含有暴力、性、仇恨圖像、名人形象或他人知識產權等違反使用政策的情形。另外,OpenAI將同步開發2件工具,一為分辨影片是否確實由Sora生成,以檢測誤導性內容;二為圖像分類審查影片中的影格,以確保符合使用政策,才顯示給用戶。
Sora將無法生成公眾人物的圖像
然而,基於過去OpenAI曾涉及幾起因其AI模型訓練數據的法律訴訟,外界針對其安全性的說法,仍抱持保留態度。這幾起指控主要針對ChatGPT,2023年7月,作家莎拉·西爾弗曼(Sarah Silverman)、理查德·卡德雷(Richard Kadrey)和克里斯托弗·戈登(Christopher Golden)指控ChatGPT生成他們作品的摘要,侵犯版權。除此之外,2023年12月,《紐約時報》以相似的原因起訴微軟和OpenAI,指控這兩家公司使用該報紙的內容來訓練AI聊天機器人。
針對過往OpenAI訓練AI模型的侵權爭議,以及隨著2024年美國總統大選的接近,外界對於生成式AI工具有可能產生誤導訊息的擔憂有增無減。對此穆拉蒂表示,Sora適用類似DALL-E的政策,將無法生成公眾人物的圖像。除此之外,影片也將會有水印以區分真假,但外界認為,水印並非完美的解決方案。
《華爾街日報》的訪談公開前,Sora的數據爭議早已受到義大利數據保護機構Garante關注。義大利數據保護機構Garante是歐盟最積極的機構之一。他們於8日表示,已經對Sora展開調查,並要求Open AI向其用戶和非用戶澄清Sora所使用的數據資料。除此之外,他們也要求OpenAI證明其數據使用方式符合歐盟法規,但目前OpenAI尚未做出任何回應。
OpenAI最新AI工具「Sora」的重大突破引起各方的討論和關注。然而,針對訓練數據來源的疑慮,Sora的推出也引發多起爭議。儘管OpenAI目前尚未給出具體回應,但外界對其透明度和符合法規的擔憂仍在持續延燒。Sora的強大功能有目共睹,但面對誤導性內容與隱私權侵犯等挑戰,OpenA仍需更加積極地回應社會的關切,確保其技術的合法性,並同時保護使用者的權益。