ChatGPT團隊OpenAI, 15日公布影片生成模型Sora,只要輸入簡短文字描述,就能生成一分鐘逼真影片!目前僅開放給少數專業人士試用,但已有人網上實測展現隨意換背景,加恐龍都行。讓不少人驚呼好萊塢電影人恐失業。為何外媒表示,與其他競爭對手如Meta、Google的影片生成模型相比,Sora有一些優勢更強?另外創作者實測發現哪些優點與缺點?以下完整公開。
OpenAI自2022年11月發布劃時代的AI工具ChatGPT後,仍持續拓展生成式AI領域,包括功能更強大的語言模型GPT-4、圖像生成模型Dall-E 3等。從文字到圖像,如今OpenAI以過去對GPT模型和DALL-E的研究為基礎,又在15日邁出重大的一步——推出影片生成模型Sora。
Sora怎麼用:輸入文字就能生成多個角色、鏡位的逼真影片
Sora能夠根據使用者輸入的文字內容,生成具有多個角色、鏡位,以及複雜動作、情感的影片,時長則可長達一分鐘。OpenAI表示,Sora不僅能理解使用者在文字提示中描述的事物為何,還能呈現這些東西存在於現實世界的合理場景。
OpenAI執行長奧特曼(Sam Altman)也於X上發布貼文,邀請大家回覆一段文字內容,讓他使用Sora生成影片。其中有一些有趣成果,例如在「兩隻黃金獵犬在山頂上錄Podcast」的生成影片中,兩隻狗狗在山頂上鋪了紅色的野餐墊,戴著耳機並面向麥克風。雖然這個場景在現實中不會發生,但畫面仍然相當寫實並充滿細節。
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
另外一段敘述「由一位阿嬤級自媒體人主持的糰子製作教學節目,場景設置在托斯卡納鄉村廚房,並配有電影燈光」所生成的影片,無論是角色、場景或運鏡,都如同真正的烹飪節目開場般逼真。
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
Sora創作者實測:照片秒變影片,還加恐龍
除了使用文字生成影片外,Sora還能將照片變成影片、擴充既有影片的畫面,或是填補影片中缺失的內容。科技與藝術創作者西杜(Bilawal Sidhu)在X上發布了Sora的實測成果,他將一支紅色跑車在山林中飛馳的影片輸入Sora,並要求其「將季節變成冬天」、「讓畫面出現恐龍」以及「將場景改為叢林」等,Sora也都能在原始影片中更動細節,正確完成任務。
OpenAI just dropped their Sora research paper.
— Bilawal Sidhu (@bilawalsidhu) February 16, 2024
As expected, the video-to-video results are flipping spectacular 🪄
A few other gems: pic.twitter.com/MiRe2IYkcI
然而,目前的Sora仍然有可見的弱點。雖然它能模擬真實場景,但對於動態的因果關係或時間變化仍難以掌握。例如,生成影片中的角色咬了一口餅乾,但餅乾卻沒有出現咬痕;或是無法遵循特定的運鏡軌跡等。此外,它也可能會混淆使用者描述的空間細節,例如出現左右不分的情況。
Sora仍屬測試階段,奧特曼強調有安全規範
為避免人們將生成影片用於不法之處,OpenAI表示,針對Dall-E 3的相關安全規範,也同樣適用於Sora。例如,使用者無法輸入涉及色情、暴力與仇恨的內容,也不能使用名人的肖像或其他創作者的作品。此外,OpenAI也開發了強大的影像分類器,會審查生成影片的每一幀,以確保生成的內容符合其使用政策。
目前Sora仍在測試階段,在開放給一般大眾之前,仍須經過假訊息、仇恨內容與偏見等領域的專家測試;以及收集視覺藝術家、設計師和電影製作人等影像相關工作者的意見。
OpenAI表示,儘管進行了廣泛的研究,他們仍無法預測人們會如何使用AI工具,以及會出現哪些濫用情形;因此,他們希望了解相關產業人士的擔憂,並不斷從實測中學習,以推出愈來愈安全的AI系統。