OpenAI推Sora，專家實測打字就能做影片！還秒生恐龍

郭宇璇

郭宇璇

2024-02-16

瀏覽數

OpenAI公布影片生成模型Sora，只要輸入簡短文字描述，就能生成一分鐘影片。本截圖指令為：一隻貓叫醒熟睡的主人，要求吃早餐。主人試圖忽視這隻貓，但貓嘗試了新的策略，最後主人從枕頭下拿出秘密藏匿的零食，讓貓再待一會兒。擷取自OpenAI

00:00

ChatGPT團隊OpenAI， 15日公布影片生成模型Sora，只要輸入簡短文字描述，就能生成一分鐘逼真影片！目前僅開放給少數專業人士試用，但已有人網上實測展現隨意換背景，加恐龍都行。讓不少人驚呼好萊塢電影人恐失業。為何外媒表示，與其他競爭對手如Meta、Google的影片生成模型相比，Sora有一些優勢更強？另外創作者實測發現哪些優點與缺點？以下完整公開。

OpenAI自2022年11月發布劃時代的AI工具ChatGPT後，仍持續拓展生成式AI領域，包括功能更強大的語言模型GPT-4、圖像生成模型Dall-E 3等。從文字到圖像，如今OpenAI以過去對GPT模型和DALL-E的研究為基礎，又在15日邁出重大的一步——推出影片生成模型Sora。

Sora怎麼用：輸入文字就能生成多個角色、鏡位的逼真影片

Sora能夠根據使用者輸入的文字內容，生成具有多個角色、鏡位，以及複雜動作、情感的影片，時長則可長達一分鐘。OpenAI表示，Sora不僅能理解使用者在文字提示中描述的事物為何，還能呈現這些東西存在於現實世界的合理場景。

OpenAI執行長奧特曼（Sam Altman）也於X上發布貼文，邀請大家回覆一段文字內容，讓他使用Sora生成影片。其中有一些有趣成果，例如在「兩隻黃金獵犬在山頂上錄Podcast」的生成影片中，兩隻狗狗在山頂上鋪了紅色的野餐墊，戴著耳機並面向麥克風。雖然這個場景在現實中不會發生，但畫面仍然相當寫實並充滿細節。

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

另外一段敘述「由一位阿嬤級自媒體人主持的糰子製作教學節目，場景設置在托斯卡納鄉村廚房，並配有電影燈光」所生成的影片，無論是角色、場景或運鏡，都如同真正的烹飪節目開場般逼真。

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

Sora創作者實測：照片秒變影片，還加恐龍

除了使用文字生成影片外，Sora還能將照片變成影片、擴充既有影片的畫面，或是填補影片中缺失的內容。科技與藝術創作者西杜（Bilawal Sidhu）在X上發布了Sora的實測成果，他將一支紅色跑車在山林中飛馳的影片輸入Sora，並要求其「將季節變成冬天」、「讓畫面出現恐龍」以及「將場景改為叢林」等，Sora也都能在原始影片中更動細節，正確完成任務。

OpenAI just dropped their Sora research paper.

As expected, the video-to-video results are flipping spectacular 🪄

A few other gems: pic.twitter.com/MiRe2IYkcI
— Bilawal Sidhu (@bilawalsidhu) February 16, 2024

然而，目前的Sora仍然有可見的弱點。雖然它能模擬真實場景，但對於動態的因果關係或時間變化仍難以掌握。例如，生成影片中的角色咬了一口餅乾，但餅乾卻沒有出現咬痕；或是無法遵循特定的運鏡軌跡等。此外，它也可能會混淆使用者描述的空間細節，例如出現左右不分的情況。