OpenAI日前正式推出影像生成工具Sora,開放ChatGPT付費會員使用。Sora的核心功能包括故事板(Storyboard)、混搭(Remix)、循環(Loop)和混合(Blend),本文實測了這四大功能,看看其生成的影片優缺點,真的能用嗎?還是難以取代人類影像藝術工作者?一文完整拆解。
Sora是什麼?如何使用?
Sora是OpenAI在2024年12月推出的影像生成工具,可以輸入文字、圖片或影片,讓AI根據指令生成20秒內的短片。目前Sora僅開放給ChatGPT Plus和Pro的付費用戶,只要在官網中點選右上角的「Start Now」就能使用。
進入Sora後,在畫面下方的框框中即可輸入文字、上傳圖片或影片,也能調整畫質、尺寸、秒數,以及要生成的影片數量等設定。
Sora實測功能1:故事板(Storyboard)
故事版像是影片腳本,可以根據時間軸下指令,做出劇情轉折。記者在時間軸的0秒、2秒、4秒之處,分別寫了三段指令:「歌手在舞台上唱歌」、「台下有很多觀眾,熱情地支持歌手」,以及「舞台後方有煙火,所有人都很開心」,希望呈現出演唱會施放煙火,氣氛熱鬧的畫面。
指令原先是用中文寫的,但在影片生成後,指令會自動翻譯成英文。
Sora實測功能2:混搭(Remix)
混搭功能可以讓使用者改變影片中的元素,並且可調整混搭強度,除了強、中、弱以外,還有「Custom strength」可選擇等級1到8的強度。
記者實測混搭功能,輸入「把台上的表演者換成機器人舞團」,並將強度設定為「Strong」。輸出結果確實有符合指令,場景也大致與原先相同,不過仔細觀察可發現觀眾的動作不太一樣,從揮手變成拍手,也有較多舉起手機拍攝的觀眾。可見要只調整指令內容,而不更動其他元素,仍有一定難度。
Sora實測功能3:循環(Loop)
循環功能可以讓使用者擷取影片的片段,重新製作成分不出頭尾、能無限循環的影片,為了讓畫面更自然,可以選擇額外將影片增加2秒、4秒或6秒。
實測循環功能,並選擇將影片增加2秒,結果相當自然。
Sora實測功能4:混合(Blend)
混合功能可以將兩段影片合成一段影片,提供轉場(Transition)、樣本(Sample)和融合(Mix)三種效果,也能自訂混合曲線。以下記者用Sora生成的演唱會和富士山影片,實測混合功能中的三種效果。
轉場效果將影片場景從演唱會轉到富士山,透過將鏡頭逐漸拉近,以及將煙火煙霧逐漸變成雲,讓這兩個看似衝突的影片自然銜接起來。
樣本效果是以演唱會影片為基礎,加上富士山影片的影響。結果是變成在富士山下開演唱會的場景。
融合功能直接將兩段影片合起來,變成既有富士山當背景,也有原先演唱會的舞台。但不知為何群眾的動作變得很快,像是縮時影片的感覺。
Sora《遠見》實測結論:或許最適合製作梗圖與串場片庫
整體而言,Sora生成的影片大致上能符合指令要求,流程也相當簡單快速。但若使用混搭、混合功能進行微調,生成的新影片無法完全保有與原影片相同的元素,如果想使用完全相同的主角生成多段影片,可能會有困難。
此外,Sora一次最多僅能生成20秒的影片,即使用故事板功能,能編寫的情節也有限,只能讓角色做一兩個動作、或切換一兩個場景等。因此,目前Sora適合的使用情境可能是製作GIF梗圖、影片轉場或靈感發想等,不需要連貫或較長影片的時刻。若要打造長片,可能還是得期待模型迭代或者其他工具了。