ChatGPT又來送聖誕禮物!OpenAI昨晚繼續12個工作日不間斷直播,於週一(12/9)正式開放AI影片生成工具Sora,送出AI生成影片大驚喜。只要輸入文字指令,就能直接生成影片。具體來說,Sora是什麼意思?如何在OpenAI官網下載?正式版的四大功能怎麼秒生成影片?實際應用案例?現在哪些人可以用Sora?
Sora是什麼意思?基本功能為何?
早在今年(2024)2月,OpenAI便從文字與圖像生成再進一步,向大眾介紹文字生成影像(text-to-video)的模型暨工具Sora。名字來源為日文的天空,OpenAI團隊想透過Sora,賦能給一般心懷創作夢的你我。
但Sora到底是什麼?它是一款多模態生成工具,能夠根據文字指令、圖片或影片生成短片,最高解析度達 1080p。
在發表會上,產品工程負責人沙海(Rohan Sahai) 詳細介紹Sora的介面和功能,這些功能為使用者帶來全新的創作方式。
Sora的基本運作,就是讓使用者鍵入文字或者上傳圖片,藉此生成一支解析度最高1080p、長度達20秒且多種長寬比的影片,並有不同版本讓人挑選,概念上與以文生圖的Midjourney產出4張圖片非常相似。
Sora可以在OpenAI官網下載使用?付費或免費?
許多人想要在手機或者自家筆電使用Sora,但想使用Sora,目前需要登入OpenAI官網,不能下載。
官網連結如下,點入後,請點擊右上角的「Start Now」即可進入Sora功能面板:
另外,目前Sora也並未如ChatGPT推出行動版,沒有上架iOS App Store或者Google Play等行動市集商店。請小心,在上面以「Sora」為名的App應為偽造。
Sora付費或免費?
如今,萬眾矚目的Sora總算真正開放給一般人使用。根據OpenAI執行長奧特曼(Sam Altman)所說,使用資格如下:
1. 付費20美元訂閱ChatGPT Plus
2. 或者上週五公告高價200美元的ChatGPT Pro方案
但據實際使用的使用者發現,因為湧進流量太高,嘗試登入時,會出現「If you've never logged into Sora before, please check back again soon.」代表若先前沒有登入過獨立於ChatGPT的Sora網站,暫時無法利用Sora生成影片。
Sora五功能影片教學範例
正式上線的Sora,其核心功能包括如下五種,只要點入Sora官網的功能面板就可使用:
功能 | 描述 | 應用場景 |
---|---|---|
探索(Explore) | 瀏覽用戶生成的影片 | 靈感啟發 |
故事板(Storyboard) | 時間軸逐步生成影片內容 | 劇本構思與製作 |
混搭(Remix) | 修改生成的影片元素 | 特效設計與創作 |
循環(Loop) | 創造無縫重複影片 | 動畫與遊戲場景設計 |
混合(Blend) | 融合不同影片 | 影片進一步優化 |
資料來源:OpenAI官網 |
但是,入門者可能有點難下手,也不知道如何下指令最佳?以下是由Sora官方團隊提供的教學示範,可以手把手跟著學。
1. 探索(Explore)
當你點進功能面板,第一個可使用的是探索,可先瀏覽其他用戶創作的精采影片。官方團隊並建議了相關的使用的指令,如下影片。
2. 故事板(Storyboard)
第二個步驟是,依照指示搭配時間軸逐步生成內容的故事板。
3. 修改生成影片元素的重新混搭(Remix)
4. 重複產出特定片段的迴圈(Loop)
5. 融合不同影像的混合(Blend)
Sora如何重新定義創作產業?
其實,早在今年2月Sora預覽版推出後,就讓全球影視產業頂尖的好萊塢業者都深受震撼。當時,好萊塢導演Tyler Perry停止了工作室擴建計畫,指出Sora將使場景搭建與外景拍攝不再必要。這對影視產業的就業市場帶來挑戰。(延伸閱讀:Sora是什麼?為何尚未上市,就震驚好萊塢?全球工作衝擊一次解析)
不過,對於資源有限的個人創作者,Sora提供了以低成本製作高品質內容的機會。而在企業層面,Sora的應用範圍更廣,包括廣告製作、教育影片以及虛擬實境等領域。
ChatGPT團隊的創新:Sora運作原理
在聖誕節連續12天的AI主題直播裡,奧特曼分享將開放Sora使用的消息以後,解釋OpenAI打造Sora背後的願景,如下影片可參考。
但若想直接了解影片的重點,以下為奧特曼與OpenAI團隊的展示重點:
「我們熱衷於為創意工作者打造工具,這對我們的文化很重要,也對我們希望人類如何使用AI至關重要。」奧特曼解釋提供Sora給創作者的目的,這和ChatGPT和DALL·E幫助白領工作者的用途相似。
但不只如此,他認為應該重視多模態的發展,讓人工智慧處理更多不同類型資料,這樣距離OpenAI的深刻願景,也就是通用人工智慧(AGI)更近。
Sora重點不在AI一鍵生成,而是編輯與調整
其中,故事板運作很像影像編修軟體時中,查看時間軸上不同片段的影像素材。只是在Sora中,使用目的不再是剪輯,而是透過文字描述或者上傳圖像生成影片。
Sora的產品設計師菲林(Joey Flynn)分享,使用者可以在時間軸內放上卡片,在卡片中「描述環境、角色以及您希望在影片特定時間點發生的任何動作,」Sora便能夠開始生成影像。
此外,使用者可以自行調整卡片配置,例如在卡片之前增加或減少時間間隔,前者能夠讓Sora自動填補連續鏡頭,後者則與電影剪輯更為相似。
菲林強調,Sora的重點不只是憑空創造出內容,使用混搭、混合與剪輯等功能,以生成內容為基礎進一步編輯與調整更是關鍵。「如果你希望使用Sora時能夠一鍵生成一部電影,這樣的期望是錯誤的,⋯⋯Sora讓你能夠去到不同地方、嘗試不同點子,嘗試過往完全不可能的事物,」他用「創作者的延伸」定位Sora。
奧特曼援引首代GPT模型GPT-1,用來比喻Sora仍處在早期階段,還有許多限制與不完美之處,但他相信Sora將會變得更好。
Sora實際案例與使用限制
其實,在今年5月,以「冷波」(chillwave)風格見長的Washed Out將於6月發行新專輯,前導單曲〈The Hardest Part〉MV便是啟用Sora的結果。以快速、流暢的畫面呈現了一對情侶40年間的生活片段,呼應歌詞描繪的愛與失落。但製作過程沒有起用任何一名演員、搭建任何一個場景。但當時生成的內容難以維持一致性,最後仍需要大量後製是主要限制。
如今正式上線的Sora,這可說是值得多加測試觀察的重點。(延伸閱讀:Sora打造首支音樂MV!業界評優缺點:零演員超省,但有兩問題)
至於一位日本導演曽根隼人使用新上線的正式版Sora來製作仿遊戲影片,他在X上展示影片,看來相當逼真。不過他指出片中的地圖有出現錯誤,仍有可改進的地方。
Sora與其他AI影像工具差異
觀察產業界影像生成應用,在本次Sora推出以前,已經能看到適用於不同場景、服務不同使用者的工具遍地開花。
首先,Sora本身的優勢是可生成最多60秒的長片段,另外其先進的擴散模型架構,更讓生成影片具備時間一致性與真實感。此外,Sora 還能為靜態圖片添加動畫效果,或透過補充缺失的畫面與新增內容來延展現有影片,展現出極高的創作靈活性與技術優勢。
不過Google的影音生成模型Veo,則能夠服務創作者與企業用戶。今年9月時Google宣布,讓YouTube創作者能夠利用Veo輔助製作影音背景與內容,甚至直接生成獨立影片片段;同時,企業也可以活用現有素材,將其轉化成動態影片。
與YouTube相似,Snapchat母公司Snap推出Snap Video、Meta推出Movie Gen,都是預期幫助創作者打造內容,或者是改動既有影音例如服裝、濾鏡與背景等。
除了服務個別創作者以外,創意產業會使用Runway Gen3、Pika等工具,應用在廣告業生成廣告、遊戲業生成動畫、影視業生成概念影片等任務中;創意產業以外,不管是企業內部訓練拍攝影片,還是製作跨國多語言行銷素材,甚至是把問答頁面轉譯為動態內容,都能利用HeyGen、Synthesia等工具處理。
生成式AI的風暴已從文字、圖像席捲至影音,個人與產業都在驚慌與興奮的情緒中,憂喜參半地前行。