Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

Google Veo 3是什麼?「不存在車展」為何嚇壞網友?

曾子軒
user

曾子軒

2025-05-28

瀏覽數 12,200+

Google推出影像生成模型Veo 3模型與影像編輯工具Flow,讓創作門檻再度降低。取自Google DeepMind部落格
Google推出影像生成模型Veo 3模型與影像編輯工具Flow,讓創作門檻再度降低。取自Google DeepMind部落格

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

去年ChatGPT團隊OpenAI推Sora,快速AI生成影片震撼好萊塢!Google 今年5月底推出影音生成模型Veo 3,有影片創作者以Veo3打造一部「不存在的車展」YouTube影片,裡面的人物訪談與氣氛難以分辨真假,嚇壞網友!已是全球最熱網路話題。Google這回模型有哪些驚人改變?影視工作者如何應對這一波大浪?《遠見》實際走訪美國與台灣現場,一文帶您直擊Google Veo 3開發團隊、影視創作者心聲。

上週(05/20),Google在年度開發者大會上(Google I/O)釋出的最新影音生成模型Veo 3、提供給創作者的AI影像編輯工具Flow,震驚世人。

因為,隨著品質進步,AI生成的影片細節擬真度不斷提升,人們愈發難以辨識真偽。

影/越南YouTube影片創作者László Gaál,利用Veo 3生成的「不存在的車展」,短短數天就引來超過十萬人氣。

Veo 3三大進展:生成品質更真實、原生音訊、更能依照指令行事 

跟前一代模型Veo 2相比,Veo 3最主要的升級有三:模型表現提升,增加真實感和保真度;產出影片自帶音訊,無需額外配音;可以準確依照使用者指令生成內容,減少後製工作負擔。

在Google I/O現場,Google DeepMind產品副總裁柯林斯(Eli Collins)向來自世界各地的媒體強調,現在正式進入完整音訊的時代,「各位的角色可以說話、對話,還能夠聽到樹葉的窸窣作響。」

此外,Veo 3也更能理解使用者的需求,精確按照指令生成內容。例如,官方展示一段指令:「一根細緻的羽毛靜靜地停在圍欄柱上。一陣風吹來,將它揚起,輕盈地在屋頂之間飛舞。它飄浮、旋轉,最後停留在高樓陽台上的蜘蛛網中。」

Veo 3依照指令中的動作,依序執行,且聽得到背景傳出的風吹和鳥鳴。

影/Veo 3 實際生成影片展示。

就模型進化、提升生成品質來說,有許多進展難以直接用言語說明,但實際查看影片,即可看出Veo團隊所描述的進步。

今年Google I/O上,Google DeepMind舵手哈薩比斯(Demis Hassabis)表示,要朝著讓模型理解世界的方向前進。

呼應哈薩比斯的說法,柯林斯針對Veo 3的表現進化表示,底層模型對世界、物理和事物運動方式的理解更加深入,因此能夠讓生成影音的內容細節更加保真(fidelity),「比如光線的運作方式,或者物理上讓馬的動作看起來更加自然。」

Flow讓創作更容易:相機控制、延長影片、長相一致 

Google DeepMind團隊積極改良模型的同時,Google Labs則端出讓創作者更能夠控制影像內容的影像編輯產品Flow。

在Google Labs的Flow團隊內擔任資深使用者經驗設計師,馬他瑞沙(Nick Matarese)用「由創作者為創作者打造」的電影製作工具描述Flow。Flow整合了Veo 3、Veo 2、Imagen和Gemini等模型,核心訴求就是要讓創作者能夠靈活運用AI生成的內容。

在Flow當中,使用者可以利用文字轉影片、圖片轉影片、文字與圖片素材轉影片等;設計影片內容時,還可以控制攝影機的機位與角度。「它會向各位確切地顯示相機將如何運作,這讓創作者一直以來要求的控制成為可能,」馬他瑞沙說道。

柯林斯強調,Flow支援多種輸入模態,而且在文字框中可以輸入數萬個符元(token),能夠藉此生成影像,也能直接把文字用在影片中的對話中。使用者可以自己發想影像中人物的談話內容,也可以仰賴Gemini發想劇本。

影/Flow提供攝影機機位控制,例如推入移動(dolly in)、右搖(pan right)等方便創作者隨心所欲。

無論是生成圖像還是影片,使用者常遇到的痛點之一,在於每次產生新內容時,原本人物或物品的外觀容易發生變化。在行銷與廣告領域應用時,例如服飾品牌使用AI模特兒影像素材,便需要透過後製維持一致性。

Google在模型端,直接加強Veo的參考圖片功能,即便在不同場景,也能保持角色外觀一致;在工具端,則利用Flow的延續(extend)、轉場(jump to)等功能,讓角色不會顯得割裂。前者會參考生成內容的最後24幀維持連續性,後者則保留最後一幀的脈絡,即便切換場景,角色也能維持不變。

實際操作Flow時,馬他瑞沙展示出一套完整的工作流程。他先利用Imagen 4生成一位人物,接著再搭配文字,描述這位人物在咖啡館裡閱讀,生成的影片完全按照他所說的進行;接著他又額外指定兩位不同人物,再結合三位角色、手拿不同餐點,並調整攝影機機位,利用自然語言便能組合不同場景。

TSA鎖+手機支架+煞車輪,訂《遠見》輕鬆帶回Arowana好箱!

柯林斯表示,先進的多模態功能結合Gemini的控制能力,Veo 3才能產出高品質的影音。曾子軒攝

柯林斯表示,先進的多模態功能結合Gemini的控制能力,Veo 3才能產出高品質的影音。曾子軒攝

AI生成影音挑戰:影視產業對細節極度挑剔 

《遠見》向Google主管詢問,從一般人的角度看來,Veo 3生成影音的品質令人感到驚艷,未來還有哪些改進方向?

柯林斯笑著說,雖然模型品質每年都在提升,「但如果各位與每天使用這項技術的人交談,仍然有很大提升空間。」他解釋,模型生成的視覺美感變強、場景很有電影感,這些的確很重要。

「但創作者不只需要這些。他們腦海中有想法、想把它變成現實,所以他們不只想創造『一個很棒的影片』,他們想創造『一個很棒、正是他們想要的影片』。」

對用在YouTube解說影片的背景、社群上增加素材豐富度的人來說,可以生成大量內容後,從中「抽卡」,挑選自己認為品質過關的內容,但專業人士需要的是能夠完全掌控創作過程。

為了讓創作者能夠隨心所欲,Google才會在Flow裡面提供相機控制等「電影的語言」便於上手。柯林斯表示,「顯然地,我們會在美學、物理等方面做得更好,⋯⋯我認為最有趣的領域是可控性,以及讓這些模型更能貼近、符合各位的構想。」

馬他瑞沙指出,Flow的控制項讓創作者有辦法掌控細節。曾子軒攝

馬他瑞沙指出,Flow的控制項讓創作者有辦法掌控細節。曾子軒攝

由於日常工作需要與製作團隊密切溝通,馬他瑞沙則舉出實際例子,說明產業有多麽重視細節。

與一位頂級視覺特效藝術家合作時,對方告訴他,北半球和南半球龍捲風旋轉方向不同,尚未考慮到這一點。馬他瑞沙笑著說,一般人可能不會注意,也不太重視龍捲風的旋轉方向,但產業端對保真度的要求,讓模型後續還有進步空間。

另外,針對大眾關心的版權問題,目前工具有消極和積極兩種應對方式」。

消極面來說,會期待使用者上傳的內容都是合法允許使用的資源,積極面來說,則會阻止生成著名人物,另外文字上還有背誦檢查(recitation checking)機制,能夠偵測受到版權保護的內容。不過,影音生成部分Google沒有直接做出回應。

創作者心聲:預算非無限,AI是解方 

在Google I/O上,能夠瞥見開發者的想法,那麼,實際的產業從業人員又是怎麼想的?要如何使用AI、AI的應用時機為何?

「如果有無限預算的話,我還是想用底片拍。我就想要跟克里斯多福·諾蘭(Christopher Nolan)一樣,要底片、要實體爆炸,但今天不可能。」Ø Studio共同創辦人暨創意總監張景翔(Davis)表示,一般創作者、中小型工作室和初出茅廬的影像製作團隊手中資源並不豐富,而AI生成內容(AIGC)為他們提供了新的可能性。

張景翔表示,個人創作者若只是在社群媒體上分享內容,要求相對較低,但若要放到YouTube、電視上,便需要精雕細琢。曾子軒攝

張景翔表示,個人創作者若只是在社群媒體上分享內容,要求相對較低,但若要放到YouTube、電視上,便需要精雕細琢。曾子軒攝

有了Flow和Veo 3這類AI工具與模型以後,電影工作者可以採用混合方法,昂貴的特效鏡頭可以利用AI生成,其他部分則維持實景拍攝。創作者們有自己堅守的底線,要求成品品質,但有時仍需控制成本,這時AI工具就能派上用場。

回顧使用過的AI工具與未來進步空間,張景翔觀察,維持角色一致性、增加創作者的控制權都是重點。

以前者來說,雖然現在許多工具都聲稱角色外觀不會變形,但有時仍然會出現鬍鬚增長、配件改變等情況;以後者來說,過往其實不乏鏡頭推進、拉遠等機械式的模板,但使用者調整空間有限,期待運用AI工具時,可以更細緻調整角度。

張景翔也另外補充,是否使用AI的界限並非完全取決於成本,有時候重點在於AI與人類各擅勝場。「比方說明星演技很好,他在文戲、感情戲擺表情的時候,我希望還是本人、抓到機器沒辦法產生出來的東西。」

現在AI只能產生簡單的喜怒哀樂,目前還無法精確調整,「這是人類最有機、也最難得的部分。」如果是超級英雄戴上面具後的武打場面,就可以利用3D和合成特效輔助製作動作鏡頭,這時生成式AI就能發揮作用。

影/由Junie Lau擔任導演、張景翔擔任製片的AI短片《浮生若夢》(Dear Stranger)就是與Google官方合作,利用Veo 3製作而成。

Veo 3展現的進步讓創作者手上增添武器,對預算有限、資源緊縮的中小型團隊而言,像Flow這樣具備控制性與一致性的工具,更是突破門檻的創作引擎。

不過,技術雖不斷革新,但創作的本質仍未改變,寫作者希望能忠實傳達信念,用鏡頭說話的人,也希望可以把心中的想像力化為畫面,期望每一幀都是自己想要的樣子。AI無法取代這份執著,卻能替創作者增加翅膀,讓更多好故事有辦法飛翔。

至於OpenAI的影音生成模型Sora,與Veo相較有哪些差別?可參考這篇完整介紹。

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務