Google Veo 3是什麼？「不存在車展」為何嚇壞網友？

去年ChatGPT團隊OpenAI推Sora，快速AI生成影片震撼好萊塢！Google 今年5月底推出影音生成模型Veo 3，有影片創作者以Veo3打造一部「不存在的車展」YouTube影片，裡面的人物訪談與氣氛難以分辨真假，嚇壞網友！已是全球最熱網路話題。Google這回模型有哪些驚人改變？影視工作者如何應對這一波大浪？《遠見》實際走訪美國與台灣現場，一文帶您直擊Google Veo 3開發團隊、影視創作者心聲。

【目錄】
● Veo 3三大進展：生成品質更真實、原生音訊、更能依照指令行事
● Flow讓創作更容易：相機控制、延長影片、長相一致
● AI生成影音挑戰：影視產業對細節極度挑剔
● 創作者心聲：預算非無限，AI是解方

上週（05/20），Google在年度開發者大會上（Google I/O）釋出的最新影音生成模型Veo 3、提供給創作者的AI影像編輯工具Flow，震驚世人。

因為，隨著品質進步，AI生成的影片細節擬真度不斷提升，人們愈發難以辨識真偽。

影／越南YouTube影片創作者László Gaál，利用Veo 3生成的「不存在的車展」，短短數天就引來超過十萬人氣。

Veo 3三大進展：生成品質更真實、原生音訊、更能依照指令行事

跟前一代模型Veo 2相比，Veo 3最主要的升級有三：模型表現提升，增加真實感和保真度；產出影片自帶音訊，無需額外配音；可以準確依照使用者指令生成內容，減少後製工作負擔。

在Google I/O現場，Google DeepMind產品副總裁柯林斯（Eli Collins）向來自世界各地的媒體強調，現在正式進入完整音訊的時代，「各位的角色可以說話、對話，還能夠聽到樹葉的窸窣作響。」

此外，Veo 3也更能理解使用者的需求，精確按照指令生成內容。例如，官方展示一段指令：「一根細緻的羽毛靜靜地停在圍欄柱上。一陣風吹來，將它揚起，輕盈地在屋頂之間飛舞。它飄浮、旋轉，最後停留在高樓陽台上的蜘蛛網中。」

Veo 3依照指令中的動作，依序執行，且聽得到背景傳出的風吹和鳥鳴。

影／Veo 3 實際生成影片展示。

就模型進化、提升生成品質來說，有許多進展難以直接用言語說明，但實際查看影片，即可看出Veo團隊所描述的進步。

今年Google I/O上，Google DeepMind舵手哈薩比斯（Demis Hassabis）表示，要朝著讓模型理解世界的方向前進。

呼應哈薩比斯的說法，柯林斯針對Veo 3的表現進化表示，底層模型對世界、物理和事物運動方式的理解更加深入，因此能夠讓生成影音的內容細節更加保真（fidelity），「比如光線的運作方式，或者物理上讓馬的動作看起來更加自然。」

Flow讓創作更容易：相機控制、延長影片、長相一致

Google DeepMind團隊積極改良模型的同時，Google Labs則端出讓創作者更能夠控制影像內容的影像編輯產品Flow。

在Google Labs的Flow團隊內擔任資深使用者經驗設計師，馬他瑞沙（Nick Matarese）用「由創作者為創作者打造」的電影製作工具描述Flow。Flow整合了Veo 3、Veo 2、Imagen和Gemini等模型，核心訴求就是要讓創作者能夠靈活運用AI生成的內容。

在Flow當中，使用者可以利用文字轉影片、圖片轉影片、文字與圖片素材轉影片等；設計影片內容時，還可以控制攝影機的機位與角度。「它會向各位確切地顯示相機將如何運作，這讓創作者一直以來要求的控制成為可能，」馬他瑞沙說道。

柯林斯強調，Flow支援多種輸入模態，而且在文字框中可以輸入數萬個符元（token），能夠藉此生成影像，也能直接把文字用在影片中的對話中。使用者可以自己發想影像中人物的談話內容，也可以仰賴Gemini發想劇本。

影／Flow提供攝影機機位控制，例如推入移動（dolly in）、右搖（pan right）等方便創作者隨心所欲。

無論是生成圖像還是影片，使用者常遇到的痛點之一，在於每次產生新內容時，原本人物或物品的外觀容易發生變化。在行銷與廣告領域應用時，例如服飾品牌使用AI模特兒影像素材，便需要透過後製維持一致性。

Google在模型端，直接加強Veo的參考圖片功能，即便在不同場景，也能保持角色外觀一致；在工具端，則利用Flow的延續（extend）、轉場（jump to）等功能，讓角色不會顯得割裂。前者會參考生成內容的最後24幀維持連續性，後者則保留最後一幀的脈絡，即便切換場景，角色也能維持不變。

實際操作Flow時，馬他瑞沙展示出一套完整的工作流程。他先利用Imagen 4生成一位人物，接著再搭配文字，描述這位人物在咖啡館裡閱讀，生成的影片完全按照他所說的進行；接著他又額外指定兩位不同人物，再結合三位角色、手拿不同餐點，並調整攝影機機位，利用自然語言便能組合不同場景。

TSA鎖＋手機支架＋煞車輪，訂《遠見》輕鬆帶回Arowana好箱！

柯林斯表示，先進的多模態功能結合Gemini的控制能力，Veo 3才能產出高品質的影音。曾子軒攝

AI生成影音挑戰：影視產業對細節極度挑剔

《遠見》向Google主管詢問，從一般人的角度看來，Veo 3生成影音的品質令人感到驚艷，未來還有哪些改進方向？

柯林斯笑著說，雖然模型品質每年都在提升，「但如果各位與每天使用這項技術的人交談，仍然有很大提升空間。」他解釋，模型生成的視覺美感變強、場景很有電影感，這些的確很重要。

「但創作者不只需要這些。他們腦海中有想法、想把它變成現實，所以他們不只想創造『一個很棒的影片』，他們想創造『一個很棒、正是他們想要的影片』。」

對用在YouTube解說影片的背景、社群上增加素材豐富度的人來說，可以生成大量內容後，從中「抽卡」，挑選自己認為品質過關的內容，但專業人士需要的是能夠完全掌控創作過程。

為了讓創作者能夠隨心所欲，Google才會在Flow裡面提供相機控制等「電影的語言」便於上手。柯林斯表示，「顯然地，我們會在美學、物理等方面做得更好，⋯⋯我認為最有趣的領域是可控性，以及讓這些模型更能貼近、符合各位的構想。」

馬他瑞沙指出，Flow的控制項讓創作者有辦法掌控細節。曾子軒攝

由於日常工作需要與製作團隊密切溝通，馬他瑞沙則舉出實際例子，說明產業有多麽重視細節。

與一位頂級視覺特效藝術家合作時，對方告訴他，北半球和南半球龍捲風旋轉方向不同，尚未考慮到這一點。馬他瑞沙笑著說，一般人可能不會注意，也不太重視龍捲風的旋轉方向，但產業端對保真度的要求，讓模型後續還有進步空間。

另外，針對大眾關心的版權問題，目前工具有消極和積極兩種應對方式」。

消極面來說，會期待使用者上傳的內容都是合法允許使用的資源，積極面來說，則會阻止生成著名人物，另外文字上還有背誦檢查（recitation checking）機制，能夠偵測受到版權保護的內容。不過，影音生成部分Google沒有直接做出回應。

創作者心聲：預算非無限，AI是解方

在Google I/O上，能夠瞥見開發者的想法，那麼，實際的產業從業人員又是怎麼想的？要如何使用AI、AI的應用時機為何？

「如果有無限預算的話，我還是想用底片拍。我就想要跟克里斯多福·諾蘭（Christopher Nolan）一樣，要底片、要實體爆炸，但今天不可能。」Ø Studio共同創辦人暨創意總監張景翔（Davis）表示，一般創作者、中小型工作室和初出茅廬的影像製作團隊手中資源並不豐富，而AI生成內容（AIGC）為他們提供了新的可能性。

張景翔表示，個人創作者若只是在社群媒體上分享內容，要求相對較低，但若要放到YouTube、電視上，便需要精雕細琢。曾子軒攝