Google Gemini日前推出專門用於圖像生成和編輯的AI模型,並且開放在Googel AI Studio中免費使用。只要用文字輸入需求,無論是合成兩張圖片、修改圖中物件,或為故事生成連續插畫等,都能快速得到品質優良的成果。本文實測了五個實用的圖片生成與編輯功能。
Gemini圖像生成模型是什麼?怎麼用?
Gemini圖像生成模型是Gemini 2.0 Flash的圖像生成功能,根據Google官網介紹,其主打可在多輪對話中編輯同一張圖片、在多次生成中保持人物設定一致,以及在圖片上生成文字的文字渲染(Text rendering)功能。
此功能於去年12月時推出,當時僅限部分測試人員使用;自3月中旬起擴大開放權限,如今只要在Googel AI Studio上,選擇Gemini 2.0 Flash (image generation) Experimental後,即可開始免費使用。
實測1:生成有中文字的圖片
過去在使用AI生成圖像工具時,經常遇到中文字無法正確生成,而是變成亂碼的問題。Gemini 2.0 Flash號稱其有領先其他模型的渲染功能,可直接用其製作帶有文字的廣告或社群媒體貼文,不必另外將文字後製上去。
實測輸入指令「請生成一張黃金獵犬脖子上掛著卡片,上面寫著『早安您好!又是美好的一天』的圖片」後,發現圖中大部分的文字皆正確,只有「又」寫得像「叉」,以及少了一個「的」字。可說已相當有進步。
實測2:在圖片中加上物件
實測上傳一張公路的照片,並請AI加上兩隻小狗。結果確實符合要求,背景看起來也與原圖一致。不過,接著再請它將兩隻狗改成兩隻貓,卻變成一貓一狗,只有右邊的狗換成貓而已。
實測3:移除圖片中物件
上傳一張左前方有機車騎士、右後方有一位坐著的男子的照片,並要求AI將機車騎士移除。結果看起來很合理,沒有太大的破綻,只有細看後才發現屋頂和地板不太平整。
實測4:合成兩張圖
實測上傳一張模特的照片、一張相機的照片,輸入指令「請讓第一張圖的模特,拿著第二張圖的相機」。結果乍看之下非常真實,不過細看後可發現,模特的髮飾從一個變成兩個、原本的美甲也不見了;相機則是有和原圖一致的形狀和顏色,但沒有原圖上寫的文字。
實測5:將黑白照片上色
實測上傳一張黑白照片,並要求AI將其上色。結果相當真實,顏色選擇看起來也很合理。然而,放大圖片細節,發現其中一個人的五官消失了、另一個人的臉也與原圖有些差異。
Gemini優缺點統整,真的比Photoshop好?
整體而言,Gemini 2.0 Flash生成圖像的速度非常快,皆能在10秒內完成,操作簡單、生成品質佳,且能免費使用,是想快速生成或編輯圖片的好選擇。不過仍有不少瑕疵,僅能提供給社群素人做分享使用,尚無法取代專業度高的Photoshop。以下表格整理了此次的實測結果:
實測項目 | 優點 | 缺點 |
---|---|---|
生成有中文字的圖片 | 中文字生成準確度高 | 少數錯字、漏字問題 |
在圖片中加上物件 | 物件融合效果佳、背景一致 | 複雜物件更換可能不夠精準 |
移除圖片中物件 | 整體自然、無明顯違和感 | 部分背景線條仍有瑕疵 |
合成兩張圖 | 初步效果逼真,物件融合協調 | 容易忽略小細節(配件、文字等) |
將黑白照片上色 | 顏色自然合理,效果真實 | 人臉五官未能正確處理 |
請注意,此表格僅供參考,AI回應內容與品質可能因指令不同而有差異。