24日一早,ChatGPT官網大當機!讓許多使用者哀嚎不已。尤其GPT4o推出圖片生成功能後,許多人熱愛下指令打造吉卜力動畫風格的貼圖,或做寵物溝通。如今難道都無法達成?遠見實測3種AI工具Gemini、Copilot與Grok,一樣有強大繪圖功能還免費。但它們也有能力打造出「吉卜力」風圖片來代班嗎?誰勝出?一文詳解。
AI圖片生成是什麼?指令怎麼下?
簡單來說,AI圖片生成就是利用人工智慧模型,根據使用者輸入的文字描述(即「Prompt」或稱「詠唱」、「指令」),自動生成對應圖像的技術。這項技術為設計師、行銷人員、內容創作者,甚至是一般使用者開啟了無限的視覺創意可能。
成功的AI圖片生成,關鍵就在於精準的Prompt。Prompt就像是給AI的指令或魔法咒語,你寫得愈清楚、愈具體,AI就愈能理解你的意圖,生成出符合期待的圖片。一個好的Prompt可以包含以下元素:
- ● 主體: 你想畫什麼?例如:一隻貓咪、一棟摩天大樓、一個人物。
- ● 動作/情境 :主體正在做什麼或身處什麼環境?例如:坐在窗邊、在雨中漫步、背景是星空。
- ● 風格: 你想要的藝術風格?例如:水彩畫、油畫、卡通風格、寫實風格、賽博龐克。
- ● 細節: 增加更多描述性詞語,讓圖片更豐富。例如:毛茸茸的、閃閃發光、古老的。
- ● 藝術家/作品參考:可以參考特定藝術家或作品的風格。例如:梵谷風格、吉卜力動畫風格。
範例Prompt:
- 1. 一隻可愛的柯基犬在公園裡追逐蝴蝶,陽光明媚,動畫風格
- 2. 未來城市的夜景,高樓大廈閃爍著霓虹燈,賽博龐克風格,高對比度
- 3. 一位身穿古裝的女子,在櫻花樹下彈奏古琴,唯美水墨畫風格
圖片生成吉卜力動畫風格實測
其實xAI的Grok3、Google Gemini AI Studio與微軟Copilot,都有繪圖的功能,而且只要符合一些條件,例如每天可生成圖片的額度內,都可以免費使用。但是它們也能繪出廣受台灣網友歡迎的吉卜力動畫風格嗎?以下分別來實測,呈現結果。
Google Gemini 實測
Google 開發的 Gemini AI 不僅在自然語言處理上表現出色,其圖片生成功能也日趨成熟。目前Gemini圖像生成功能,背後模型來自於Gemini 2.0 Flash。若想免費使用,只要打開Google AI Studio官網,點選模型選項「Gemini 2.0 Flash (Image Generation)Experimental」即可。完整繪圖功能介紹可參考這篇文章。
至於吉卜力動畫圖片生成實測,提出的指令為:「一個可愛的黑髮小女孩,騎著掃把,掃把後面坐著黑貓,往天空飛行。吉卜力動畫風格」可以看到Gemini畫出了一個中景圖,黑髮女孩與黑貓都有符合指令標準,女孩穿著長裙裝也相當接近原來吉卜力動畫風中的琪琪裝扮。
Grok3 實測
Grok 是由 Elon Musk 的 xAI 公司開發的對話式AI,與社群平台 X (原 Twitter) 深度整合。該模型的特色是可搜尋彙整X用戶的貼文,模型回應風格偏向幽默活潑,同時也具備圖片生成功能。完整功能介紹可參考這篇文章。
在此使用一樣的指令「一個可愛的黑髮小女孩,騎著掃把,掃把後面坐著黑貓,往天空飛行。吉卜力動畫風格」,在Grok3的對話平台上實測。可以發現生成圖像也近似吉卜力風,黑髮女孩與黑貓等指令要求也有準確回應,同時還生成兩張方便用戶挑選,是它的優點。但缺點是左邊這一張圖片中掃把的角度異常,和後面黑貓坐著的掃把尾端看來無法銜接。
Microsoft Copilot實測
Copilot的圖片技術支援來自 OpenAI 的 DALL-E 模型,尤其是近期已更新到可理解複雜指令和生成精細圖片的 DALL-E 3,也讓它功能升級不少。完整使用Copilot功能介紹可參考此篇文章。
在此也使用同樣指令「一個可愛的黑髮小女孩,騎著掃把,掃把後面坐著黑貓,往天空飛行。吉卜力動畫風格」,在Copilot官網的對話平台上實測。可以發現雖然模型有遵循要求生成黑髮女孩與黑貓,但是風格與吉卜力動畫有一段差距。
決定回應指出:「這不是吉卜力動畫風格,可以改善嗎」再出現的圖片生成,仍然算不上吉卜力動畫風,反而更像歐美小女巫。
3種AI圖片生成工具Gemini、Grok、Copilot比較
以這次吉卜力動畫生成的要求來看,Gemini與Grok都符合要求,足以擔當代班!都可以成為 ChatGPT生成吉卜力風格的替代選擇。至於以圖片的正確呈現狀況來看,Grok稍有瑕疵。Copilot若不考慮吉卜力風格只是想生成可愛圖片也可嘗試。但須注意模型每次生成的圖片答案可能都不完全相同,歡迎有空時自己來試試看。