ChatGPT4o圖片生成指令：吉卜力到川普漫畫！16種用法

OpenAI的ChatGPT的圖像生成能力迎來重大突破，只要利用GPT-4o模型，簡單指令就能做出從吉卜力風格人物風格，到川普梗圖諷刺漫畫、設計選舉海報，甚至能夠在圖片中加上文字，不再是過往虛構的「AI文」。ChatGPT生成圖像有多強？能夠生成哪些風格？你還在用 Photoshop 修圖嗎？還是覺得AI生成的圖片總是缺乏細節、不夠精緻？現在，一切都將改變。《遠見》整理ChatGPT生成與編輯圖片的實用功能，帶你一次看。

本週二（3/25）OpenAI執行長奧特曼（Sam Altman），在直播中向全球ChatGPT使用者宣告，ChatGPT將支援原生圖像生成功能，使用者可以直接在ChatGPT內創造並編輯生成內容，「這是有史以來，我們發表過最有趣、最酷的東西。」

這是ChatGPT圖像生成能力的首次重大升級，也是本月稍早Google推出影像編輯功能、席捲AI社群以後，OpenAI的明快回應。從X（前推特）和臉書上的討論看來，OpenAI技高一籌。

【目錄】
● ChatGPT圖像生成有哪些更新？
● ChatGPT圖像生成能力，十六種實測揭露真實效果
1. 生成圖片後微調
2. 生成圖片後調整風格
3. 生成資訊圖卡
4. 生成資訊圖卡並加圖片
5. 細修數字
6. 細修中文字
7. 微調圖片細節 - 衣服
8. 生成微調圖片 - 人物表情
9. 生成內容 - 四格漫畫
10. 生成內容 - 按照原圖產生四格漫畫
11. 合成照片 - 宣傳活動
12. 合成照片並調整角度
13. 合成照片之二
14. 調整風格、加字、去背
15. 調整吉卜力風格與多輪對話
16. 生成內容並加上更多人物、微調細節
● ChatGPT圖像生成能力升級有何挑戰？

ChatGPT圖像生成有哪些更新？

OpenAI指出，ChatGPT生成的圖像不僅美觀，而且實用，他們希望能夠讓更多人以更直觀且可控的利用AI創作圖像，而且不用切換到其他工具。

OpenAI表示，原生圖像生成功能開放給付費與免費用戶使用，接下來也預計將此功能開放給開發人員調用。

在直播和部落格文章裡，OpenAI特別強調ChatGPT生成圖像的幾項亮點：

◎ 維持一致性：過往利用AI生圖的痛點之一，在於當使用者想要微調內容時，AI生成的人物或者背景可能面目全非，對製作設計素材者來說並不夠實用，ChatGPT這波更新裡，讓不同張生成內容中能夠保持角色外觀的一致性。

◎ 理解更細緻的指令： ChatGPT能夠更精確地理解使用者提供的詳細圖像生成指令。

◎ 視覺風格重塑：無論是梵谷的星空，還是宮崎駿的動畫風格，ChatGPT都能夠將圖片或者照片，轉換成不同風格生成。

◎ 加上文字：能夠在圖像中生成更清晰、準確的文字。目前實測看來，加上中文字仍有不夠清楚的挑戰，且時常生成簡體字，但加上英文已經沒有問題。

◎ 圖像編輯：如果對於生成圖像不滿意，ChatGPT使用者可以圈選特定區域，再用文字溝通，ChatGPT便會重新微調生成內容。

◎ 透明圖層：生成具有透明背景的圖像，方便後續編輯和合成。

◎ 圖像輸入：除了請ChatGPT憑空生成圖像以外，也可以自己準備素材上傳至ChatGPT，且可以一次上傳多張圖片或者照片。

◎ 多輪對話：因為ChatGPT能夠記得的上下文變多，生成圖像時可以來回和ChatGPT溝通，微調生成圖案內容，它也不會輕易「忘記」。

ChatGPT圖像生成能力，十六種實測揭露真實效果

ChatGPT生圖實測：生成圖片後微調

首先測試利用ChatGPT從零開始生成圖像。

第一次所下的指令為「請生成一張某個人正在寫程式的圖像，寫實風格。」生成內容後再測試微調結果。

第二次所下的指令為「請調整：a. 不喜歡dark mode，請改成light mode，b. 眼鏡換成金色邊框、圓框，c. 桌上放一杯水。」

以下為實測結果：

ChatGPT生成。

ChatGPT生圖實測：生成圖片後調整風格

接著測試ChatGPT調整風格的能力。

第一次所下的指令為「請生成一張川普（trump）跟普丁（putin）身穿中國傳統服飾準備拜堂的寫實圖片。」生成內容後再測試風格轉換。

第二次所下的指令為「非常好，可否用同樣構圖，改編成一張傳統報紙上常常看到的諷刺漫畫，」得到第二張圖片後再補充要求補上細節：「在這張漫畫底下加上烏克蘭總統澤倫斯基，被兩人踩在腳下。」

以下為實測結果：

ChatGPT生成。

ChatGPT生圖實測：生成資訊圖卡

測試ChatGPT能否生成社群上常見的資訊圖卡／圖表。

第一次所下的指令為「請你生成一張infographic 解釋 AI Coding （AI寫程式）是什麼。」

接著想測試若事先準備內容，ChatGPT能否吸收後製作圖卡。

第二次所下的指令為「請你生成一張infographic 解釋 MCP （model context protocol ）是什麼，請用中文。」

與此同時，也在指令中附上Claude官網中介紹MCP的文字：

暑期旅遊必備｜訂遠見兩年送雙行李箱！25吋＋20吋一次到手，總價值16,760元現在僅需$4,980>>

▲補一點脈絡： MCP 是一個開放協議，用於標準化應用程式如何為大型語言模型（LLM）提供上下文。您可以將 MCP 想像成 AI 應用程式的 USB-C 接口。就像 USB-C 為您的設備提供了一個標準化的方式來連接各種外圍設備和配件一樣，MCP 為 AI 模型提供了一個標準化的方式來連接不同的數據源和工具。

生成的圖卡中文字都是簡體，因此再調整：「可以用繁體字嗎？」

以下為實測結果：

ChatGPT生成。

ChatGPT生圖實測：生成資訊圖卡並加圖片

確認ChatGPT生成圖卡的能力後，接著想製作更加複雜的圖卡。這次準備昨日（3/26）吳恩達公開演講和會後受訪內容報導全文給ChatGPT，指令為「請參考下方文字，消化吸收以後，產出infographic，整理重點。」

ChatGPT並未直接生成圖卡，而是先以文字整理大綱，和使用者討論是否符合需求，並且在對話結尾提問：「如需我幫忙設計實際的 infographic 圖稿（中英雙語或中英混排、橫版／直版、社群用圖等），也可以再告訴我你預計的使用場景或平台，我可以進一步製作圖像。是否需要？」

回答「你的提案可以。中文就好，橫版，社群用途」以後，ChatGPT產出第一版圖卡（下圖左上）。

為了讓圖卡更寫實，使用者上傳實際拍攝的吳恩達照片（下圖左下），指令為「這是吳恩達的照片，可否將其放入infographic當中。」

ChatGPT照做後產出第二版圖卡（下圖下排中間）。因為字數太多，中文呈現效果差，因此再要求生成英文版，「請你再生成一張英文版的，」產出第三版圖卡（下圖右下）。

最後測試調整內容的能力，指令為「能否製作四張圖卡，一張強調一個大的重點？」雖然只產出一張圖片（下圖右上），但若繼續對話應可完整產出四張。

ChatGPT生成，吳恩達照片為曾子軒攝。

ChatGPT生圖實測：細修數字

測試ChatGPT調整文字的能力。

上傳照片後，所下的指令為「請把圖中的2024改成2025。」

以下為實測結果：

ChatGPT生成，GenAI年會照片為曾子軒攝。

ChatGPT生圖實測：細修中文字

測試ChatGPT調整中文字的能力。

上傳照片後，所下的指令為「幫我把李雅英改成李珠珢。」

以下為實測結果：

ChatGPT生成，電玩展照片為曾子軒攝。

ChatGPT生圖實測：微調圖片細節 - 衣服

測試ChatGPT調整圖片中細節的能力。

上傳照片後，所下的指令為「請把圖上人物所穿的衣物變成白色系。」

以下為實測結果：

ChatGPT生成，電玩展照片為曾子軒攝。

ChatGPT生圖實測：生成微調圖片 - 人物表情

測試ChatGPT調整圖片中細節的能力。

第一次所下指令為「幫我生成一張照片，內容是幾個台灣記者在開會討論題目，有張小白板上面有寫字，討論內容是下期封面故事發想，候選題目有AI應用、VTuber普及和高齡化。」

產出內容後，再要求微調：「調整表情，讓大家看起來在吵架，拿筆的改成摔筆。」

以下為實測結果：

ChatGPT生成。

ChatGPT生圖實測：生成內容 - 四格漫畫

測試ChatGPT生成漫畫的能力。

第一次所下的指令為「請你幫生成一張四格漫畫，主題是員工跟老闆吵架，越好笑越好。」ChatGPT產出一版無字幕的漫畫後，再要求調整。

指令為「請加上中文字（類似字幕或者旁白，漫畫都會有），要不然好像看不太出來笑點在哪。」

ChatGPT表示，會依格子順序附上對白與旁白說明，風格偏向日常荒謬感，接著提供腳本，確認無誤後產生第二版漫畫。

以下為實測結果：

ChatGPT生成。

ChatGPT生圖實測：生成內容 - 按照原圖產生四格漫畫

測試ChatGPT生成漫畫的能力。

所下的指令為「請將這張圖片轉換成一張四格漫畫，要包含中文字，主題是去森林圖書館冒險。」

以下為實測結果：

ChatGPT生成，原圖為Midjourney生成。

ChatGPT生圖實測：合成照片 - 宣傳活動

測試ChatGPT合成圖像的能力。

一共下了兩次指令，產出兩張圖，分別是「請讓左邊的男生幫忙右邊的國際動漫節活動打廣告，但要維持第一張照片的佈局」以及「請再做另一個版本，讓左邊的男生加到右邊的戶外活動中。」

以下為實測結果：

ChatGPT生成，原始左圖為MANUS YouTube直播圖，右圖動漫節照片為曾子軒攝。

ChatGPT生圖實測：合成照片並調整角度

測試ChatGPT合成圖像的能力。

一共下了兩次指令，產出兩張圖，分別是「請把右邊的女生加在左邊那張圖片，看起來自然一點」以及「換個版本，請把左邊的男生加到右邊那張圖片，讓那個女生的視線看起來在看他，但要調整角度才自然。」

以下為實測結果：

ChatGPT生成，原始左圖為MANUS YouTube直播圖，右圖為「單身即地獄」劇照。

ChatGPT生圖實測：合成照片之二

測試ChatGPT合成圖像的能力。

指令為「請把兩張圖加在一起，讓兩個人看起來在對談。」

以下為實測結果：

ChatGPT生成，原始左圖為Claue產品長，右圖為吳恩達演講照，曾子軒攝。

ChatGPT生圖實測：調整風格、加字、去背

測試ChatGPT調整風格與去背能力。

上傳照片後，所下的指令為「把這張圖改製成選舉海報風格，加上『懇請支持1號薑餅人』等相關標語。」

接下來的指令為「可以再改變成3D模型嗎？一樣是選舉海報風格，但裡面的玩偶變成3D。」得到3D模型風格的圖像。

再往後的指令為「可以再給我一版，這次做成透明圖層嗎？我要到別的地方編輯」並得到去背圖片。

以下為實測結果：

ChatGPT生成，原圖中電玩展照片為曾子軒攝。

ChatGPT生圖實測：吉卜力風格與多輪對話

測試ChatGPT調整風格與多輪對話的能力。

上傳照片後，所下的指令為「請把這張照片變成吉卜力風格。」

接著再次調整風格：「調整成像是真人model？」因為髮色與原來的紫色不符，因此再要求調整：「頭髮可以保留成原本的紫色嗎？」

以下為實測結果：

ChatGPT生成，原圖中電玩展照片為曾子軒攝。

ChatGPT生圖實測：生成內容並加上更多人物、微調細節

測試ChatGPT生成素材、調整內容與多輪對話的能力。

指令為「請幫我產生一張新的宣傳圖素材，文字內容請參考以下：『05/20 舉辦VTuber 研討會，在YouTube上舉行。』圖片部分，希望看起來有VTuber在YouTube上直播」

因為文字部分不夠醒目，因此要求調整：「不錯。希望熱鬧一點，然後要有好的標語，不要那麼raw，例如取個好的活動名稱再新增call to action。」

接下來再改動兩次：「不錯！換成三個」以及「加上男V，獸人風格。」

最後利用ChatGPT編輯圖片的功能（如下圖），將獸人男V的眼睛圈選後，要求ChatGPT「幫我把眼睛變成有邪氣、紅色的。」得到最終成品。

ChatGPT對話。

以下為實測結果：

ChatGPT生成。

ChatGPT圖像生成能力升級有何挑戰？

雖然GPT─4o在圖像生成上有所升級，整體畫質、細節處理都有顯著提升，但在處理複雜結構和精細編輯時仍有不足之處。

◎ 裁切問題：對於較長的圖片（如海報），模型有時會裁切得太緊，特別是底部容易被截掉。

◎ 幻覺問題：像文字生成一樣，圖像生成也可能憑空捏造內容，特別是當提示資訊不足時。

◎ 難以處理過多細節：當圖片需要包含 10─20 個以上的獨立概念（如完整的元素週期表），模型容易出錯。

◎ 繪製精確圖表的能力不足：生成精確的圖表效果通常不佳，例如x軸、y軸座標切分方式有誤，或者圖表上的資料點位置不精確。

◎ 多語言文字渲染問題：對於非拉丁字母（如中文、日文），模型可能會產生錯誤字形，或生成完全不存在的字。

◎ 編輯精準度不足：如果要求修改圖像的特定部分（如修正拼字錯誤），模型可能會影響到其他區域，甚至引入新的錯誤。

◎ 人臉一致性問題：當用戶上傳照片並要求修改，模型有時無法保持人臉一致性，但這個問題預計很快會修復。

◎ 細小文字與密集資訊：模型在處理細小字體或大量密集資訊時，容易模糊或錯誤渲染。

如同奧特曼所說，ChatGPT的更新，可以賦能給不擅長繪圖與設計的平凡你我，讓人們能夠將想像力化為現實，創造出過往不敢奢望的「內容」。不過，這樣的內容是否屬於創作，又會對長久以來，爭議頗大的版權議題帶來哪些全新挑戰，都是美國、台灣甚至全世界能密切關注的問題。