Nano Banana能擋住即夢4.0嗎？AI繪圖誰才是黑馬？

當美國的Nano Banana遇上中國的「即夢4.0」，究竟誰能稱王？《遠見雜誌》特地設計了8道考題進行兩大AI繪圖平台的PK。這不只是技術參數的較量，更是風格、提示詞理解能力與操作體驗的比對，雙方各有神操作。

谷歌（Google）的Nano Banana在AI繪圖界點燃狂潮，令全球為之沸騰。而當各路玩家還在試探它的各種花樣玩法之際，中國AI 的追擊卻已逼近，狂飆追趕的節奏快得令人咋舌。

陸企字節跳動新版「即夢4.0 」強勢現身，直接將競爭推進到意想不到的新戰場。

一個是美國搜尋引擎霸主的野心之作，一個是來自中國TikTok母公司的流量猛獸，在文生圖、圖像編輯、中文文字生成、風格一致性等關鍵能力上，到底誰表現更出色？《遠見雜誌》特別設計了8道「考題」分別進行實測，最終的勝負揭曉，恐怕會讓不少人跌破眼鏡。

第1題：公仔生成

提示詞：製作一個 1/7 比例的商業化模型，依照插畫中的角色，呈現寫實風格與環境。將模型放置在電腦桌上，並使用無文字的透明圓形壓克力底座。電腦螢幕上顯示該模型的 ZBrush 建模過程。在電腦螢幕旁邊，放置一個印有原始插畫的 BANDAI 風格玩具包裝盒。

Nano Banana公仔生成

即夢4.0公仔生成

將同一組提示組分別輸入Nano Banana（Gemini 2.5 Flash Image）和即夢4.0（免費版），生成結果如上所示。上圖為Nano Banana成圖，下圖為即夢4.0成圖（下文同理）。在生成速度上，是Nano Banana勝出，大約10秒時間便完成任務，而即夢4.0則花了更多時間。

這類任務其實是Nano Banana走紅的代表作，可以明顯感覺到Nano Banana在對複雜指令的執行上確實到位，構圖及精準度也更完整。反觀即夢4.0，做得亦頗為出色，而且公仔的塑造與質感比Nano Banana更貼近原圖。這一輪PK各有千秋。

第2題：中文文字生成能力

提示詞：為一個名為「鏟子超人」的公益行動設計一張電商詳情頁主圖。要求包含產品名「鏟子超人」，以及廣告語「一鏟一善意，讓愛不掩埋」，風格溫馨，讓人看了有參與欲。文字以繁體中文呈現。

Nano Banana生成中文文字

即夢4.0生成中文文字

在中文字處理這一輪，即夢4.0勝出，很明顯可以發現錯別字比較少，字形規整性與位置排布也都表現穩定，而Nano Banana則依舊存在「中文混亂」的老問題。

第3題：九宮格一吋照

提示詞：幫忙生成一張照片：背景為純白色，排版為九宮格，展示一隻寵物的9種不同表情。第一排：吐舌開心、微張嘴溫和、爪靠臉靦腆；第二排：睜眼吐舌活潑、張嘴打哈欠慵懶、轉頭若有所思。第三排：平靜神態、眯眼微笑、歪頭好奇；皆為真實攝影。

Nano banana生成九宮格一吋照

即夢4.0生成九宮格一吋照

本輪依舊是即夢4.0勝出，雖然兩者皆保持了主體的一致性，而即夢4.0中的狗表情，給人觀感更為生動活潑，但也可能是狗的品種不一樣的緣故。

第4題：角色生成的多樣性與一致性

提示詞：一個巨大、溫馨、充滿吉伊卡哇風格的餐廳外觀。窗戶透出光線，可以看到裡面許多可愛的吉伊卡哇小動物們正在開心用餐或活動。線條圓潤、色彩柔和。

Nano banana角色生成

即夢4.0角色生成

上圖Nano Banana生成的吉伊卡哇與原版高度一致，而下圖即夢4.0生成的不太像吉伊卡哇，或許是避免觸犯智財權的考量。這一輪Nano Banana勝在維持主體一致性，即夢4.0勝在氛圍渲染。

第5題：和小時候的自己合照

提示詞：回推照片中人物的小時候模樣，並與他自己合成在一張畫面裡，畫面中，成年版的他摟著小時候的自己肩膀，兩人並肩站在一起自拍。

遠見 × 科學人雙刊一年只要 $3,980，世界趨勢與科學新知一次掌握，打造最強年度知識組合>>

Nano banana生成GD和小時候的自己合照

即夢4.0生成GD和小時候的自己合照

即夢4.0的還原韓星G-DRAGON權志龍小時候的「功力」，比Nano Banana的段數更高，Nano Banana生成的權志龍成年版，甚至改變了五官模樣。

第6題：等軸測圖執行能力

提示詞：生成世界10大地標建築的等軸模型。

Nano banana等軸測圖執行能力

即夢4.0等軸測圖執行能力

這個測試，主要是評估模型對特定建築物的辨識能力，以及對「等軸投影風格」的執行效果。所謂的「等軸模型」風格，多見於模擬經營類遊戲或扁平化設計中，要求所有物件在統一的斜向視角下呈現，不使用近大遠小的透視效果。

從上圖可知，Nano Banana 將所有地標建築融合於同一幅圖像中，打造出一個迷你景觀世界，整體效果更接近模擬經營遊戲中的資產。

下圖的即夢4.0，則以一種非常「直白」的方式完成任務，將10個地標建築分別生成為獨立的等軸模型，並仔細附上文字標籤，看起來更像是一份建築圖鑒。

兩者各有優勢，Nano Banana擅長的是模型整合與整體氛圍，即夢4.0 則在資訊呈現與清晰度上更勝一籌。本輪平手。

第7題：上下文推理

提示詞：時間從中午12點過去11小時15分鐘，房間光線變暗，鬧鐘時間應同步變化。

Nano banana上下文推理

即夢4.0上下文推理

Nano Banana不僅調暗了室內光線，窗外景色也配合「入夜」，連鬧鐘顯示的時間也匹配。而即夢4.0雖然場景變暗，但沒有顯示窗外景象，可見推理的邏輯完整度這一步還沒跟上。

第8題：預測未來5秒

提示詞：請參考提供的照片，預測接下來5秒會發生什麼事，並用圖片展示出來。

原圖。邱莉燕攝

Nano banana預測未來5秒

即夢4.0預測未來5秒

這是一種非常有想像力的任務，測試的是AI的「預言能力」，在動態思惟的體現上，即夢4.0讓人印象更深刻，動作相當自然。反觀Nano Banana居然將兩支手機都交給同一人自拍，不太像是人會做的動作，而且自拍的細節竟是將手機螢幕向外，細節出現重大疏失。

總結以上實測結果來說，這場AI繪圖界的「雙神之戰」，其實沒有絕對的輸贏。

大陸科技網路媒體《智東西》報導，根據即夢團隊在MagicBench評測的結果，即夢4.0在圖像編輯任務中整體表現較為均衡，綜合評分略高於Nano Banana。在「文字渲染」「人工評價得分」等維度表現突出，特別是在中文內容處理上具備明顯優勢。

而在「指令對齊」方面，即夢4.0與模型Nano Banana處於同一水準，略低於OpenAI的GPT-Image-1；而在「一致性」和「結構還原」上，相比Nano Banana卻略有不足，但整體差距不大。

另在文生圖任務中，即夢4.0在「美學表現」維度得分相對較高；但在「結構還原」「文字渲染」「語義對齊」和「錯誤糾正」等指標上，相比GPT-Image-1略遜一籌，整體評分略低於後者，但比模型Nano Banana整體能力突出。

《智東西》指出，整體來看，即夢4.0在圖像編輯場景中具備較強能力，而在自由生成類的文生圖場景中，基礎能力穩定，但仍有部分生成一致性和對抗複雜場景的提升空間。

既然兩者各有神操作，身為AI愛好者的你，該用哪個模型呢？不妨參考大陸評測者「稀有先生」的組合式工作流：一方面用Nano Banana進行快速創意構思與草圖反覆運算，同步再使用即夢4.0進行中文文字添加和最終細節潤色，如此可兼得兩者之長。甚至可以進一步納入GPT-Image-1，組成個人工具箱，成為AI繪圖老行家。