當美國的Nano Banana遇上中國的「即夢4.0」,究竟誰能稱王?《遠見雜誌》特地設計了8道考題進行兩大AI繪圖平台的PK。這不只是技術參數的較量,更是風格、提示詞理解能力與操作體驗的比對,雙方各有神操作。
谷歌(Google)的Nano Banana在AI繪圖界點燃狂潮,令全球為之沸騰。而當各路玩家還在試探它的各種花樣玩法之際,中國AI 的追擊卻已逼近,狂飆追趕的節奏快得令人咋舌。
陸企字節跳動新版「即夢4.0 」強勢現身,直接將競爭推進到意想不到的新戰場。
一個是美國搜尋引擎霸主的野心之作,一個是來自中國TikTok母公司的流量猛獸,在文生圖、圖像編輯、中文文字生成、風格一致性等關鍵能力上,到底誰表現更出色?《遠見雜誌》特別設計了8道「考題」分別進行實測,最終的勝負揭曉,恐怕會讓不少人跌破眼鏡。
第1題:公仔生成
提示詞:製作一個 1/7 比例的商業化模型,依照插畫中的角色,呈現寫實風格與環境。將模型放置在電腦桌上,並使用無文字的透明圓形壓克力底座。電腦螢幕上顯示該模型的 ZBrush 建模過程。在電腦螢幕旁邊,放置一個印有原始插畫的 BANDAI 風格玩具包裝盒。
將同一組提示組分別輸入Nano Banana(Gemini 2.5 Flash Image)和即夢4.0(免費版),生成結果如上所示。上圖為Nano Banana成圖,下圖為即夢4.0成圖(下文同理)。在生成速度上,是Nano Banana勝出,大約10秒時間便完成任務,而即夢4.0則花了更多時間。
這類任務其實是Nano Banana走紅的代表作,可以明顯感覺到Nano Banana在對複雜指令的執行上確實到位,構圖及精準度也更完整。反觀即夢4.0,做得亦頗為出色,而且公仔的塑造與質感比Nano Banana更貼近原圖。這一輪PK各有千秋。
第2題:中文文字生成能力
提示詞:為一個名為「鏟子超人」的公益行動設計一張電商詳情頁主圖。要求包含產品名「鏟子超人」,以及廣告語「一鏟一善意,讓愛不掩埋」,風格溫馨,讓人看了有參與欲。文字以繁體中文呈現。
在中文字處理這一輪,即夢4.0勝出,很明顯可以發現錯別字比較少,字形規整性與位置排布也都表現穩定,而Nano Banana則依舊存在「中文混亂」的老問題。
第3題:九宮格一吋照
提示詞:幫忙生成一張照片:背景為純白色,排版為九宮格,展示一隻寵物的9種不同表情。第一排:吐舌開心、微張嘴溫和、爪靠臉靦腆;第二排:睜眼吐舌活潑、張嘴打哈欠慵懶、轉頭若有所思。第三排:平靜神態、眯眼微笑、歪頭好奇;皆為真實攝影。
本輪依舊是即夢4.0勝出,雖然兩者皆保持了主體的一致性,而即夢4.0中的狗表情,給人觀感更為生動活潑,但也可能是狗的品種不一樣的緣故。
第4題:角色生成的多樣性與一致性
提示詞:一個巨大、溫馨、充滿吉伊卡哇風格的餐廳外觀。窗戶透出光線,可以看到裡面許多可愛的吉伊卡哇小動物們正在開心用餐或活動。線條圓潤、色彩柔和。
上圖Nano Banana生成的吉伊卡哇與原版高度一致,而下圖即夢4.0生成的不太像吉伊卡哇,或許是避免觸犯智財權的考量。這一輪Nano Banana勝在維持主體一致性,即夢4.0勝在氛圍渲染。
第5題:和小時候的自己合照
提示詞:回推照片中人物的小時候模樣,並與他自己合成在一張畫面裡,畫面中,成年版的他摟著小時候的自己肩膀,兩人並肩站在一起自拍。
即夢4.0的還原韓星G-DRAGON權志龍小時候的「功力」,比Nano Banana的段數更高,Nano Banana生成的權志龍成年版,甚至改變了五官模樣。
第6題:等軸測圖執行能力
提示詞:生成世界10大地標建築的等軸模型。
這個測試,主要是評估模型對特定建築物的辨識能力,以及對「等軸投影風格」的執行效果。所謂的「等軸模型」風格,多見於模擬經營類遊戲或扁平化設計中,要求所有物件在統一的斜向視角下呈現,不使用近大遠小的透視效果。
從上圖可知,Nano Banana 將所有地標建築融合於同一幅圖像中,打造出一個迷你景觀世界,整體效果更接近模擬經營遊戲中的資產。
下圖的即夢4.0,則以一種非常「直白」的方式完成任務,將10個地標建築分別生成為獨立的等軸模型,並仔細附上文字標籤,看起來更像是一份建築圖鑒。
兩者各有優勢,Nano Banana擅長的是模型整合與整體氛圍,即夢4.0 則在資訊呈現與清晰度上更勝一籌。本輪平手。
第7題:上下文推理
提示詞:時間從中午12點過去11小時15分鐘,房間光線變暗,鬧鐘時間應同步變化。
Nano Banana不僅調暗了室內光線,窗外景色也配合「入夜」,連鬧鐘顯示的時間也匹配。而即夢4.0雖然場景變暗,但沒有顯示窗外景象,可見推理的邏輯完整度這一步還沒跟上。
第8題:預測未來5秒
提示詞:請參考提供的照片,預測接下來5秒會發生什麼事,並用圖片展示出來。
這是一種非常有想像力的任務,測試的是AI的「預言能力」,在動態思惟的體現上,即夢4.0讓人印象更深刻,動作相當自然。反觀Nano Banana居然將兩支手機都交給同一人自拍,不太像是人會做的動作,而且自拍的細節竟是將手機螢幕向外,細節出現重大疏失。
總結以上實測結果來說,這場AI繪圖界的「雙神之戰」,其實沒有絕對的輸贏。
大陸科技網路媒體《智東西》報導,根據即夢團隊在MagicBench評測的結果,即夢4.0在圖像編輯任務中整體表現較為均衡,綜合評分略高於Nano Banana。在「文字渲染」「人工評價得分」等維度表現突出,特別是在中文內容處理上具備明顯優勢。
而在「指令對齊」方面,即夢4.0與模型Nano Banana處於同一水準,略低於OpenAI的GPT-Image-1;而在「一致性」和「結構還原」上,相比Nano Banana卻略有不足,但整體差距不大。
另在文生圖任務中,即夢4.0在「美學表現」維度得分相對較高;但在「結構還原」「文字渲染」「語義對齊」和「錯誤糾正」等指標上,相比GPT-Image-1略遜一籌,整體評分略低於後者,但比模型Nano Banana整體能力突出。
《智東西》指出,整體來看,即夢4.0在圖像編輯場景中具備較強能力,而在自由生成類的文生圖場景中,基礎能力穩定,但仍有部分生成一致性和對抗複雜場景的提升空間。
既然兩者各有神操作,身為AI愛好者的你,該用哪個模型呢?不妨參考大陸評測者「稀有先生」的組合式工作流:一方面用Nano Banana進行快速創意構思與草圖反覆運算,同步再使用即夢4.0進行中文文字添加和最終細節潤色,如此可兼得兩者之長。甚至可以進一步納入GPT-Image-1,組成個人工具箱,成為AI繪圖老行家。