OpenAI推o3-mini，與DeepSeek實測輸在這

中國AI DeepSeek R1推出後，引起國際熱烈討論。其主要競爭者之一OpenAI也不甘示弱，上週推出最新的推理模型o3-mini，並開放免費用戶使用。究竟OpenAI o3-mini表現如何？會比DeepSeek R1厲害嗎？本文實測了3項任務，分別為程式、推理和中文歧義理解，並比較兩個模型的表現。果然，中國人打造的AI大模型在一處明顯勝出。

【目錄】

● OpenAI o3-mini是什麼？如何使用？
● DeepSeek R1是什麼？如何使用？
● 實測1：用python寫自動貪食蛇遊戲
● 實測2：推理思考問題
● 實測3：中文歧義問題
● 結論：OpenAI o3-mini和DeepSeek R1終極比較

OpenAI o3-mini是什麼？如何使用？

OpenAI 1月31日發布首個小型推理模型o3-mini，擅長科學、數學和程式等複雜任務，又比先前推出的推理模型o1速度更快、成本更低。目前o3-mini已開放給ChatGPT Plus、Team、Pro和免費會員使用，Plus和Team會員每天有150則訊息的額度、Pro會員則不受限制。此外，這也是OpenAI首次向免費會員開放推理模型。

免費會員若要使用o3-mini，只要在傳送訊息前點選「推理」的按鈕即可。也可結合「搜尋」功能使用，讓GPT思考後，再上網查詢資料回答。目前o3-mini僅支援純文字輸入，尚未提供視覺辨識功能。

免費會員也能使用最新推理模型o3-mini。截自ChatGPT使用畫面

付費會員則可在畫面上方選擇o3-mini或o3-mini-high模型使用，o3-mini-high回答問題會花費比o3-mini更長的時間，但表現較佳。若是串接API的開發者，還有low、medium和high三種選擇。

付費會員可選擇o3-mini或o3-mini-high模型使用。截自ChatGPT使用畫面

DeepSeek R1是什麼？如何使用？

DeepSeek為中國AI公司深度求索（DeepSeek）開發的大型語言模型，1月20日推出推理模型DeepSeek-R1，其表示R1的性能與OpenAI的推理模型o1比肩。因其訓練成本低廉、表現優異，且是開源模型，成為國際熱議焦點。

免費會員也能使用R1模型，只要在聊天室中點選「深度思考（R1）」即可。與ChatGPT相同，深度思考也可結合「聯網搜索」功能使用。

DeepSeek-R1模型可免費使用。截自DeepSeek使用畫面

實測1：用python寫自動貪食蛇遊戲

請兩個模型生成貪食蛇遊戲的python程式碼，並指定要三條蛇自動對戰，以測試其程式能力。

【OpenAI o3-mini】

請o3-mini寫一個有三條蛇自動對戰的貪食蛇遊戲，在回答之前，o3-mini會列出其逐步思考的過程。最終其只花了14秒便提供python程式碼。

用o3-mini寫一個自動對戰的貪食蛇遊戲。截自ChatGPT使用畫面

接著再將其生成的程式碼複製到Visual Studio Code中執行。結果確實有符合要求，畫面上方有每隻蛇的分數與存活狀態，在有蛇獲得5分、或是只剩下一隻蛇存活時結束遊戲。

完整的對話紀錄可見此連結。

【DeepSeek-R1】

用相同的指令詢問DeepSeek-R1，其花了179秒才給出答案，並附上非常詳細的思考過程，考慮了程式可能的bug，或是規則不明確的地方。

用R1寫一個自動對戰的貪食蛇遊戲。截自DeepSeek使用畫面

接著也將其提供的程式碼貼到Visual Studio Code中執行看看。結果也有符合遊戲規則，除了其將蛇顏色RGB值的第一碼當成蛇的名字，導致綠蛇和藍蛇的名字都是0（綠色的RGB值為（0, 255, 0），藍色為(0, 0, 255)），遊戲結束後畫面呈現勝利者的名字時，可能無法確定是哪條蛇。

關於自動貪食蛇遊戲，X上也有網友用o3-mini寫了100條蛇同時對戰的版本。

高爾夫球具怎麼選？專業資訊比想像中更重要！高階管理者除了揮出好桿更要掌握世界趨勢要領，立即訂閱遠見 X ALBA高爾夫球雜誌>>

實測2：推理思考問題

請兩個模型回答推理問題，題目為「有一個數字，它的英文拼法的字母順序，剛好符合一個標準的字母序列（符合從A到Z的字母順序方向）。這個數字是什麼？」

【OpenAI o3-mini】

o3-mini只花了約2秒便給出答案，沒有解釋太多思考過程，像是一看到題目就想到答案一樣。

問o3-mini推理問題。截自ChatGPT使用畫面

【DeepSeek-R1】

相較之下，R1花了66秒才給出答案。從其思考過程可發現，其在理解題目後，從數字1的英文開始逐一檢查到20，接著檢查30、40才找到答案。發現答案是40後，其又花了一些時間檢查是否可能有其他沒思考到的可能。

問R1推理問題。截自DeepSeek使用畫面

實測3：中文歧義問題

請兩個模型回答「請你給我五個與『等紅燈其實是等綠燈』、『飲水機其實是給水機』類似的有趣句子」，這個問題需要理解兩個句子的共通點，並舉出其他類似的例子，也就是將一個既有的名詞或片語用另一個說法解釋，並且這兩個詞語在字面上有相反的含義。

【OpenAI o3-mini】

o3-mini花了11秒給出答案，在五個答案中只有第五個「收音機其實是給耳朵放音樂機」與題目給的範例較接近，表達了收音機的功用其實是放出聲音，而不是接收聲音。

請o3-mini回答中文歧義問題。截自ChatGPT使用畫面

【DeepSeek-R1】

R1則花了19秒回答這個問題，是在三個實測題目中回答最快的。在五個答案中，第二個答案「存錢筒其實是花錢筒」和第五個答案「指南針其實是指北針」與範例較接近，有用含義相反的字表達物品的實際用途，並且還有附上簡短的說明。

請R1回答中文歧義問題。截自DeepSeek使用畫面

結論：OpenAI o3-mini回答較快、DeepSeek R1對中文掌握度較高

本文實測了三個任務，包括寫程式、推理和中文歧義理解。在程式和推理問題方面，兩者給出的答案皆正確，但OpenAI o3-mini的速度比DeepSeek R1快很多；至於中文歧義問題，兩者花費的時間差不多，但R1的答案較佳，顯示其在中文語意理解上確實有其優勢。

以下表格統整了在這三項任務中，兩個模型在花費時間、正確度和思考過程上的表現：

	任務花費時間	回答正確度	思考過程
OpenAI o3-mini	較少（14, 2, 11秒）（勝）	●程式和推理問題回答正確 ●中文歧義問題中僅有1題正確	簡略，以條列式呈現
DeepSeek R1	較長（179, 66, 19秒）	●程式和推理問題回答正確 ●中文歧義問題中有2題正確（勝）	非常詳細，還會反覆檢查可能遺漏的問題
資料來源／整理：郭宇璇

任務花費時間

回答正確度

思考過程

OpenAI o3-mini

較少（14, 2, 11秒）

（勝）

●程式和推理問題回答正確

●中文歧義問題中僅有1題正確

簡略，以條列式呈現

DeepSeek R1

較長（179, 66, 19秒）

●程式和推理問題回答正確