中國AIDeepSeek R1推出後,引起國際熱烈討論。其主要競爭者之一OpenAI也不甘示弱,上週推出最新的推理模型o3-mini,並開放免費用戶使用。究竟OpenAI o3-mini表現如何?會比DeepSeek R1厲害嗎?本文實測了3項任務,分別為程式、推理和中文歧義理解,並比較兩個模型的表現。果然,中國人打造的AI大模型在一處明顯勝出。
OpenAI o3-mini是什麼?如何使用?
OpenAI 1月31日發布首個小型推理模型o3-mini,擅長科學、數學和程式等複雜任務,又比先前推出的推理模型o1速度更快、成本更低。目前o3-mini已開放給ChatGPT Plus、Team、Pro和免費會員使用,Plus和Team會員每天有150則訊息的額度、Pro會員則不受限制。此外,這也是OpenAI首次向免費會員開放推理模型。
免費會員若要使用o3-mini,只要在傳送訊息前點選「推理」的按鈕即可。也可結合「搜尋」功能使用,讓GPT思考後,再上網查詢資料回答。目前o3-mini僅支援純文字輸入,尚未提供視覺辨識功能。

付費會員則可在畫面上方選擇o3-mini或o3-mini-high模型使用,o3-mini-high回答問題會花費比o3-mini更長的時間,但表現較佳。若是串接API的開發者,還有low、medium和high三種選擇。

DeepSeek R1是什麼?如何使用?
DeepSeek為中國AI公司深度求索(DeepSeek)開發的大型語言模型,1月20日推出推理模型DeepSeek-R1,其表示R1的性能與OpenAI的推理模型o1比肩。因其訓練成本低廉、表現優異,且是開源模型,成為國際熱議焦點。
免費會員也能使用R1模型,只要在聊天室中點選「深度思考(R1)」即可。與ChatGPT相同,深度思考也可結合「聯網搜索」功能使用。

實測1:用python寫自動貪食蛇遊戲
請兩個模型生成貪食蛇遊戲的python程式碼,並指定要三條蛇自動對戰,以測試其程式能力。
【OpenAI o3-mini】
請o3-mini寫一個有三條蛇自動對戰的貪食蛇遊戲,在回答之前,o3-mini會列出其逐步思考的過程。最終其只花了14秒便提供python程式碼。

接著再將其生成的程式碼複製到Visual Studio Code中執行。結果確實有符合要求,畫面上方有每隻蛇的分數與存活狀態,在有蛇獲得5分、或是只剩下一隻蛇存活時結束遊戲。
完整的對話紀錄可見此連結。
【DeepSeek-R1】
用相同的指令詢問DeepSeek-R1,其花了179秒才給出答案,並附上非常詳細的思考過程,考慮了程式可能的bug,或是規則不明確的地方。

接著也將其提供的程式碼貼到Visual Studio Code中執行看看。結果也有符合遊戲規則,除了其將蛇顏色RGB值的第一碼當成蛇的名字,導致綠蛇和藍蛇的名字都是0(綠色的RGB值為(0, 255, 0),藍色為(0, 0, 255)),遊戲結束後畫面呈現勝利者的名字時,可能無法確定是哪條蛇。
關於自動貪食蛇遊戲,X上也有網友用o3-mini寫了100條蛇同時對戰的版本。
實測2:推理思考問題
請兩個模型回答推理問題,題目為「有一個數字,它的英文拼法的字母順序,剛好符合一個標準的字母序列(符合從A到Z的字母順序方向)。這個數字是什麼?」
【OpenAI o3-mini】
o3-mini只花了約2秒便給出答案,沒有解釋太多思考過程,像是一看到題目就想到答案一樣。

【DeepSeek-R1】
相較之下,R1花了66秒才給出答案。從其思考過程可發現,其在理解題目後,從數字1的英文開始逐一檢查到20,接著檢查30、40才找到答案。發現答案是40後,其又花了一些時間檢查是否可能有其他沒思考到的可能。



實測3:中文歧義問題
請兩個模型回答「請你給我五個與『等紅燈其實是等綠燈』、『飲水機其實是給水機』類似的有趣句子」,這個問題需要理解兩個句子的共通點,並舉出其他類似的例子,也就是將一個既有的名詞或片語用另一個說法解釋,並且這兩個詞語在字面上有相反的含義。
【OpenAI o3-mini】
o3-mini花了11秒給出答案,在五個答案中只有第五個「收音機其實是給耳朵放音樂機」與題目給的範例較接近,表達了收音機的功用其實是放出聲音,而不是接收聲音。


【DeepSeek-R1】
R1則花了19秒回答這個問題,是在三個實測題目中回答最快的。在五個答案中,第二個答案「存錢筒其實是花錢筒」和第五個答案「指南針其實是指北針」與範例較接近,有用含義相反的字表達物品的實際用途,並且還有附上簡短的說明。


結論:OpenAI o3-mini回答較快、DeepSeek R1對中文掌握度較高
本文實測了三個任務,包括寫程式、推理和中文歧義理解。在程式和推理問題方面,兩者給出的答案皆正確,但OpenAI o3-mini的速度比DeepSeek R1快很多;至於中文歧義問題,兩者花費的時間差不多,但R1的答案較佳,顯示其在中文語意理解上確實有其優勢。
以下表格統整了在這三項任務中,兩個模型在花費時間、正確度和思考過程上的表現:
任務花費時間 | 回答正確度 | 思考過程 | |
|---|---|---|---|
OpenAI o3-mini | 較少(14, 2, 11秒) (勝) | ●程式和推理問題回答正確 ●中文歧義問題中僅有1題正確 | 簡略,以條列式呈現 |
DeepSeek R1 | 較長(179, 66, 19秒) | ●程式和推理問題回答正確 ●中文歧義問題中有2題正確 (勝) | 非常詳細,還會反覆檢查可能遺漏的問題 |
| 資料來源/整理:郭宇璇 | |||