OpenAI推o3-mini,與DeepSeek實測輸在這

郭宇璇
user

郭宇璇

2025-02-05

瀏覽數 8,650+

中國AIDeepSeek R1推出後,引起國際熱烈討論。OpenAI也不甘示弱,上週推出最新的推理模型o3-mini。僅為情境示意,shutterstock
中國AIDeepSeek R1推出後,引起國際熱烈討論。OpenAI也不甘示弱,上週推出最新的推理模型o3-mini。僅為情境示意,shutterstock

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

中國AIDeepSeek R1推出後,引起國際熱烈討論。其主要競爭者之一OpenAI也不甘示弱,上週推出最新的推理模型o3-mini,並開放免費用戶使用。究竟OpenAI o3-mini表現如何?會比DeepSeek R1厲害嗎?本文實測了3項任務,分別為程式、推理和中文歧義理解,並比較兩個模型的表現。果然,中國人打造的AI大模型在一處明顯勝出。

OpenAI o3-mini是什麼?如何使用?

OpenAI 1月31日發布首個小型推理模型o3-mini,擅長科學、數學和程式等複雜任務,又比先前推出的推理模型o1速度更快、成本更低。目前o3-mini已開放給ChatGPT Plus、Team、Pro和免費會員使用,Plus和Team會員每天有150則訊息的額度、Pro會員則不受限制。此外,這也是OpenAI首次向免費會員開放推理模型。

免費會員若要使用o3-mini,只要在傳送訊息前點選「推理」的按鈕即可。也可結合「搜尋」功能使用,讓GPT思考後,再上網查詢資料回答。目前o3-mini僅支援純文字輸入,尚未提供視覺辨識功能。

免費會員也能使用最新推理模型o3-mini。截自ChatGPT使用畫面

免費會員也能使用最新推理模型o3-mini。截自ChatGPT使用畫面

付費會員則可在畫面上方選擇o3-mini或o3-mini-high模型使用,o3-mini-high回答問題會花費比o3-mini更長的時間,但表現較佳。若是串接API的開發者,還有low、medium和high三種選擇。

付費會員可選擇o3-mini或o3-mini-high模型使用。截自ChatGPT使用畫面

付費會員可選擇o3-mini或o3-mini-high模型使用。截自ChatGPT使用畫面

DeepSeek R1是什麼?如何使用?

DeepSeek為中國AI公司深度求索(DeepSeek)開發的大型語言模型,1月20日推出推理模型DeepSeek-R1,其表示R1的性能與OpenAI的推理模型o1比肩。因其訓練成本低廉、表現優異,且是開源模型,成為國際熱議焦點。

免費會員也能使用R1模型,只要在聊天室中點選「深度思考(R1)」即可。與ChatGPT相同,深度思考也可結合「聯網搜索」功能使用。

DeepSeek-R1模型可免費使用。截自DeepSeek使用畫面

DeepSeek-R1模型可免費使用。截自DeepSeek使用畫面

實測1:用python寫自動貪食蛇遊戲

請兩個模型生成貪食蛇遊戲的python程式碼,並指定要三條蛇自動對戰,以測試其程式能力。

【OpenAI o3-mini】

請o3-mini寫一個有三條蛇自動對戰的貪食蛇遊戲,在回答之前,o3-mini會列出其逐步思考的過程。最終其只花了14秒便提供python程式碼。

用o3-mini寫一個自動對戰的貪食蛇遊戲。截自ChatGPT使用畫面

用o3-mini寫一個自動對戰的貪食蛇遊戲。截自ChatGPT使用畫面

接著再將其生成的程式碼複製到Visual Studio Code中執行。結果確實有符合要求,畫面上方有每隻蛇的分數與存活狀態,在有蛇獲得5分、或是只剩下一隻蛇存活時結束遊戲。

完整的對話紀錄可見此連結

【DeepSeek-R1】

用相同的指令詢問DeepSeek-R1,其花了179秒才給出答案,並附上非常詳細的思考過程,考慮了程式可能的bug,或是規則不明確的地方。

用R1寫一個自動對戰的貪食蛇遊戲。截自DeepSeek使用畫面

用R1寫一個自動對戰的貪食蛇遊戲。截自DeepSeek使用畫面

接著也將其提供的程式碼貼到Visual Studio Code中執行看看。結果也有符合遊戲規則,除了其將蛇顏色RGB值的第一碼當成蛇的名字,導致綠蛇和藍蛇的名字都是0(綠色的RGB值為(0, 255, 0),藍色為(0, 0, 255)),遊戲結束後畫面呈現勝利者的名字時,可能無法確定是哪條蛇。

關於自動貪食蛇遊戲X上也有網友用o3-mini寫了100條蛇同時對戰的版本。

即刻下載:2025 遠見高峰會六大議題深入報告,掌握全球變局

實測2:推理思考問題 

請兩個模型回答推理問題,題目為「有一個數字,它的英文拼法的字母順序,剛好符合一個標準的字母序列(符合從A到Z的字母順序方向)。這個數字是什麼?」

【OpenAI o3-mini】

o3-mini只花了約2秒便給出答案,沒有解釋太多思考過程,像是一看到題目就想到答案一樣。

問o3-mini推理問題。截自ChatGPT使用畫面

問o3-mini推理問題。截自ChatGPT使用畫面

【DeepSeek-R1】

相較之下,R1花了66秒才給出答案。從其思考過程可發現,其在理解題目後,從數字1的英文開始逐一檢查到20,接著檢查30、40才找到答案。發現答案是40後,其又花了一些時間檢查是否可能有其他沒思考到的可能。

問R1推理問題。截自DeepSeek使用畫面

問R1推理問題。截自DeepSeek使用畫面

問R1推理問題。截自DeepSeek使用畫面

問R1推理問題。截自DeepSeek使用畫面

問R1推理問題。截自DeepSeek使用畫面

問R1推理問題。截自DeepSeek使用畫面

實測3:中文歧義問題

請兩個模型回答「請你給我五個與『等紅燈其實是等綠燈』、『飲水機其實是給水機』類似的有趣句子」,這個問題需要理解兩個句子的共通點,並舉出其他類似的例子,也就是將一個既有的名詞或片語用另一個說法解釋,並且這兩個詞語在字面上有相反的含義。

【OpenAI o3-mini】 

o3-mini花了11秒給出答案,在五個答案中只有第五個「收音機其實是給耳朵放音樂機」與題目給的範例較接近,表達了收音機的功用其實是放出聲音,而不是接收聲音。

請o3-mini回答中文歧義問題。截自ChatGPT使用畫面

請o3-mini回答中文歧義問題。截自ChatGPT使用畫面

請o3-mini回答中文歧義問題。截自ChatGPT使用畫面

請o3-mini回答中文歧義問題。截自ChatGPT使用畫面


【DeepSeek-R1】

R1則花了19秒回答這個問題,是在三個實測題目中回答最快的。在五個答案中,第二個答案「存錢筒其實是花錢筒」和第五個答案「指南針其實是指北針」與範例較接近,有用含義相反的字表達物品的實際用途,並且還有附上簡短的說明。

請R1回答中文歧義問題。截自DeepSeek使用畫面

請R1回答中文歧義問題。截自DeepSeek使用畫面

請R1回答中文歧義問題。截自DeepSeek使用畫面

請R1回答中文歧義問題。截自DeepSeek使用畫面

結論:OpenAI o3-mini回答較快、DeepSeek R1對中文掌握度較高

本文實測了三個任務,包括寫程式、推理和中文歧義理解。在程式和推理問題方面,兩者給出的答案皆正確,但OpenAI o3-mini的速度比DeepSeek R1快很多;至於中文歧義問題,兩者花費的時間差不多,但R1的答案較佳,顯示其在中文語意理解上確實有其優勢。

以下表格統整了在這三項任務中,兩個模型在花費時間、正確度和思考過程上的表現:


任務花費時間

回答正確度

思考過程

OpenAI o3-mini

較少(14, 2, 11秒)

(勝)

●程式和推理問題回答正確

●中文歧義問題中僅有1題正確

簡略,以條列式呈現

DeepSeek R1

較長(179, 66, 19秒)

●程式和推理問題回答正確

●中文歧義問題中有2題正確

(勝)

非常詳細,還會反覆檢查可能遺漏的問題

資料來源/整理:郭宇璇

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務