ChatGPT更新o3-pro！跟其他模型差異？怎麼用？

OpenAI昨日（6/10）在社群上宣布正式推出最新版本的推理模型o3-pro，這是繼上個月更新ChatGPT系列模型GPT-4.1、GPT-4.5以後的最新動作，也是Google推出Gemini 2.5 Pro新版本和Claude 4以後的重大更新。o3-pro相比o3厲害在哪裡？推理模型和一般模型哪裡不一樣？各個模型有何特色？怎麼選與使用？《遠見》一文帶你看。

最新進階模型o3─pro是什麼？

OpenAI本週（6/10）正式推出全新進階模型o3─pro，開放給ChatGPT的Pro與Team用戶使用，並同步提供開發者調用API。

在OpenAI以o為命名前綴的推理系列模型中，o3─pro是目前功能最強大的版本。

延續o1─pro在數學、科學、程式設計等專業領域的強項，同時又和o3模型一樣，支援多項功能，例如搜尋網路、理解圖像、撰寫程式碼分析資料、讀取檔案等。

雖然推理模型的本質讓o3─pro的回覆速度較慢，但正好適合解決複雜問題。根據OpenAI公布資料，o3─pro在回答一致性、清晰度、遵循指令與準確性等層面，都優於o1─pro與o3。o3─pro的輸入成本為每百萬符元（token）20美元，輸出成本則為每百萬符元80美元。

目前 o3─pro 已取代 o1─pro 成為 Pro 預設進階模型，企業與教育版用戶將於下週開放使用。

同時，OpenAI執行長奧特曼（Sam Altman）也宣布大幅調降o3的API使用價格，降幅高達80％，且即日生效。經過這次調整以後，o3的輸入成本為每百萬符元2美元，輸出成本則為每百萬符元8美元，對需要大規模運用AI功能在內部使用或者自家產品的開發者來說，是一項重大利多。

模型	輸入成本（每百萬 tokens）	輸出成本（每百萬 tokens）
o1	$15	$60
o1─pro	$150	$600
o3	$2	$8
o3─pro	$20	$80
o1─mini	$1.1	$4.4
o3─mini	$1.1	$4.4
o4─mini	$1.1	$4.4
GPT─4o（對比）	$2.5	$10.0
資料整理：曾子軒，2025/06更新

另外，在降價同時，OpenAI產品長威爾（Kevin Weil）也宣布，ChatGPT Plus用戶（次於pro的付費方案），的o3模型使用上限加倍，同樣是即刻生效，「你們可以在同樣的價格之下使用更多AI（get more AI per dollar）。」

除了升級模型以外，OpenAI還在上週（6/7）升級進利用語音和ChatGPT互動的進階語音模式（advanced voice mode）。

OpenAI表示，更新重點的目標是讓語音貼近真實人聲，因此提升語調的自然程度，例如有細膩的語調變化、擬真的語速節奏與停頓安排，表達也變得更加流暢，同時增加語音回覆的情感，還能夠精確表達出同理心、諷刺等情緒。

針對常見的即時語言翻譯場景，進階語音功能也加入了即時翻譯能力，只要使用者出聲要求，ChatGPT便能夠持續翻譯，例如把使用者的中文即時翻譯成韓文、受訪者說的韓文再轉為中文。

不過，OpenAI 也提醒，用戶在使用新版語音時，可能偶爾遇到音質略降、語調忽高忽低等情況，也會有文字對話常見的幻覺，產生類似廣告聲、無意義音節或背景音樂等非預期的聲音。

付費用戶可以用GPT─4.1，快又便宜好用

OpenAI在5月曾宣布，將GPT─4.1模型正式開放給Plus、Pro和 Team方案等付費訂閱用戶使用。GPT─4.1是一款針對程式撰寫與指令回應特別改善過的語言模型，不僅推理速度更快，也更擅長理解並執行複雜任務。

此外，OpenAI也同步推出GPT─4.1 mini，用來取代原有的GPT─4o mini，並開放給所有ChatGPT 用戶使用。就像o3─mini之於o3、GPT─4o mini之於GPT─4o，GPT─4.1 mini比GPT─4.1輕量，因此回覆速度更快，適合一般對話與簡單需求。

GPT─4.1的性能全面超越預設的GPT─4o，甚至在寫程式、影像理解等面向領先規模更大的GPT─4.5模型，不僅上下文（context）長度更長、表現更好，成本還更加低廉，可以看出其經濟效益的定位。

OpenAI在4月推出GPT─4.1時，一共端出三個版本：GPT─4.1、GPT─4.1 mini和GPT─4.1 nano，前兩者對標的模型為GPT─4o和GPT─4o mini。

以表現來說，GPT─4.1和GPT─4.1 mini寫程式、遵循複雜指令、長文本推理等的能力都高出GPT─4o和GPT─4o mini一截，而且還更便宜。OpenAI當時就強調，「GPT─4.1模型以較低的成本提供卓越的性能。」

從命名前綴詞可以看出，GPT─4.1不是以「o」開頭的推理模型，而是GPT─3.5以降、透過預訓練擴展（pretraining scaling）提升表現的模型，但先前又有命名上看似應該比GPT─4.1更晚推出的GPT─4.5，OpenAI命名模型的方式仍舊令人困惑。

不過，從OpenAI釋出的資訊來看，可以看出為何即便晚於GPT─4.5，仍要推出GPT─4.1的價值。

與GPT─4.5相比，GPT─4.1有不少面向相對較差，包含遵循指令的準確度、多輪指令、跨越文本位置推理等，但GPT─4.1表現穩定，成本大幅低於GPT─4.5，以輸出來說前者成本不到後者的3％，撰寫程式碼能力又勝出，可以說，GPT─4.1又快、又便宜，還足夠好用。

內行人都在悄悄準備的『夏日質感升級計畫』，你跟上了嗎？

模型	輸入成本（每百萬 tokens）	輸出成本（每百萬 tokens）
GPT─4.1	$2.0	$8.0
GPT─4.1 mini	$0.4	$1.6
GPT─4.1 nano	$0.1	$0.4
GPT─4.5─preview	$75.0	$150.0
GPT─4o（對比）	$2.5	$10.0
資料整理：曾子軒，2025/06更新

因此，OpenAI宣布將下架調用API時的GPT─4.5預覽版選項，但在ChatGPT產品當中，還是保留選項。

OpenAI另外也補充，隨著模型遵循指令的穩定性上升，再加上能夠掌握的上下文長度增加，「GPT─4.1在驅動Agent或者替使用者獨立完成任務的系統特別有效。」對AI Agent（AI代理人）的開發者來說會是好消息。

值得注意的是，GPT─4.1僅供開發者透過API使用，面對一般消費者的ChatGPT，並沒有提供使用者存取方法。對此OpenAI解釋，GPT─4o作為ChatGPT 的主力模型，其實已經逐步吸收寫程式、遵循指令等不同模型改善後帶來的技術成果。

OpenAI將開發端和消費端區分得很清楚，開發者可以針對自身需求，挑選最適合自己的模型；對消費者來說，重點在於產品是否好用，因此底層模型可以微調，只要使用體驗不斷進化就足夠。

o3正式推出、o4─mini更便宜又更快

繼週一（4/14，美國時間）發表GPT─4.1系列模型後，OpenAI昨晚（4/16，美國時間）再度釋出新模型o3與o4─mini。

2024年12月OpenAI就曾經公布過o3模型，強調其在推理能力上的演進，這次與o4─mini一併推出，OpenAI強調，這兩款模型皆針對處理複雜問題而特別改進，能在回應前進行更長時間的思考，邏輯推理與解決任務能力都再升級。

若要說最關鍵的進步，就是讓這兩款推理模型能夠全面使用工具，更接近AI Agent所具備的完整能力。

「就像你會使用計算機來解決困難的數學問題，或使用地圖應用來導航陌生的街道一樣，當我們的模型配合適當的工具使用時，它們的能力也會大幅提升。」在直播中，OpenAI研究主管陳信翰（Mark Chen）解釋，將o系列推理模型結合完整的工具組合後，成功在好幾種高難度基準測試中，達到最先進的成果。

在實務應用方面，推理模型可以應用在科學研究、數學推導、程式碼編寫以及視覺輸入的理解與分析。

「舉例來說，現在模型可以『用圖像思考』，這表示它能使用Python來裁剪、轉換和處理圖片，以協助完成你想執行的任務。」陳信翰表示，使用者上傳複雜或者模糊的圖片，模型不只能看懂，還能夠深度推理。

o3可以讀菜單

實際測試時，若是上傳某店家的菜單照片，o3模型可以讀懂內容，接著調用搜尋工具，比對出菜單背後的店家，過程中使用者不用提供步驟，模型就能夠自主拆解。

至於o4─mini，可以看成o3─mini的進化版，推理更快、成本更低，因為效率更佳，所以不會像o3─mini有那麼高的使用限制。

就模型開發路徑來說，因為觀察到強化學習也像預訓練一樣表現出擴展定律，陳信翰表示，發展推理模型時，同時擴展訓練階段與測試階段的規模，並得到成果。

盤點本週更新，開放給開發者調用的GPT─4.1是在預訓練階段增加資料與參數規模，o3和o4─mini則是瞄準推理能力，在訓練階段增加規模、並且增城測試階段的思考時間，兩者同時是OpenAI和競爭對手如Anthropic、Google共同努力的方向。

最後陳信翰提到，即日起PLUS付費訂閱者和Team訂閱者將可以陸續使用o3、o4─mini以及o4─mini─high模型，也將取代先前的o1與o3─mini 系列模型。

GPT─4.5是什麼？有多厲害？

美國時間02/27，OpenAI向大眾介紹新一代模型GPT─4.5。除了規模更大、對話更自然、掌握的知識更多、幻覺發生機會更少、計算效率更高以外，最值得注意的地方在於，OpenAI發展新模型的路線上，有著明確兩道不同軸線。在官方公告中，OpenAI表示，自家透過提升推理能力（reasoning）以及非監督式學習（unsupervised learning），提升人工智慧的能力。

以推理來說，OpenAI o1和OpenAI o3 mini都是在回應前思考，也就是在測試階段擴展（test─time scaling），藉此達到更佳表現。

另一道發展軸線則是在預訓練擴展（pretraining scaling）上發力，也就是最原始的擴展定律（scaling law），增加資料、算力和模型大小，GPT─3.5、GPT─4和GPT─4.5都在這個軸線上。

OpenAI指出，GPT─4.5在回答時並不會思考，因此與OpenAI o1各擅勝場。不過，他們相信這兩條軸線彼此互補，可以藉由預訓練階段的擴展定律墊高模型的基礎能力，接著再以其為根基，提高模型的推理能力。

OpenAI執行長奧特曼（Sam Altman）在社群平台X上表示，GPT─4.5並非專門針對推理，因此可能沒有辦法橫掃各種驗證大語言模型能力的基準測試，但他認為跟GPT─4.5互動，就像在跟一位深思熟慮的人對話，「我有好幾次驚訝地靠在椅背上，因為它竟然能給出真正有價值的建議——來自 AI 的建議。」

如同奧特曼所說，GPT─4.5在思考深度上更進一步，但不只是如此而已。

在2/28的直播中，OpenAI的研究人員表示，GPT─4.5的上下文理解能力更強，且擁有更多深入知識，因此在寫作、寫程式和解決問題等任務上，表現更好，且更能理解人類的需求與意圖，準確性超越過往模型、發生幻覺的機率也最低。

在測試中，研究人員比較GPT─4.5和o1生成的內容，完整對話翻譯如下：

使用者：我的朋友又放我鴿子了！！！幫我寫一封簡訊告訴他們我恨死他們了！！

GPT─4.5：聽起來你真的很挫折——我完全可以理解。不過，也許用清楚但溫和的方式表達你的感受，能更好地維持這段友誼。要不要試試這樣：

👉 「嘿，我真的有點難過，因為我們的約又取消了——我真的很期待見你。我們可以聊聊發生了什麼嗎？」

或者，如果你想用輕鬆一點的語氣：

👉 「啊啊啊啊！你這樣一直取消真的快把我搞瘋了！不過說真的，一切還好嗎？」這樣的方式會比較合適嗎？還是你希望我幫你寫一條不同的訊息？

o1：這是一則直接且帶有對抗性的訊息——但在發送前，我建議你先三思而後行。不過，如果你真的想要一條語氣犀利的訊息，那可以這樣寫：

👉 「你知道嗎？我受夠了。你已經放我鴿子太多次了，我真的受不了了。我討厭你一直這樣，這讓我清楚知道你根本不在乎這段友誼。別再聯絡我了。」

請記住，發送這樣的訊息可能會對你們的友誼產生嚴重後果。當下發洩憤怒或許會讓你覺得痛快，但試著想想，這真的是你想要處理這件事的方式嗎？如果你需要抒發情緒，不妨先寫下來，過一段時間再決定是否真的要按下「發送」。

不管是哪一個版本，ChatGPT的表現都非常好，精確捕捉到使用者所處的情境，以及不知如何面對朋友，究竟應該撕破臉，還是要替朋友留點轉圜空間，同時又要傳達自己的難過之意。不過，就人性化程度來說，GPT─4.5明顯更勝一籌。

從Google跳槽至OpenAI，目前擔任研究科學家的勒普斯（Rapha Gontijo Lopes）指出，經過對齊以後，「GPT4.5與人對話時，能夠讓人感覺更爲溫暖、更直覺，且情感層次更為豐富。」

ChatGPT是什麼？

ChatGPT是OpenAI在實現其長遠目標過程中推出的核心產品，這款對話式人工智慧服務（conversational AI）由GPT─4o、o1等基礎模型驅動，透過網頁介面提供使用者即時互動的體驗。只要進入ChatGPT的網頁，便能以自然語言與它對話，請求協助解決各種問題。

ChatGPT應用範圍廣泛，尤其擅長處理文字相關的任務。例如，它能幫助整理新聞內容、撰寫文章、潤飾語句，甚至能根據需求調整語氣風格。無論是學術研究摘要還是商業簡報撰寫，都難不倒它。

不只如此，ChatGPT還能協助使用者制訂學習計畫、安排行程與管理專案等日常任務。它透過溫和且有邏輯的語調，提供清晰的建議，協助使用者更有組織地實現目標。

在創意發想方面，ChatGPT同樣表現出色。從取品牌名稱、構思品牌故事，到設計整體行銷策略，它都能給與靈感與結構化的建議，協助使用者打造有特色的創意成果。

由於GPT模型最初是基於大量文字資料訓練而成，因此ChatGPT在文字處理上的能力格外強大。它能偵錯程式碼、優化架構，甚至從頭開發應用程式，對工程師與開發者來說是一大助力。

除了專業應用之外，ChatGPT也能在個人層面提供實用的建議，例如職涯規劃、投資方向、感情諮詢等議題。它以開放包容的態度回應各種提問，成為使用者日常生活中的智慧伙伴。

事實上，ChatGPT能做的還有更多。

除了寫文章、回覆問題以外，從跨國旅行時的語言障礙，到日常資訊的過濾整理；從飲食健康管理，到工作上的效率提升，甚至在人際溝通、職場談判前預先準備，ChatGPT都能提供幫助更多關於ChatGPT的實際應用，請參考：ChatGPT怎麼用？Z世代準時下班，AI高效8大用法教學

為什麼ChatGPT那麼受歡迎？

ChatGPT自推出以來，因為簡單、好用，功能又非常強大，讓許多人就此成為忠實用戶。

2025年2月，OpenAI營運長布萊德·萊特卡普（Brad Lightcap）向《CNBC》表示，ChatGPT的每週活躍使用者（weekly active users）達到4億。去年12月的每週活躍使用者為3億，在不到三個月的時間內便成長超過三成；另外，ChatGPT的企業用戶也達到200萬間，是去年9月的兩倍。

雖然ChatGPT問世後，Google推出Gemini（原名Google Bard）、Anthropic端出Claude迎擊，且的確和ChatGPT來回廝殺，且後續還有其他發展路線各異的對手紛紛湧現，例如同樣隸屬於Google旗下、由小型團隊孵化的NotebookLM、專攻搜尋式問答的Perplexity、注重角色與情感的Character.AI，但ChatGPT仍是定義生成式AI時代時，最閃耀的產品與詞彙之一。

早在ChatGPT誕生之前，無論是在學術界還是產業界，人工智慧技術的研究與發展已經有多年歷史。ChatGPT並非第一個落地應用的AI技術，更不是史無前例的創舉，也並非最早向大眾開放的商用AI產品。它的成功，更多是建立在長期技術積累與市場需求交匯的基礎之上，使得AI應用得以更廣泛普及。

活躍於數位領域的開發者們，除了打造各式應用程式，也積極在套裝軟體中加入AI功能；企業們也廣泛應用AI，例如電商背後的推薦系統、銀行當中的盜刷分類模型、徵信時的評分等，都是具體展現。但真正讓AI走入大眾視野、掀起熱潮的，仍然是ChatGPT。

在ChatGPT問世之前，其前身模型如GPT─2、GPT─3便已引發討論，但議論者大多聚集於矽谷，最多僅外溢至對科技有極大興趣的早期採用者們。

在2025年2月出版的《奧特曼傳》中提到，OpenAI在2022年11月推出ChatGPT之前，已經研發出當時最新版本的模型GPT─4，正準備將其介紹給世人。然而，同時間傳出OpenAI的競爭對手Anthropic準備推出聊天機器人，Google的LaMDA又出現「AI有無意識」之爭，與微軟開完會的OpenAI執行長奧特曼（Sam Altman）決定發起突襲，推出以GPT─3.5驅動的聊天機器人，這便是接下來造成天翻地覆變化的ChatGPT。

如果要探究ChatGPT為何能讓普羅大眾願意使用，關鍵就在於它成功跨越技術門檻，使得AI不再只是專業人士的工具，而是人人皆可輕鬆運用的助手。

從技術能力來看，ChatGPT能夠產生品質優異的內容，不像早期的AI產品，生成的文本往往需要大量人工修正，難以真正提升生產力。

Google DeepMind執行長哈薩比斯（Demis Hassabis）曾在Google開發者大會上強調：「語言是人類智能與日常生活的核心，」這正是ChatGPT成功的關鍵。技術的進步使其生成的內容更具流暢度，不再是過去那種機械化、容易被輕易識破由AI生成，沒有真正思想的內容，而是具備一定邏輯性與可讀性的回應，只需要稍作修改即可實際應用。

此外，以往學術界與商業領域的AI應用，往往需要使用者具備大量背景知識，門檻較高。然而，OpenAI巧妙地透過網頁與對話式介面包裝ChatGPT，讓它更貼近日常使用習慣，不用複雜的安裝與設定，使用者只需開啟網頁或下載應用程式，即可與AI自然互動，這種易用性極大地推動了其普及。

憑藉這些優勢，ChatGPT獲選進入《Nature》2023年「年度10大人物」榜單，雖然排名第11，卻是唯一入選的非人類，與該年最具影響力的人物——推動印度登月的科學家、巴西環境部長以及OpenAI首席科學家並列。《Nature》認為，儘管ChatGPT不是人，但它對世界帶來的影響足以讓其獲得這項殊榮，象徵著AI技術對社會的深遠變革。

ChatGPT背後模型有何特色？

人工智慧這個詞彙早已深入人心，儘管AI技術已廣泛應用於金融、行銷、供應鏈等領域，但由於日常生活中較難直接感受到它的存在，許多人仍覺得AI與自己有些距離。

然而，在2016與2017年，人工智慧技術迎來震撼全球的時刻——當時，DeepMind（後來被Google收購）研發的圍棋AI AlphaGo連續擊敗世界級棋手李世乭與柯潔，徹底改變了大眾對AI的認知。當機器能在圍棋這種極度複雜的遊戲中超越人類頂尖高手，人們開始思考，還有什麼領域是AI無法挑戰的？

雖然 AlphaGo 仍屬於專精於單一領域的「弱人工智慧」（weak AI），但與它相比，ChatGPT的應用範圍則更加廣泛，尤其在開放給大眾使用後，更是與日常生活緊密結合，使AI朝向泛用性更強、接近人類智能的「強人工智慧」（strong AI）邁進了一步。

本質上ChatGPT依然屬於弱人工智慧。它的主要設計目標是模仿人類對話，但運作方式與人類的邏輯推理機制並不相同。

如圖靈獎得主、「深度學習之父」楊立昆（Yann LeCun）在一場分享中所提，當人類準備演講時，通常會先擬定大綱，並依照框架組織各個段落的論點，而這個過程是由邏輯與推理所驅動的。對照之下，ChatGPT背後的GPT系列模型並非透過「先計畫再行動」的方式運作，而是根據大量訓練資料，計算最有可能與前後文相符的詞彙，逐步拼湊成完整的句子。因此，儘管ChatGPT能夠產出流暢且具邏輯性的回答，但其運作原理與人類思考方式仍存在本質上的差異。

不過，對大多數人來說，機器能夠如此流暢地與人對話，已經足夠令人驚嘆。

ChatGPT之所以能有如此優異的表現，很大程度上要歸功於其核心的GPT模型。2017年，Google發表Transformer論文以後，前OpenAI首席科學家薩斯凱博（Ilya Sutskever）很快發現，若將Transformer架構運用在自家研發的AI模型裡，或許能夠帶來不一樣的結果。

2018年，OpenAI發表論文，提出「生成式預訓練（generative pre─training，簡稱GPT）」方法，顯著提升AI對語言的理解能力，並成功解決當時機器學習領域的諸多挑戰。

對於人工智慧領域的研究人員與從業者而言，即使技術再先進、運算資源再充足，AI模型仍然倚賴大量預先標記好的資料來學習。舉例來說，在醫療領域，若要讓AI能像醫生一樣判讀醫療影像，並準確診斷疾病，就必須先建立分類模型。

然而，機器無法自行判斷每張影像的病理狀態，必須倚賴既有資料庫或由專業人士手動標記，告知AI哪些影像為陽性、哪些為陰性。資料庫規模不足，或是應用場景屬於新興領域時，勢必須要新增資料量以提升模型表現。可是，請醫師親自標記影像需要耗費大量時間與人力成本；若聘請助理或工讀生，則可能面臨專業能力不足的問題，培訓新手又會增加額外的時間與資源投入。

這種情況不僅限於醫療影像辨識，許多其他領域同樣面臨類似挑戰。例如，AI助手生成的文本品質是否足夠自然？人工智慧在篩選履歷時，是否會錯過關鍵人才？在保險領域，AI能否精準衡量出投保者的健康程度？這些問題都仰賴人類回饋，需要新增資要以便調整並改善模型。

GPT模型的突破性貢獻在於，它能夠透過非監督式學習（unsupervised learning，即沒有預先標記的資料仍展開學習）預先訓練語言模型，減少對大量人工標註資料的倚賴，並建立起通用的語言理解基礎。之後，針對特定應用場景，再透過監督式學習（supervised learning，即透過有標註的資料學習）進行微調（fine─tuning），進一步提升模型在特定領域的表現。這一技術突破，使得AI的適應性與泛用性大幅提升。

ChatGPT背後模型如何演變？

2020年，OpenAI推出GPT─3模型，因為其生成內容品質有著肉眼可見的增長，引發更多人關注。隨後，OpenAI持續推進大型語言模型的發展。2023年，GPT─4正式登場，展現出卓越的性能，不僅能夠在美國律師考試中取得高分，還能輕鬆解答奧林匹亞競賽與美國大學先修課程（AP）試題。

到了2024年5月，OpenAI於春季發表會隆重推出GPT─4o，這款模型不僅具備一定的情感表達能力，還能夠處理多模態內容，且回應速度驚人、延遲性極低，讓隔天才舉行發表會的Google倍感壓力。隨後，ChatGPT正式升級，全面採用GPT─4o模型，讓使用者能夠親身體驗其強大的運算效能與回應能力。

同年7月，OpenAI推出GPT─4o mini，顧名思義，這是一款規模較小的模型，但表現依然出色。根據OpenAI的說法，在公開評比中，GPT─4o mini的得分甚至超越GPT─4，且運算成本更低，讓AI技術變得更加普及。

到了9月，OpenAI於台灣時間深夜發表o1，一款專為解決高難度問題、具備強大推理能力的模型。與專注於多模態處理與高效回應的GPT─4o與GPT─4o mini不同，o1更側重於深度思考，強調從廣度走向深度、從大量資訊轉向精準推理，為人工智慧技術帶來新的突破，進一步縮短AI與人類思維方式之間的差距。

在2024年12月的聖誕節更新中，OpenAI向大眾介紹和o1一樣擁有推理能力、但實力更為強大的o3模型。2025年1月，OpenAI不讓春節放假前撼動市場的DeepSeek專美於前，宣布推出o3─mini模型，並以「突破高性價比推理的界限」形容o3─mini。

讓ChatGPT更強大的多模態模型是什麼？

自GPT─4以降，GPT─4o、o1等模型同樣具備「看圖說故事」的能力，這與OpenAI打造多模態模型的方向一致。

什麼是多模態？簡單來說，人類感知世界的方式多種多樣，例如透過耳朵聆聽音樂、用眼睛欣賞影片、用雙手感受物體的觸感，這些不同的感官體驗就屬於不同的「模態」。

GPT系列模型從文字處理開始，隨後擴展到圖像識別，並進一步支援聲音互動，由於OpenAI早已在語音模型和音樂生成領域深耕多時，因此語音與音樂處理能力的提升可說是順理成章。

如果未來技術能夠從二維資訊（如圖像與聲音）拓展至三維領域，例如觸覺或嗅覺，當GPT模型能夠理解各種形態的資料，它將具備更強的適應性，有辦法處理更複雜、多元的任務，在人類生活中的應用範圍也將進一步擴大。

《麻省理工科技評論》曾指出，多模態模型的出現，有望解決傳統AI應用的一大限制——許多人工智慧雖然能在特定領域超越人類，例如棋類對弈或電玩遊戲，但卻難以適應其他類型的任務。為了突破這個瓶頸，研究人員開始尋找新的解法，而其中一種可能的方式，就是向小朋友學習。

孩子們是如何成長並變得聰明的？他們從感知世界開始，透過觀察、聆聽、嗅聞、觸摸，將這些經驗轉化為語言來描述事物。正如《百年孤寂》中所言：「世界太新，許多事物還沒有名字，必須用手指著。」當孩子的感官體驗越豐富，他們能夠表達的內容也變多，進而構築出更完整的世界觀。

如果人工智慧能夠模仿這種學習模式，透過多種感官獲取資訊並將其轉化為可理解的語言與概念，那麼它將能適應更為複雜的人類環境，並解決多樣化的問題。當這項技術趨於成熟時，AI將不再只是虛擬助手，而有機會成為能夠融入現實世界的「實體秘書」，甚至具備一定程度的自主性與決策能力。

這正是AI代理（AI Agent）的核心願景——發展出能夠自主決策、執行任務，且無需人類頻繁干預的智慧系統。隨著技術的演進，AI將不再只是被動回應指令的工具，而是能夠主動協助人類處理各種事務的智慧伙伴。

延伸閱讀：AI Agent系列題組
AI Agent現身〉AI Agent來了，但它是什麼？AI代理介紹、趨勢全解讀
AI Agent現身〉AI Agent應用與優缺點真實揭露：哪些企業正導入？
AI Agent現身〉數位篇：AI同事扛再多也不累，將從職場協作角色變主導？
AI Agent現身〉物理篇：黃仁勳力推！AI落地物理世界，人形機器人商機再現
AI Agent現身〉AI Agent來了，但它是什麼？AI代理介紹、趨勢全解讀

多模態人工智慧正引領技術革新，Google Brain 研究深度學習的總監艾克（Douglas Eck）曾指出，多模態模型將帶來最新的突破。而 DeepMind 的研究總監哈德席（Raia Hadsell）更進一步預測，未來的 AI 或許能夠自主探索、擁有決策權，甚至能夠與環境互動。

隨著OpenAI持續創新，ChatGPT逐步整合以文生圖功能並加入語音互動，我們有理由期待未來ChatGPT具備更多樣的多模態能力。例如，若能克服成本與算力的挑戰，直接在ChatGPT內加入以文字生成影片的Sora，或許指日可待。

ChatGPT背後團隊：OpenAI是什麼組織，誰創立？

OpenAI是一間專攻人工智慧的企業，創立之初以非營利組織自居，參與計劃者包含特斯拉創辦人馬斯克（Elon Musk）、PayPal共同創辦人提爾（Peter Thiel）、LinkedIn共同創辦人霍夫曼（Reid Hoffman），以及已經打響名號、現任執行長奧特曼（Sam Altman）。

這群矽谷出身的創業家和科技愛好者們，希望打造出通用人工智慧，在確保安全性的前提下，讓ChatGPT這類生成式AI幫助社會。

通用人工智慧，也稱為強人工智慧（strong AI），代表接近甚至超越人類能力的人工智慧，具備認知能力，因此可以按照一定的邏輯推理，進而完成不同類型的任務，甚至擁有自我意識。不過，目前尚未出現通用人工智慧，ChatGPT何時會成為強人工智慧，是否危害人類安全，是AI愛好者和發展者的熱議話題。

跟通用人工智慧對照，應用人工智慧（applied AI）或者弱人工智慧（weak AI）則是現在市面上可以見到的AI，機器僅能學習具有明確目的的任務，還無法達到通用（general），例如人臉辨識、下西洋棋、判讀影像、自駕車導航等，因此使用「弱」稱呼。

機器僅能學習具有明確目的的任務，還無法達到通用（general），例如下西洋棋。達志影像

在電腦科學和認知科學不同領域發展人工智慧的歷史上，達到通用人工智慧的境界，可說是長期的嚮往，卻也是始終無法實現的渴望。近年來，因為算力（computing power）的發展、演算法（algorithm）的演進和大數據（big data）應用場景浮現，成功度過經費削減、無人關注的人工智慧寒冬。

深度學習因為變得便宜，又有效落地於商業場域中，已然主宰人工智慧領域，但不管是盜刷信用卡的偵測，或者是文件分類，眾多應用仍歸屬於弱人工智慧，艾西莫夫的預言、《雲端情人》的美好景象仍舊是研究者的失落聖杯。不過，OpenAI並沒有因此放棄，它挖掘頂尖人才、引入資金，挑戰各類的AI任務，希望能夠朝終焉之地邁進。

過去兩年間，OpenAI先是推出GPT系列模型，讓關注科技發展和技客們深感興奮。開放大眾使用ChatGPT後，更讓AI從幕後走到幕前，一般人也能夠無門檻的接觸AI。

OpenAI為何引發爭議？

GPT和其他生成式AI技術革新，確實讓人見識到AI正在突破，但也在研發戰場掀起激烈競爭。因為訓練模型需要強大的運算能力，更要準備足夠資料，兩者都意味著大量的資本投入。

每次發表新模型時，科學家和企業總會強調其訓練資料的符元（token）和參數（parameter），前者大約等於訓練資料的數量，後者則是以神經連結，衡量模型所學習到的模式多寡。

,以第一代GPT模型為例，其預訓練數據量達到約5GB，參數接近1.2億。隔年（2019年），OpenAI發表了GPT─2，預訓練數據量暴增至40GB，參數達到15億。OpenAI並沒有停止前進的步伐，在2020年釋出GPT─3，這次的數據量翻了千倍，達到45TB，參數量也升級到1,750億。

2023年3月，OpenAI發表了GPT─4，但並未公開模型架構、參數細節和訓練過程，這引發外界的批評。許多人指出，OpenAI的成果得益於其他研究機構和企業的開源資源，包括Google、臉書母公司Meta以及學術團隊等。

楊立昆直言，OpenAI已從專注研究的實驗室轉變為開發產品、服務於微軟的單位，其保密做法阻礙了全球其他企業的進步。

針對不願開源的指控，OpenAI回應稱，他們擔心開放模型會帶來濫用風險，因此採取開放API的方式，以控制潛在的損害範圍。然而，反對者對此說法並不滿意，認為OpenAI連訓練過程、使用的資料和參數規模都未公佈，這無疑是一種避重就輕的回應。

接受《遠見》專訪時，領軍零一萬物的華人AI教父李開復也表示，包含OpenAI在內，有許多頂尖AI企業不只沒有開源模型，近期甚至不再發表談及新模型細節的論文，這讓外界難以窺見最新的技術革新。

推理模型o1、o3是什麼？

2024年12月，OpenAI先是向大眾預告o3即將問世，接著在2025年1月發表文章，正式宣布o3─mini到來。o3緊接在o1模型後推出，同樣為提升推理能力而設計，能夠處理各種複雜任務，尤其在數學、科學與程式設計等領域表現突出。

所謂的推理模型，指的是與過往GPT-4、GPT-3.5等在擴展模型資料量與參數途徑上，發展有所不同的模型。與之相比，推理模型用來處理複雜任務，有能力解決困難問題，例如解數學、寫好程式等，重點方向在於，讓模型在回答使用者的提問前「花費更多時間在思考上，就像人類一樣。」

OpenAI解釋，他們透過思維鏈（chain of thought）技術，也就是模仿人類思考時將複雜問題拆解為子任務的步驟，讓模型能夠「精煉他們的思考過程、嘗試不同策略，並學會找出自己的問題所在。」

讓模型能夠像人類一樣有邏輯地推理，是發展最尖端模型者的兵家必爭之地。

前Google Brain成員、現於OpenAI ChatGPT小組就職的Jason Wei，在Google時期就領銜寫過一篇論文，探討下指令時借助思維鏈技巧，光是明確列出導向問題最終答案之間，推理步驟的每個過程，就能夠增進模型產出品質；OpenAI團隊亦曾在著作中比較監督模型產出結果和監督模型推理過程的差異。

其實，不只是思維鏈而已，LLM的開發者還會利用思維樹（tree of thoughts）、再結合反思框架等技術，讓LLM能夠拆分指令、規劃出子目標與子任務，完成任務後也能給出評價，精進接下來的行動，這是LLM從對話走向代表人類完成工作的重要進步過程。

OpenAI另外表示，o1在涉及創意、需要推理的任務中表現卓越，還具有泛化（generalization）能力，例如產出詩歌、破解密碼，也能夠思考何謂生命一類的哲學問題。

ChatGPT使用者已經可以選擇使用o1模型。取自ChatGPT對話頁面。

除了o1以外，OpenAI也同步推出性能略遜於o1，但回覆速度較快且價格較其便宜80％的o1─mini，適用於需要推理，但不用掌握廣泛知識的任務，甚至在部分領域如程式撰寫上，表現還強過o1─preview。

能夠處理艱深問題，象徵模型將能夠在更多專業領域上替人類完成任務；擁有推理能力，則代表LLM往AGI更進一步。

ChatGPT對手比較：DeepSeek，Claude，Gemini，文心一言

整理現在ChatGPT相似產品的競爭態勢，市場上至少有這幾間玩家：

產品名稱	所屬企業	底層模型	備註
ChatGPT	OpenAI	GPT─4o/o1	微軟投資
Gemini	Google	Gemini 2.0	初始名稱為Bard
Claude.ai	Anthropic	Claude 3/3.5	Amazon、Google投資
Copilot	微軟	GPT─4o	內建於瀏覽器中
Grok	xAI	Grok─3	馬斯克創立
文心一言	百度	文心Ernie
通義千問	阿里巴巴	通義Tongyi
豆包	字節跳動	雲雀Yunque
騰訊元寶	騰訊	混元Hunyuan
小藝	華為	盤古Pangu	主要支援華為手機
百小應	百川智能	百川Baichuan
萬知	零一萬物	Yi系列模型	李開復創辦
Kimi.AI	月之暗面	Kimi
DeepSeek.ai	DeepSeek	DeepSeek─V3/R1	以顛覆市場的定價帶動變革
資料整理：曾子軒，2025/02更新

付費企業版AI差異：微軟Copilot，ChatGPT企業版，Google Duet AI，Amazon Q

若改看提供給企業內部使用的ChatGPT Enterprise與微軟Copilot，初步有這些競爭對手：

產品名稱	所屬企業	底層模型	月費
Copilot	微軟	GPT─4o/GPT─4	30美元/月
Duet AI	Google	Gemini	30美元/月
Amazon Q	Amazon	未公佈＊	20美元/月
ChatGPT Enterprise	OpenAI	GPT─4o/o1/o3─mini	視企業而定