OpenAI昨日(5/15)正式將GPT-4.1開放給付費用戶使用,現在除了免費用戶主要使用的GPT-4o以外,付費用戶另外還有o3、o4-mini等模型可供挑選。這些模型哪裡不一樣?應該怎麼挑選?除了看圖說故事以外,還能夠針對圖片推理?《遠見》一文帶你看。
付費用戶可以用GPT-4.1,快又便宜好用
OpenAI本週宣布,將GPT-4.1模型正式開放給Plus、Pro和 Team方案等付費訂閱用戶使用。上個月(4)GPT-4.1僅先開放給開發者利用應用程式介面(API)調用,現在只要打開ChatGPT,就可以直接體驗GPT-4.1的威力。
GPT-4.1是一款針對程式撰寫與指令回應特別改善過的語言模型,不僅推理(reasoning)速度更快,也更擅長理解並執行複雜任務。
ChatGPT原先預設使用的模型為GPT-4o,若要切換至GPT-4.1,只要點擊畫面左上角的「更多模型」選單,就能找到GPT-4.1、GPT-4.5、GPT-4o mini等不同模型,依照最適合自己的情境選用。
此外,OpenAI也同步推出GPT-4.1 mini,用來取代原有的GPT-4o mini,並開放給所有ChatGPT 用戶使用。就像o3-mini之於o3、GPT-4o mini之於GPT-4o,GPT-4.1 mini比GPT-4.1輕量,因此回覆速度更快,適合一般對話與簡單需求。
不過,實際打開確認,仍能看到選單中還有GPT-4o mini的選項。
GPT-4.1的性能全面超越預設的GPT-4o,甚至在寫程式、影像理解等面向領先規模更大的GPT-4.5模型,不僅上下文(context)長度更長、表現更好,成本還更加低廉,可以看出其經濟效益的定位。
OpenAI上個月推出GPT-4.1時,一共端出三個版本:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,前兩者對標的模型為GPT-4o和GPT-4o mini。
以表現來說,GPT-4.1和GPT-4.1 mini寫程式、遵循複雜指令、長文本推理等的能力都高出GPT-4o和GPT-4o mini一截,而且還更便宜。OpenAI當時就強調,「GPT-4.1模型以較低的成本提供卓越的性能。」
從命名前綴詞可以看出,GPT-4.1不是以「o」開頭的推理模型,而是GPT-3.5以降、透過預訓練擴展(pretraining scaling)提升表現的模型,但先前又有命名上看似應該比GPT-4.1更晚推出的GPT-4.5,OpenAI命名模型的方式仍舊令人困惑。
不過,從OpenAI釋出的資訊來看,可以看出為何即便晚於GPT-4.5,仍要推出GPT-4.1的價值。
與GPT-4.5相比,GPT-4.1有不少面向相對較差,包含遵循指令的準確度、多輪指令、跨越文本位置推理等,但GPT-4.1表現穩定,成本大幅低於GPT-4.5,以輸出來說前者成本不到後者的3%,撰寫程式碼能力又勝出,可以說,GPT-4.1又快、又便宜,還足夠好用。
模型 | 輸入成本(每百萬 tokens) | 輸出成本(每百萬 tokens) |
---|---|---|
GPT-4.1 | $2.0 | $8.0 |
GPT-4.1 mini | $0.4 | $1.6 |
GPT-4.1 nano | $0.1 | $0.4 |
GPT-4.5-preview | $75.0 | $150.0 |
GPT-4o | $2.5 | $10.0 |
資料整理:曾子軒,2025/05更新 |
因此,OpenAI宣布將下架調用API時的GPT-4.5預覽版選項,但在ChatGPT產品當中,還是保留選項。
OpenAI另外也補充,隨著模型遵循指令的穩定性上升,再加上能夠掌握的上下文長度增加,「GPT-4.1在驅動Agent或者替使用者獨立完成任務的系統特別有效。」對AI Agent(AI代理人)的開發者來說會是好消息。
值得注意的是,GPT-4.1僅供開發者透過API使用,面對一般消費者的ChatGPT,並沒有提供使用者存取方法。對此OpenAI解釋,GPT-4o作為ChatGPT 的主力模型,其實已經逐步吸收寫程式、遵循指令等不同模型改善後帶來的技術成果。
OpenAI將開發端和消費端區分得很清楚,開發者可以針對自身需求,挑選最適合自己的模型;對消費者來說,重點在於產品是否好用,因此底層模型可以微調,只要使用體驗不斷進化就足夠。
o3正式推出、o4-mini更便宜又更快
繼週一(4/14,美國時間)發表GPT-4.1系列模型後,OpenAI昨晚(4/16,美國時間)再度釋出新模型o3與o4-mini。
2024年12月OpenAI就曾經公布過o3模型,強調其在推理能力上的演進,這次與o4-mini一併推出,OpenAI強調,這兩款模型皆針對處理複雜問題而特別改進,能在回應前進行更長時間的思考,邏輯推理與解決任務能力都再升級。
若要說最關鍵的進步,就是讓這兩款推理模型能夠全面使用工具,更接近AI Agent所具備的完整能力。
「就像你會使用計算機來解決困難的數學問題,或使用地圖應用來導航陌生的街道一樣,當我們的模型配合適當的工具使用時,它們的能力也會大幅提升。」在直播中,OpenAI研究主管陳信翰(Mark Chen)解釋,將o系列推理模型結合完整的工具組合後,成功在好幾種高難度基準測試中,達到最先進的成果。
在實務應用方面,推理模型可以應用在科學研究、數學推導、程式碼編寫以及視覺輸入的理解與分析。
「舉例來說,現在模型可以『用圖像思考』,這表示它能使用Python來裁剪、轉換和處理圖片,以協助完成你想執行的任務。」陳信翰表示,使用者上傳複雜或者模糊的圖片,模型不只能看懂,還能夠深度推理。
o3可以讀菜單
實際測試時,若是上傳某店家的菜單照片,o3模型可以讀懂內容,接著調用搜尋工具,比對出菜單背後的店家,過程中使用者不用提供步驟,模型就能夠自主拆解。
至於o4-mini,可以看成o3-mini的進化版,推理更快、成本更低,因為效率更佳,所以不會像o3-mini有那麼高的使用限制。
就模型開發路徑來說,因為觀察到強化學習也像預訓練一樣表現出擴展定律,陳信翰表示,發展推理模型時,同時擴展訓練階段與測試階段的規模,並得到成果。
盤點本週更新,開放給開發者調用的GPT-4.1是在預訓練階段增加資料與參數規模,o3和o4-mini則是瞄準推理能力,在訓練階段增加規模、並且增城測試階段的思考時間,兩者同時是OpenAI和競爭對手如Anthropic、Google共同努力的方向。
最後陳信翰提到,即日起PLUS付費訂閱者和Team訂閱者將可以陸續使用o3、o4-mini以及o4-mini-high模型,也將取代先前的o1與o3-mini 系列模型。
GPT-4.5是什麼?有多厲害?
美國時間02/27,OpenAI向大眾介紹新一代模型GPT-4.5。除了規模更大、對話更自然、掌握的知識更多、幻覺發生機會更少、計算效率更高以外,最值得注意的地方在於,OpenAI發展新模型的路線上,有著明確兩道不同軸線。在官方公告中,OpenAI表示,自家透過提升推理能力(reasoning)以及非監督式學習(unsupervised learning),提升人工智慧的能力。
以推理來說,OpenAI o1和OpenAI o3 mini都是在回應前思考,也就是在測試階段擴展(test-time scaling),藉此達到更佳表現。
另一道發展軸線則是在預訓練擴展(pretraining scaling)上發力,也就是最原始的擴展定律(scaling law),增加資料、算力和模型大小,GPT-3.5、GPT-4和GPT-4.5都在這個軸線上。
OpenAI指出,GPT-4.5在回答時並不會思考,因此與OpenAI o1各擅勝場。不過,他們相信這兩條軸線彼此互補,可以藉由預訓練階段的擴展定律墊高模型的基礎能力,接著再以其為根基,提高模型的推理能力。
OpenAI執行長奧特曼(Sam Altman)在社群平台X上表示,GPT-4.5並非專門針對推理,因此可能沒有辦法橫掃各種驗證大語言模型能力的基準測試,但他認為跟GPT-4.5互動,就像在跟一位深思熟慮的人對話,「我有好幾次驚訝地靠在椅背上,因為它竟然能給出真正有價值的建議——來自 AI 的建議。」
如同奧特曼所說,GPT-4.5在思考深度上更進一步,但不只是如此而已。
在2/28的直播中,OpenAI的研究人員表示,GPT-4.5的上下文理解能力更強,且擁有更多深入知識,因此在寫作、寫程式和解決問題等任務上,表現更好,且更能理解人類的需求與意圖,準確性超越過往模型、發生幻覺的機率也最低。
在測試中,研究人員比較GPT-4.5和o1生成的內容,完整對話翻譯如下:
不管是哪一個版本,ChatGPT的表現都非常好,精確捕捉到使用者所處的情境,以及不知如何面對朋友,究竟應該撕破臉,還是要替朋友留點轉圜空間,同時又要傳達自己的難過之意。不過,就人性化程度來說,GPT-4.5明顯更勝一籌。
從Google跳槽至OpenAI,目前擔任研究科學家的勒普斯(Rapha Gontijo Lopes)指出,經過對齊以後,「GPT4.5與人對話時,能夠讓人感覺更爲溫暖、更直覺,且情感層次更為豐富。」
勒普斯指出,為了衡量模型的情商(emotional quality)與創意智慧(creative intelligence),OpenAI新規劃了「氛圍測試」(Vibes Test),讓人類評估者檢視具有主觀看法的生成內容,結果GPT-4.5的回覆內容得到的分數最高。不過,因為GPT-4.5不是走推理路數,而是加大模型規模與資料量,因此奧特曼稱它「龐大且昂貴」。
ChatGPT是什麼?
OpenAI是一家致力於研發人工智慧的企業,從個位數的小規模實驗團隊(research lab),成長至能夠和Google一較高下的營利企業,他們的最終願景是打造能夠造福全人類的通用人工智慧(AGI)。
ChatGPT就是OpenAI在追逐目標過程中,推出最重要的一款AI對話式服務(conversational AI)。
ChatGPT由OpenAI研發的基礎模型如GPT-4、o1等模型驅動,以網頁介面提供服務,使用者直接造訪網址以後,便能以自然語言方式與ChatGPT閒聊,並請ChatGPT幫忙解決問題。
在打開ChatGPT頁面時,ChatGPT已經預先列出幾種常見功能,讓使用者能夠快速了解應用範圍。例如,ChatGPT可以幫助撰寫程式碼,無論是協助偵錯、改善程式碼架構,還是從零開始撰寫應用程式都難不倒它;ChatGPT也能協助創意,包含發想品牌名稱、包裝品牌故事、策劃行銷活動等。
因為GPT系列模型最開始時就是從文字資料出發,因此ChatGPT最常見的用途,通常與文字有關,例如摘要研究報告、統整不同來源的新聞;它也能夠協助撰寫各類文章,還可以提供語言上的修正與潤色,並根據需求調整語氣和風格。
對人類日常生活中常見的任務如安排行程、制定學習計畫、管理專案等,ChatGPT都能派上用場,以溫文有禮的語調提供批判性的建議,幫助使用者更有條理地執行目標。
ChatGPT也善於以包容開闊的心胸給予建議,包括職涯發展、投資規劃、生活決策,甚至是對於關係的想法,都能向它請教。
為什麼ChatGPT那麼受歡迎?
ChatGPT自推出以來,因為簡單、好用,功能又非常強大,讓許多人就此成為忠實用戶。
2025年2月,OpenAI營運長布萊德·萊特卡普(Brad Lightcap)向《CNBC》表示,ChatGPT的每週活躍使用者(weekly active users)達到4億。去年12月的每週活躍使用者為3億,在不到3個月的時間內便成長超過3成;另外,ChatGPT的企業用戶也達到200萬間,是去年9月的兩倍。
雖然ChatGPT問世後,Google推出Gemini(原名Google Bard)、Anthropic端出Claude迎擊,且的確和ChatGPT來回廝殺,且後續還有其他發展路線各異的對手紛紛湧現,例如同樣隸屬於Google旗下、由小型團隊孵化的NotebookLM、專攻搜尋式問答的Perplexity、注重角色與情感的Character.AI,但ChatGPT仍是定義生成式AI時代時,最閃耀的產品與詞彙之一。
早在ChatGPT誕生之前,無論是在學術界還是產業界,人工智慧技術的研究與發展已經有多年歷史。ChatGPT並非第一個落地應用的AI技術,更不是史無前例的創舉,也並非最早向大眾開放的商用AI產品。它的成功,更多是建立在長期技術積累與市場需求交匯的基礎之上,使得AI應用得以更廣泛普及。
活躍於數位領域的開發者們,除了打造各式應用程式,也積極在套裝軟體中加入AI功能;企業們也廣泛應用AI,例如電商背後的推薦系統、銀行當中的盜刷分類模型、徵信時的評分等,都是具體展現。但真正讓AI走入大眾視野、掀起熱潮的,仍然是ChatGPT。
在ChatGPT問世之前,其前身模型如GPT-2、GPT-3便已引發討論,但議論者大多聚集於矽谷,最多僅外溢至對科技有極大興趣的早期採用者們。
在2025年2月出版的《奧特曼傳》中提到,OpenAI在2022年11月推出ChatGPT之前,已經研發出當時最新版本的模型GPT-4,正準備將其介紹給世人。然而,同時間傳出OpenAI的競爭對手Anthropic準備推出聊天機器人,Google的LaMDA又出現「AI有無意識」之爭,與微軟開完會的OpenAI執行長奧特曼(Sam Altman)決定發起突襲,推出以GPT-3.5驅動的聊天機器人,這便是接下來造成天翻地覆變化的ChatGPT。
如果要探究ChatGPT為何能讓普羅大眾願意使用,關鍵就在於它成功跨越技術門檻,使得AI不再只是專業人士的工具,而是人人皆可輕鬆運用的助手。
從技術能力來看,ChatGPT能夠產生品質優異的內容,不像早期的AI產品,生成的文本往往需要大量人工修正,難以真正提升生產力。
Google DeepMind執行長哈薩比斯(Demis Hassabis)曾在Google開發者大會上強調:「語言是人類智能與日常生活的核心,」這正是ChatGPT成功的關鍵。技術的進步使其生成的內容更具流暢度,不再是過去那種機械化、容易被輕易識破由AI生成,沒有真正思想的內容,而是具備一定邏輯性與可讀性的回應,只需要稍作修改即可實際應用。
此外,以往學術界與商業領域的AI應用,往往需要使用者具備大量背景知識,門檻較高。然而,OpenAI巧妙地透過網頁與對話式介面包裝ChatGPT,讓它更貼近日常使用習慣,不用複雜的安裝與設定,使用者只需開啟網頁或下載應用程式,即可與AI自然互動,這種易用性極大地推動了其普及。
憑藉這些優勢,ChatGPT獲選進入《Nature》2023年「年度10大人物」榜單,雖然排名第11,卻是唯一入選的非人類,與該年最具影響力的人物——推動印度登月的科學家、巴西環境部長以及OpenAI首席科學家並列。《Nature》認為,儘管ChatGPT不是人,但它對世界帶來的影響足以讓其獲得這項殊榮,象徵著AI技術對社會的深遠變革。
ChatGPT背後模型有何特色?
人工智慧這個詞彙早已深入人心,儘管AI技術已廣泛應用於金融、行銷、供應鏈等領域,但由於日常生活中較難直接感受到它的存在,許多人仍覺得AI與自己有些距離。
然而,在2016與2017年,人工智慧技術迎來震撼全球的時刻——當時,DeepMind(後來被Google收購)研發的圍棋AI AlphaGo連續擊敗世界級棋手李世乭與柯潔,徹底改變了大眾對AI的認知。當機器能在圍棋這種極度複雜的遊戲中超越人類頂尖高手,人們開始思考,還有什麼領域是AI無法挑戰的?
雖然 AlphaGo 仍屬於專精於單一領域的「弱人工智慧」(weak AI),但與它相比,ChatGPT的應用範圍則更加廣泛,尤其在開放給大眾使用後,更是與日常生活緊密結合,使AI朝向泛用性更強、接近人類智能的「強人工智慧」(strong AI)邁進了一步。
本質上ChatGPT依然屬於弱人工智慧。它的主要設計目標是模仿人類對話,但運作方式與人類的邏輯推理機制並不相同。
如圖靈獎得主、「深度學習之父」楊立昆(Yann LeCun)在一場分享中所提,當人類準備演講時,通常會先擬定大綱,並依照框架組織各個段落的論點,而這個過程是由邏輯與推理所驅動的。對照之下,ChatGPT背後的GPT系列模型並非透過「先計畫再行動」的方式運作,而是根據大量訓練資料,計算最有可能與前後文相符的詞彙,逐步拼湊成完整的句子。因此,儘管ChatGPT能夠產出流暢且具邏輯性的回答,但其運作原理與人類思考方式仍存在本質上的差異。
不過,對大多數人來說,機器能夠如此流暢地與人對話,已經足夠令人驚嘆。
ChatGPT之所以能有如此優異的表現,很大程度上要歸功於其核心的GPT模型。2017年,Google發表Transformer論文以後,前OpenAI首席科學家薩斯凱博(Ilya Sutskever)很快發現,若將Transformer架構運用在自家研發的AI模型裡,或許能夠帶來不一樣的結果。
2018年,OpenAI發表論文,提出「生成式預訓練(generative pre-training,簡稱GPT)」方法,顯著提升AI對語言的理解能力,並成功解決當時機器學習領域的諸多挑戰。
對於人工智慧領域的研究人員與從業者而言,即使技術再先進、運算資源再充足,AI模型仍然依賴大量預先標記好的資料來學習。舉例來說,在醫療領域,若要讓AI能像醫生一樣判讀醫療影像,並準確診斷疾病,就必須先建立分類模型。
然而,機器無法自行判斷每張影像的病理狀態,必須依賴既有資料庫或由專業人士手動標記,告知AI哪些影像為陽性、哪些為陰性。資料庫規模不足,或是應用場景屬於新興領域時,勢必需要新增資料量以提升模型表現。可是,請醫師親自標記影像需要耗費大量時間與人力成本;若聘請助理或工讀生,則可能面臨專業能力不足的問題,培訓新手又會增加額外的時間與資源投入。
這種情況不僅限於醫療影像辨識,許多其他領域同樣面臨類似挑戰。例如,AI助手生成的文本品質是否足夠自然?人工智慧在篩選履歷時,是否會錯過關鍵人才?在保險領域,AI能否精準衡量出投保者的健康程度?這些問題都仰賴人類回饋,需要新增資要以便調整並改善模型。
GPT模型的突破性貢獻在於,它能夠透過非監督式學習(unsupervised learning,即沒有預先標記的資料仍展開學習)預先訓練語言模型,減少對大量人工標註資料的依賴,並建立起通用的語言理解基礎。之後,針對特定應用場景,再透過監督式學習(supervised learning,即透過有標註的資料學習)進行微調(fine-tuning),進一步提升模型在特定領域的表現。這一技術突破,使得AI的適應性與泛用性大幅提升。
ChatGPT背後模型如何演變?
2020年,OpenAI推出GPT-3模型,因為其生成內容品質有著肉眼可見的增長,引發更多人關注。隨後,OpenAI持續推進大型語言模型的發展。2023年,GPT-4正式登場,展現出卓越的性能,不僅能夠在美國律師考試中取得高分,還能輕鬆解答奧林匹亞競賽與美國大學先修課程(AP)試題。
到了2024年5月,OpenAI於春季發表會隆重推出GPT-4o,這款模型不僅具備一定的情感表達能力,還能夠處理多模態內容,且回應速度驚人、延遲性極低,讓隔天才舉行發表會的Google倍感壓力。隨後,ChatGPT正式升級,全面採用GPT-4o模型,讓使用者能夠親身體驗其強大的運算效能與回應能力。
同年7月,OpenAI推出GPT-4o mini,顧名思義,這是一款規模較小的模型,但表現依然出色。根據OpenAI的說法,在公開評比中,GPT-4o mini的得分甚至超越GPT-4,且運算成本更低,讓AI技術變得更加普及。
到了9月,OpenAI於台灣時間深夜發表o1,一款專為解決高難度問題、具備強大推理能力的模型。與專注於多模態處理與高效回應的GPT-4o與GPT-4o mini不同,o1更側重於深度思考,強調從廣度走向深度、從大量資訊轉向精準推理,為人工智慧技術帶來新的突破,進一步縮短AI與人類思維方式之間的差距。
在2024年12月的聖誕節更新中,OpenAI向大眾介紹和o1一樣擁有推理能力、但實力更為強大的o3模型。2025年1月,OpenAI不讓春節放假前撼動市場的DeepSeek專美於前,宣布推出o3-mini模型,並以「突破高性價比推理的界限」形容o3-mini。
讓ChatGPT更強大的多模態模型是什麼?
自GPT-4以降,GPT-4o、o1等模型同樣具備「看圖說故事」的能力,這與OpenAI打造多模態模型的方向一致。
什麼是多模態?簡單來說,人類感知世界的方式多種多樣,例如透過耳朵聆聽音樂、用眼睛欣賞影片、用雙手感受物體的觸感,這些不同的感官體驗就屬於不同的「模態」。
GPT系列模型從文字處理開始,隨後擴展到圖像識別,並進一步支援聲音互動,由於OpenAI早已在語音模型和音樂生成領域深耕多時,因此語音與音樂處理能力的提升可說是順理成章。
如果未來技術能夠從二維資訊(如圖像與聲音)拓展至三維領域,例如觸覺或嗅覺,當GPT模型能夠理解各種型態的資料,它將具備更強的適應性,有辦法處理更複雜、多元的任務,在人類生活中的應用範圍也將進一步擴大。
《麻省理工科技評論》曾指出,多模態模型的出現,有望解決傳統AI應用的一大限制——許多人工智慧雖然能在特定領域超越人類,例如棋類對弈或電玩遊戲,但卻難以適應其他類型的任務。為了突破這個瓶頸,研究人員開始尋找新的解法,而其中一種可能的方式,就是向小朋友學習。
孩子們是如何成長並變得聰明的?他們從感知世界開始,透過觀察、聆聽、嗅聞、觸摸,將這些經驗轉化為語言來描述事物。正如《百年孤寂》中所言:「世界太新,許多事物還沒有名字,必須用手指著。」當孩子的感官體驗越豐富,他們能夠表達的內容也變多,進而構築出更完整的世界觀。
如果人工智慧能夠模仿這種學習模式,透過多種感官獲取資訊並將其轉化為可理解的語言與概念,那麼它將能適應更為複雜的人類環境,並解決多樣化的問題。當這項技術趨於成熟時,AI將不再只是虛擬助手,而有機會成為能夠融入現實世界的「實體秘書」,甚至具備一定程度的自主性與決策能力。
這正是AI代理(AI Agent)的核心願景——發展出能夠自主決策、執行任務,且無需人類頻繁干預的智慧系統。隨著技術的演進,AI將不再只是被動回應指令的工具,而是能夠主動協助人類處理各種事務的智慧夥伴。
多模態人工智慧正引領技術革新,Google Brain 研究深度學習的總監艾克(Douglas Eck)曾指出,多模態模型將帶來最新的突破。而 DeepMind 的研究總監哈德席(Raia Hadsell)更進一步預測,未來的 AI 或許能夠自主探索、擁有決策權,甚至能夠與環境互動。
隨著OpenAI持續創新,ChatGPT逐步整合以文生圖功能並加入語音互動,我們有理由期待未來ChatGPT具備更多樣的多模態能力。例如,若能克服成本與算力的挑戰,直接在ChatGPT內加入以文字生成影片的Sora,或許指日可待。
ChatGPT背後團隊:OpenAI是什麼組織,誰創立?
OpenAI是一間專攻人工智慧的企業,創立之初以非營利組織自居,參與計劃者包含特斯拉創辦人馬斯克(Elon Musk)、PayPal共同創辦人提爾(Peter Thiel)、LinkedIn共同創辦人霍夫曼(Reid Hoffman),以及已經打響名號、現任執行長奧特曼(Sam Altman)。
這群矽谷出身的創業家和科技愛好者們,希望打造出通用人工智慧,在確保安全性的前提下,讓ChatGPT這類生成式AI幫助社會。
通用人工智慧,也稱為強人工智慧(strong AI),代表接近甚至超越人類能力的人工智慧,具備認知能力,因此可以按照一定的邏輯推理,進而完成不同類型的任務,甚至擁有自我意識。不過,目前尚未出現通用人工智慧,ChatGPT何時會成為強人工智慧,是否危害人類安全,是AI愛好者和發展者的熱議話題。
跟通用人工智慧對照,應用人工智慧(applied AI)或者弱人工智慧(weak AI)則是現在市面上可以見到的AI,機器僅能學習具有明確目的的任務,還無法達到通用(general),例如人臉辨識、下西洋棋、判讀影像、自駕車導航等,因此使用「弱」稱呼。
在電腦科學和認知科學不同領域發展人工智慧的歷史上,達到通用人工智慧的境界,可說是長期的嚮往,卻也是始終無法實現的渴望。近年來,因為算力(computing power)的發展、演算法(algorithm)的演進和大數據(big data)應用場景浮現,成功度過經費削減、無人關注的人工智慧寒冬。
深度學習因為變得便宜,又有效落地於商業場域中,已然主宰人工智慧領域,但不管是盜刷信用卡的偵測,或者是文件分類,眾多應用仍歸屬於弱人工智慧,艾西莫夫的預言、《雲端情人》的美好景象仍舊是研究者的失落聖杯。不過,OpenAI並沒有因此放棄,它挖掘頂尖人才、引入資金,挑戰各類的AI任務,希望能夠朝終焉之地邁進。
過去兩年間,OpenAI先是推出GPT系列模型,讓關注科技發展和技客們深感興奮。開放大眾使用ChatGPT後,更讓AI從幕後走到幕前,一般人也能夠無門檻的接觸AI。
OpenAI為何引發爭議?
GPT和其他生成式AI技術革新,確實讓人見識到AI正在突破,但也在研發戰場掀起激烈競爭。因為訓練模型需要強大的運算能力,更要準備足夠資料,兩者都意味著大量的資本投入。
每次發表新模型時,科學家和企業總會強調其訓練資料的符元(token)和參數(parameter),前者大約等於訓練資料的數量,後者則是以神經連結,衡量模型所學習到的模式多寡。
以第一代GPT模型為例,其預訓練數據量達到約5GB,參數接近1.2億。隔年(2019年),OpenAI發表了GPT-2,預訓練數據量暴增至40GB,參數達到15億。OpenAI並沒有停止前進的步伐,在2020年釋出GPT-3,這次的數據量翻了千倍,達到45TB,參數量也升級到1,750億。
2023年3月,OpenAI發表了GPT-4,但並未公開模型架構、參數細節和訓練過程,這引發外界的批評。許多人指出,OpenAI的成果得益於其他研究機構和企業的開源資源,包括Google、臉書母公司Meta以及學術團隊等。
楊立昆直言,OpenAI已從專注研究的實驗室轉變為開發產品、服務於微軟的單位,其保密做法阻礙了全球其他企業的進步。
針對不願開源的指控,OpenAI回應稱,他們擔心開放模型會帶來濫用風險,因此採取開放API的方式,以控制潛在的損害範圍。然而,反對者對此說法並不滿意,認為OpenAI連訓練過程、使用的資料和參數規模都未公佈,這無疑是一種避重就輕的回應。
接受《遠見》專訪時,領軍零一萬物的華人AI教父李開復也表示,包含OpenAI在內,有許多頂尖AI企業不只沒有開源模型,近期甚至不再發表談及新模型細節的論文,這讓外界難以窺見最新的技術革新。
最先進的推理模型o3是什麼?
2024年12月,OpenAI先是向大眾預告o3即將問世,接著在2025年1月發表文章,正式宣布o3-mini到來。o3緊接在o1模型後推出,同樣為提升推理能力而設計,能夠處理各種複雜任務,尤其在數學、科學與程式設計等領域表現突出。
相較於前代模型,o3擁有更強的邏輯推理能力,而 o3-mini 則提供高效且成本更低的選擇,讓更多用戶能夠體驗 AI 在高階推理領域的進展。
作為o1模型的進化版本,o3在數學與科學等多項測試中都有卓越表現,程式設計能力也有顯著提升。另外,OpenAI還引入「深思熟慮的對齊(deliberative alignment)」技術,利用AI的推理能力來評估使用者輸入的安全性,進一步確保AI在內容生產上的穩定與可靠。
作為o3的縮小版模型,o3-mini複製前一代的設計理念,重點在於提升效率與降低成本,同時保留核心推理技術。OpenAI指出,o3有特別針對STEM問題強化其能力,且提供「低、中、高」三種推理層級(reasoning effort),讓使用者可以根據需求調整AI的計算深度,決定是否應該「更努力思考」(think harder),同時平衡速度與準確性。
除了具備強大的推理能力外,o3-mini 也支援函式呼叫、結構化輸出與開發者訊息,使其更適合實際應用場景。
OpenAI推出o3和o3-mini之際,和Google全面開放Gemini 2.0、DeepSeek R1問世的時間相去不遠,可以看到各家企業深化模型推理能力,同時提供輕量模型,並降低成本的努力,這場戰役還會繼續下去。
能夠推理的o1是什麼?
2024年9月,離GPT-4o mini推出還不到兩個月的時間,OpenAI再度端出最新模型-o1的預覽版(o1-preview)。
跟過往的模型相比,OpenAI強調o1是一款用來處理複雜任務,有能力解決困難問題的模型,例如解數學、寫好程式等,重點方向在於,讓模型在回答使用者的提問前「花費更多時間在思考上,就像人類一樣。」
OpenAI解釋,他們透過思維鏈(chain of thought)技術,也就是模仿人類思考時將複雜問題拆解為子任務的步驟,讓模型能夠「精煉他們的思考過程、嘗試不同策略,並學會找出自己的問題所在。」
讓模型能夠像人類一樣有邏輯地推理,是發展最尖端模型者的兵家必爭之地。
前Google Brain成員、現於OpenAI ChatGPT小組就職的Jason Wei,在Google時期就領銜寫過一篇論文,探討下指令時借助思維鏈技巧,光是明確列出導向問題最終答案之間,推理步驟的每個過程,就能夠增進模型產出品質;OpenAI團隊亦曾在著作中比較監督模型產出結果和監督模型推理過程的差異。
其實,不只是思維鏈而已,LLM的開發者還會利用思維樹(tree of thoughts)、再結合反思框架等技術,讓LLM能夠拆分指令、規劃出子目標與子任務,完成任務後也能給出評價,精進接下來的行動,這是LLM從對話走向代表人類完成工作的重要進步過程。
從Google跳槽到OpenAI、也是o1背後的重要推手之一,Jason Wei在X(前推特)上撰文指出,OpenAI團隊並不只是在指令上利用思維鏈技巧而已,這次更是直接在訓練階段讓模型學習思維鏈,這讓o1於高度仰賴推理的任務(reasoning-heavy tasks)中,例如程式競賽、數學競賽,擊敗GPT-4o。
「無論怎麼努力調整,你還是很難拿下國際資訊奧林匹亞競賽金牌!」在OpenAI舉辦的AMA(Ask Me Anything)活動中,Jason Wei回覆提問者,點出將思維鏈技巧應用於指令和運用於訓練階段的差異所在。
OpenAI另外表示,o1在涉及創意、需要推理的任務中表現卓越,還具有泛化(generalization)能力,例如產出詩歌、破解密碼,也能夠思考何謂生命一類的哲學問題。
不過,考慮使用者體驗、OpenAI的競爭優勢以及管理思維鏈等因素後,OpenAI決定不開放給ChatGPT使用者與調用API開法者原始的思維鏈長相,僅提供摘要。因為模型會摘要思考過程,因此思考階段會耗時較久,生成答案的速度則快上許多。
除了o1以外,OpenAI也同步推出性能略遜於o1,但回覆速度較快且價格較其便宜80%的o1-mini,適用於需要推理,但不用掌握廣泛知識的任務,甚至在部分領域如程式撰寫上,表現還強過o1-preview。
OpenAI研究科學家Hongyu Ren指出,o1-mini特別針對STEM(Science、Technology、Engineering及Mathematics等理工科)應用,在資料準備階段和模型訓練階段皆有最佳化,因此能夠得到好表現,但在「世界知識」有所限制。
能夠處理艱深問題,象徵模型將能夠在更多專業領域上替人類完成任務;擁有推理能力,則代表LLM往AGI更進一步。
GPT-4o mini是什麼?
2024年7月,就在GPT-4o推出的兩個月後,OpenAI推出小模型GPT-4o mini。雖然沒有公開參數(parameter)量,但就OpenAI直接使用小模型(small model)一詞來看,其參數並不會像前幾代旗艦模型那樣動輒突破百億。
為何要推出小模型?其關鍵意義是,在能力不顯著下降的前提之下,以更便宜、更快速的方式完成任務。OpenAI在其API說明文件中就提到,GPT-4o mini是「可負擔且智慧的小型(模型)型號,適用於快速且輕量級的任務。」
對比2022年推出能力較弱但費用較便宜的text-davinci-003,OpenAI指出,以符元(token)計算,GPT-4o mini的成本已下降99%,且模型能力還不斷提升。正如李開復所說,「我認為未來兩年會看到(LLM應用)非常劇烈的競爭,因為百分之百確定至少還有兩代巨大的模型提升。」每次模型升級時,不僅會推動新的應用發展,更會因此降低推論成本(inference cost)的定價,OpenAI就是率先降低定價的強勢玩家。
因為運行速度快,成本又相對低於其他旗艦大模型,OpenAI因此表示,GPT-4o mini能夠「吃下」大量內容,例如一整包程式碼,也可以同時間調用多個API,甚至是在客服領域直接上陣,不用擔心以前其他模型的延遲,這讓AI Agent的願景到來頗有助益。
發展小語言模型已是近來重要趨勢,例如Anthropic就在推出Claude 3模型時,介紹了Claude Haiku,Google有Gemini Flash、微軟亦有Phi-3模型。
ChatGPT對手比較:DeepSeek,Claude,Gemini,文心一言
整理現在ChatGPT相似產品的競爭態勢,市場上至少有這幾間玩家:
產品名稱 | 所屬企業 | 底層模型 | 備註 |
ChatGPT | OpenAI | GPT-4o/o1 | 微軟投資 |
Gemini | Gemini 2.0 | 初始名稱為Bard | |
Claude.ai | Anthropic | Claude 3/3.5 | Amazon、Google投資 |
Copilot | 微軟 | GPT-4o | 內建於瀏覽器中 |
Grok | xAI | Grok-3 | 馬斯克創立 |
文心一言 | 百度 | 文心Ernie | |
通義千問 | 阿里巴巴 | 通義Tongyi | |
豆包 | 字節跳動 | 雲雀Yunque | |
騰訊元寶 | 騰訊 | 混元Hunyuan | |
小藝 | 華為 | 盤古Pangu | 主要支援華為手機 |
百小應 | 百川智能 | 百川Baichuan | |
萬知 | 零一萬物 | Yi系列模型 | 李開復創辦 |
Kimi.AI | 月之暗面 | Kimi | |
DeepSeek.ai | DeepSeek | DeepSeek-V3/R1 | 以顛覆市場的定價帶動變革 |
資料整理:曾子軒,2025/02更新 |
付費企業版AI差異:微軟Copilot,ChatGPT企業版,Google Duet AI,Amazon Q
若改看提供給企業內部使用的ChatGPT Enterprise與微軟Copilot,初步有這些競爭對手:
產品名稱 | 所屬企業 | 底層模型 | 月費 |
Copilot | 微軟 | GPT-4o/GPT-4 | 30美元/月 |
Duet AI | Gemini | 30美元/月 | |
Amazon Q | Amazon | 未公佈* | 20美元/月 |
ChatGPT Enterprise | OpenAI | GPT-4o/o1/o3-mini | 視企業而定 |
使用ChatGPT只要開啟ChatGPT官方網站,即可開始對話。針對台灣使用者,系統會自動顯示繁體中文介面,並且無論輸入繁體或簡體中文,ChatGPT 都能精準理解並提供回應。
OpenAI 先前宣布,為了讓更多人能夠體驗 AI 技術,未註冊帳號的用戶同樣可以使用 ChatGPT。而若選擇註冊帳號,則可享有保存對話紀錄、查詢歷史記錄、個人化設定,以及探索更多進階功能的權限。
此外,在無痕模式下,用戶無需登入即可直接使用 ChatGPT。如果已有 OpenAI 帳號,只需點擊「Login」,並透過電子郵件或 Google、Microsoft、Apple 帳號登入;若尚未註冊,則點擊「Sign up」,依照指示完成註冊流程即可開始使用。
目前使用ChatGPT不需登入帳號且免費,但有登入和有付費的用戶,皆可享有更高效的模型,例如登入後能使用表現更好的GPT-4o,付費後的使用額度和優先權變高,沒登入的使用者只能使用GPT-4o-mini。
如果在使用過程中遇到疑問,OpenAI設有常見問題頁面,涵蓋了如「什麼是ChatGPT」、「它的運作方式」以及「AI提供的資訊是否可靠」等常見問題。