訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

免費報名 免費報名 8/17(日)賴佩霞@基隆塔新書分享會

ChatGPT推新模型o3怎麼用?模型版本差異在哪?

曾子軒
user

曾子軒

2025-02-25

瀏覽數 17,250+

ChatGPT已經成為許多人工作和生活中不可或缺的重要工具。取自ChatGPT對話頁面
ChatGPT已經成為許多人工作和生活中不可或缺的重要工具。取自ChatGPT對話頁面
00:00
00:00

Google推Gemini 2.0、DeepSeek釋出R1,OpenAI也有o3與o3-mini,用以支援ChatGPT。究竟ChatGPT是什麼?能夠看圖說故事、以語言互動的多模態能力為何?ChatGPT背後模型有何特色、又是如何演變?ChatGPT背後OpenAI是何方神聖,有捲入哪些爭議?《遠見》一文帶你看。

ChatGPT是什麼?

OpenAI是一家致力於研發人工智慧的企業,從個位數的小規模實驗團隊(research lab),成長至能夠和Google一較高下的營利企業,他們的最終願景是打造能夠造福全人類的通用人工智慧(AGI)。

ChatGPT就是OpenAI在追逐目標過程中,推出最重要的一款AI對話式服務(conversational AI)。

ChatGPT由OpenAI研發的基礎模型如GPT-4、o1等模型驅動,以網頁介面提供服務,使用者直接造訪網址以後,便能以自然語言方式與ChatGPT閒聊,並請ChatGPT幫忙解決問題。

在打開ChatGPT頁面時,ChatGPT已經預先列出幾種常見功能,讓使用者能夠快速了解應用範圍。例如,ChatGPT可以幫助撰寫程式碼,無論是協助偵錯、改善程式碼架構,還是從零開始撰寫應用程式都難不倒它;ChatGPT也能協助創意,包含發想品牌名稱、包裝品牌故事、策劃行銷活動等。

因為GPT系列模型最開始時就是從文字資料出發,因此ChatGPT最常見的用途,通常與文字有關,例如摘要研究報告、統整不同來源的新聞;它也能夠協助撰寫各類文章,還可以提供語言上的修正與潤色,並根據需求調整語氣和風格。

對人類日常生活中常見的任務如安排行程、制定學習計畫、管理專案等,ChatGPT都能派上用場,以溫文有禮的語調提供批判性的建議,幫助使用者更有條理地執行目標。

ChatGPT也善於以包容開闊的心胸給予建議,包括職涯發展、投資規劃、生活決策,甚至是對於關係的想法,都能向它請教。

ChatGPT能夠看圖說故事?

在由GPT-3.5驅動、ChatGPT務剛問世的早期,ChatGPT只接受文字輸入(text input)。

隨著ChatGPT底層模型的進展,ChatGPT能處理的資料類型也從文字,逐步延伸到圖像、語音等多模態(multimodal)內容,即便是免費版用戶也能體驗這些功能,雖然使用上仍有一定額度限制,但整體可及性已大幅提升,用途也跟著變多。

2023年9月,ChatGPT開始支援多模態(multimodality),對話時可以靈活運用文字、聲音與圖像。取自OpenAI官網

2023年9月,ChatGPT開始支援多模態(multimodality),對話時可以靈活運用文字、聲音與圖像。取自OpenAI官網

ChatGPT具備解讀影像的能力,無論是學生常見的看圖寫作文、依據圖表分析資料,還是生活中的相片分類命名,甚至是工作場景下的圖像標記與分類,GPT-4o與GPT-4模型都能輕鬆應對。

事實上,OpenAI早在先前就已發表相關技術,例如同樣屬於多模態預訓練模型的CLIP(Contrastive Language-Image Pre-Training),便能夠辨識圖片間的差異。即使圖像沒有預先標註文字,使用者還是能透過文字搜尋,找到符合需求的相片,成功整合了文字與圖像兩種資訊類型。

此外,OpenAI旗下與Midjourney競爭的圖像生成模型DALL·E,也採用了CLIP技術來提升影像識別與生成的精準度,現在ChatGPT也直接將DALL·E系列模型整合進服務中,因此對話時可以直接請ChatGPT生成圖像。

使用ChatGPT服務時能夠直接生成圖像。取自ChatGPT對話頁面

使用ChatGPT服務時能夠直接生成圖像。取自ChatGPT對話頁面

從實用性的角度來看,無論是出國旅遊,還是觀賞外國影片與照片,經常會遇到看不懂外文,卻又渴望理解內容的情境。這時候,ChatGPT就能派上用場,幫助解讀與翻譯。

然而,使用時仍需謹慎,因為ChatGPT並非萬無一失,仍有可能產生錯誤資訊。例如,利用ChatGPT解讀圖片中的日文時,便曾出現過完全錯誤的翻譯。因此,雖然這項技術能提供便利,但在處理關鍵資訊時,最好還是多方比對,或搭配其他翻譯工具,以確保準確性。

ChatGPT展現幻覺,每段翻譯都在胡說八道。

ChatGPT展現幻覺,每段翻譯都在胡說八道。

另外,現在ChatGPT也能直接讀取PDF、分析資料、改寫程式碼等,可以看出OpenAI除了致力於改善模型能力以外,也持續增加ChatGPT的易用性。

為什麼ChatGPT那麼受歡迎?

ChatGPT自推出以來,因為簡單、好用,功能又非常強大,讓許多人就此成為忠實用戶。

2025年2月,OpenAI營運長布萊德·萊特卡普(Brad Lightcap)向《CNBC》表示,ChatGPT的每週活躍使用者(weekly active users)達到4億。去年12月的每週活躍使用者為3億,在不到3個月的時間內便成長超過3成;另外,ChatGPT的企業用戶也達到200萬間,是去年9月的兩倍。

雖然ChatGPT問世後,Google推出Gemini(原名Google Bard)、Anthropic端出Claude迎擊,且的確和ChatGPT來回廝殺,且後續還有其他發展路線各異的對手紛紛湧現,例如同樣隸屬於Google旗下、由小型團隊孵化的NotebookLM專攻搜尋式問答的Perplexity注重角色與情感的Character.AI,但ChatGPT仍是定義生成式AI時代時,最閃耀的產品與詞彙之一。

早在ChatGPT誕生之前,無論是在學術界還是產業界,人工智慧技術的研究與發展已經有多年歷史。ChatGPT並非第一個落地應用的AI技術,更不是史無前例的創舉,也並非最早向大眾開放的商用AI產品。它的成功,更多是建立在長期技術積累與市場需求交匯的基礎之上,使得AI應用得以更廣泛普及。

活躍於數位領域的開發者們,除了打造各式應用程式,也積極在套裝軟體中加入AI功能;企業們也廣泛應用AI,例如電商背後的推薦系統、銀行當中的盜刷分類模型、徵信時的評分等,都是具體展現。但真正讓AI走入大眾視野、掀起熱潮的,仍然是ChatGPT。

在ChatGPT問世之前,其前身模型如GPT-2、GPT-3便已引發討論,但議論者大多聚集於矽谷,最多僅外溢至對科技有極大興趣的早期採用者們。

2025年2月出版的《奧特曼傳》中提到,OpenAI在2022年11月推出ChatGPT之前,已經研發出當時最新版本的模型GPT-4,正準備將其介紹給世人。然而,同時間傳出OpenAI的競爭對手Anthropic準備推出聊天機器人,Google的LaMDA又出現「AI有無意識」之爭,與微軟開完會的OpenAI執行長奧特曼(Sam Altman)決定發起突襲,推出以GPT-3.5驅動的聊天機器人,這便是接下來造成天翻地覆變化的ChatGPT。

如果要探究ChatGPT為何能讓普羅大眾願意使用,關鍵就在於它成功跨越技術門檻,使得AI不再只是專業人士的工具,而是人人皆可輕鬆運用的助手。

從技術能力來看,ChatGPT能夠產生品質優異的內容,不像早期的AI產品,生成的文本往往需要大量人工修正,難以真正提升生產力。

Google DeepMind執行長哈薩比斯(Demis Hassabis)曾在Google開發者大會上強調:「語言是人類智能與日常生活的核心,」這正是ChatGPT成功的關鍵。技術的進步使其生成的內容更具流暢度,不再是過去那種機械化、容易被輕易識破由AI生成,沒有真正思想的內容,而是具備一定邏輯性與可讀性的回應,只需要稍作修改即可實際應用。

此外,以往學術界與商業領域的AI應用,往往需要使用者具備大量背景知識,門檻較高。然而,OpenAI巧妙地透過網頁與對話式介面包裝ChatGPT,讓它更貼近日常使用習慣,不用複雜的安裝與設定,使用者只需開啟網頁或下載應用程式,即可與AI自然互動,這種易用性極大地推動了其普及。

憑藉這些優勢,ChatGPT獲選進入《Nature》2023年「年度10大人物」榜單,雖然排名第11,卻是唯一入選的非人類,與該年最具影響力的人物——推動印度登月的科學家、巴西環境部長以及OpenAI首席科學家並列。《Nature》認為,儘管ChatGPT不是人,但它對世界帶來的影響足以讓其獲得這項殊榮,象徵著AI技術對社會的深遠變革。

ChatGPT背後模型有何特色?

人工智慧這個詞彙早已深入人心,儘管AI技術已廣泛應用於金融、行銷、供應鏈等領域,但由於日常生活中較難直接感受到它的存在,許多人仍覺得AI與自己有些距離。

然而,在2016與2017年,人工智慧技術迎來震撼全球的時刻——當時,DeepMind(後來被Google收購)研發的圍棋AI AlphaGo連續擊敗世界級棋手李世乭與柯潔,徹底改變了大眾對AI的認知。當機器能在圍棋這種極度複雜的遊戲中超越人類頂尖高手,人們開始思考,還有什麼領域是AI無法挑戰的?

雖然 AlphaGo 仍屬於專精於單一領域的「弱人工智慧」(weak AI),但與它相比,ChatGPT的應用範圍則更加廣泛,尤其在開放給大眾使用後,更是與日常生活緊密結合,使AI朝向泛用性更強、接近人類智能的「強人工智慧」(strong AI)邁進了一步。

本質上ChatGPT依然屬於弱人工智慧。它的主要設計目標是模仿人類對話,但運作方式與人類的邏輯推理機制並不相同。

圖靈獎得主、「深度學習之父」楊立昆(Yann LeCun)在一場分享中所提,當人類準備演講時,通常會先擬定大綱,並依照框架組織各個段落的論點,而這個過程是由邏輯與推理所驅動的。對照之下,ChatGPT背後的GPT系列模型並非透過「先計畫再行動」的方式運作,而是根據大量訓練資料,計算最有可能與前後文相符的詞彙,逐步拼湊成完整的句子。因此,儘管ChatGPT能夠產出流暢且具邏輯性的回答,但其運作原理與人類思考方式仍存在本質上的差異。

不過,對大多數人來說,機器能夠如此流暢地與人對話,已經足夠令人驚嘆。

ChatGPT之所以能有如此優異的表現,很大程度上要歸功於其核心的GPT模型。2017年,Google發表Transformer論文以後,前OpenAI首席科學家薩斯凱博(Ilya Sutskever)很快發現,若將Transformer架構運用在自家研發的AI模型裡,或許能夠帶來不一樣的結果。

2018年,OpenAI發表論文,提出「生成式預訓練(generative pre-training,簡稱GPT)」方法,顯著提升AI對語言的理解能力,並成功解決當時機器學習領域的諸多挑戰。

對於人工智慧領域的研究人員與從業者而言,即使技術再先進、運算資源再充足,AI模型仍然依賴大量預先標記好的資料來學習。舉例來說,在醫療領域,若要讓AI能像醫生一樣判讀醫療影像,並準確診斷疾病,就必須先建立分類模型。

然而,機器無法自行判斷每張影像的病理狀態,必須依賴既有資料庫或由專業人士手動標記,告知AI哪些影像為陽性、哪些為陰性。資料庫規模不足,或是應用場景屬於新興領域時,勢必需要新增資料量以提升模型表現。可是,請醫師親自標記影像需要耗費大量時間與人力成本;若聘請助理或工讀生,則可能面臨專業能力不足的問題,培訓新手又會增加額外的時間與資源投入。

這種情況不僅限於醫療影像辨識,許多其他領域同樣面臨類似挑戰。例如,AI助手生成的文本品質是否足夠自然?人工智慧在篩選履歷時,是否會錯過關鍵人才?在保險領域,AI能否精準衡量出投保者的健康程度?這些問題都仰賴人類回饋,需要新增資要以便調整並改善模型。

GPT模型的突破性貢獻在於,它能夠透過非監督式學習(unsupervised learning,即沒有預先標記的資料仍展開學習)預先訓練語言模型,減少對大量人工標註資料的依賴,並建立起通用的語言理解基礎。之後,針對特定應用場景,再透過監督式學習(supervised learning,即透過有標註的資料學習)進行微調(fine-tuning),進一步提升模型在特定領域的表現。這一技術突破,使得AI的適應性與泛用性大幅提升。

ChatGPT背後模型如何演變?

自GPT-4以降,GPT-4o、o1等模型同樣具備「看圖說故事」的能力,這與OpenAI打造多模態模型的方向一致。

2020年,OpenAI推出GPT-3模型,因為其生成內容品質有著肉眼可見的增長,引發更多人關注。隨後,OpenAI持續推進大型語言模型的發展。2023年,GPT-4正式登場,展現出卓越的性能,不僅能夠在美國律師考試中取得高分,還能輕鬆解答奧林匹亞競賽與美國大學先修課程(AP)試題。

到了2024年5月,OpenAI於春季發表會隆重推出GPT-4o,這款模型不僅具備一定的情感表達能力,還能夠處理多模態內容,且回應速度驚人、延遲性極低,讓隔天才舉行發表會的Google倍感壓力。隨後,ChatGPT正式升級,全面採用GPT-4o模型,讓使用者能夠親身體驗其強大的運算效能與回應能力。

同年7月,OpenAI推出GPT-4o mini,顧名思義,這是一款規模較小的模型,但表現依然出色。根據OpenAI的說法,在公開評比中,GPT-4o mini的得分甚至超越GPT-4,且運算成本更低,讓AI技術變得更加普及。

到了9月,OpenAI於台灣時間深夜發表o1,一款專為解決高難度問題、具備強大推理能力的模型。與專注於多模態處理與高效回應的GPT-4o與GPT-4o mini不同,o1更側重於深度思考,強調從廣度走向深度、從大量資訊轉向精準推理,為人工智慧技術帶來新的突破,進一步縮短AI與人類思維方式之間的差距。

在2024年12月的聖誕節更新中,OpenAI向大眾介紹和o1一樣擁有推理能力、但實力更為強大的o3模型。2025年1月,OpenAI不讓春節放假前撼動市場的DeepSeek專美於前,宣布推出o3-mini模型,並以「突破高性價比推理的界限」形容o3-mini。

讓ChatGPT更強大的多模態模型是什麼? 

自GPT-4以降,GPT-4o、o1等模型同樣具備「看圖說故事」的能力,這與OpenAI打造多模態模型的方向一致。

那麼,什麼是多模態?簡單來說,人類感知世界的方式是多種多樣的,例如透過耳朵聆聽音樂、用眼睛欣賞影片、用雙手感受物體的觸感,這些不同的感官體驗就屬於不同的「模態」。

GPT系列模型從文字處理開始,隨後擴展到圖像識別,並進一步支援聲音互動,由於OpenAI早已在語音模型和音樂生成領域深耕多時,因此語音與音樂處理能力的提升可說是順理成章。

如果未來技術能夠從二維資訊(如圖像與聲音)拓展至三維領域,例如觸覺或嗅覺,當GPT模型能夠理解各種型態的資料,它將具備更強的適應性,有辦法處理更複雜、多元的任務,在人類生活中的應用範圍也將進一步擴大。

《麻省理工科技評論》曾指出,多模態模型的出現,有望解決傳統AI應用的一大限制——許多人工智慧雖然能在特定領域超越人類,例如棋類對弈或電玩遊戲,但卻難以適應其他類型的任務。為了突破這個瓶頸,研究人員開始尋找新的解法,而其中一種可能的方式,就是向小朋友學習。

孩子們是如何成長並變得聰明的?他們從感知世界開始,透過觀察、聆聽、嗅聞、觸摸,將這些經驗轉化為語言來描述事物。正如《百年孤寂》中所言:「世界太新,許多事物還沒有名字,必須用手指著。」當孩子的感官體驗越豐富,他們能夠表達的內容也變多,進而構築出更完整的世界觀。

如果人工智慧能夠模仿這種學習模式,透過多種感官獲取資訊並將其轉化為可理解的語言與概念,那麼它將能適應更為複雜的人類環境,並解決多樣化的問題。當這項技術趨於成熟時,AI將不再只是虛擬助手,而有機會成為能夠融入現實世界的「實體秘書」,甚至具備一定程度的自主性與決策能力。

這正是AI代理(AI Agent)的核心願景——發展出能夠自主決策、執行任務,且無需人類頻繁干預的智慧系統。隨著技術的演進,AI將不再只是被動回應指令的工具,而是能夠主動協助人類處理各種事務的智慧夥伴。

多模態人工智慧正引領技術革新,Google Brain 研究深度學習的總監艾克(Douglas Eck)曾指出,多模態模型將帶來最新的突破。而 DeepMind 的研究總監哈德席(Raia Hadsell)更進一步預測,未來的 AI 或許能夠自主探索、擁有決策權,甚至能夠與環境互動。

隨著OpenAI持續創新,ChatGPT逐步整合以文生圖功能並加入語音互動,我們有理由期待未來ChatGPT具備更多樣的多模態能力。例如,若能克服成本與算力的挑戰,直接在ChatGPT內加入以文字生成影片的Sora,或許指日可待。

ChatGPT背後團隊:OpenAI是什麼組織,誰創立?

OpenAI是一間專攻人工智慧的企業,創立之初以非營利組織自居,參與計劃者包含特斯拉創辦人馬斯克(Elon Musk)、PayPal共同創辦人提爾(Peter Thiel)、LinkedIn共同創辦人霍夫曼(Reid Hoffman),以及已經打響名號、現任執行長奧特曼(Sam Altman)。

這群矽谷出身的創業家和科技愛好者們,希望打造出通用人工智慧,在確保安全性的前提下,讓ChatGPT這類生成式AI能對社會有幫助

通用人工智慧,也稱為強人工智慧(strong AI),代表接近甚至超越人類能力的人工智慧,具備認知能力,因此可以按照一定的邏輯推理,進而完成不同類型的任務,甚至擁有自我意識。不過,目前尚未出現通用人工智慧,ChatGPT何時會成為強人工智慧,是否危害人類安全,是AI愛好者和發展者的熱議話題。

8/17賴佩霞新書分享會 | 在基隆塔來一場心靈對話,立即報名!

跟通用人工智慧對照,應用人工智慧(applied AI)或者弱人工智慧(weak AI)則是現在市面上可以見到的AI,機器僅能學習具有明確目的的任務,還無法達到通用(general),例如人臉辨識、下西洋棋、判讀影像、自駕車導航等,因此使用「弱」稱呼。

機器僅能學習具有明確目的的任務,還無法達到通用(general),例如下西洋棋。達志影像

機器僅能學習具有明確目的的任務,還無法達到通用(general),例如下西洋棋。達志影像

在電腦科學和認知科學不同領域發展人工智慧的歷史上,達到通用人工智慧的境界,可說是長期的嚮往,卻也是始終無法實現的渴望。近年來,因為算力(computing power)的發展、演算法(algorithm)的演進和大數據(big data)應用場景浮現,成功度過經費削減、無人關注的人工智慧寒冬。

深度學習因為變得便宜,又有效落地於商業場域中,已然主宰人工智慧領域,但不管是盜刷信用卡的偵測,或者是文件分類,眾多應用仍歸屬於弱人工智慧,艾西莫夫的預言、《雲端情人》的美好景象仍舊是研究者的失落聖杯。不過,OpenAI並沒有因此放棄,它挖掘頂尖人才、引入資金,挑戰各類的AI任務,希望能夠朝終焉之地邁進。

過去兩年間,OpenAI先是推出GPT系列模型,讓關注科技發展和技客們深感興奮。開放大眾使用ChatGPT後,更讓AI從幕後走到幕前,一般人也能夠無門檻的接觸AI。

OpenAI為何引發爭議?

GPT和其他生成式AI技術革新,確實讓人見識到AI正在突破,但也在研發戰場掀起激烈競爭。因為訓練模型需要強大的運算能力,更要準備足夠資料,兩者都意味著大量的資本投入。

每次發表新模型時,科學家和企業總會強調其訓練資料的符元(token)和參數(parameter),前者大約等於訓練資料的數量,後者則是以神經連結,衡量模型所學習到的模式多寡。

以第一代GPT模型為例,其預訓練數據量達到約5GB,參數接近1.2億。隔年(2019年),OpenAI發表了GPT-2,預訓練數據量暴增至40GB,參數達到15億。OpenAI並沒有停止前進的步伐,在2020年釋出GPT-3,這次的數據量翻了千倍,達到45TB,參數量也升級到1,750億。

2023年3月,OpenAI發表了GPT-4,但並未公開模型架構、參數細節和訓練過程,這引發外界的批評。許多人指出,OpenAI的成果得益於其他研究機構和企業的開源資源,包括Google、臉書母公司Meta以及學術團隊等。

楊立昆直言,OpenAI已從專注研究的實驗室轉變為開發產品、服務於微軟的單位,其保密做法阻礙了全球其他企業的進步。

針對不願開源的指控,OpenAI回應稱,他們擔心開放模型會帶來濫用風險,因此採取開放API的方式,以控制潛在的損害範圍。然而,反對者對此說法並不滿意,認為OpenAI連訓練過程、使用的資料和參數規模都未公佈,這無疑是一種避重就輕的回應。

接受《遠見》專訪時,領軍零一萬物的華人AI教父李開復也表示,包含OpenAI在內,有許多頂尖AI企業不只沒有開源模型,近期甚至不再發表談及新模型細節的論文,這讓外界難以窺見最新的技術革新。

OpenAI沒有公開訓練GPT模型所投入的資金,但根據深度學習企業Lambda Labs首席科學家的推測,若利用最便宜的雲端運算服務來訓練GPT-3模型,至少需要460萬美元,耗時355年才能完成。

因此,OpenAI選擇與微軟合作,利用微軟的算力,而微軟則得到OpenAI模型的授權,並將其整合到自家產品中,實現雙贏。不過,微軟作為龍頭企業,並沒有完全押寶在OpenAI身上,自家也在開發大語言模型和其他基礎模型,與OpenAI之間微妙的合作關係值得留心。

最先進的推理模型o3是什麼?

2024年12月,OpenAI先是向大眾預告o3即將問世,接著在2025年1月發表文章,正式宣布o3-mini到來。o3緊接在o1模型後推出,同樣為提升推理能力而設計,能夠處理各種複雜任務,尤其在數學、科學與程式設計等領域表現突出。

相較於前代模型,o3擁有更強的邏輯推理能力,而 o3-mini 則提供高效且成本更低的選擇,讓更多用戶能夠體驗 AI 在高階推理領域的進展。

作為o1模型的進化版本,o3在數學與科學等多項測試中都有卓越表現,程式設計能力也有顯著提升。另外,OpenAI還引入「深思熟慮的對齊(deliberative alignment)」技術,利用AI的推理能力來評估使用者輸入的安全性,進一步確保AI在內容生產上的穩定與可靠。

作為o3的縮小版模型,o3-mini複製前一代的設計理念,重點在於提升效率與降低成本,同時保留核心推理技術。OpenAI指出,o3有特別針對STEM問題強化其能力,且提供「低、中、高」三種推理層級(reasoning effort),讓使用者可以根據需求調整AI的計算深度,決定是否應該「更努力思考」(think harder),同時平衡速度與準確性。

除了具備強大的推理能力外,o3-mini 也支援函式呼叫、結構化輸出與開發者訊息,使其更適合實際應用場景。

OpenAI推出o3和o3-mini之際,和Google全面開放Gemini 2.0、DeepSeek R1問世的時間相去不遠,可以看到各家企業深化模型推理能力,同時提供輕量模型,並降低成本的努力,這場戰役還會繼續下去。

能夠推理的o1是什麼?

2024年9月,離GPT-4o mini推出還不到兩個月的時間,OpenAI再度端出最新模型-o1的預覽版(o1-preview)。

跟過往的模型相比,OpenAI強調o1是一款用來處理複雜任務,有能力解決困難問題的模型,例如解數學、寫好程式等,重點方向在於,讓模型在回答使用者的提問前「花費更多時間在思考上,就像人類一樣。」

OpenAI解釋,他們透過思維鏈(chain of thought)技術,也就是模仿人類思考時將複雜問題拆解為子任務的步驟,讓模型能夠「精煉他們的思考過程、嘗試不同策略,並學會找出自己的問題所在。」

讓模型能夠像人類一樣有邏輯地推理,是發展最尖端模型者的兵家必爭之地。

前Google Brain成員、現於OpenAI ChatGPT小組就職的Jason Wei,在Google時期就領銜寫過一篇論文,探討下指令時借助思維鏈技巧,光是明確列出導向問題最終答案之間,推理步驟的每個過程,就能夠增進模型產出品質;OpenAI團隊亦曾在著作中比較監督模型產出結果和監督模型推理過程的差異

Google DeepMind傑出科學家紀懷新(Ed Chi)在台灣公開演講時曾提到,多步驟推理(multi-step reasoning)是其團隊的發展重點;AI巨擘吳恩達推廣「AI代理工作流程」(AI agentic workflow)時,也不斷提到讓模型推理的重要性。

其實,不只是思維鏈而已,LLM的開發者還會利用思維樹(tree of thoughts)、再結合反思框架等技術,讓LLM能夠拆分指令、規劃出子目標與子任務,完成任務後也能給出評價,精進接下來的行動,這是LLM從對話走向代表人類完成工作的重要進步過程。

從Google跳槽到OpenAI、也是o1背後的重要推手之一,Jason Wei在X(前推特)上撰文指出,OpenAI團隊並不只是在指令上利用思維鏈技巧而已,這次更是直接在訓練階段讓模型學習思維鏈,這讓o1於高度仰賴推理的任務(reasoning-heavy tasks)中,例如程式競賽、數學競賽,擊敗GPT-4o。

「無論怎麼努力調整,你還是很難拿下國際資訊奧林匹亞競賽金牌!」在OpenAI舉辦的AMA(Ask Me Anything)活動中,Jason Wei回覆提問者,點出將思維鏈技巧應用於指令和運用於訓練階段的差異所在。

OpenAI另外表示,o1在涉及創意、需要推理的任務中表現卓越,還具有泛化(generalization)能力,例如產出詩歌、破解密碼,也能夠思考何謂生命一類的哲學問題。

ChatGPT使用者已經可以選擇使用o1模型。取自ChatGPT對話頁面。

ChatGPT使用者已經可以選擇使用o1模型。取自ChatGPT對話頁面。

OpenAI強調,o1顯著推進現有AI模型的推理能力,預期將會迭代新模型並公布給世人,可以確定的是,會增加o1能夠處理的上下文長度(context);未來還可能讓使用者控制模型思考的時間。

不過,考慮使用者體驗、OpenAI的競爭優勢以及管理思維鏈等因素後,OpenAI決定不開放給ChatGPT使用者與調用API開法者原始的思維鏈長相,僅提供摘要。因為模型會摘要思考過程,因此思考階段會耗時較久,生成答案的速度則快上許多。

除了o1以外,OpenAI也同步推出性能略遜於o1,但回覆速度較快且價格較其便宜80%的o1-mini,適用於需要推理,但不用掌握廣泛知識的任務,甚至在部分領域如程式撰寫上,表現還強過o1-preview。

OpenAI研究科學家Hongyu Ren指出,o1-mini特別針對STEM(Science、Technology、Engineering及Mathematics等理工科)應用,在資料準備階段和模型訓練階段皆有最佳化,因此能夠得到好表現,但在「世界知識」有所限制。

能夠處理艱深問題,象徵模型將能夠在更多專業領域上替人類完成任務;擁有推理能力,則代表LLM往AGI更進一步。

GPT-4o mini是什麼?

OpenAI推出小模型GPT-4o mini。取自OpenAI

OpenAI推出小模型GPT-4o mini。取自OpenAI

2024年7月,就在GPT-4o推出的兩個月後,OpenAI推出小模型GPT-4o mini。雖然沒有公開參數(parameter)量,但就OpenAI直接使用小模型(small model)一詞來看,其參數並不會像前幾代旗艦模型那樣動輒突破百億。

為何要推出小模型?其關鍵意義是,在能力不顯著下降的前提之下,以更便宜、更快速的方式完成任務。OpenAI在其API說明文件中就提到,GPT-4o mini是「可負擔且智慧的小型(模型)型號,適用於快速且輕量級的任務。」

對比2022年推出能力較弱但費用較便宜的text-davinci-003,OpenAI指出,以符元(token)計算,GPT-4o mini的成本已下降99%,且模型能力還不斷提升。正如李開復所說,「我認為未來兩年會看到(LLM應用)非常劇烈的競爭,因為百分之百確定至少還有兩代巨大的模型提升。」每次模型升級時,不僅會推動新的應用發展,更會因此降低推論成本(inference cost)的定價,OpenAI就是率先降低定價的強勢玩家。

因為運行速度快,成本又相對低於其他旗艦大模型,OpenAI因此表示,GPT-4o mini能夠「吃下」大量內容,例如一整包程式碼,也可以同時間調用多個API,甚至是在客服領域直接上陣,不用擔心以前其他模型的延遲,這讓AI Agent的願景到來頗有助益

發展小語言模型已是近來重要趨勢,例如Anthropic就在推出Claude 3模型時,介紹了Claude Haiku,Google有Gemini Flash、微軟亦有Phi-3模型。

ChatGPT對手比較:DeepSeek,Claude,Gemini,文心一言

整理現在ChatGPT相似產品的競爭態勢,市場上至少有這幾間玩家:

產品名稱所屬企業底層模型備註
ChatGPT
OpenAIGPT-4o/o1微軟投資
GeminiGoogleGemini 2.0初始名稱為Bard
Claude.aiAnthropicClaude 3/3.5Amazon、Google投資
Copilot微軟GPT-4o內建於瀏覽器中
Grok
xAIGrok-3馬斯克創立
文心一言
百度文心Ernie
通義千問
阿里巴巴通義Tongyi
豆包字節跳動雲雀Yunque
騰訊元寶
騰訊
混元Hunyuan

小藝華為盤古Pangu主要支援華為手機
百小應
百川智能百川Baichuan
萬知
零一萬物Yi系列模型李開復創辦
Kimi.AI月之暗面
Kimi

DeepSeek.aiDeepSeekDeepSeek-V3/R1以顛覆市場的定價帶動變革
資料整理:曾子軒,2025/02更新

付費企業版AI差異:微軟Copilot,ChatGPT企業版,Google Duet AI,Amazon Q

若改看提供給企業內部使用的ChatGPT Enterprise與微軟Copilot,初步有這些競爭對手:

產品名稱所屬企業底層模型月費
Copilot
微軟GPT-4o/GPT-430美元/月
Duet AIGoogleGemini30美元/月
Amazon QAmazon未公佈*20美元/月
ChatGPT EnterpriseOpenAIGPT-4o/o1/o3-mini視企業而定


ChatGPT支援中文嗎?去哪註冊?如何用得更順手

使用 ChatGPT 非常簡單,只要開啟ChatGPT官方網站,即可立即開始對話。針對台灣使用者,系統會自動顯示繁體中文介面,並且無論輸入繁體或簡體中文,ChatGPT 都能精準理解並提供回應。

OpenAI 先前宣布,為了讓更多人能夠體驗 AI 技術,未註冊帳號的用戶同樣可以使用 ChatGPT。而若選擇註冊帳號,則可享有保存對話紀錄、查詢歷史記錄、個人化設定,以及探索更多進階功能的權限。

此外,在無痕模式下,用戶無需登入即可直接使用 ChatGPT。如果已有 OpenAI 帳號,只需點擊「Login」,並透過電子郵件或 Google、Microsoft、Apple 帳號登入;若尚未註冊,則點擊「Sign up」,依照指示完成註冊流程即可開始使用。

取自ChatGPT對話頁面。

取自ChatGPT對話頁面。

目前使用ChatGPT不需登入帳號且免費,但有登入和有付費的用戶,皆可享有更高效的模型,例如登入後能使用表現更好的GPT-4o,付費後的使用額度和優先權變高,沒登入的使用者只能使用GPT-4o-mini。

如果在使用過程中遇到疑問,OpenAI設有常見問題頁面,涵蓋了如「什麼是ChatGPT」、「它的運作方式」以及「AI提供的資訊是否可靠」等常見問題。

台灣個人應用和企業導入生成式AI工具血淚

ChatGPT 被視為「顛覆性的技術」,但它真的如外界所說那麼有用嗎?像 Midjourney 這類生成式 AI 工具,在台灣的企業與個人間引發了多大回響?專家們如何評估這波變革?微軟的調查顯示,台灣的知識工作者熱衷於 AI 工具,然而主管卻可能難以跟上腳步?甚至企業在導入生成式 AI 的過程中,還得經歷初期使用率偏低的適應期?

ChatGPT有何隱憂?

將ChatGPT應用至工作和學校中的的速度之快,除了欣喜於生產效率大幅提升以外,也讓人擔憂人工智慧的迅捷發展。馬斯克等人甚至曾呼籲,應該暫停開發大過GPT-4模型的人工智慧系統,引發了社會各界的激烈辯論。儘管吳恩達(Andrew Ng)反對停止人工智慧領域的研發工作,但他也承認,現有的AI確實存在一些需要克服的問題,比如演算法帶有偏見、AI決策時的公平性存疑,以及權力集中於少數科技巨頭等。

事實上,ChatGPT、Midjourney一類生成式AI的服務落地,的確為社會帶來了不少超越科技領域的倫理難題。從最直觀的應用來看,學生很有可能利用ChatGPT代寫作業,或者抄襲前人著作;以創作者來說,開始得想方設法,確保自己的智慧結晶不受科技公司襲奪,歌手和配音員擔心聲音被偷走、畫家和作家害怕寫作風格被學走,就連媒體撰寫的文章,也成為大語言模型公司未經同意,就拿來訓練文章的資料來源

在政治和資訊安全領域,ChatGPT也有惡用可能性。因為AI生成文字已跨過可讀門檻,行文也具備邏輯,想要大規模捏造虛假訊息、撰寫個人化釣魚信件,都已非難事,就連YouTube上,也早有AI合成聲音大量誦讀不實訊息的政治頻道出現。

生成式AI對人類社會造成的危害,不再只是模糊難辨的遠方陰影,已滲透入我們的日常生活中。除了討論益發熱烈的工作取代問題以外,害怕先進AI技術遭科技巨頭壟斷的討論也已浮現。

無論是Google開發BERT、打造Gemini,還是OpenAI陸續推出新版本的GPT,背後有無數高薪頂尖電腦科學家夙夜匪懈地設計演算法,並且燃燒大量算力,才能突破模型的既有極限。

OpenAI和微軟、Google和臉書在大語言模型發展上執牛耳,亞馬遜、阿里巴巴、百度等正在追趕,也確實有不少新創加入戰局,例如推出Claude的Anthropic、Mistral、零一萬物,不過,這些新創公司或多或少拿到科技巨頭資金,例如Anthropic 獲得Google、亞馬遜投資,Mistral則有NVIDIA和微軟奧援,巨觀角度來看,仍是大廠在博弈

即便有開源的大語言模型,但考慮到高昂訓練成本與算力,仍讓人擔心AI領域就像人類社會那樣發展不均,更讓反烏托邦寓言成為現實。人工智慧發展,本就是一個富者愈富、貧者愈貧的世界。當OpenAI開放ChatGPT讓眾人使用時,可以從人們踴躍試用中得到更多回饋,進而改進其模型。

機器學習領域評斷標準直接且殘酷,只有表現好的模型才有話語權,客戶只願意選最便宜的,或者表現最好的,因此對岸曾出現「百模大戰」,四處都有大模型、每間都在降價或者提升表現,但真正能夠獲利的不多。而且,觀察大模型競技場,能夠不斷衝擊榜首的,其實也就是固定幾間公司,能夠不斷推出最前沿的大模型企業屈指可數。

就像科技作家「演算法決定世界」預言的一樣,人工智慧若被把持在少數企業手中,將會帶來重大危害,不管是監控式的資本主義,還是科技不平等促進的剝削行為,人類可能被少數科技精英與機器所主宰。我們必須關注人工智慧發展中的壟斷問題,以確保科技造福全人類,而不是成為少數人的專利工具。

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務