時隔一年,OpenAI再度舉行開發者大會(OpenAI DevDay 2024)。去年大會風光推出新版本模型GPT-4 Turbo,還端出能夠開發個人化GPT助理的Assistants API,比起服務工程師,更像是表演給投資人看。今年的四大更新,全部圍繞開發者,降低成本、增加使用效率,其中最強大的就是即時API。到底厲害在哪?對於使用GPT做開發的人哪點加分?一文詳解。
台灣時間10/2凌晨,OpenAI展開一年一度的開發者大會。
去年執行長奧特曼(Sam Altman)意氣風發地在YouTube上直播,但今年的開發者大會卻低調的只召開媒體見面會,會後再以部落格文章和尚未開放的影片形式,傳達更新內容。
就在開發者大會活動前,包含技術長穆拉提(Mira Murati)幾位高階主管與員工離職,競爭者Google在手機放入Gemini,因為資金消耗快速,OpenAI還找上輝達在內大廠投資,讓OpenAI看似前路艱難。不過,這也讓開發者大會回歸初心,從商業演出變回幫助開發者的活動。究竟,OpenAI端出哪些更新?
OpenAI本次發表最大亮點:進階語音模式賦能應用
這次OpenAI有四項更新,分別是增加指令快取(prompt caching)功能減少成本與延遲、讓開發者可以微調圖像模型(vision fine-tuning)、提供模型蒸餾(model distillation)降低進階模型調用成本、開放即時API(Realtime API)導入即時對話服務。
在四項更新中,以即時API最引人注意。這項功能,脫胎自上個月(9)底的進階語音功能(advanced voice mode),開發者能夠利用即時API,在自家應用程式裡面,提供回覆速度更快、具有多模態能力的服務。
這是什麼意思?不管你的應用程式是食譜查詢,還是新聞整合,只要透過即時API,未來使用者能夠以語音方式搜尋、發問,而應用程式也能直接說話回應,不再限於文字的單一模態中。
提供個人AI英文家教服務的新創Speak,就是OpenAI介紹,利用即時API驅動其角色扮演功能的公司,也因此深諳這項技術的優缺點。
Speak共同創辦人暨技術長徐安廬(Andrew Hsu)向《遠見》記者解釋,若要學習英文,或許可以使用OpenAI的進階語音模式,然而,「使用大約10到15分鐘以後,當你想要進一步深入時,你就會遇到瓶頸。」
徐安廬認為,學習語言不只有對話,還有其他元素,例如增加詞彙量、針對個人需求練習,這仰賴完整的學習系統,「語言學習需要一個更加專門(purpose-built specialty product)的產品,」語音對話只是一小部分而已。以即時API提供角色扮演服務、減少對話延遲,也是增進學習體驗的一環。
若要說開放即時API的意義,重點在於擴大開發者的生態系。
以往,ChatGPT、Claude和Gemini都潛心於提升本家平台功能,例如Gemini陸續在服務中整合Google Flights、Google Map,ChatGPT逐步導入進階資料分析、網頁瀏覽功能,目的都是想盡辦法讓使用者停留。
如今,把語音功能外放給開發者後,ChatGPT的用戶數量也許將會逐漸減緩,但使用者將會變得更開心,因為他們可以在通用平台以外,使用針對細分領域的應用程式滿足其需求。而且,OpenAI仍能收到調用API的費用,同時增加熟悉其規格的工程師人數,這正是壯大生態系的關鍵所在。
OpenAI也切入視覺:用圖像微調增加「視力」
OpenAI這次也開放視覺微調,藉此增進GPT-4o的視覺能力。OpenAI解釋,就像開發者利用自有文字資料微調模型,增進其專用領域或者專用任務的表現一樣,開發者能夠自備圖像資料微調GPT-4o,藉此在自動駕駛、影像分析等領域增加表現。
在部落格文章中,OpenAI舉例,東南亞共享汽車和外送巨頭Grab活用視覺微調功能,幫助GPT-4o學會定位交通號誌、辨識車道分隔線,增加地圖資料集的品質;專注於自動化服務的Automat則利用視覺微調,幫助GPT-4o找出螢幕上的UI元素,增進其機器人流程自動化(robotic process automation)的表現。提供網頁成長駭客服務的Coframe,同樣以視覺微調功能,輔助GPT-4o學習如何生成具有一致視覺風格與排版的網站。
OpenAI提供開發者快取以及蒸餾,都為省錢
至於指令快取和模型蒸餾,前者是在開發者部署服務時,在對話中以快取方式記下上下文,藉此增加回應速度與記憶,但不用額外負擔成本;後者則是讓開發者先用進階模型執行任務,累積一定資料後再交給較小的模型接手,同樣能夠省錢。
去年的OpenAI推出個人化GPT、宣傳GPT商店,讓一般使用者和投資人興奮無比;今年的OpenAI明顯想要降溫,且把重心轉移,雖然非技術人員可能因為沒有看到新產品、聽到模型增速的好消息,因此相對無感,但朝向開發者的幾項更新,卻是缺乏通路的OpenAI,打造人工智慧標準規格的機會所在。