Google I/O台北時間週三凌晨帶來新震撼:強推真正能當職場代理人的智慧助理!和ChatGPT開發團隊OpenAI的GPT-4o新模型相比差異在哪?另外,Google這回共射出3支箭:模型技術打底、應用通路出貨和AI代理,各代表哪些產業新趨勢?
曾一路苦苦追趕微軟和OpenAI的Google,歷經趕不上ChatGPT的紅色警戒、推出Bard應戰後的相形見絀等挫折。調整AI研發單位的組織結構,並確立Google Gemini發展重於助理的策略後,全力回防,開發文字、圖像、聲音和影像的基礎模型。
掌握搜尋、信件等虛擬通路,以及Android系統的實體通路,Google擁有有著無人能及的用戶規模;每次在搜尋引擎查詢(query)、在Google Play下載應用程式、在YouTube上聽音樂,累積下的資料更是恆河沙數。沈澱一年後,Google I/O上執行長皮蔡(Sundar Pichai)端出的AI更新,讓人看見王者歸來的風範。
固然Google I/O釋出的更新令人眼花撩亂,有更強大與更輕量的基礎模型問世,有全新的影音和圖像生成模型,搜尋體驗出現全新變革、硬體的晶片也在升級。在多如繁星的訊息中,仍可以梳理出三條主線,讓人看到Google埋頭苦幹的這一年成效。
Google推智慧助理,比OpenAI的GPT-4o更深入生活
首先看第一支箭,AI助理。
經濟學家薩斯金(Daniel Susskind)曾經用運算理性(computing rationality)解釋人工智慧,藉此避開大眾文本討論人工智慧時,不時脫離現實的想像。這個用詞,既否定了《機械公敵》的叛變,也拒絕《雲端情人》的浪漫,他希望回歸人工智慧的功用-發揮理性,透過運算處理人類任務。
在AI全面席捲之際,人們確實感受到運算正在發揮效用。金融業的盜刷分類、製造業的生產線偵測、法院的判決建議,還有白領們用ChatGPT寫信、翻譯英文。人腦很累,因此請機器腦分憂。
不過,反面觀之,這些場景,高度著重於商業和政府板塊,很多時候還傾斜於員工個人的生產力提升,卻離人們的日常很遠。的確,有新創如AI Pin和Rabbit推出獨立AI助理裝置,但在出貨後經過實測,科技玩家們發現問題一一浮現,回應要等太久、室外有時不能用、回答問題大量出錯,這就是AI助理的現實。
這次Google I/O上,DeepMind總算出手。早在發表Gemini模型時,Google的AI掌舵手、DeepMind負責人哈薩比斯(Demis Hassabis)便表示,「AI比較不像是聰明的軟體,而是更有用且直觀的東西—專家助手,或者助理。」在本次公布、以星星為命名寓意的Project Astra中,哈薩比斯試圖定義Google版本的AI代理(AI agent)其中的代理,指的就是能夠理性行動的實體。
加上AI後,AI代理指的是能夠理解多個步驟的複雜指令,並根據環境和上下文脈絡,做到理解、規劃、調整和執行,完成人類指派的任務。
討論「如何用好ChatGPT」時,很多人會在指令工程上下功夫,想辦法下出更清楚的指令,有時還要分拆指令、將其變得明確,模型才不會生成太過通用,以至於沒有實際用處的內容。
然而,AI代理與ChatGPT(至少目前)的根本性不同之處便在於,它能夠辨識出目標、可以累積記憶,還能依照環境變化自主行動,更接近有理性的運算實體。
舉例來說,ChatGPT在排定聚餐時,可能會依照使用者輸入的資訊,串連餐廳和旅遊服務的API,簡單提出計畫,但真正意義上的AI代理,可以主動掌握必須調查時間、預訂餐廳,並靈活運用地圖尋找替代方案、寄送活動行事曆等。
其他生活化的應用更好理解,例如自行設計可作為產品上線的活動網站、替公司整個部門的同事完成訂餐任務、幫忙家人在醫院掛號等,都是AI代理接收人類指令,自行分拆任務的實例。
過往AI代理都只聞樓梯響,只因技術的挑戰太大。回應要突破人類耐心的延遲(latency)極限、語音要多變且自然,這些都還不夠,記憶、規劃以及採取行動,更是極大困難。
在戮力推動Gemini Pro的進展之下,Google的AI助理計畫Project Astra,就是想推出夠應用在日常生活的智慧助手,結合Gemini,以及Google發展多年、有Google助手打底的語音模型。LLM的推理能力有Gemini撐腰,跨越語音和文字互轉、甚至不用轉換的門檻,則有語音技術支持。
作為生活中每日陪伴的AI助理,每次對話都要發出請求,因此運算要便宜;不能讓使用者等太久,因此回覆要夠快;預期AI助理應該會搭載於手機甚至更小的智慧裝置上,因此模型不能太大。每一步都離產品等級(product-level)更接近一步,無怪乎介紹Gemini Flash時,Google特別提到,這款輕量模型企圖追求速度和效率。
當Google準備好將AI助理願景落地,新創競爭者的產品如AI Pin,看起來更像是玩具。
對比之下,搶在Google I/O前發表GPT-4o的OpenAI,發展路線顯得耐人尋味。如同哈薩比斯談到的定位,Google將智慧助手當成機器助理,但OpenAI的展示則劍走偏鋒,談笑風生的ChatGPT,似乎顯得更有情感、更加人性化,走上不同道路。
無論競爭對手怎麼做,Google掌握企業服務,也解決使用者的求知需求。
Gemini模型是最強引擎,所有應用都奠基於上
第二支箭則是模型打底。
無論是Google搜尋的全新體驗,還是對話式服務取得的深厚進展,以及Google Workspace支援的AI升級,背後最關鍵的共通性就是Gemini的升級。
若YouTube、Gmail等應用是讓人流連的建築外觀,則Gemini模型就是不可撼動、需要全面鞏固的重要地基。
從頭開發基礎模型的玩家,包含OpenAI、Mistral AI、Character.AI、微軟和亞馬遜,無不陸續推出新模型,宣稱自家產品表現最為優異,在公開測試中擊敗對手更是時有所聞。
然而,在LaMDA、PaLM模型後,採用專家模型架構的Gemini,同時具有多模態的理解能力,更能夠推理與分析。自降生之際,便被哈薩比斯稱為「Google曾打造過的模型中,最通用且最強大的。」
深耕AI多年,要從這場持久戰勝出,累積技術就是Google進步的硬道理。
從文字探勘到自然語言處理,Google一路上帶動了詞向量(word vector)和詞嵌入(word embedding)的發展,收購DeepMind後技驚四座的AlphaGo與增強學習(reinforcement learning)風潮,讓人再次預見人類智性高地陷落的未來。
掌握注意力機制的轉換器(Transformer),讓電腦理解海量文字重點,BERT更像是黎明來臨前出現的超級巨人,進一步奠定今日對自然語言理解的基礎。往後的事情就為人所知,LaMDA、PaLM再到Gemini,模型參數以十倍、百倍提升,能夠處理的輸入格式也在進化,可以說,Google始終站在AI技術的最前線,這也是Gemini足以和對手一戰的本錢。
雖然,舊人陸續離去,OpenAI的共同創辦人薩斯凱博(Ilya Sutskever)、Mistral AI的共同創辦人亞瑟(Arthur Mensch)、Character.AI的創辦人諾姆(Noam Shazeer)與丹尼爾(Daniel De Freitas),都曾在Google服務,也反映出Google技術能力驚人。
觀察基礎模型近日的發展,代理工作流程(agentic workflow)的興起、將大模型變小(small langauge model,SLM),還有持續推進多模態能力,以及更長的上下文(context)甚至是記憶力(memory),都已成為兵家必爭之地。
每個子領域,Google都發起爭鬥。要談AI代理,從Gemini出發的輕量級模型Gemini Flash設計初心,便是旨在回答更快、運作更便宜,讓代理得以落地;要推進多模態能力,Gemini 1.5 Pro的示範中處理圖片和影像,讓人看到機器處理資訊的量級,已經完全能和人類比肩。
改看小模型的研發,Google推出改版的Nano模型,能夠輕巧地放進筆電和手機;至於上下文和注意力,Gemini的兩百萬級token處理能力,已經將Claude 3和GPT-4甩在後頭,如今更在往「無限上下文」(infinite context)步步進逼。
就垂直領域來說,Veo和Imagen 3是Google「你有我也有」的火力展示,這點絕不會輸、也不能輸;就最底層的基礎模型而言,Google深刻讓人意識到,Gemini模型就是最強引擎,也是最需要取得勝利的關鍵。
掌握應用程式全通路,模型全面鋪貨
第三支箭,擁有最強引擎、「貨」已備好,下一步,便是全面鋪貨。
根據Google統計,Gemini模型已經遍布於所有Google產品中,累積超過20億用戶都在應用Gemini。
Google老本業的搜尋引擎,從精煉資訊的生成摘要,至串接與整合資訊的排定行程,再到由AI排序和組織的搜尋結果頁面,無不是Gemini的運作痕跡。
Google新戰場對話式服務,自從Bard更名為Gemini(與模型同名)後,就不再給人遜於與OpenAI ChatGPT或者微軟Bing Copilot的印象,有底層驅動的Gemini模型支持,即便發展路線圖與對手相仿,掌握通路的Google仍無往不利。
支援繁體中文、開放App,可以角色扮演、能夠模擬不同說話風格,讀得懂圖像、用聲音對話也通,遮掉名字,很難分辨說得到底是Gemini助理還是ChatGPT。
就連付費版的Gemini Advanced,與Google One打包的付費方案在推出三個月後,用戶已突破百萬。運用接觸點優勢,Gemini全面整合Workspace和Google服務,對照之下,ChatGPT反倒像是懸浮於空中、沒有任何個人資料的一座孤島。
Google推動雲端發展的生產力工具Workspace,企業版用戶已經有Gemini的全面進駐,Gmail、Google試算表、Google文件和Google簡報都能用AI加速,降低微軟Copilot的吸引力;需要調用API、實作RAG與Grounding的開發者們,則有測試用的AI Studio及企業等級實作的Vertex AI,運作上已整合進Google雲端中。
另外,搭載Android系統手機的邊緣運算,也不再只是概念股的投資商機,輕量模型和Gemini助理都正在運作中。
在超過25年的發展歷史中,Google推出無數產品,有許多都面臨失敗,例如Google眼鏡、Google Plus和Google Podcast,甚至有些服務消滅無人知曉。然而,不管是收購還是自行推出新服務,Google仍累積可觀資產。
YouTube、搜尋和地圖對應一般人,生產力工具對應上班族,雲端服務對應開發者,Android和Chromebook對應消費者,而Gemini助理則對應任何想讓機器分憂解勞的人。掌握應用程式全通路,模型全面鋪貨的Google,雖然後發,但就要先至。
OpenAI傳出跟iPhone合作,Google如何面對?
模型打底、通路出貨,又有代理觸及日常生活,這三支箭,是Google對競爭者的十面埋伏。
側面也反映,為何OpenAI傳出可能和蘋果手機合作的消息,因為對ChatGPT來說,唯一生機要不是另闢蹊徑、尋找新的發展路線例如情感AI,要不就是找通路接觸使用者,否則,就得看Google實踐其「無處不AI」(AI everywhere)的願景。
如同皮蔡所說,雖然Google在AI領域深耕多年,但目前仍處於早期階段。他更預期,「未來有巨大的機會。」
從受到OpenAI發布ChatGPT的驚嚇開始,Google一路苦追,調整組織、發力裁員,這是見自己。
多年累積的通路資產和技術量能,讓Gemini Pro成為強大引擎,對抗任何人都不遜色,可以見天地。
在企業端的商業應用,以及工作場景的生產力應用,現在逐步滲透到日常生活中,即將要見眾生。