Google 15日舉行最新開發者大會(Google I/O),正式宣示AI助理的時代來了。Google新發表的Project Astra,絕不只是如ChatGPT的散漫聊天機器人。執行長皮蔡指出,它可影像溝通,幫忙企業簡化購物車流程...能做真正的大事!另外Gemini新模型也將處理上下文長度拉升到200萬個tokens。這場發表還有哪些亮點?
就在5月15日台灣時間的凌晨,2024年度的Google I/O大會如期舉行。除了Google執行長皮蔡(Sundar Pichai)大談AI願景,最出風頭的就是DeepMind負責人哈薩比斯(Demis Hassabis),他揭露了人工智慧代理(AI agent)成為真正智慧助手的美好未來。
除了更新Gemini系列模型,大幅推升模型能處理的上下文(context window),並增強推理和規劃能力以外,Google更新了圖像生成模型,還釋出影片生成模型對戰OpenAI。不僅如此,為AI運算而生的Google自研晶片TPU迎來改變,老本業的搜尋,更要出現翻天覆地的變化。《遠見》一文整理帶你掌握完整消息。
處理長文翻倍,Gemini模型輾壓眾生
去年12月,Google首次發布Gemini,這個被哈薩比斯稱為最強大、最通用的模型。今年2月,Google推出Gemini 1.5 Pro,不只有著強大的推理與分析能力,還能夠處理包含影音在內的多模態輸入。展示時,Google沒有拿規劃旅行或者趣味問答的範例出來濫竽充數,而是給出分析10萬行程式碼的真實場景,更一口氣把能夠處理的上下文長度拉升至100萬,讓OpenAI的GPT-4和Anthropic的Claude 3,再也沒有趾高氣揚的本錢。
這次的2024 Google I/O,DeepMind團隊沒有停下腳步,直接將Gemini 1.5 Pro能夠處理的上下文長度翻倍到200萬,碾壓眾生。同時,在邏輯推理、多輪對話和多模態理解能力都出現進步,讓這款旗艦模型成為Google發展後續應用的穩固基礎。
除了性能優異的Pro模型,Google另外推出定位為輕量級的Gemini 1.5 Flash,雖然模型大小不比Pro,但透過模型蒸餾(distillation),Flash模型的回答快、運作便宜,能夠處理的上下文也在100萬個tokens等級。這個模型,則是Google大膽推動人工智慧代理(AI agent)的自信心來源。
另外,能夠在Pixel手機上運作的輕量級模型Gemini Nano,從原先只能文字對話,擴展到支援影像輸入,可說打響了AI手機和邊緣運算(edge AI)從概念到落地的前哨戰。但,這只是剛開始而已。
至於Google受到質疑、沒有開源(open-sourced)只有開放(open)的Gemma系列模型,則推出效能更高、架構改變的Gemma 2.0。Google也強調持續推進負責任的AI(responsible AI),本次大會中,公布升級了模型回應品質評估工具LLM Comparator。
AI 智慧助理Project Astra解決人類問題
去年生成式AI燃起烈火時,專家們就曾預測,在小語言模型(SLM)、專家模型架構(MoE)以外,隨著生成式AI和大語言模型技術進展,人工智慧代理(AI agent)絕對是重要戰場,以星星為名的「Project Astra」就是Google端出的回應。
現在以基礎模型為底的AI服務如ChatGPT、Midjourney,多用於處理單一指令的任務,例如語言翻譯、生成圖像等,而人工智慧代理,則是指有能力處理擁有多個步驟、複雜任務的AI。例如,依照使用者的送禮情境與預算,從眾多電商平台中,在比較價格、功能和評價以後,推薦最適合的商品;或者是分析使用者收支,提供個人化的理財建議,甚至自動試算稅金、提醒定期繳費等。
上述的複雜任務,都不只是生成內容那麼簡單。哈薩比斯過往受訪時曾提到,想要成為人工智慧助理,語言模型必須具備規劃(plan)、推理(reason)並且維持記憶(memory)共3項能力。
這次Google I/O上,Google解釋得更加完整。就環境來說,人類身處複雜且動態的世界,智慧助理要想辦法保持靈活;以技術上而言,與人類互動不能延遲太久,而且智慧助理要講話講得自然;以產品本質面觀之,還要保持主動、能夠學習,甚至做到個人化。
然而,我們似乎離智慧代理大顯身手的世界還很遠。
ChatGPT和Claude回答模糊問題時容易出錯,或者根本不夠深入,也無法針對多變的脈絡提出合適的回應;不管是AI Pin還是Rabbit R1,都要讓使用者等上大段時間;即便Siri和Google Assistant都在進步,主動性和個人化仍舊有限。
不過,正因為有強大的Gemini模型基礎,Google試圖建造出應用於日常生活中的通用AI代理,或者稱為智慧助理(AI Assistant)的Project Astra,已經讓人瞥見曙光。
Google解釋,在技術上透過持續處理影音,並將其加進「事件」的時間軸,再透過Gemini和其他特定任務的模型的能力,可以讓AI代理理解複雜指令,將其分拆成不同任務,接著一步步執行。
就個人端來說,已經可以想像智慧助理排行程、回Gmail等場景,和微軟展示Copilot時的想像相似。只是,有著Gemini加持,Project Astra勾勒出的願景更加明亮。
令人好奇的是,在規劃行程以外,AI代理還能有哪些更實際的行動?針對《遠見》記者這個提問,皮蔡回應表示,AI代理技術在企業端的發展將更加迅速,「Google 已在(企業AI開發平台)Vertex AI 中支援代理流程,例如協助零售客戶服務代理處理購物車等問題。」
皮蔡所說的是,Google已經釋出建造AI代理的工具Vertex AI Agent Builder,它便是主打「建構及部署企業級的生成式 AI 服務,」例如客服代理不用人類介入,自主理解語意、查找知識、給予回應,能力遠遠超過只能仰賴關鍵字和向量相似性的對話機器人。
期待看到有著推理和規劃能力的AI代理,如同皮蔡所說,對企業帶來顛覆性的改變。
以文生影像Veo戰Sora、Imagen-3抗DALLE-3
一路在AI跑道上領先的Google,曾因為OpenAI而驚慌失措,甚至發出紅色警戒。不過,隨著Google快步跟上,並透過通路優勢站穩腳步後,該補上的,都補上了。
Google在這次開發者大會中,釋出圖像生成模型Imagen 3,能夠更準確地理解指令背後的意圖,同時還能整合長度更長的指令,並精通多種風格,也具備一定的文字能力,減少視覺瑕疵,對比OpenAI的DALL·E 3毫不遜色。
另外,針對OpenAI技驚四座的影像生成模型Sora,Google這次推出能夠與之抗衡的Veo,可以生成長度超過一分鐘、支援不同風格、高品質的1080p影片。這款模型具備的自然語言理解能力,讓它可以掌握電影術語;Google也針對創意使用者的痛點,補上「創意控制」(creative control)能力,確保生成內容中也有著一定連貫性,例如在移動時更貼近現實。
在影像和圖像之外,Google推出一套音樂AI工具—音樂AI沙盒(Music AI Sandbox),使用者能夠從頭開始創作新的音樂段落、改變聲音等,背後支援的包含Google生成音樂的模型Lyria,這可以和OpenAI的Jukebox對標。
想跟上ChatGPT的Gemini助理
5月初才剛更新、在繁體中文版開放串接Google Workspace和YouTube與地圖等服務的Gemini對話服務,隨著底層模型更新,這款原名Google Bard、曾經被ChatGPT甩在身後的聊天機器人,展露出全新風貌。
如同對比評析Gemini與ChatGPT發展時所說,雖然後者在名聲上和使用經驗上,都取得過一段領先,然而,有著完整生態系、透過不同服務包圍使用者的Gemini,因為串起Google Doc、Gmail和YouTube,使用效益逐漸湧現。
這次更新中,Google沒有廢話,在眾多應用場景相似於ChatGPT的舉例中,直接拿出Gemini模型的內力替自己助威。讀論文、寫信件和分析資料,這些ChatGPT和Claude都能完成,但Gemini現在能夠記得超長上下文,也有多模態輸入的理解能力,又直接串起Google Drive裡面的試算表和文件,不管是取用spreadsheet、分析csv,甚至是直接繪製圖表,都比ChatGPT少了一個上傳步驟,走上阻力更小的路。
另外,Google在免費使用的Gemini之上,推出付費版、結合Google One方案的Gemini Advanced,可以在Google Workspace當中使用Gemini的服務,增進生產效率,同時還有2TB的儲存空間,整包月費為650元。
Google也不忘充分展露自己的強項,語音互動Google早已打磨多年,不管是語音轉文字、文字轉語音,都有訓練多年的模型;規劃行程、提供客製化建議等服務,也有Google Flights、Google Map撐腰,又整合音樂、日曆、代辦事項等應用程式,隨著Gemini助理的支援語言提升、打擊面擴大,OpenAI恐怕要另闢蹊徑,才能一戰。
全新生成式體驗的Google搜尋引擎
一直只聞樓梯響、還在實驗階段的「搜尋生成式體驗」(Search Generative Experience),總算即將映入眾人眼簾。Google表示,即日起將在美國全面開放AI概覽(AI Overview)的搜尋結果,也就是透過生成式AI,提供使用者搜尋問題的解答,藉著總結、摘要搜尋頁的文字和圖像,滿足搜尋意圖(search intentions)。
Google表示,AI概覽功能有效提升使用者搜尋滿意度和使用頻率,因此預期在年底前推廣到讓10億人使用。
Google也強調,運用Gemini的多步驟推理能力,使用者不用拆分複雜問題、分成多次提問,可以直接在單次搜尋得到答案。另外,因為Google本身就有餐廳評分與交通資訊查找等運行已久的機制,因此也增進規劃功能,讓使用者更好安排假期,未來會增進客製化,如調整行程細節、更換餐點。
生成摘要是精煉,排定行程則是串接與整合,在Google熟悉的搜尋戰場上,還有另一項重要武器:排序。Google這次更新中,也提到將會用AI組織出的(AI-organized)搜尋結果頁面,將不同網頁分類、重新寫好標題,讓不同觀點與類型的內容激發使用者的想法與創意。
「Google負責搜尋、研究、計劃和腦力激盪。而你唯一要做的事情,就是提問。」Google搜尋副總裁雷德(Liz Reid)如此表示。經過Google的重新想像,搜尋功能雖然仍舊樸實無華,但已經從尋找相關(relevance)和排序,延伸到濃縮、對話以及創造關聯性。Google提供人類資訊的功能再上一層。
簡化搜尋流程、讓AI處理複雜問題,補上Google生態系的其他服務,在活用原先擅長的排序與組織,每招都是好招。不過,Google沒有談到太多商業模式,雖然可以在AI生成結果中置入廣告,但是在滿意度提升後,使用者還有多少意願點擊?這點仍值得觀察。
第六代TPU表現再進化
為機器學習而生的TPU(Tensor Processing Unit,張量處理器),迎來新一代的Trillium TPU。對比上一代的TPU v5e,每晶片峰值運算效能提升 4.7 倍、高頻寬記憶體(HBM)容量和頻寬增加一倍、晶片間互連(ICI)頻寬增加一倍,Google強調,已經有效降低延遲和訓練成本,又比第五代節能。
Google預期。將在2024 年底提供給 Google Cloud 客戶。除了推出TPU,Google另外提到上個月發表的Axion,這是Google第一款基於ARM架構的設計的處理器,專為資料中心而打造,在性能和能耗上也都有所進展。
在第六代TPU以外,Google還設計出針對最前端AI工作負載的突破性超級電腦架構AI Hypercomputer。皮蔡也不忘補充,Google成為首批提供Nvidia最先進的Blackwell GPU的雲服務提供商之一,預計將於2025年初上市。
從軟體到硬體,Google都已做好準備,展開全面競爭。也如皮蔡所說,Google彙整全球資訊的使命中,絕不限於外部資訊,透過Gemini襄助,更要將個人資訊整合進其中,再透過生成方式呈現給每一個使用者。
「為了充分實現AI的益處,我們將繼續開創新領域。」他如此作結。