Google I/O發表能做正事的AI助理！它功能多強？

曾子軒

2024-05-15

瀏覽數 13,000+

從模型處理更長文章到多模態能力升級，Google 15日的開發者大會端出滿滿AI大菜。Google提供

00:00

Google 15日舉行最新開發者大會（Google I/O），正式宣示AI助理的時代來了。Google新發表的Project Astra，絕不只是如ChatGPT的散漫聊天機器人。執行長皮蔡指出，它可影像溝通，幫忙企業簡化購物車流程...能做真正的大事！另外Gemini新模型也將處理上下文長度拉升到200萬個tokens。這場發表還有哪些亮點？

就在5月15日台灣時間的凌晨，2024年度的Google I/O大會如期舉行。除了Google執行長皮蔡（Sundar Pichai）大談AI願景，最出風頭的就是DeepMind負責人哈薩比斯（Demis Hassabis），他揭露了人工智慧代理（AI agent）成為真正智慧助手的美好未來。

除了更新Gemini系列模型，大幅推升模型能處理的上下文（context window），並增強推理和規劃能力以外，Google更新了圖像生成模型，還釋出影片生成模型對戰OpenAI。不僅如此，為AI運算而生的Google自研晶片TPU迎來改變，老本業的搜尋，更要出現翻天覆地的變化。《遠見》一文整理帶你掌握完整消息。

【目錄】
▌ 處理長文翻倍，Gemini模型輾壓眾生
▌ 智慧助理Project Astra解決人類問題
▌ 以文字生影像、Imagen-3抗DALLE-3
▌ 想跟上ChatGPT的Gemini助理
▌ 全新生成式體驗的搜尋引擎
▌ 第六代TPU表現再進化

處理長文翻倍，Gemini模型輾壓眾生

去年12月，Google首次發布Gemini，這個被哈薩比斯稱為最強大、最通用的模型。今年2月，Google推出Gemini 1.5 Pro，不只有著強大的推理與分析能力，還能夠處理包含影音在內的多模態輸入。展示時，Google沒有拿規劃旅行或者趣味問答的範例出來濫竽充數，而是給出分析10萬行程式碼的真實場景，更一口氣把能夠處理的上下文長度拉升至100萬，讓OpenAI的GPT-4和Anthropic的Claude 3，再也沒有趾高氣揚的本錢。

這次的2024 Google I/O，DeepMind團隊沒有停下腳步，直接將Gemini 1.5 Pro能夠處理的上下文長度翻倍到200萬，碾壓眾生。同時，在邏輯推理、多輪對話和多模態理解能力都出現進步，讓這款旗艦模型成為Google發展後續應用的穩固基礎。

Gemini模型的context windeow高達2百萬個tokens，記憶力瘋狂提升。Google提供。

除了性能優異的Pro模型，Google另外推出定位為輕量級的Gemini 1.5 Flash，雖然模型大小不比Pro，但透過模型蒸餾（distillation），Flash模型的回答快、運作便宜，能夠處理的上下文也在100萬個tokens等級。這個模型，則是Google大膽推動人工智慧代理（AI agent）的自信心來源。

另外，能夠在Pixel手機上運作的輕量級模型Gemini Nano，從原先只能文字對話，擴展到支援影像輸入，可說打響了AI手機和邊緣運算（edge AI）從概念到落地的前哨戰。但，這只是剛開始而已。

至於Google受到質疑、沒有開源（open-sourced）只有開放（open）的Gemma系列模型，則推出效能更高、架構改變的Gemma 2.0。Google也強調持續推進負責任的AI（responsible AI），本次大會中，公布升級了模型回應品質評估工具LLM Comparator。

AI 智慧助理Project Astra解決人類問題

去年生成式AI燃起烈火時，專家們就曾預測，在小語言模型（SLM）、專家模型架構（MoE）以外，隨著生成式AI和大語言模型技術進展，人工智慧代理（AI agent）絕對是重要戰場，以星星為名的「Project Astra」就是Google端出的回應。

現在以基礎模型為底的AI服務如ChatGPT、Midjourney，多用於處理單一指令的任務，例如語言翻譯、生成圖像等，而人工智慧代理，則是指有能力處理擁有多個步驟、複雜任務的AI。例如，依照使用者的送禮情境與預算，從眾多電商平台中，在比較價格、功能和評價以後，推薦最適合的商品；或者是分析使用者收支，提供個人化的理財建議，甚至自動試算稅金、提醒定期繳費等。

上述的複雜任務，都不只是生成內容那麼簡單。哈薩比斯過往受訪時曾提到，想要成為人工智慧助理，語言模型必須具備規劃（plan）、推理（reason）並且維持記憶（memory）共3項能力。

這次Google I/O上，Google解釋得更加完整。就環境來說，人類身處複雜且動態的世界，智慧助理要想辦法保持靈活；以技術上而言，與人類互動不能延遲太久，而且智慧助理要講話講得自然；以產品本質面觀之，還要保持主動、能夠學習，甚至做到個人化。

然而，我們似乎離智慧代理大顯身手的世界還很遠。

ChatGPT和Claude回答模糊問題時容易出錯，或者根本不夠深入，也無法針對多變的脈絡提出合適的回應；不管是AI Pin還是Rabbit R1，都要讓使用者等上大段時間；即便Siri和Google Assistant都在進步，主動性和個人化仍舊有限。

不過，正因為有強大的Gemini模型基礎，Google試圖建造出應用於日常生活中的通用AI代理，或者稱為智慧助理（AI Assistant）的Project Astra，已經讓人瞥見曙光。

Google解釋，在技術上透過持續處理影音，並將其加進「事件」的時間軸，再透過Gemini和其他特定任務的模型的能力，可以讓AI代理理解複雜指令，將其分拆成不同任務，接著一步步執行。

就個人端來說，已經可以想像智慧助理排行程、回Gmail等場景，和微軟展示Copilot時的想像相似。只是，有著Gemini加持，Project Astra勾勒出的願景更加明亮。

哈薩比斯展示的AI代理，擁有空間運算、影音處理和記憶等貼近人類的能力，接下來即將整合到Gemini App中，發展令人期待。取自Google I/O直播。

令人好奇的是，在規劃行程以外，AI代理還能有哪些更實際的行動？針對《遠見》記者這個提問，皮蔡回應表示，AI代理技術在企業端的發展將更加迅速，「Google 已在（企業AI開發平台）Vertex AI 中支援代理流程，例如協助零售客戶服務代理處理購物車等問題。」

皮蔡所說的是，Google已經釋出建造AI代理的工具Vertex AI Agent Builder，它便是主打「建構及部署企業級的生成式 AI 服務，」例如客服代理不用人類介入，自主理解語意、查找知識、給予回應，能力遠遠超過只能仰賴關鍵字和向量相似性的對話機器人。

期待看到有著推理和規劃能力的AI代理，如同皮蔡所說，對企業帶來顛覆性的改變。

以文生影像Veo戰Sora、Imagen-3抗DALLE-3

一路在AI跑道上領先的Google，曾因為OpenAI而驚慌失措，甚至發出紅色警戒。不過，隨著Google快步跟上，並透過通路優勢站穩腳步後，該補上的，都補上了。

【拓展你的年度視野】想一次掌握全球趨勢與科學新知？遠見 × 科學人雙刊滿足你對深度內容的需求>>

Google在這次開發者大會中，釋出圖像生成模型Imagen 3，能夠更準確地理解指令背後的意圖，同時還能整合長度更長的指令，並精通多種風格，也具備一定的文字能力，減少視覺瑕疵，對比OpenAI的DALL·E 3毫不遜色。

利用Imagen 3生成的圖像，絲毫看不出AI斧鑿痕跡。Google提供。

另外，針對OpenAI技驚四座的影像生成模型Sora，Google這次推出能夠與之抗衡的Veo，可以生成長度超過一分鐘、支援不同風格、高品質的1080p影片。這款模型具備的自然語言理解能力，讓它可以掌握電影術語；Google也針對創意使用者的痛點，補上「創意控制」（creative control）能力，確保生成內容中也有著一定連貫性，例如在移動時更貼近現實。

在影像和圖像之外，Google推出一套音樂AI工具—音樂AI沙盒（Music AI Sandbox），使用者能夠從頭開始創作新的音樂段落、改變聲音等，背後支援的包含Google生成音樂的模型Lyria，這可以和OpenAI的Jukebox對標。

Veo生成的影片片段，跟Sora產出同樣栩栩如生。Google提供。

想跟上ChatGPT的Gemini助理

5月初才剛更新、在繁體中文版開放串接Google Workspace和YouTube與地圖等服務的Gemini對話服務，隨著底層模型更新，這款原名Google Bard、曾經被ChatGPT甩在身後的聊天機器人，展露出全新風貌。

如同對比評析Gemini與ChatGPT發展時所說，雖然後者在名聲上和使用經驗上，都取得過一段領先，然而，有著完整生態系、透過不同服務包圍使用者的Gemini，因為串起Google Doc、Gmail和YouTube，使用效益逐漸湧現。

這次更新中，Google沒有廢話，在眾多應用場景相似於ChatGPT的舉例中，直接拿出Gemini模型的內力替自己助威。讀論文、寫信件和分析資料，這些ChatGPT和Claude都能完成，但Gemini現在能夠記得超長上下文，也有多模態輸入的理解能力，又直接串起Google Drive裡面的試算表和文件，不管是取用spreadsheet、分析csv，甚至是直接繪製圖表，都比ChatGPT少了一個上傳步驟，走上阻力更小的路。

與ChatGPT打對台的Gemini助理，在串接Google各大服務後，功力大增。取自Google I/O。

另外，Google在免費使用的Gemini之上，推出付費版、結合Google One方案的Gemini Advanced，可以在Google Workspace當中使用Gemini的服務，增進生產效率，同時還有2TB的儲存空間，整包月費為650元。

Google也不忘充分展露自己的強項，語音互動Google早已打磨多年，不管是語音轉文字、文字轉語音，都有訓練多年的模型；規劃行程、提供客製化建議等服務，也有Google Flights、Google Map撐腰，又整合音樂、日曆、代辦事項等應用程式，隨著Gemini助理的支援語言提升、打擊面擴大，OpenAI恐怕要另闢蹊徑，才能一戰。

全新生成式體驗的Google搜尋引擎

一直只聞樓梯響、還在實驗階段的「搜尋生成式體驗」（Search Generative Experience），總算即將映入眾人眼簾。Google表示，即日起將在美國全面開放AI概覽（AI Overview）的搜尋結果，也就是透過生成式AI，提供使用者搜尋問題的解答，藉著總結、摘要搜尋頁的文字和圖像，滿足搜尋意圖（search intentions）。

Google表示，AI概覽功能有效提升使用者搜尋滿意度和使用頻率，因此預期在年底前推廣到讓10億人使用。

Google也強調，運用Gemini的多步驟推理能力，使用者不用拆分複雜問題、分成多次提問，可以直接在單次搜尋得到答案。另外，因為Google本身就有餐廳評分與交通資訊查找等運行已久的機制，因此也增進規劃功能，讓使用者更好安排假期，未來會增進客製化，如調整行程細節、更換餐點。

由生成式AI驅動的搜尋引擎，將能像是與AI問答一樣，回答使用者複雜的查詢，例如規劃出「三天的小組備餐計畫」。Google提供。

生成摘要是精煉，排定行程則是串接與整合，在Google熟悉的搜尋戰場上，還有另一項重要武器：排序。Google這次更新中，也提到將會用AI組織出的（AI-organized）搜尋結果頁面，將不同網頁分類、重新寫好標題，讓不同觀點與類型的內容激發使用者的想法與創意。

「Google負責搜尋、研究、計劃和腦力激盪。而你唯一要做的事情，就是提問。」Google搜尋副總裁雷德（Liz Reid）如此表示。經過Google的重新想像，搜尋功能雖然仍舊樸實無華，但已經從尋找相關（relevance）和排序，延伸到濃縮、對話以及創造關聯性。Google提供人類資訊的功能再上一層。

簡化搜尋流程、讓AI處理複雜問題，補上Google生態系的其他服務，在活用原先擅長的排序與組織，每招都是好招。不過，Google沒有談到太多商業模式，雖然可以在AI生成結果中置入廣告，但是在滿意度提升後，使用者還有多少意願點擊？這點仍值得觀察。

增加多模態能力後，Google搜尋也能利用視覺能力「讀懂影片」。取自Google I/O直播。

第六代TPU表現再進化

為機器學習而生的TPU（Tensor Processing Unit，張量處理器），迎來新一代的Trillium TPU。對比上一代的TPU v5e，每晶片峰值運算效能提升 4.7 倍、高頻寬記憶體（HBM）容量和頻寬增加一倍、晶片間互連（ICI）頻寬增加一倍，Google強調，已經有效降低延遲和訓練成本，又比第五代節能。

Google預期。將在2024 年底提供給 Google Cloud 客戶。除了推出TPU，Google另外提到上個月發表的Axion，這是Google第一款基於ARM架構的設計的處理器，專為資料中心而打造，在性能和能耗上也都有所進展。

在第六代TPU以外，Google還設計出針對最前端AI工作負載的突破性超級電腦架構AI Hypercomputer。皮蔡也不忘補充，Google成為首批提供Nvidia最先進的Blackwell GPU的雲服務提供商之一，預計將於2025年初上市。

Google推出第六代TPU。取自Google I/O直播。