只到9/30 只到9/30 遠見39週年慶:【訂2年送1年】一年一度最低優惠倒數中

Google I/O發表能做正事的AI助理!它功能多強?

曾子軒
user

曾子軒

2024-05-15

瀏覽數 12,950+

從模型處理更長文章到多模態能力升級,Google 15日的開發者大會端出滿滿AI大菜。Google提供
從模型處理更長文章到多模態能力升級,Google 15日的開發者大會端出滿滿AI大菜。Google提供

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

Google 15日舉行最新開發者大會(Google I/O),正式宣示AI助理的時代來了。Google新發表的Project Astra,絕不只是如ChatGPT的散漫聊天機器人。執行長皮蔡指出,它可影像溝通,幫忙企業簡化購物車流程...能做真正的大事!另外Gemini新模型也將處理上下文長度拉升到200萬個tokens。這場發表還有哪些亮點?

就在5月15日台灣時間的凌晨,2024年度的Google I/O大會如期舉行。除了Google執行長皮蔡(Sundar Pichai)大談AI願景,最出風頭的就是DeepMind負責人哈薩比斯(Demis Hassabis),他揭露了人工智慧代理(AI agent)成為真正智慧助手的美好未來。

除了更新Gemini系列模型,大幅推升模型能處理的上下文(context window),並增強推理和規劃能力以外,Google更新了圖像生成模型,還釋出影片生成模型對戰OpenAI。不僅如此,為AI運算而生的Google自研晶片TPU迎來改變,老本業的搜尋,更要出現翻天覆地的變化。《遠見》一文整理帶你掌握完整消息。

處理長文翻倍,Gemini模型輾壓眾生

去年12月,Google首次發布Gemini,這個被哈薩比斯稱為最強大、最通用的模型。今年2月,Google推出Gemini 1.5 Pro,不只有著強大的推理與分析能力,還能夠處理包含影音在內的多模態輸入。展示時,Google沒有拿規劃旅行或者趣味問答的範例出來濫竽充數,而是給出分析10萬行程式碼的真實場景,更一口氣把能夠處理的上下文長度拉升至100萬,讓OpenAI的GPT-4和Anthropic的Claude 3,再也沒有趾高氣揚的本錢。

這次的2024 Google I/O,DeepMind團隊沒有停下腳步,直接將Gemini 1.5 Pro能夠處理的上下文長度翻倍到200萬,碾壓眾生。同時,在邏輯推理、多輪對話和多模態理解能力都出現進步,讓這款旗艦模型成為Google發展後續應用的穩固基礎。

Gemini模型的context windeow高達2百萬個tokens,記憶力瘋狂提升。Google提供。

Gemini模型的context windeow高達2百萬個tokens,記憶力瘋狂提升。Google提供。

除了性能優異的Pro模型,Google另外推出定位為輕量級的Gemini 1.5 Flash,雖然模型大小不比Pro,但透過模型蒸餾(distillation),Flash模型的回答快、運作便宜,能夠處理的上下文也在100萬個tokens等級。這個模型,則是Google大膽推動人工智慧代理(AI agent)的自信心來源。

另外,能夠在Pixel手機上運作的輕量級模型Gemini Nano,從原先只能文字對話,擴展到支援影像輸入,可說打響了AI手機和邊緣運算(edge AI)從概念到落地的前哨戰。但,這只是剛開始而已。

至於Google受到質疑、沒有開源(open-sourced)只有開放(open)的Gemma系列模型,則推出效能更高、架構改變的Gemma 2.0。Google也強調持續推進負責任的AI(responsible AI),本次大會中,公布升級了模型回應品質評估工具LLM Comparator。

AI 智慧助理Project Astra解決人類問題

去年生成式AI燃起烈火時,專家們就曾預測,在小語言模型(SLM)、專家模型架構(MoE)以外,隨著生成式AI和大語言模型技術進展,人工智慧代理(AI agent)絕對是重要戰場,以星星為名的「Project Astra」就是Google端出的回應。

現在以基礎模型為底的AI服務如ChatGPT、Midjourney,多用於處理單一指令的任務,例如語言翻譯、生成圖像等,而人工智慧代理,則是指有能力處理擁有多個步驟、複雜任務的AI。例如,依照使用者的送禮情境與預算,從眾多電商平台中,在比較價格、功能和評價以後,推薦最適合的商品;或者是分析使用者收支,提供個人化的理財建議,甚至自動試算稅金、提醒定期繳費等。

上述的複雜任務,都不只是生成內容那麼簡單。哈薩比斯過往受訪時曾提到,想要成為人工智慧助理,語言模型必須具備規劃(plan)、推理(reason)並且維持記憶(memory)共3項能力。

這次Google I/O上,Google解釋得更加完整。就環境來說,人類身處複雜且動態的世界,智慧助理要想辦法保持靈活;以技術上而言,與人類互動不能延遲太久,而且智慧助理要講話講得自然;以產品本質面觀之,還要保持主動、能夠學習,甚至做到個人化。

然而,我們似乎離智慧代理大顯身手的世界還很遠。

ChatGPT和Claude回答模糊問題時容易出錯,或者根本不夠深入,也無法針對多變的脈絡提出合適的回應;不管是AI Pin還是Rabbit R1,都要讓使用者等上大段時間;即便Siri和Google Assistant都在進步,主動性和個人化仍舊有限。

不過,正因為有強大的Gemini模型基礎,Google試圖建造出應用於日常生活中的通用AI代理,或者稱為智慧助理(AI Assistant)的Project Astra,已經讓人瞥見曙光。

Google解釋,在技術上透過持續處理影音,並將其加進「事件」的時間軸,再透過Gemini和其他特定任務的模型的能力,可以讓AI代理理解複雜指令,將其分拆成不同任務,接著一步步執行。

就個人端來說,已經可以想像智慧助理排行程、回Gmail等場景,和微軟展示Copilot時的想像相似。只是,有著Gemini加持,Project Astra勾勒出的願景更加明亮。

哈薩比斯展示的AI代理,擁有空間運算、影音處理和記憶等貼近人類的能力,接下來即將整合到Gemini App中,發展令人期待。取自Google I/O直播。

哈薩比斯展示的AI代理,擁有空間運算、影音處理和記憶等貼近人類的能力,接下來即將整合到Gemini App中,發展令人期待。取自Google I/O直播。

令人好奇的是,在規劃行程以外,AI代理還能有哪些更實際的行動?針對《遠見》記者這個提問,皮蔡回應表示,AI代理技術在企業端的發展將更加迅速,「Google 已在(企業AI開發平台)Vertex AI 中支援代理流程,例如協助零售客戶服務代理處理購物車等問題。」

皮蔡所說的是,Google已經釋出建造AI代理的工具Vertex AI Agent Builder,它便是主打「建構及部署企業級的生成式 AI 服務,」例如客服代理不用人類介入,自主理解語意、查找知識、給予回應,能力遠遠超過只能仰賴關鍵字和向量相似性的對話機器人。

期待看到有著推理和規劃能力的AI代理,如同皮蔡所說,對企業帶來顛覆性的改變。

以文生影像Veo戰Sora、Imagen-3抗DALLE-3

一路在AI跑道上領先的Google,曾因為OpenAI而驚慌失措,甚至發出紅色警戒。不過,隨著Google快步跟上,並透過通路優勢站穩腳步後,該補上的,都補上了。

【免費報名】新東方花藝美學大師— 凌宗湧的花草哲學@基隆塔與你相見>>

Google在這次開發者大會中,釋出圖像生成模型Imagen 3,能夠更準確地理解指令背後的意圖,同時還能整合長度更長的指令,並精通多種風格,也具備一定的文字能力,減少視覺瑕疵,對比OpenAI的DALL·E 3毫不遜色。

利用Imagen 3生成的圖像,絲毫看不出AI斧鑿痕跡。Google提供。

利用Imagen 3生成的圖像,絲毫看不出AI斧鑿痕跡。Google提供。

另外,針對OpenAI技驚四座的影像生成模型Sora,Google這次推出能夠與之抗衡的Veo,可以生成長度超過一分鐘、支援不同風格、高品質的1080p影片。這款模型具備的自然語言理解能力,讓它可以掌握電影術語;Google也針對創意使用者的痛點,補上「創意控制」(creative control)能力,確保生成內容中也有著一定連貫性,例如在移動時更貼近現實。

在影像和圖像之外,Google推出一套音樂AI工具—音樂AI沙盒(Music AI Sandbox),使用者能夠從頭開始創作新的音樂段落、改變聲音等,背後支援的包含Google生成音樂的模型Lyria,這可以和OpenAI的Jukebox對標。

Veo生成的影片片段,跟Sora產出同樣栩栩如生。Google提供。

Veo生成的影片片段,跟Sora產出同樣栩栩如生。Google提供。

想跟上ChatGPT的Gemini助理

5月初才剛更新、在繁體中文版開放串接Google Workspace和YouTube與地圖等服務的Gemini對話服務,隨著底層模型更新,這款原名Google Bard、曾經被ChatGPT甩在身後的聊天機器人,展露出全新風貌。

如同對比評析Gemini與ChatGPT發展時所說,雖然後者在名聲上和使用經驗上,都取得過一段領先,然而,有著完整生態系、透過不同服務包圍使用者的Gemini,因為串起Google Doc、Gmail和YouTube,使用效益逐漸湧現。

這次更新中,Google沒有廢話,在眾多應用場景相似於ChatGPT的舉例中,直接拿出Gemini模型的內力替自己助威。讀論文、寫信件和分析資料,這些ChatGPT和Claude都能完成,但Gemini現在能夠記得超長上下文,也有多模態輸入的理解能力,又直接串起Google Drive裡面的試算表和文件,不管是取用spreadsheet、分析csv,甚至是直接繪製圖表,都比ChatGPT少了一個上傳步驟,走上阻力更小的路。

與ChatGPT打對台的Gemini助理,在串接Google各大服務後,功力大增。取自Google I/O。

與ChatGPT打對台的Gemini助理,在串接Google各大服務後,功力大增。取自Google I/O。

另外,Google在免費使用的Gemini之上,推出付費版、結合Google One方案的Gemini Advanced,可以在Google Workspace當中使用Gemini的服務,增進生產效率,同時還有2TB的儲存空間,整包月費為650元。

Google也不忘充分展露自己的強項,語音互動Google早已打磨多年,不管是語音轉文字、文字轉語音,都有訓練多年的模型;規劃行程、提供客製化建議等服務,也有Google Flights、Google Map撐腰,又整合音樂、日曆、代辦事項等應用程式,隨著Gemini助理的支援語言提升、打擊面擴大,OpenAI恐怕要另闢蹊徑,才能一戰。

全新生成式體驗的Google搜尋引擎

一直只聞樓梯響、還在實驗階段的「搜尋生成式體驗」(Search Generative Experience),總算即將映入眾人眼簾。Google表示,即日起將在美國全面開放AI概覽(AI Overview)的搜尋結果,也就是透過生成式AI,提供使用者搜尋問題的解答,藉著總結、摘要搜尋頁的文字和圖像,滿足搜尋意圖(search intentions)。

Google表示,AI概覽功能有效提升使用者搜尋滿意度和使用頻率,因此預期在年底前推廣到讓10億人使用。

Google也強調,運用Gemini的多步驟推理能力,使用者不用拆分複雜問題、分成多次提問,可以直接在單次搜尋得到答案。另外,因為Google本身就有餐廳評分與交通資訊查找等運行已久的機制,因此也增進規劃功能,讓使用者更好安排假期,未來會增進客製化,如調整行程細節、更換餐點。

由生成式AI驅動的搜尋引擎,將能像是與AI問答一樣,回答使用者複雜的查詢,例如規劃出「三天的小組備餐計畫」。Google提供。

由生成式AI驅動的搜尋引擎,將能像是與AI問答一樣,回答使用者複雜的查詢,例如規劃出「三天的小組備餐計畫」。Google提供。

生成摘要是精煉,排定行程則是串接與整合,在Google熟悉的搜尋戰場上,還有另一項重要武器:排序。Google這次更新中,也提到將會用AI組織出的(AI-organized)搜尋結果頁面,將不同網頁分類、重新寫好標題,讓不同觀點與類型的內容激發使用者的想法與創意。

「Google負責搜尋、研究、計劃和腦力激盪。而你唯一要做的事情,就是提問。」Google搜尋副總裁雷德(Liz Reid)如此表示。經過Google的重新想像,搜尋功能雖然仍舊樸實無華,但已經從尋找相關(relevance)和排序,延伸到濃縮、對話以及創造關聯性。Google提供人類資訊的功能再上一層。

簡化搜尋流程、讓AI處理複雜問題,補上Google生態系的其他服務,在活用原先擅長的排序與組織,每招都是好招。不過,Google沒有談到太多商業模式,雖然可以在AI生成結果中置入廣告,但是在滿意度提升後,使用者還有多少意願點擊?這點仍值得觀察。

增加多模態能力後,Google搜尋也能利用視覺能力「讀懂影片」。取自Google I/O直播。

增加多模態能力後,Google搜尋也能利用視覺能力「讀懂影片」。取自Google I/O直播。

第六代TPU表現再進化

為機器學習而生的TPU(Tensor Processing Unit,張量處理器),迎來新一代的Trillium TPU。對比上一代的TPU v5e,每晶片峰值運算效能提升 4.7 倍、高頻寬記憶體(HBM)容量和頻寬增加一倍、晶片間互連(ICI)頻寬增加一倍,Google強調,已經有效降低延遲和訓練成本,又比第五代節能。

Google預期。將在2024 年底提供給 Google Cloud 客戶。除了推出TPU,Google另外提到上個月發表的Axion,這是Google第一款基於ARM架構的設計的處理器,專為資料中心而打造,在性能和能耗上也都有所進展。

在第六代TPU以外,Google還設計出針對最前端AI工作負載的突破性超級電腦架構AI Hypercomputer。皮蔡也不忘補充,Google成為首批提供Nvidia最先進的Blackwell GPU的雲服務提供商之一,預計將於2025年初上市。

Google推出第六代TPU。取自Google I/O直播。

Google推出第六代TPU。取自Google I/O直播。

從軟體到硬體,Google都已做好準備,展開全面競爭。也如皮蔡所說,Google彙整全球資訊的使命中,絕不限於外部資訊,透過Gemini襄助,更要將個人資訊整合進其中,再透過生成方式呈現給每一個使用者。

「為了充分實現AI的益處,我們將繼續開創新領域。」他如此作結。

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務