承上篇。人工智慧(AI)的進步,帶動人機互動發生改變。原先分散、專用的模型逐漸彙整成單一模型,處理的輸入與輸出也從數值和文字,轉向聽力、視覺等多模態,AI已經看見人眼所見的世界。Google DeepMind研究副總裁紀懷新認為,人跟AI以後的介面、信任和透明度的問題,會和人際之間的互動愈來愈接近。
模型從分工到匯整,才能應對複雜環境
問:以前各個模型可以分別處理任務,模組化的分工明確,且容易解釋、方便控制。轉變成單一模型有哪些好處?
答:因為在不同情境下,有著不同應用。在工廠裡,若要重複把水瓶扶正,而且每個水瓶傾斜角度相同,這就不需要通用(general)模型處理問題。但如果要機器人在101的餐廳裡負責清潔,原先專用的模型很難達成。
你不可能把瓶子丟到垃圾桶一種程式、放在地上一種程式,如果水瓶是空的,又要另一種程式。你的確可以控制它、解釋它,但若真的要這樣處理,一定沒完沒了。
為什麽這麼多年過去,還沒辦法做好清潔環境的機器人?原因就是環境太過複雜,情境變動太大。
所以這個問題的根本在於,倘若環境可控,你當然可以分而治之,確保執行專門任務的模型維持穩健(robust)。但如果環境不可控,模型就要能適應不同環境。
為什麼通用人工智慧能夠用通用稱呼?因為它能應對不同情境,進入新環境以後能夠辨識情況,並且在其中做出應對,這就是通用人工智慧的開始。
免費訂閱【科技趨勢報】👉專業主編導讀3篇文章,瞭解最新科技動態!
AGI要像人一樣聰明,就要結合系統一和系統二
問:不管是物理世界還是數位世界,包含資訊檢索(information retrieval)、機器人在內,聽起來AI逐漸幫人類完成更多系統二的任務?
答:我想延伸你這個問題,如果我們真的達到通用人工智慧的能力,機器人就像人一樣,它同時擁有系統一和系統二,要它替你讀文章以後摘要可以,撿垃圾也可以。我們現在致力於發展AI,就是希望能夠讓它不管是在虛擬世界裡面,還是物理世界裡面,都能擁有並結合系統一和系統二的能力。
台灣有很多長照問題,過幾年以後,如果有全能的機器人,它同時需要兩種系統。陪伴老人走路、幫助起居,帶路的時候知道路上有車子,也能判斷什麼時候要過馬路。
在虛擬世界裡面也一樣,我請它推薦高爾夫俱樂部,它應該有能力研究俱樂部有哪些特性,並且解釋給我聽,這是系統二的分析能力。我還希望它能看著我打高爾夫,告訴我哪裡沒做好,以後都有可能成真。
至於以後人跟機器人、人跟AI互動時,要把多少系統一或者系統二的任務交給機器人?這是人類應該討論,並擁有控制權的事情。
理解世界以後,AI助理往個人化邁進
問:您團隊平時在做的任務之一,在於改善搜尋與推薦系統底層的神經網絡和排序列表,讓結果的關聯性更高(relevant)。您提到讓基礎模型更加理解世界的努力,要如何回頭挹注到這些工作中?通用助理的目標函數同樣鎖定關聯性,還是提供更符合情境的結果?
答:我現在心裡一直在想的事情是,當我們擁有通用助理的時候,它到底要多個人化(personalized)。
我剛從美國回來台灣,個人化的助理應該知道我的喜好,但它不懂台灣。Google的通用助理也是一樣,它應該要知道這裡的脈絡,建議我去哪裡玩、到哪裡吃飯,這就是我們現在正在做的研究。未來搜尋和推薦,也會往這個方向演進,我們現在只是局限在搜尋和推薦裡,以後要達到真正的私人助理。
現在的手機介面裡,有許多不同應用程式,我要學會如何使用、掌握不同技能,才能感受到自己擁有私人助理,對年輕人來說,或許輕而易舉,但還是有些情境裡的問題並不容易。
再往前走,我認為可能有些事情不再需要應用程式,只要按個按鍵,就能直接對話。不用再搜尋「青年公園附近的高爾夫練習場有沒有停車場」,我現在要打很多字、自己整理這些資訊,以後的助理可以直接回答。
通用助理從被動轉為主動,替人類解決問題
問:先前恰好跟人聊過這個題目,跟單純把介面從文字與列表換成聲音比較,聽起來差別在於個人化嗎?還有哪些挑戰?
答:對,但不只是這樣。
我向個人化的助理說想練習打高爾夫球,它會推薦青年公園給我,並感知到我正在開車,因此告訴我附近的停車情況。如果我沒有在開車,它也會建議我可以搭Uber過去。它不再是被動(reactively)回應我的詢問,而是主動(proactively)幫助你。
我現在要去Google地圖搜尋停車場,然後看有沒有人幫忙上傳每個停車場的收費標準照片,自己再來比較。希望以後私人助理只要收到問題,就能幫忙做完所有研究。
以目標函數來說,它不只是要更能了解你現在的情境,還要想出很多辦法解決你遇到的問題。它不是被動而是主動,知道怎麼結合不同資訊以便解決問題,這是它的智慧能力所在。
現在你找高爾夫球場,都是要自己去搜尋、自己挑選結果、自己解決問題,接下來要讓它直接幫你解決問題,這也是Agent(代理)的概念所在。
若說挑戰,難在它要學會使用不同工具解決問題。我希望以後的Agent可以自己到Google地圖上找停車場、自己讀照片、尋找收費標準,再把這些資訊彙整給我,就像一個真正的私人助理做的事情。
我們現在距離這件事情已經很近了。以前我會覺得,這聽起來很像天方夜譚,即便是一年前,也還覺得很吃力。現在覺得,三到五年內就會成真。是啊,為什麼不會呢?
所以,我們整個產業都會遇上衝擊。手機的介面留在應用程式的階段嗎?我們的眼鏡會多普及?如果有人不願意戴眼鏡怎麼辦?是有智慧的耳機,還是其他穿戴的裝置?手錶是否會繼續演進?這都是還沒解答的問題。
AI理解世界的下一步,要理解人與世界的關聯
問:當下還沒辦法實現通用助理,還有哪些挑戰尚未克服?
答:我認為最難的、至今我花很多時間研究的,還是在個人化。
為什麽我們叫私人助理?我舉個例子,公司剛好有一位助理懷孕休假,要請人代理一陣子,就花了兩到三週訓練這位新的助理。一個人需要花這樣的時間,訓練另一個人來做私人助理的工作,個人化的議題跟難度就在這個地方。再以伴侶之間為例,對方知道你的喜好,他們也很了解你,但剛認識的時候也需要時間磨合,才有這些認識。
我們在做的個人化,可以這樣描述:要先讓AI能了解這個世界、融入到世界裡面,這只是一部分而已。下一個階段,就是在融入世界以後,了解你和世界之間的關聯(connection)。之前有點像是,人一直使用機器,藉著機器跟世界互動。再往前走,變成機器跟著你,幫你觀察所環境、在旁輔助你。他不是很一般普遍(generic)的東西,而是很個人化的。
我們手機裡下載很多應用程式,我拿你的手機來用,有很多地方不方便,你用哪些易用程式、放在哪邊,都是你個人化的方法。以後個人化以後的模型,能知道你的喜好、了解你的脈絡,甚至還會不斷感知你的環境,知道你在101、外面在下雨。
人跟AI的關係,和人際關係愈來愈像
問:Gemini可以讀兩百萬個符元(token),現在把Gmail、YouTube觀看紀錄全部餵進Gemini就能實現嗎?
答:個人化有好幾個層次。第一是要先有資訊存在,有沒有可以讓你個人化的東西。有了資訊以後,第二個是要知道怎麼使用。再往下,第三個還有信任的問題。你要怎麼維持跟伴侶之間的關係?你願意讓對方看你所有的電子信、所有照片嗎?這是信任的問題。彼此之間的互動界線要如何維持,就像你跟助理、跟伴侶之間維繫關係一樣複雜。
以後的私人助理很不一樣,更接近人與人之間的互動,人跟AI以後的介面、信任和透明度的問題,會和人際之間的互動愈來愈接近。從輸入、輸出去看這些問題,是從大數據的角度思考,我想指出另一條道路,也是因為這樣,我們才會用心理學的方法思考應該如何研究,我認為,這是最有遠見的視角。
後記:AI理解世界、連結虛實,步步接近人類
在今年的Google I/O上,Google執行長皮蔡(Sundar Pichai)介紹一系列產品的AI革新。背後貫穿的軸線,是智慧(intelligence)、代理(agent)和個人化(personlization)三件大事。
模型的智慧提升,讓代理的實現成為可能。再加上原先的通路如地圖、搜尋和YouTube,服務使用者過程中累積的偏好和脈絡,讓Google有辦法更理解消費者,也是Google力壓競爭對手的本錢。
在Google DeepMind裡服務的紀懷新,則是從科學研究角度,分享他對於人機互動典範轉移的想法。因為Sequence to Sequence、Transformer等技術推進,讓AI進化到有辦法和人類來回互動,帶動ChatGPT、Claude等對話式AI服務浮出水面。
改變過程中,人類與機器的互動,從行為、形式到介面,都在發生變化。
用戶從花心思想關鍵字,到不動腦日常談話
過程中,人類將更多主動權交給AI。
行為上,使用者從費盡心思發想關鍵字,轉變到不用太動腦的日常談話,需要深入思考的任務改由AI負責。形式上,資訊也從搜尋列表,轉變成讓人閱讀的段落,從傳統搜尋到AI Overview再到AI Mode就是不斷往摘要形式、替使用者統整結果的方向進行。介面上,在原先筆電、手機螢幕以外,開始有更多類型的資訊載體出現,不管是失敗的AI Pin,還是讓人能戴得長遠的手錶,又或者是發展歷史悠久的耳機,以及近兩年捲土重來的眼鏡,都有著豐富想像空間。
人工智慧的進步,帶動人機互動發生改變,又回過頭來推進底層AI模型的進步。原先分散、專用的模型逐漸彙整成單一模型,處理的輸入與輸出也從數值和文字,轉向聽力、視覺等多模態,AI已經看見人眼所見的世界。
再從多模態往下推進,擴張模型可以掌握的資訊,延伸的範疇如地點、時間、偏好和意圖,還有尺度如空間、因果和時間,模型不滿足於看見,更要理解世界的運作法則。
回歸到Google業務,理解脈絡的下一步,就是皮蔡所說的個人化。因為懂得使用者的核心需求,AI將不滿足於理解情境,更要結合散落於世界的資訊,替使用者解決問題。
模型將進化為Agent,先是理解並融入世界,從扮演虛擬與現實世界的介面開始,穿梭其間。再下一步,AI就要了解人類跟世界如何建立起連結,從被動變成主動,超越過往搜尋和推薦所做。
但歸根結底,仍是替使用者組織資訊,只是規模和野心更為宏大。
「在Google 內部,搜尋、廣告、YouTube,包括搜尋和推薦,⋯⋯都是由單一類型的神經網路實現的,⋯⋯你們正在實現一個排序函數。所以,使用者探索的基礎,就是使用列表作為通用的使用者介面。」這是去年在工作坊演講中,紀懷新向資訊領域的碩士、博士們分享的小祕密。
然而,從最底層的排序函數開始,一切都即將迎來巨大改變,AI將徹底重塑人機互動,帶來典範轉移。而改變,只是剛開始。