Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

與領袖面對面 與領袖面對面 最後席次!與台積電等高階代表聊企業決策

生成式AI開啟人機互動典範轉移!Google DeepMind研究副總裁紀懷新解析

曾子軒
user

曾子軒

2025-06-06

瀏覽數 750+

親手推動Gemini向前躍進的紀懷新,解析通用助理出現以後,如何以嶄新方式實現Google組織資訊的願景。蘇義傑攝
親手推動Gemini向前躍進的紀懷新,解析通用助理出現以後,如何以嶄新方式實現Google組織資訊的願景。蘇義傑攝

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

無論是推薦系統或搜尋引擎,Google藉著連結、排序和發現,組織世上資訊為人所用。進入生成式AI時代,人機互動從行為、形式到介面,都出現劇變,Google DeepMind研究副總裁紀懷新表示,整個產業正面臨巨大變革。他看見哪些改變?這場典範轉移會如何展開?

「整個價值3000億至5000億美元的網路市場,其秩序和結構,都是由排序函數決定的。⋯⋯我相信它即將經歷一次巨大的變革。」

說出這句話的,是Google DeepMind研究副總裁紀懷新(Ed Chi)。他所在的團隊,致力於改善Google包含搜尋和推薦在內的排序函數,每年能貢獻高達90億美元營收。

去年,他在學術界頂尖會議「大規模影片推薦系統」(Large-Scale Video Recommender Systems)的工作坊演講中,向聽眾大膽宣稱,Google所在的整個產業,將從營收最核心的排序函數開始發生劇變。

包含底層的基礎模型演進方向,以及消費者直接感受到的人機互動介面與形式,機器正在從理解世界開始,進一步捕捉世界與人類的關聯。《遠見》專訪紀懷新,聽這位傑出科學家分享他所瞥見的世界。

以下是《遠見》專訪紀懷新的精華摘要,分成上下兩篇呈現:

註:採訪時中英夾雜,下方皆用中文呈現,並適度加上原文幫助理解。

傳統搜尋退位,AI接手更多系統二任務 

問:Google替世人組織資訊的願景得以實現,主要建立在排序和搜尋函數上。在今年的Google I/O上,我們看到Project Astra落地成為現實,隨著它愈發成熟,將會如何改變搜尋和推薦?

答:這個問題的深度,在於Google所處的整個產業正在改變。

從搜尋到對話式的服務,我們可以看到機器與人之間的互動已經發生變化。

從心理學的角度來看,人們在尋找資訊時,共有兩種系統在運作。第一個是系統一,你看到事情當下,馬上就知道這是正確的答案,一些推薦系統就是這樣,像是YouTube的Shorts,思考參與的非常少。

不過,在搜尋裡,也偶爾會有系統一。比如我今天來101,在Google地圖上查前往101的路線,大部分人是去購物中心,它給的路線是往左邊走,我一看就知道不對,知道應該要去101辦公大樓,這就是系統一的快速思考。

得到正確答案以後,你仔細看著路線,認為走那條路比較近、比較正確,這是系統二。所以,人在找資訊的時候,快速辨識跟慢速思考,其實會有混合的系統(mixed system)。

在機器與人之間互動的研究領域可以看到,以前,人們要做更多系統二的處理。你要思考怎麼寫搜尋關鍵字,花時間理解搜尋結果中的每個網頁,能否回答自己的問題,又能否真正滿足你真正的搜尋意圖,這些都要深入思考。

現在往前走,機器跟人之間的工作分配已經發生改變。包含AI Overview和AI Mode,都會幫你做好分析與摘要,以對話式的搜尋完成。除非使用者需要非常細節的資訊,才會採用傳統搜尋。

所以,這兩種系統未來會怎樣結合?Google搜尋引擎會怎樣演化?我認為現在仍在探索階段,尚未出現定論,大概要這兩到三年,才會有明確方向。

從列表轉成摘要,人機互動形式和介面都改變 

問:現有搜尋結果是以列表(list)呈現,它的好處是很有效率,可以一目了然的掌握資訊,還能按照關聯性、日期等因素排序。轉變成摘要以後是否缺乏效率?列表是否會就此消失?

答:列表的好處在於,它已經把結構(structure)顯示在你的面前。為什麼我們看簡報時很喜歡列點?因為它更容易替你將概念歸納成一個又一個句子。對照之下,對話通常以段落的形式顯示,使用者處理資訊時,需要閱讀,而閱讀是很費力的。

我們現在之所以使用列表,還有對話時以段落呈現,最根本的原因在於,我們與機器的互動介面(interface)還是以螢幕為主。我現在跟你聊天,你要花力氣處理斷句,這是人類處理訊息的能力(capabilities)。

以後的介面如果超過螢幕,比如說耳機、眼鏡,甚至是螢幕加上耳機,有可能改用語音傳遞資訊,介面和形式同樣都會發生改變,這是這個問題的有趣之處。

(紀懷新拿出Google今年在I/O上發表的Android XR眼鏡)你可以看到它有耳機,還有輔助螢幕,現在資訊是以類似字幕的方式呈現。未來如果使用者在購物,應該怎麼推薦商品給使用者?地圖要顯示哪些資訊?我個人認為,螢幕介面絕對不會消失,但不管是介面的長相,還是呈現資訊的方式,都還正在探索。我個人認為可能會有混合形態出現。

AI Overview會先提供一個答案(one answer),底下則會呈現列表,至於AI Mode,就更接近對話式的體驗。我們現在已經在探索不同的介面、不同的人機互動,應該如何把資訊顯示在使用者面前。

現在沒有人知道往前走會什麼樣子,我們的產業動盪很大,原因就在這個地方。

紀懷新拿出Google今年在I/O上發表的Android XR眼鏡,解釋介面改變以後,資訊呈現形式也會發生變化。蘇義傑攝

紀懷新拿出Google今年在I/O上發表的Android XR眼鏡,解釋介面改變以後,資訊呈現形式也會發生變化。蘇義傑攝

歡慶遠見39週年|訂閱享優惠 再送各式好禮>>>快來看看

掌握脈絡、理解情境,AI要穿越數位與物理世界 

問:我們剛剛談了介面,接著想討論資訊的輸入與輸出。模型的多模態能力提升後,眼鏡、手機可以感知到更多環境資訊,這會帶來哪些改變?脈絡(context)的重要性為何?

答:脈絡非常重要。以我們在101為例,「請協助我找餐廳,」這項指令聽起來非常明確,但事實上不然。你要吃早餐還是午餐?現在吃還是週末吃?跟誰一起吃?

如果使用傳統介面,你要如何透過搜尋完成這個任務?但如果未來出現通用助理(universal assistant),像是Project Astra這樣的模式,它可以透過對話了解你的需求以及背景脈絡。

在對話以外,如果你戴上Android XR眼鏡,它應該能看見你的周遭環境,知道你人就在101,直接推薦大樓裡的餐廳,這叫做情境感知(situational awareness)。

Project Astra 前身的名字,就叫做情境互動代理(situated interactive agents,SIA)。「situated」這個英文字,意思就是物理情境(physical situation),或者說它有實體(embodiment),不只是虛擬世界,而是進入真實世界裡面。

為什麽要這樣?這和機器人尚未普及也有關係,機器人要做到虛擬與實體結合非常困難。

開發Project Astra,它有相機、它有螢幕,可以把虛擬世界裡面的訊息傳送給你,也可以聽到外面的聲音,這個就叫做感知情境。它就是虛擬跟真實之間的的介面,把虛擬世界和真實世界結合在一起。

基礎模型像小孩,逐漸長大成人 

問:以搜尋來說,系統可以考慮使用者輸入的關鍵字,未來轉變成通用助理以後,多模態意味著巨量的輸入,系統要如何決定應該考慮哪些因素?

答:這個問題是用資料探勘的輸入、輸出去想,但現在要用不同思惟思考。

如果這些大模型是人,你會怎麼教導它哪些東西需要考慮、哪些不用?以飯店當例子,有客人問櫃檯人員推薦哪些餐廳,如果你是飯店經理,會觀察他怎麼跟客人交流,接著給他評價,大模型也要經過這樣子的訓練。

我們教大型語言模型的方法,跟教人的方法有些相似,這個地方做得對、那個地方做錯,而不是用輸入、輸出的方式來思考。

為什麽?因為大型語言模型已經具備基本知識,你在教它的時候,有點像在教小孩子怎麽樣應對,也像在教人設社交。人在社交的時候會用問答,也會自己去猜。

如果客人提供新資訊,跟你說他想找週末與母親吃飯的餐廳,你就應該調整回答內容。到底要考慮、排除哪些資訊?這也是技能的一種,要學到面對不同脈絡時如何應對,Google搜尋現在不見得能夠做到這件事。

以前推薦時,會利用資料探勘、大數據的方式完成,未來則是要讓語言模型有辦法應對不同脈絡,迎合使用者的口味,關鍵在於理解脈絡後,再近一步做到個人化。

AI從看見世界,轉向理解世界 

問:從理解脈絡往下延伸,可以看到基礎模型正在理解世界,包含語言、視覺、聽覺與行動,這樣是否足夠?還是需要理解物理法則、因果關係和時間性,才能稱得上是真正的理解?

答:模型的理解能力一直在加強。

我們在全世界居於領先地位,例如,對空間的理解也在提升,但還沒有達到我的期望。我們不只希望做到世界最好,還要達到通用人工智慧(artificial general intelligence,AGI)的水準,比如理解物理世界。

我把水放在這,它有可能會倒下去嗎?這種預測問題也是對物理世界的了解。我們在討論機器人的時候,它也要了解手臂需要出多少力去夾,而不會將水瓶夾破。這看起來很容易,但如果寶特瓶太薄,機器手臂就會夾破。它要知道這是什麼,需要出多少力,要用哪些角度才拿得起來。

光是這樣,它就要有對空間的理解,還要知道應該如何計畫與執行,像你剛剛差點打翻咖啡,機器人也要知道,若碰倒水瓶以後應該怎麼扶正。如果是人類撞倒水瓶,根本不用思考就知道倒了,但是機器人要怎麼捕捉到這件事情?這都是要克服的挑戰。

以前會分成很多支程式,辨識它是什麼、捕捉它的傾斜角度、計算怎麼將它扶正、確保扶正以後能夠平衡,中間還要規劃好幾個動作,這些都是系統二的處理,經過思考決定怎麼將水瓶扶好,現在我們給它單一指令就能夠完成。

這件事有意思的地方在於,以前機器人的能力還沒匯整(converge)到單一模型的時候,每個功能都是分開執行。現在,我們從以前分而治之(divide and conquer)轉變到現在組合(compose)、匯整在一起。

機器人的手臂怎麼動、視覺怎麼看,全部都整合在同一個模組裡。只要下一個指令,機器人就可以直接把水瓶扶起來。

(文章未完,請見下篇:Google紀懷新:AI從被動變主動,超越搜尋和推薦

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務