訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

遠見39週年 遠見39週年 訂兩年送一年、訂一年送半年 再送暢銷好書

「沒有空間智慧,人工智慧就不完整」AI教母李飛飛的大世界模型是什麼?

傅莞淇
user

傅莞淇

2025-06-11

瀏覽數 4,250+

有「AI教母」之稱的李飛飛(中),正透過新創公司「World Labs」推進「大型世界模型」的願景。截圖自YouTube@a16z
有「AI教母」之稱的李飛飛(中),正透過新創公司「World Labs」推進「大型世界模型」的願景。截圖自YouTube@a16z

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

想打造「實體AI」,就得讓人工智慧(AI)掌握空間智慧。有「AI教母」之稱的李飛飛,正透過新創公司「World Labs」推進「大型世界模型」的願景。為何她相信空間智慧是補完人工智慧能力的關鍵拼圖?這樣的世界模型初期應用何在?AI的物理轉向,能啟動比大語言模型更廣泛的影響力嗎?

大語言模型(LLM)的發展,以自然語言為溝通基礎,根本性地改變了人與電腦互動的方式。新一波「實體AI」的願景,則想重新定義機器與物理世界互動的方式。

2024年成立新創公司「World Labs」的史丹佛大學教授李飛飛,近日接受a16z及No Priors播客專訪,分享團隊正在打造的「大型世界模型」(LWM)的願景。她指出,空間智慧在演化中扮演要角,動物及人類都擁有這樣的智慧,「沒有空間智慧,人工智慧就不完整。」

李飛飛已在人工智慧領域耕耘數十年,在電腦視覺領域有關鍵貢獻。尤其是透過打造「ImageNet」這個大規模的圖像資料庫,證明了數據在AI研發中的重要性。她也曾任Twitter董事會獨立成員、Google Cloud AI/ML首席科學家。

從視覺轉向空間智慧,是李飛飛研發生涯的自然一步。她解釋,自己長年研究視覺能力,「不需要LLM的出現,來說服我LWM是重要的。」但LLM的突破與進展,「確實讓我們感到距離LWM更近一步。」

在演化過程中,生物演化出眼睛這樣的器官接收光線,開始以視覺認識自己身處的世界,並逐漸對外在環境產生理解、推理並與之互動的能力,也就是更強大的智慧能力,可稱為「空間智慧」。透過經驗,生物對世界的物理原則有所理解,能夠在世界中導航、行動。這也是現前的AI還無法完整掌握的能力。

目前,大語言模型等AI模型展現的語言能力縱然令人印象深刻,但語言能力只是人類智慧的一個部分。就次序來說,在發展出語言能力之前,人類就已經透過空間智慧與實體世界互動,例如閃避障礙物、接住拋擲的物件等。

李飛飛解釋,語言適合傳遞思想與資訊,但對於人類所在的立體物理世界來說,語言不是最適合的編碼方式。從DNA螺旋結構到蛋白質折疊,語言不足以完整捕捉所有的實體事物結構。她表示,「語言並不存在(自然)世界中,而是被生成出來的。」

人工智慧的快速進展,讓科學家們更加大膽地追求過往看似遙遠的目標。李飛飛認為,AI已大致能掌握語言能力。她決定自己投入研發,解決「空間智慧」這個難題。

掌握空間智慧,才能開啟多元實體應用

World Labs在成立幾個月間,便成功融資2.3億美元。投資方包括Andreessen Horowitz、NEA、Radical Ventures,以及諸多業界知名人士,如貝尼奧夫(Marc Benioff)、施密特(Eric Schmidt)、辛頓(Geoffrey Hinton)、霍夫曼(Reid Hoffman)與卡帕西(Andrej Karpathy)等人。

對李飛飛來說,空間智慧不只是能夠認識外在世界,也包括能在腦中重建、理解這個立體世界,也才能規劃自己在世界中的行動。即使是人類,也需要訓練才能掌握這種能力。例如,要能閉上眼睛、在腦中精準重構遠方所見的建築物形狀及體量,可能只有建築師能做得精準。

打造空間智慧的難度相當高,可從自駕車的研發見得。科學家已在此領域耕耘將近20年,仍未開發出足夠理想的系統。但若要在物理世界中真正釋放人工智慧的潛能,空間智慧是必須克服的挑戰。也因此,若能打造出足夠完整的空間智慧,有望對實體世界帶來比LLM更大的影響。

目前的多模態模型可以生成文字、影像與影片,但它們依然是平面的。而世界模型生成的是空間。這個空間裡的物件符合幾何、物理原理,使用者可以與之互動、進行創造。

World Labs便正在打造一個可以掌握空間智慧,生成立體世界的基礎模型,期望後續開啟各種多元應用。

世界模型訓練不易,細部控制、介面設計都是難題

目前,訓練世界模型有兩種主流進路。一種是以影片為基礎,類似於用過去的影像幀與使用者輸入,預測未來的影像幀,藉此讓模型習得一致性等物理性質。這種作法的優點是現存大量高品質的影片資料可用於訓練,但模型對空間互動的掌握度可能不及World Labs採用的進路,也就是用文字或影像指令生成原生的3D再現。

【遠見 x 未來親子】全家一起讀,孩子成長看得見:週年慶限定組再送這些>>

採用3D原生法,World Labs已經研發出從單幅影像生成3D環境的技術。但這種作法的一大挑戰,是高品質的3D資料數量相當有限,而且標記不易進行。李飛飛承認,即使我們每分每秒都活在立體世界中,立體資料很難形式化傳遞。

此外,諸如修改生成場景中的特定物件、動態性地調整天氣條件等控制問題,以及根據不同專業需求,將模型能力整合進入工作流程的介面問題,也都還是尚待解決之挑戰。

為此,從電腦視覺、擴散模型,到資料與機器學習基礎建設等領域,World Labs已召集一批多元專業背景人才,合作破解空間智慧。其中也包括共同研發了神經輻射場(NeRF)的米爾登霍爾(Ben Mildenhall)。NeRF是一種神經網路模型,可使用空間定位和立體渲染,從一系列的2D影像生成完整的3D場景。

創意工作者將是首波受益者,無限元宇宙是遠程願景

就初期應用來說,李飛飛認為世界模型將對創意工作者很有幫助。就像現在LLM大幅加速了程式設計師的工作效能,有了可生成3D空間的世界模型後,工業設計師、遊戲開發者、電影製作人與建築師等職業的工作流程都能更加簡易、快速。

例如,透過指令與影像,電影製作人就可創建虛擬場景測試氛圍感受,機器工程師可在虛擬醫院裡訓練照護機器人,城市規劃師也可模擬城市景觀與基礎設施。

中長期而言,機器人發展也將獲益良多。李飛飛直言,「我毫不懷疑,人類將會進入一個與機器(人)共存的時代。但不只是人型機器人,而是各種形式、形狀的機器。」

各種實體化的機器智慧,都需要具備空間智慧,才能與實體世界中的其他行為者互動、協作。李飛飛認為,機器人可能更是一個系統整合的挑戰,需要高度多模態的系統,包括現在較受到忽視的觸覺能力;這在精細操作上可能相當重要。

遠程展望,世界模型可望開啟全新體驗的可能性,打造出無限個可即時互動的虛擬世界,讓人類突破現實世界體驗的局限。有如《一級玩家》(Ready Player One)中的「綠洲」,每個人都能在虛擬世界中探索、創造自己獨特的故事。

李飛飛在訪談中表示,如果能做出這樣的世界模型,她會想進入引擎或洗碗機內部,親眼看見它們運作的過程。

AI賦能人類,創造者更能無懼追夢

自身也是創業者的李飛飛,給其他創業者及科學家的建議是:保持無所畏懼(fearless)的心態。她解釋,無懼是一種巧妙的心理狀態,介於瘋狂妄想與理智無畏之間。如果太過理智,就會缺少挑戰非常龐大問題的勇氣。但若太過瘋狂,也很難踩對步伐。

她認為,無懼的外顯特質是充滿創意、具有野心,不害怕不確定性與未知。這也是李飛飛成立World Labs,挑戰空間智慧這個龐大難題的心態。

AI能力突飛猛進,讓人類得以用更快、更簡易的方式執行既有任務,或甚至是做到過去做不到的事。跨越「被AI取代」的焦慮,這可能是最好的「無懼追夢」的時代。

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務