「沒有空間智慧，人工智慧就不完整」AI教母李飛飛的大世界模型是什麼？

想打造「實體AI」，就得讓人工智慧（AI）掌握空間智慧。有「AI教母」之稱的李飛飛，正透過新創公司「World Labs」推進「大型世界模型」的願景。為何她相信空間智慧是補完人工智慧能力的關鍵拼圖？這樣的世界模型初期應用何在？AI的物理轉向，能啟動比大語言模型更廣泛的影響力嗎？

大語言模型（LLM）的發展，以自然語言為溝通基礎，根本性地改變了人與電腦互動的方式。新一波「實體AI」的願景，則想重新定義機器與物理世界互動的方式。

2024年成立新創公司「World Labs」的史丹佛大學教授李飛飛，近日接受a16z及No Priors播客專訪，分享團隊正在打造的「大型世界模型」（LWM）的願景。她指出，空間智慧在演化中扮演要角，動物及人類都擁有這樣的智慧，「沒有空間智慧，人工智慧就不完整。」

李飛飛已在人工智慧領域耕耘數十年，在電腦視覺領域有關鍵貢獻。尤其是透過打造「ImageNet」這個大規模的圖像資料庫，證明了數據在AI研發中的重要性。她也曾任Twitter董事會獨立成員、Google Cloud AI/ML首席科學家。

從視覺轉向空間智慧，是李飛飛研發生涯的自然一步。她解釋，自己長年研究視覺能力，「不需要LLM的出現，來說服我LWM是重要的。」但LLM的突破與進展，「確實讓我們感到距離LWM更近一步。」

在演化過程中，生物演化出眼睛這樣的器官接收光線，開始以視覺認識自己身處的世界，並逐漸對外在環境產生理解、推理並與之互動的能力，也就是更強大的智慧能力，可稱為「空間智慧」。透過經驗，生物對世界的物理原則有所理解，能夠在世界中導航、行動。這也是現前的AI還無法完整掌握的能力。

目前，大語言模型等AI模型展現的語言能力縱然令人印象深刻，但語言能力只是人類智慧的一個部分。就次序來說，在發展出語言能力之前，人類就已經透過空間智慧與實體世界互動，例如閃避障礙物、接住拋擲的物件等。

李飛飛解釋，語言適合傳遞思想與資訊，但對於人類所在的立體物理世界來說，語言不是最適合的編碼方式。從DNA螺旋結構到蛋白質折疊，語言不足以完整捕捉所有的實體事物結構。她表示，「語言並不存在（自然）世界中，而是被生成出來的。」

人工智慧的快速進展，讓科學家們更加大膽地追求過往看似遙遠的目標。李飛飛認為，AI已大致能掌握語言能力。她決定自己投入研發，解決「空間智慧」這個難題。

掌握空間智慧，才能開啟多元實體應用

World Labs在成立幾個月間，便成功融資2.3億美元。投資方包括Andreessen Horowitz、NEA、Radical Ventures，以及諸多業界知名人士，如貝尼奧夫（Marc Benioff）、施密特（Eric Schmidt）、辛頓（Geoffrey Hinton）、霍夫曼（Reid Hoffman）與卡帕西（Andrej Karpathy）等人。

對李飛飛來說，空間智慧不只是能夠認識外在世界，也包括能在腦中重建、理解這個立體世界，也才能規劃自己在世界中的行動。即使是人類，也需要訓練才能掌握這種能力。例如，要能閉上眼睛、在腦中精準重構遠方所見的建築物形狀及體量，可能只有建築師能做得精準。

打造空間智慧的難度相當高，可從自駕車的研發見得。科學家已在此領域耕耘將近20年，仍未開發出足夠理想的系統。但若要在物理世界中真正釋放人工智慧的潛能，空間智慧是必須克服的挑戰。也因此，若能打造出足夠完整的空間智慧，有望對實體世界帶來比LLM更大的影響。

目前的多模態模型可以生成文字、影像與影片，但它們依然是平面的。而世界模型生成的是空間。這個空間裡的物件符合幾何、物理原理，使用者可以與之互動、進行創造。

World Labs便正在打造一個可以掌握空間智慧，生成立體世界的基礎模型，期望後續開啟各種多元應用。

世界模型訓練不易，細部控制、介面設計都是難題

目前，訓練世界模型有兩種主流進路。一種是以影片為基礎，類似於用過去的影像幀與使用者輸入，預測未來的影像幀，藉此讓模型習得一致性等物理性質。這種作法的優點是現存大量高品質的影片資料可用於訓練，但模型對空間互動的掌握度可能不及World Labs採用的進路，也就是用文字或影像指令生成原生的3D再現。

＼聖誕感恩回饋／結帳輸入【xmas100】全館訂閱方案立省$100！(優惠只到12/28)

採用3D原生法，World Labs已經研發出從單幅影像生成3D環境的技術。但這種作法的一大挑戰，是高品質的3D資料數量相當有限，而且標記不易進行。李飛飛承認，即使我們每分每秒都活在立體世界中，立體資料很難形式化傳遞。

此外，諸如修改生成場景中的特定物件、動態性地調整天氣條件等控制問題，以及根據不同專業需求，將模型能力整合進入工作流程的介面問題，也都還是尚待解決之挑戰。

為此，從電腦視覺、擴散模型，到資料與機器學習基礎建設等領域，World Labs已召集一批多元專業背景人才，合作破解空間智慧。其中也包括共同研發了神經輻射場（NeRF）的米爾登霍爾（Ben Mildenhall）。NeRF是一種神經網路模型，可使用空間定位和立體渲染，從一系列的2D影像生成完整的3D場景。