從視覺邁向智慧：李飛飛呼籲AI監管框架跟上科技進展

在巴黎AI行動峰會上，「AI教母」李飛飛呼籲及早為人工智慧建立治理框架。在鼓勵創新與監管應用之間，政策平衡點何在？創立「World Labs」打造空間智慧的李飛飛，為何相信前行之路必須從大語言模型轉向「大世界模型」？

打造「ImageNet」、推動深度學習革命的電腦科學家李飛飛，在第一線見證了人工智慧的迅猛發展速度。在2月於巴黎舉辦的AI行動峰會上，她於開幕致詞中呼籲，一個整體性的治理框架必須跟上技術進展的腳步。

如何在法規監管與科學創新中尋求平衡，是AI治理的核心議題。對此，李飛飛提出三大基本原則：實證、協作與人本價值。

李飛飛主張，監管應採取務實進路。政策應是準確、可行的，而非受到聳動辯論的誤導。她表示，「治理應基於科學，而非科幻。」目前的AI在某些任務上展現強大能力，但遠非具有意識、意圖或自由意志的智慧體。

她口中的務實，也包括不過度箝制研究與創新。李飛飛認為，人工智慧還處於發展初期，應扶植創新、但防止濫用。例如，AI輔助醫療診斷可以帶來龐大效益，但應盡可能排除偏見影響。

李飛飛亦呼籲為開源社群及學界擴大取得模型與算力等資源。學界擁有高品質的教育培訓能力，企業也才有足以貢獻所長的人才來源。

在支持開放生態系、避免抑制創新上，李飛飛看法與史丹佛大學同事吳恩達（Andrew Ng）教授雷同。吳恩達認為，監管應聚焦在應用階段，也就是針對用例建立規範，而非對基礎模型開發加諸過度限制。

吳恩達認為，監管應聚焦在應用階段，也就是針對用例建立規範，而非對基礎模型開發加諸過度限制。張智傑攝

從語言能力邁向「空間智慧」

自神經網路模型「AlexNet」在李飛飛主籌的大規模視覺辨識競賽中奪冠，促成深度學習加速發展以來，已度過13個年頭。這段時間，電腦視覺大有進步，並轉向影像及影片生成。

在2024年創立「World Labs」的李飛飛認為，電腦接下來必須從「觀看」進展到「行動」。銜接這兩大能力的關鍵，她稱為「空間智慧」（spatial intelligence）。（延伸閱讀：李飛飛AI創業？空間智能將引領「數位寒武紀」大爆發？）

顧名思義，空間智慧是AI系統能夠掌握立體世界的智慧。擁有空間智慧的機器，可以感知、理解環境，對空間與其中的事物進行推理，並與世界互動。

近年驅動生成式AI熱潮的技術，多以模仿人類語言能力的大語言模型為基礎。但李飛飛認為，視覺能力在人類理解世界的過程中，扮演更基礎的角色。

「沒有人教導兒童要如何觀看。」她在《經濟學人》寫道，「兒童透過經驗與例證理解世界。」

視覺能力與智慧能力的演化關聯性，受牛津大學動物學家派克（Andrew Parker）的「光開關理論」（light switch theory）啟發。派克認為，視覺的出現，可能是觸發寒武紀大爆發（Cambrian Explosion）的「開關」。這是地球生命史上，多細胞生物物種快速增長的一段爆發性時期。

當生物可以透過視覺能力，從環境中取得更多資訊，也隨之演化出更強的智慧能力。李飛飛認為，人工智慧也正經歷演化大爆發的階段，「我們需要從大語言模型轉移到大世界模型（large world models）。」

We’ve been busy building an AI system to generate 3D worlds from a single image. Check out some early results on our site, where you can interact with our scenes directly in the browser!https://t.co/ASD6ZHMwxI

1/n pic.twitter.com/tuvGXHmepP
— World Labs (@theworldlabs) December 2, 2024

李飛飛2024年創立「World Labs」，她認為，電腦接下來必須從「觀看」進展到「行動」。

世界模型是AI界的「下一件大事」？

世界模型也稱為世界模擬器，其概念源自人類對世界發展出的一種心智模型。透過感官獲取關於世界的資訊，人腦產生對世界的抽象再現，並形成對世界更具體的理解。透過世界模型，人類也得以對世界狀態進行預測。

以球類運動為例，球員並沒有真正看見球移動的位置，而是在極短的時間內預測球將會抵達的位置，來進行回擊。我們可以說，擊球極度準確的球員，腦中的世界模型擁有高度準確的預測力。

在Sora等影片生成模型的早期輸出中，有時移動的物件會消失、或是融入進背景中。這顯示這些AI系統對立體世界的掌握度不足，沒有真正的理解能力。

李飛飛認為，需要透過空間智慧，打造出可以理解並做出行動的大世界模型。現實世界是立體的，且遠比語言文字更加複雜。要解鎖更加進階的機器智慧，實現更無縫的人機協作，包括正受到熱議的「AI代理」，大世界模型會是充滿希望的一步。

Meta首席AI科學家楊立昆（Yann LeCun）亦重視世界模型，勝過大語言模型。但比起將重點放在電腦視覺、3D模擬能力的李飛飛，楊立昆更重視自學習監督（SSL）與複雜規劃、預測的能力。（延伸閱讀：Meta「PARTNR」加速機器人到你家，下波AI革命將啟動？）

暑期旅遊必備｜訂遠見兩年送雙行李箱！25吋＋20吋一次到手，總價值16,760元現在僅需$4,980>>

不過，兩者長遠的目標都是打造出更接近人類智慧水平的AI系統。尤其是更加理解世界常識、具有與世界互動能力的人工智慧。

World Labs估值十億美元，從2D邁向3D

「World Labs」在短短幾個月內就成功融資2.3億美元，估值突破十億美元。2024年底，World Labs宣布「邁向空間智慧的第一步」，發表了可以從單一影像生成3D世界的AI系統。生成的世界具穩定性，且符合基本的幾何與物理規則。

目前，這套系統已提供給創意工作者進行實驗。World Labs希望能在2025年推出第一個產品。其核心技術，預計將對遊戲、電影與設計等產業帶來最直接的影響。

打造大世界模型的一大挑戰，依然是龐大算力與資料的需求。目前也仍難以阻絕幻覺、偏見的風險。

但李飛飛相信，賦予機器「空間智慧」，將能啟動無數應用。從家居、照護到醫療（人體也是立體空間），以及結合現實與虛擬的擴增實境。人類與機器的協作關係，將前進到前所未見的境地。