李飛飛AI創業？空間智能將引領「數位寒武紀」大爆發？

AI界巨擘李飛飛再度引領風潮，TED一場15分鐘演講，揭密「空間智能」的全新概念。這項創新科技結合了空間感知技術，或將開啟全新的人機協作、智慧生活時代。

眼尖的人會發現，AI界的傳奇人物李飛飛，向任職的美國史丹佛大學請了兩年的學術假，再根據《路透社》獨家批露，這位名列《時代雜誌》「最重要AI 100人」的華裔女性：「正在創建一家新創公司。」

李飛飛跨足商界，或許不令人意外，她曾在2017年1月至2018年9月，出任Google副總裁，並兼任Google Cloud人工智慧暨機器學習首席科學家，領導Google的人工智慧業務。

她也曾在 Twitter （現名X）董事會任職，直至該公司被馬斯克（Elon Musk）收購。早年因開發全球最大的影像識別資料庫「ImageNet」而聲名大噪，奠定崇高學術地位後，多次為政策制訂者提供建議，其中包括美國總統拜登（Joe Biden）。

AI界的傳奇人物李飛飛（中），向任職的美國史丹佛大學請了兩年的學術假。圖為李飛飛和她的兩位博士學生。取自X@drfeifei

李飛飛對成立新創團隊高度保密

令人意外的是，這家傳言中的新創公司，名字和具體業務被保密到家。多家國際媒體表示在向李飛飛和史丹佛大學求證的過程中，皆「未獲得回音。」傳言中這家新創公司的投資人、矽谷創投公司 Andreessen Horowitz，以及李飛飛先前公開宣布加入的加拿大創投公司 Radical Ventures，亦對此事不予置評。

倒是李飛飛在2024年5月16日於個人X發布的TED演講，被外界解讀為她的創業方向：空間智能（spatial intelligence），或將成為指引她人生路途的下一個北極星。《路透社》推斷，空間智能是一種視覺數據處理技術，使AI能夠進行高級推理。

「空間智能是AI拼圖的關鍵部分。這是我在2024年TED上的演講，主題是從演化到AI的旅程，以及我們如何建構空間智能。『視覺變成洞察力，看見變成理解，理解導致行動。所有這些都產生了智慧。』」短短幾行字的貼文，就在3天內獲得了30萬次的瀏覽量。

Spatial Intelligence is a critical piece of the AI puzzle. This is my 2024 TED talk about the journey from evolution to AI, on how we build Spatial Intelligence. "Sight turned into insight; Seeing became understanding; Understanding led to action. All these gave rise to…
— Fei-Fei Li (@drfeifei) May 15, 2024

李飛飛短短幾行字的貼文，就在3天內獲得了30萬次的瀏覽量。

李飛飛在最新15分鐘的TED演講中，身穿黑白撞色洋裝，以一貫幽默知性的口吻，說明「憑藉空間智能，AI將了解現實世界」。

到底，空間智能到底是什麼？又將有何種商業化應用？

簡單來說，空間智能，是電腦理解3D世界並與之互動的關鍵，正在催化機器人「能做得更好」的新浪潮。在李飛飛的研究室裡，致力於訓練電腦和機器人如何在3D世界中自由行動。

李飛飛創業方向是「空間智能」？

另外，透過大型語言模型的輸入，李飛飛的團隊成功地展示了機械手臂能夠根據口頭指令，執行各種複雜任務的能力。無論是打開抽屜、拔掉電話線，還是製作一個能入口的三明治，這些機器手臂都能夠靈活應對，展示了它們強大的適應性和學習能力。

在醫療保健領域，空間智能的應用也逐漸改變著生活。

透過與史丹福醫學院和其他合作醫院的共同努力，李飛飛帶領團隊正在試驗一系列智慧感測器，這些感測器能夠監測臨床醫生的衛生習慣、跟蹤手術器械，甚至在病人面臨跌倒風險時提醒護理團隊。這些技術不僅提高了醫療護理的效率和準確性，更為患者帶來了更多的安全保障。

李飛飛認為，回顧歷史不難發現，空間智能的崛起，與生物進化史上的「寒武紀大爆發」有著驚人的相似之處。在寒武紀時期，生命形式的多樣性和複雜性經歷了前所未有的爆炸式增長。

而今，隨著空間智能的發展，人們也在見證一場數位思惟上的寒武紀大爆發。相較於未來的AI，「這一代人就像是寒武紀時期，看見第一道光的三葉蟲。」

假使空間智能繼續取得長足的進步，這場革命將釋放AI和機器人技術的全部潛力，創造出一個前所未有的新世界。

李飛飛在最新15分鐘的TED演講中，以一貫幽默知性的口吻，說明「憑藉空間智能，AI將了解現實世界」。截圖自李飛飛TED Talk影片

以下是李飛飛演講內容精華摘要（搭配演講展示）：

「這是5.4億年前的世界。純粹、無盡的黑暗。它之所以黑暗，並不是因為缺少光線。它之所以黑暗，是因為缺少視覺。儘管陽光能夠穿透海洋表面下1000米，來自海底熱泉噴口的光線也能滲透到海底，充滿了生命的海底，但這些古老的水域中找不到一隻眼睛。

SpaceX 上市話題延燒，太空經濟成為全球焦點。訂閱《遠見》雜誌 3 個月，即可從《鋼鐵人馬斯克》與《太空商業時代》中選 1 本好書，從人物思維到未來商業版圖，讀懂這波科技變局，限時方案價 $612

沒有視網膜，沒有角膜，沒有晶狀體。所以所有這些光線，所有這些生命，都未被看見。曾經有一段時間，「看到」的概念還不存在。它一度從未被實現過，直到它被實現了。

出於某種原因我們才開始理解，能夠感知光線的第一批生物——三葉蟲出現了。它們是最早一批能夠感知我們習以為常的現實的生物。它們是最早一批發現除了自己之外還有其他事物存在的生物。世界第一次充滿眾多「自我」。

視覺能力被認為引發了寒武紀大爆發，一個動物物種大量進入化石記錄的時期。最初是被動體驗，簡單讓光線進入的行為，很快變得更加主動，神經系統開始進化。

視覺變成了洞察力。看見變成了理解。理解導致了行動。所有這些都催生了智慧。

今天，我們不再滿足於自然界賦予的視覺能力。好奇心驅使我們創造機器，希望它們的視覺能力至少和我們一樣，甚至更好。

九年前，在這個舞台上，我提交了一份關於電腦視覺的早期進展報告。當時，三個強大的力量首次彙聚在一起：一類稱為神經網路的演算法，稱為圖形處理單元或GPU的快速且專用的硬體，再加上大數據，像是我的實驗室花數年時間整理的1500萬張圖像「ImageNet」，它們共同迎來了現代AI時代。

從那時起到現在，我們已經走了相當遠。最開始，僅僅給圖像貼上標籤就是一個重大突破，但演算法的速度和準確性迅速提高。由我的實驗室主辦的年度ImageNet挑戰賽衡量了這一進展。

我們更進一步，創建了能夠分割視覺物體，或預測它們之間動態關係的演算法，這些工作是由我的學生和合作者完成的。

回想上次演講我展示的第一個電腦視覺演算法，AI可以用人類的自然語言描述一張照片。那是我和聰明的學生Andrej Karpathy一起完成的工作。當時，我大膽地說：「Andrej，我們能讓電腦做相反的事情嗎？」Andrej笑著說說：「哈哈，那是不可能的。」

正如您今天看到的，不可能已經變得可能。這要歸功於一系列擴散模型，為當今的生成式AI演算法提供動力，可以將人類的提示詞轉化為照片和影片，創造出全新的事物。

Sora未出現前，李飛飛已引領團隊開發Walt

許多人已經看到了OpenAI的Sora，最近取得了令人印象深刻的成果。不過，早在幾個月前，在沒有大量GPU的情況下，我的學生和合作者們就開發出了一個名為Walt的AI影片生成模型。

名為Walt的AI影片生成模型。截取自李飛飛TED Talk影片

過去是一個楔子，我們將從這些錯誤中學習，並創造一個我們想像中的未來。在這個未來，我們希望AI盡其所能地為我們做事，或幫助我們做事。

多年來，我一直在說拍照和看到和理解不是一回事。今天，我想再補充一點：僅僅看是不夠的。看，是為了行動和學習。

當我們在3D時空中採取行動時，我們學習，我們學會更好地看，更好地做事。大自然通過「空間智能」創造了一個看和行動的良性循環。

為了展示空間智能是什麼，請看這張照片。如果你有想要做點什麼的衝動，就舉起手。在一刹那，你的大腦觀察了這個杯子的幾何形狀，它在3D空間中的位置，它與桌子、貓和所有其他物體的關係，而且你可以預測接下來會發生什麼。

行動的衝動，所有具有空間智能的生物皆有，它將感知與行動聯繫起來。如果我們想讓AI超越當前能力，我們不僅想要能夠看到和說話的AI，還想要能夠行動的AI。

事實上，我們正在取得令人興奮的進展。空間智能的最新里程碑是教電腦看到、學習、行動，並學習看到和行動得更好。

而這並不容易。大自然花費了數百萬年時間進化出空間智能，眼睛捕捉光線，將2D圖像投射到視網膜上，大腦將這些資料轉換成3D資訊。

直到最近，一群來自Google的研究人員才開發出一種演算法，將一組照片轉換成3D空間。

我的學生和合作者們更進一步，創建了一個將單個圖像變成3D形狀的演算法。密西根大學的一組研究人員則找到了一種方法，將句子轉換成3D房間布局。

我在史丹福大學的同事和他的學生們開發了一種演算法，可以從單個圖像生成無限可能的空間，供觀眾探索。

從單個圖像生成無限可能的空間。截取自李飛飛TED Talk影片

這些就是未來可能性的原型。在這個可能性中，人類可以將我們的整個世界轉化為數位形式，並模擬其中豐富和細微之處。大自然在我們每個人的頭腦中隱性地做了什麼，空間智能技術有望能為我們的集體意識做同樣的事情。

隨著空間智能的加速進步，一個新時代在這個良性循環中正在我們眼前展開。這種循環正在催化機器人學習，這是任何「需要理解」和「與3D世界互動」的智慧系統的關鍵組成部分。

十年前，我的實驗室的ImageNet，使數百萬張高品質照片的資料庫成為可能，訓練了電腦視覺。今天，我們正在做類似的事情，訓練電腦和機器人如何在3D世界中行動。這次我們不是收集靜態圖像，而是開發由3D空間模型驅動的類比環境，以便電腦可以學習行動的無限可能性。

你剛剛看到的是教導我們的機器人的一小部分例子，這是一個由我的實驗室領導的項目，稱為「Behavior」。

One year ago, we first introduced BEHAVIOR-1K, which we hope will be an important step towards human-centered robotics. After our year-long beta, we’re thrilled to announce its full release, which our team just presented at NVIDIA #GTC2024. 1/n pic.twitter.com/z313Wwvrzr
— Fei-Fei Li (@drfeifei) March 22, 2024