Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

李飛飛AI創業?空間智能將引領「數位寒武紀」大爆發?

邱莉燕
user

邱莉燕

2024-05-20

瀏覽數 4,050+

李飛飛說,視覺變成了洞察力。看見變成了理解。理解導致了行動。所有這些都催生了智慧。取自blog.ted
李飛飛說,視覺變成了洞察力。看見變成了理解。理解導致了行動。所有這些都催生了智慧。取自blog.ted
00:00
00:00

AI界巨擘李飛飛再度引領風潮,TED一場15分鐘演講,揭密「空間智能」的全新概念。這項創新科技結合了空間感知技術,或將開啟全新的人機協作、智慧生活時代。

眼尖的人會發現,AI界的傳奇人物李飛飛,向任職的美國史丹佛大學請了兩年的學術假,再根據《路透社》獨家批露,這位名列《時代雜誌》「最重要AI 100人」的華裔女性:「正在創建一家新創公司。」

李飛飛跨足商界,或許不令人意外,她曾在2017年1月至2018年9月,出任Google副總裁,並兼任Google Cloud人工智慧暨機器學習首席科學家,領導Google的人工智慧業務。

她也曾在 Twitter (現名X)董事會任職,直至該公司被馬斯克(Elon Musk)收購。早年因開發全球最大的影像識別資料庫「ImageNet」而聲名大噪,奠定崇高學術地位後,多次為政策制訂者提供建議,其中包括美國總統拜登(Joe Biden)。

AI界的傳奇人物李飛飛(中),向任職的美國史丹佛大學請了兩年的學術假。圖為李飛飛和她的兩位博士學生。取自X@drfeifei

AI界的傳奇人物李飛飛(中),向任職的美國史丹佛大學請了兩年的學術假。圖為李飛飛和她的兩位博士學生。取自X@drfeifei

李飛飛對成立新創團隊高度保密

令人意外的是,這家傳言中的新創公司,名字和具體業務被保密到家。多家國際媒體表示在向李飛飛和史丹佛大學求證的過程中,皆「未獲得回音。」傳言中這家新創公司的投資人、矽谷創投公司 Andreessen Horowitz,以及李飛飛先前公開宣布加入的加拿大創投公司 Radical Ventures,亦對此事不予置評。

倒是李飛飛在2024年5月16日於個人X發布的TED演講,被外界解讀為她的創業方向:空間智能(spatial intelligence),或將成為指引她人生路途的下一個北極星。《路透社》推斷,空間智能是一種視覺數據處理技術,使AI能夠進行高級推理。

「空間智能是AI拼圖的關鍵部分。這是我在2024年TED上的演講,主題是從演化到AI的旅程,以及我們如何建構空間智能。『視覺變成洞察力,看見變成理解,理解導致行動。所有這些都產生了智慧。』」短短幾行字的貼文,就在3天內獲得了30萬次的瀏覽量。

李飛飛短短幾行字的貼文,就在3天內獲得了30萬次的瀏覽量。

李飛飛在最新15分鐘的TED演講中,身穿黑白撞色洋裝,以一貫幽默知性的口吻,說明「憑藉空間智能,AI將了解現實世界」。

到底,空間智能到底是什麼?又將有何種商業化應用?

簡單來說,空間智能,是電腦理解3D世界並與之互動的關鍵,正在催化機器人「能做得更好」的新浪潮。在李飛飛的研究室裡,致力於訓練電腦和機器人如何在3D世界中自由行動。

李飛飛創業方向是「空間智能」?

另外,透過大型語言模型的輸入,李飛飛的團隊成功地展示了機械手臂能夠根據口頭指令,執行各種複雜任務的能力。無論是打開抽屜、拔掉電話線,還是製作一個能入口的三明治,這些機器手臂都能夠靈活應對,展示了它們強大的適應性和學習能力。

在醫療保健領域,空間智能的應用也逐漸改變著生活。

透過與史丹福醫學院和其他合作醫院的共同努力,李飛飛帶領團隊正在試驗一系列智慧感測器,這些感測器能夠監測臨床醫生的衛生習慣、跟蹤手術器械,甚至在病人面臨跌倒風險時提醒護理團隊。這些技術不僅提高了醫療護理的效率和準確性,更為患者帶來了更多的安全保障。

李飛飛認為,回顧歷史不難發現,空間智能的崛起,與生物進化史上的「寒武紀大爆發」有著驚人的相似之處。在寒武紀時期,生命形式的多樣性和複雜性經歷了前所未有的爆炸式增長。

而今,隨著空間智能的發展,人們也在見證一場數位思惟上的寒武紀大爆發。相較於未來的AI,「這一代人就像是寒武紀時期,看見第一道光的三葉蟲。」

假使空間智能繼續取得長足的進步,這場革命將釋放AI和機器人技術的全部潛力,創造出一個前所未有的新世界。

李飛飛在最新15分鐘的TED演講中,以一貫幽默知性的口吻,說明「憑藉空間智能,AI將了解現實世界」。截圖自李飛飛TED Talk影片

李飛飛在最新15分鐘的TED演講中,以一貫幽默知性的口吻,說明「憑藉空間智能,AI將了解現實世界」。截圖自李飛飛TED Talk影片

以下是李飛飛演講內容精華摘要(搭配演講展示):

「這是5.4億年前的世界。純粹、無盡的黑暗。它之所以黑暗,並不是因為缺少光線。它之所以黑暗,是因為缺少視覺。儘管陽光能夠穿透海洋表面下1000米,來自海底熱泉噴口的光線也能滲透到海底,充滿了生命的海底,但這些古老的水域中找不到一隻眼睛。

沒有視網膜,沒有角膜,沒有晶狀體。所以所有這些光線,所有這些生命,都未被看見。曾經有一段時間,「看到」的概念還不存在。它一度從未被實現過,直到它被實現了。

出於某種原因我們才開始理解,能夠感知光線的第一批生物——三葉蟲出現了。它們是最早一批能夠感知我們習以為常的現實的生物。它們是最早一批發現除了自己之外還有其他事物存在的生物。世界第一次充滿眾多「自我」。

視覺能力被認為引發了寒武紀大爆發,一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的行為,很快變得更加主動,神經系統開始進化。

視覺變成了洞察力。看見變成了理解。理解導致了行動。所有這些都催生了智慧。

今天,我們不再滿足於自然界賦予的視覺能力。好奇心驅使我們創造機器,希望它們的視覺能力至少和我們一樣,甚至更好。

九年前,在這個舞台上,我提交了一份關於電腦視覺的早期進展報告。當時,三個強大的力量首次彙聚在一起:一類稱為神經網路的演算法,稱為圖形處理單元或GPU的快速且專用的硬體,再加上大數據,像是我的實驗室花數年時間整理的1500萬張圖像「ImageNet」,它們共同迎來了現代AI時代。

從那時起到現在,我們已經走了相當遠。最開始,僅僅給圖像貼上標籤就是一個重大突破,但演算法的速度和準確性迅速提高。由我的實驗室主辦的年度ImageNet挑戰賽衡量了這一進展。

我們更進一步,創建了能夠分割視覺物體,或預測它們之間動態關係的演算法,這些工作是由我的學生和合作者完成的。

回想上次演講我展示的第一個電腦視覺演算法,AI可以用人類的自然語言描述一張照片。那是我和聰明的學生Andrej Karpathy一起完成的工作。當時,我大膽地說:「Andrej,我們能讓電腦做相反的事情嗎?」Andrej笑著說說:「哈哈,那是不可能的。」

正如您今天看到的,不可能已經變得可能。這要歸功於一系列擴散模型,為當今的生成式AI演算法提供動力,可以將人類的提示詞轉化為照片和影片,創造出全新的事物。

Sora未出現前,李飛飛已引領團隊開發Walt

許多人已經看到了OpenAI的Sora,最近取得了令人印象深刻的成果。不過,早在幾個月前,在沒有大量GPU的情況下,我的學生和合作者們就開發出了一個名為Walt的AI影片生成模型。

遠見陪你智慧行,閱讀有禮送好箱

名為Walt的AI影片生成模型。截取自李飛飛TED Talk影片

名為Walt的AI影片生成模型。截取自李飛飛TED Talk影片

過去是一個楔子,我們將從這些錯誤中學習,並創造一個我們想像中的未來。在這個未來,我們希望AI盡其所能地為我們做事,或幫助我們做事。

多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補充一點:僅僅看是不夠的。看,是為了行動和學習。

當我們在3D時空中採取行動時,我們學習,我們學會更好地看,更好地做事。大自然通過「空間智能」創造了一個看和行動的良性循環。

為了展示空間智能是什麼,請看這張照片。如果你有想要做點什麼的衝動,就舉起手。在一刹那,你的大腦觀察了這個杯子的幾何形狀,它在3D空間中的位置,它與桌子、貓和所有其他物體的關係,而且你可以預測接下來會發生什麼。

行動的衝動,所有具有空間智能的生物皆有,它將感知與行動聯繫起來。如果我們想讓AI超越當前能力,我們不僅想要能夠看到和說話的AI,還想要能夠行動的AI。

事實上,我們正在取得令人興奮的進展。空間智能的最新里程碑是教電腦看到、學習、行動,並學習看到和行動得更好。

而這並不容易。大自然花費了數百萬年時間進化出空間智能,眼睛捕捉光線,將2D圖像投射到視網膜上,大腦將這些資料轉換成3D資訊。

直到最近,一群來自Google的研究人員才開發出一種演算法,將一組照片轉換成3D空間。

我的學生和合作者們更進一步,創建了一個將單個圖像變成3D形狀的演算法。密西根大學的一組研究人員則找到了一種方法,將句子轉換成3D房間布局。

我在史丹福大學的同事和他的學生們開發了一種演算法,可以從單個圖像生成無限可能的空間,供觀眾探索。

從單個圖像生成無限可能的空間。截取自李飛飛TED Talk影片

從單個圖像生成無限可能的空間。截取自李飛飛TED Talk影片

這些就是未來可能性的原型。在這個可能性中,人類可以將我們的整個世界轉化為數位形式,並模擬其中豐富和細微之處。大自然在我們每個人的頭腦中隱性地做了什麼,空間智能技術有望能為我們的集體意識做同樣的事情。

隨著空間智能的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這種循環正在催化機器人學習,這是任何「需要理解」和「與3D世界互動」的智慧系統的關鍵組成部分。

十年前,我的實驗室的ImageNet,使數百萬張高品質照片的資料庫成為可能,訓練了電腦視覺。今天,我們正在做類似的事情,訓練電腦和機器人如何在3D世界中行動。這次我們不是收集靜態圖像,而是開發由3D空間模型驅動的類比環境,以便電腦可以學習行動的無限可能性。

你剛剛看到的是教導我們的機器人的一小部分例子,這是一個由我的實驗室領導的項目,稱為「Behavior」。

我們也在機器人語言智慧方面取得了令人興奮的進展。使用基於大型語言模型的輸入,我的學生以及合作者,是第一批展示機械手臂可以根據口頭指令執行各種任務的團隊之一。

比如打開這個抽屜,或拔掉電話線,或者製作三明治,拿取麵包、生菜、番茄,甚至為使用者放一張餐巾紙。通常情況下,我希望三明治更豐富一些,但這是一個好的起點。

機械手臂可以根據口頭指令執行各種任務。截取自李飛飛TED Talk影片

機械手臂可以根據口頭指令執行各種任務。截取自李飛飛TED Talk影片

在古老時代的原始海洋中,能夠看到和感知環境的能力引發了與其他生命形式互動的寒武紀大爆發。

今天,那道光正在達到數字思惟。

空間智能也能為智慧醫療帶來新機會

空間智能不僅允許機器與彼此互動,而且還能與人類,以及真實或虛擬的3D世界互動。隨著這個未來成形,它將對許多生命產生深遠的影響。

讓我們以醫療保健為例。在過去的十年中,我的實驗室一直在做初步努力,將AI應用於解決影響患者病況和醫療人員疲勞的挑戰。

與史丹福醫學院的合作者和其他醫院一起合作,我們正在試驗一些智慧感測器,可以檢測到臨床醫生是否在沒有正確洗手的情況下進入病人房間。或是跟蹤手術器械,或在病人身體面臨風險如跌倒時,提醒護理團隊。我們認為這些技術是一種環境智能,就像額外的眼睛。

但我更希望為我們的患者、臨床醫生和護理人員提供更多的互動説明,他們迫切需要額外的一雙手。

想像一下,一個自主機器人在護理人員專注于病人的同時運輸醫療用品,或者用AR(增強現實技術),引導外科醫生進行更安全、更快、更少侵入性的操作。

再想像一下,嚴重癱瘓的病人可以用他們的思想控制機器人。沒錯,用腦電波來執行你和我習以為常的日常事務。

這是最近我的實驗室進行的一項研究。在這個影片中,機器手臂僅通過大腦電波信號控制,就能料理一頓日本壽喜燒。其中,信號是通過EEG非侵入性地進行收集。

機器手臂僅通過大腦電波信號控制,就能料理一頓日本壽喜燒。截取自李飛飛TED Talk影片

機器手臂僅通過大腦電波信號控制,就能料理一頓日本壽喜燒。截取自李飛飛TED Talk影片

5億年前,視覺的出現顛覆了黑暗的世界,引發了最深刻的進化過程:動物世界的智慧發展。

過去十年AI的進步同樣令人驚歎。但我相信,直到我們為電腦和機器人賦予空間智能,就像大自然對我們所有人所做的那樣,這場數位時代寒武紀大爆發的全部潛力才會完全展現。

這是一個激動人心的時刻,教我們的數位伙伴學會推理,和與我們稱之為家的的美麗3D空間互動,同時也創造更多可以探索的新世界。

實現這一未來並不容易,它要求我們所有人深思熟慮,開發始終「以人為本」的技術。

但如果我們做得好,由空間智能驅動的電腦和機器人不僅會成為有用的工具,還會成為值得信賴的伙伴,在尊重個人尊嚴的同時,提高我們的生產力、強化我們的人性,提升人類的集體福祉。

所有未來中令我最興奮的,是一個AI變得更有感知、有洞察和空間意識,並與我們一道追求創造更好世界的方法。」

延伸閱讀

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務