在將人工智慧「實體化」的努力中,從Google等科技巨頭,到Physical Intelligence等一批新創團隊,都在研發所謂的「機器人通用基礎模型」。其中的競逐者「Hillbot」身為模擬訓練先驅,正在穩步邁向目標。為何「硬體」可能是未來機器人打入大眾市場的門檻所在?機器人應用中的軟硬整合,有何新要求?
市場對AI機器人的興趣強勁。機器人的「ChatGPT時刻」已不是一個能否到來的問題,更是何時到來的預測。
在美國加州新創「Hillbot」執行長韓錚(Robin Han)眼中,這個問題具有更精準的紋理。在《遠見》專訪中,他指出,能力相當於GPT-3的機器人通用基礎模型應能在未來1~2年問世。往後持續改良,往3.5、4的等級邁進。
到時候,機器人的應用範圍將大幅拓廣。但擁有更先進智慧的機器人能否在大眾生活中落地,端視硬體能力是否跟上軟體進展。韓錚預期,這需要軟、硬體團隊高度協同合作,也將帶動硬體供應鏈重整。

機器人通用基礎模型究竟是什麼?Hillbot在此賽道上,又掌握什麼獨門優勢?
從基礎模型打造通用機器人,關鍵在模擬資料
Hillbot成立於2024年,公司目標是打造出「通用機器人」。其核心技術在於MANISKILL與SAPIEN等助力機器人學習技能的模擬平台,但從合成資料生成、基礎模型訓練到硬體整合皆有著墨,可謂是麻雀雖小、五臟俱全的全端團隊。
執行長韓錚是擁有成功出場經驗的連續創業家。在微軟亞洲研究院期間,他便打下深度學習、語音辨識等前沿領域的研究基礎,後於2010年創辦澤普互動(ZEPP),打造智慧運動穿戴設備。除了在軟硬整合有多年經驗,對自然語言處理、語音介面,以及AI代理亦有實務經驗,個人在AI領域擁有數十項專利。

公司技術長蘇昊師承「AI教母」李飛飛,曾參與電腦視覺關鍵計畫「ImageNet」,以及後續的ShapeNet、PointNet等一系列AI數據集,在機器視覺、立體操控領域耕耘已久。熱門獨角獸Physical Intelligence團隊中,亦有成員是蘇昊的博士生。
在Google可謂是啟動了機器人基礎模型的奠基性工作Robotics Transformer(RT)系列,以及機器人數據集Open X-Embodiment計畫中,Hillbot團隊都參與貢獻。(延伸閱讀:Google通用智慧揭密!人形機器人裝上通用大腦,不僅會擦桌子還能灌籃)
基礎模型可視為在大規模訓練資料集的基礎上,擁有一定程度的通用能力,可再透過特定資料進行微調,適應更細緻的下游任務。但這套邏輯無法輕易地複製到機器人領域,因為網際網路上並不存在龐大、多元且可以直接抓取的運動數據資料。
韓錚解釋,機器人數據問題,也是一個經濟性問題。在機器人真正「有用」之前,無法透過大規模的現實部署,取得足夠的訓練資料;但也正是因為缺乏真實的訓練資料,而難以訓練出「有用」的機器人。
以自駕車訓練為例,Tesla可以藉助大量已經上路的電動車,蒐集現實世界的駕駛資料。但目前並不存在大量已經在各種社會場景部署的機器人,來協助蒐集多元資料。再者,機器人與世界互動的方式比車輛來得複雜許多,訓練難度也更提升。
因而,Hillbot相信,即便現實數據有其重要價值,想打造機器人通用基礎模型,關鍵會在模擬資料。韓錚估計,合成資料在訓練資料集中的佔比,會超過99%。
結合模擬器與強化學習的核心進路,讓Hillbot比起其他強調遙控數據與模仿學習的機器人公司,更為接近輝達的機器人訓練配方。韓錚亦直言,公司與輝達可說是既合作、也競爭的關係。例如,Hillbot也是輝達Cosmos世界基礎模型的使用者,「但(輝達)沒有的,我們就動手自己寫。」

堆疊基礎技能,邁向「通用」之路
與訓練機器狗等關注「行動」能力的團隊相比,Hillbot的焦點較偏重在「操控」型的任務。在訓練平台上,Hillbot所定義的技能是較低層級的操控技巧,通常在1~5秒內可以完成,例如「抓取」、「放下」、「打開」等基礎行動。
韓錚描述,目標是「在不同的環境,能夠把世界上幾乎所有的物體抓起、放下或打開」。也就是必須達到夠高的泛用性,才算是掌握了這一種「技能」。先打好基礎技能的基礎,再結合思維鏈等技巧,來執行需時更久、內容更複雜的高階任務,這樣的路徑也仿似人類。
事實上,Hillbot的命名中,也含有「一步步地累積技能,有如攀上更高的山丘」的意涵。
打入大眾市場,需要穩固、可靠的專用硬體
雖表現尚不穩定,機器人通用基礎模型能力已展現出早期樂觀跡象。但要真正在現實世界中部署,硬體能否跟上軟體進展,是關鍵門檻。早自物聯網時期就開始打造AI硬體的韓錚指出,新一代AI機器人對硬體有全新要求,軟硬整合的挑戰也因此提升一個層次。
前沿AI模型賦予機器人全新能力與彈性,但市面上的現有硬體並非為新一代機器人量身打造,也不一定會是未來機器人所選用的零件。許多機器人新創已認清到這件事實,逐步從揀選現有硬體、微調現有硬體,朝向自己設計、生產專用硬體前進,Hillbot也不例外。
以控制器為例,以程式控制的工業機器手臂,與強化學習訓練出的AI機器人,所需要的控制器就不相同。前者在設定好行動策略後,便會依循執行。即使過程發生意料之外的變數,也無法動態調整。新一代AI模型則可以邊執行、邊調整控制策略。這表示控制器需要適配「閉環控制」的方法,能夠隨著感知、理解,不斷進行調整。
同時,這樣的動態調整能力對邊緣算力的需求形式尚不明確。支持複雜操控任務的小型馬達能力,也尚未到位。即使在虛擬環境中,機器人逐步學到了控制全身體的技巧,若現實世界的硬體不足以支持這些動作,也無法真正落地部署。
一個明顯的例子是現有硬體太容易損傷、撞壞。諸如靈巧手這樣昂貴又細緻的硬體,能不能變得更穩固、耐用,也是機器人進入大眾市場的關鍵指標。
軟、硬體人才需協同設計,才能找出新答案
韓錚認為,AI機器人發展正處於一個軟、硬體需要高度協同設計的關鍵時刻。或許類似於研發第一代iPhone的原型,有操作系統團隊、有硬體團隊,其中還包括需要研發全新的元件。
問題在於,AI團隊對硬體理解不深,而硬體團隊對AI的認識也不足。軟、硬體團隊因而需要密切溝通,不斷地協同調整,才能為新一代機器人找出全新的一套答案。過往也曾將軟體、產品團隊設在灣區,硬體團隊設在亞洲的韓錚承認,或許現在最有效率的策略,是要讓軟硬體團隊在同一個辦公室裡工作,以便於交流。
韓錚表示,現前機器人發展的一大挑戰,在於驅動新一代機器人的基礎模型還沒有出現「階段性的標準答案」,因而對硬體的要求也還沒浮現清晰的結論。
他預期,考量到硬體配合的時間差,機器人基礎模型起先只能與少數幾種型態的機器人配合良好。但隨著適合的硬體逐步到位,就能支持多種型態的機器人執行通用性任務。
韓錚觀察,在硬體製造方面,「還是要結合亞洲的優勢才可以。」雖然在數量上,中國佔有強大優勢,但台灣、日本、韓國也各有其特長之處。如何善用既有的製造業經驗,以及更快的迭代能力,將是亞洲為AI機器人做出關鍵貢獻的一大契機。