ChatGPT等生成式AI加持下,讓機器人往通用化(generalization)邁進。未來能否進一步「斜槓」成通用型(general-purpose)的機器人?例如以往掃地機器人只會掃地;洗碗機只會洗碗,未來將有「萬能主婦」型機器人,煮飯、清潔、照顧家人都行!或可挑戰多元救援任務的「救災戰士」機器人。追逐通用化的瓶頸在哪?通用型機器人又有哪些挑戰?商機多大?《遠見》友善拆解。
什麼是機器人的通用化?
機器人的通用化(generalization,或譯為泛化),指的是將機器人已經學會的能力(ability)、技能(skill)或行為(behavior),應用在未曾見過的任務之中也能上手,而這些任務又與訓練過的任務具有相似性。
研究專長為機器人學習(robot learning)、利用機器學習(machine learning)讓機器人能夠習得技能,台灣大學電機工程學系助理教授孫紹華解釋,機器學習的核心,便是當演算法遇上不在訓練集(training set)中的新資料,也能夠表現出色,「沒看過的情況下也做得很好。」
就孫紹華關注的深度強化學習(deep reinforcement learning)演算法來說,便是期待以其驅動機器人、達到泛化。舉生活化的場景為例,訓練一台機器人舉起放在餐桌上的杯子,想要達到通用,代表機器人在面對杯子形狀、大小、材質或者擺放位置時,都有辦法順利舉起杯子。
向外推廣,當餐桌的高度、材質和狀態改變時,機器人也能靈活應對;甚至是從餐桌變換為水槽、高腳椅、地板,機器人一樣可以拿起杯子。「你可不可以看過一定訓練的任務,就把其他沒看過的任務也解掉了?」孫紹華指出,通用化的挑戰在於,機器人需要具備足夠的靈活性,能夠應對物品的形狀、材質變化,甚至在未知的環境中執行任務。
倘若可以適應變動、無需重新學習,這樣便是達成通用化。
從生活變換至產業應用,訓練一部機器人在倉庫中移動,若要達成通用化,意味著轉移機器人到全新環境,遇上截然不同的空間配置,或者出現障礙物,又或者是地面材質與過往不同時,機器人仍可克服萬難,抵達目的地。
當環境出現特殊情況,例如因為有人打翻水,使得地面變得濕滑,機器人有辦法偵測情況,進而透過減速避免滑倒;遇上有人遺落地面的外套時,機器人可以調整方向,選擇繞過障礙,甚至自動找出一條更快達到終點的路徑,這些都是通用化的展現。
以亞馬遜的位於美國華盛頓州的配送中心PAE2為例,不同的機器人各自分擔相異任務,包含辨識、分類、儲存、包裝貨品等工作。
若要處理的貨物只有一種,事情很簡單,但能夠容納高達4千萬件庫存的PAE2,存放著書籍、玩具等不同商品。對人類來說,抱起積木、遙控汽車和玩偶不難,但要機器人精準抓取不同類型的玩具,事情就變得複雜,這也是學界與業界著力研發通用化的原因。
什麼是通用型的機器人?
需要補充的是,通用化(generalization)和通用(general-purpose)的意思不同,前者指的是機器人能夠將學到的技能,應用在相似但略有不同的場景,例如,一台能抓取特定大小物品的機器人,若具備通用化能力,就能適應不同形狀或材質的物品。
後者則描述機器人具有多元能力,可以執行類型多變、彼此沒有關聯的任務,例如從端咖啡到擦窗戶的多功能服務機器人。相較於專用機器人,通用機器人的靈活性和應用範圍顯著更廣。
通用化要求的是在相對固定的任務範圍內,提升機器人的適應性(adaptability),因此主要挑戰是如何有效提升模型的應用邊界,並確保系統在面對未知情境時,仍然保持穩定。就應用來說,更加適合垂直領域,例如倉儲中從拿起貨品的機器人,若能做到通用化,就能處理各種商品類型。
通用則需要機器人掌握完全不同類型的能力,挑戰同時體現在軟體與硬體上,軟體要整合視覺、觸覺等多模態的學習方式,並有辦法在收到指令後做出對應的表現,硬體則要在設計上保持靈活性。就應用來說,更加適合水平領域,如家庭助理型機器人能同時幫忙清潔、做飯和陪伴老人。
為什麼要追求機器人的通用化?
「過往機器人大多強調自動化(automation),現在則強調自主化(autonomy)。」工研院副院長胡竹生用簡單的一句話,解釋機器人領域的轉變。
自動化,指的是按照預先設定的計劃或劇本執行任務,行為已經固定,通常很難改變。自主化,從名字便能看出,機器人能做的事情變得更多,例如依照環境變化調整計畫,或者根據目標生成計畫,甚至可能改變目標,以便得到更好的結果。
當環境固定,也確認要執行的任務內容時,例如工業環境裡,工業型機器人只需依照固定流程運作,執行重複性高的工作,不用對環境變化作出即時反應,便能有效提高生產效率。在這樣的情況下,機器人即便沒有達到通用,也足以替人類帶來價值。
當環境變得複雜、任務變得多元,能夠達成通用化的機器人,便可以做得更多。機器人新創Hillbot共同創辦人暨執行長韓錚(Robin Han)觀察,機器人生態系統的發展正朝向需要執行多種任務,或者在不可預測環境中運作的模式發展。
「專用機器人雖然在特定任務上效率很高,但缺乏處理各種條件或適應不斷變化的業務需求的靈活性。」他表示,不管是物流、醫療保健或者製造業,產業對於具有適應能力的機器人需求日增。
以零售場景來說,韓錚舉例,因為貨物類型和擺放環境的多樣性,過往揀選與放置貨品等任務,過往只能由人類執行,「這個過程牽涉到很多變數。」Hillbot開發通用型機器人時,便是鎖定這類具有一定程度複雜性的產業挑戰,希望讓機器人從專為特定任務設計,轉向為學到能夠廣泛適用在不同場景的能力。
將場景拉回工業環境,若有部機器人負責移動生產線上的零件,它們會根據預先設定的程式和固定規則行動,例如沿著既定路徑移動或按照指令搬運指定位置的零件。當環境發生變化,例如有零件被誤放至他處,機器人仍會依照原先的劇本行動,可能導致找不到零件或無法完成搬運任務,從而影響整條生產線的效率。
若是能夠做到自主化的機器人,便可以利用自己的感知能力,例如以視覺語言模型(Vision Language Model,VLM)判斷物體的空間關係,或者透過光學雷達(LiDAR,或譯為雷射雷達)掃描環境,「看」出零件不在該有的位置,進而重新評估應該如何搬運零件。
雖然沒有提前編寫應對變化的劇本,機器人仍能自主完成目標,靈活適應環境變化。
增加處理任務多元性、提升陌生場景適應力,都是機器人走向通用後,帶給應用端的價值。不過,通用化對機器人開發者來說也是福音,因為當機器人不用重新搜集資料、訓練模型,等同直接省下為了新任務訓練機器人所需的時間與金錢。
為什麼要追求通用型態的機器人?
追求通用型態的機器人,意味著機器人不僅能在特定領域中活動,也能執行多樣化、跨領域的任務。目前市面上的掃地機器人專門負責清潔地板,洗碗機則專攻洗碗,而通用型態的機器人則試圖將這些家務能力集於一身,成為能夠同時處理多項家事的全能助手。
這樣的通用性不僅止於家庭生活。在醫療場景中,通用型態的機器人可以同時擔任護理、運送和簡易手術的助手,減輕醫護人員的負擔;在災難救援中,通用型態的機器人能完成搜索倖存者、搬運重物和提供緊急救護等多種任務,顯著提高救援效率。此外,在工業自動化中,通用型態的機器人能適應不同生產線的需求,靈活切換工作任務,大幅降低生產成本。
可以說,通用型態的機器人是人類對機器人技術的終極想像。它們不僅能適應多變的環境,還能處理複雜的任務,並與人類進行自然的互動。事實上,即便是還只有在家裡面活動的孩童,也能從生活經驗裡,想像出家用的通用型機器人應該具備哪些能力:能煮飯、清潔、照顧家人,甚至陪自己玩躲貓貓、傳接球。
然而,通用型的機器人尚未問世,問題並不在於人類缺乏想像力,而在於技術層面的挑戰依然嚴峻。
機器人通用化的瓶頸在哪?
學界與業界正在往機器人發展通用化能力的目標前進,也有人開始探索實現通用型機器人的可能性。但無論是哪一項,距離實現仍有挑戰存在。
以機器人通用化來說,資料、訓練和感知環境等面向,都還有課題等待解決。
以資料來說,或因為訓練資料過度集中,或因為環境變化太大,無法搜集足夠資料,導致模型無法達到通用化。韓錚觀察,想要訓練機器人,必須收集現實世界的大量資料,但過程又貴又花時間,還得在控制下的環境中執行,「這些限制阻礙了可擴展性和適應性。」
就訓練而言,挑戰則出在演算法仍無法達到通用化。孫紹華分享,包含他自己在內的研究者,曾經採用深度強化學習方法,讓神經網絡學習策略(policy),希望機器人有辦法走出迷宮。其中,獎勵(reward)為機器人能否成功脫險。
理想上,經過訓練後,機器人應該有辦法找到走出迷宮的通用策略,例如採用常見的「右手原則」,也就是手摸著牆壁、沿著右手方向不斷前行。雖然訓練時,機器人成功解決所有任務,但當研究者擴大迷宮規模時,機器人開始走不出迷宮。
「你就可以知道這個神經網絡,其實完全沒有學會人類面對迷宮時高階的想法(high-level idea),它只是單純用一個很奇怪的形式,把訓練遇到的所有情況背下。」孫紹華感嘆,機器人的能力強大,可以記下訓練階段多樣的迷宮佈局,但卻學不會對人類而言頗為簡單的規則,並沒有做到泛化。
除了資料和訓練時的挑戰,機器人的感知能力也有待提升,例如更深入掌握光線與視角變化,以及習慣動態場景,才有辦法適應環境變化,也才更有條件討論環境變數與物品更動後,要怎麼完成任務。
發展通用型機器人的挑戰在哪?
機器人通用化雖然有一定困難,但發展通用型機器人的瓶頸更為巨大。
工研院AI策略長余孝先將困難切成兩部分,一部分和技術有關,另一部分則涉及成本效益。就技術來說,余孝先認為人們談論的「自主性」,其實可以拆分成不同能力。
他以「人類請機器人泡咖啡」為例,流程上機器人要先理解人類意圖,接著將意圖轉譯為機器人能夠執行的行動,最後則是理解環境,並依照感知到的資訊搭配制定出的行動計畫。這當中,既有軟體,也有硬體。
以硬體來說,余孝先認為硬體上機械與電控已經成熟,不管是控制機器人控制手指高度、將手指伸多長以便按下按鈕,現有機器人都能夠完成,但軟體層面上還是有挑戰在。
余孝先表示,第一階段的「理解」(understanding)已經不再是問題。隨著大語言模型(Large Language Model,LLM)的發展,機器人得到LLM加持後,提升理解自然語言、與人類互動的能力,人類不管是打字,還是直接開口說話,機器人都能聽懂指令。
第二階段的「規劃」(planning),則是機器人領域長年發展的課題,以泡咖啡來說,就要明確制定出流程中的每個節點,包含燒熱水、找咖啡粉、拿水杯等環節。余孝先指出,已經多年未見到規劃能力的進展,理由不是無法推進,而是沒辦法克服更末端的挑戰,也就是第三階段的「感知」(sensing)。
「即便能夠聽懂(交辦的)工作,(機器人)還是要摸索,找到那個杯子、咖啡機,這非常困難,⋯⋯要對周遭環境了解。」余孝先強調,若機器人無法在物理世界靈活運作,就算有規劃能力也沒有太大幫助。
事實上,在軟體世界中,發展大語言模型在內的基礎模型(foundation model),並提升其推理能力(reasoning),往AI Agent(AI代理)的願景邁進,對於培養機器人的規劃能力,便有很大助益。
胡竹生指出,人類下指令後,LLM可以將指令轉化為明確、可執行的詳細步驟。不過,要從平面中的文字描述,落地成機器人在立體世界裡採取的行為,並非一蹴可幾。例如,光是要機器人執行「倒熱水」的步驟,就要釐清水杯的類型、確定傾倒熱水的流速。
想要從大語言模型推進至大行為模型(Large Behavior Model,LBM),就是機器人發展的重點之一。胡竹生舉例,從同步圖像與文字輸入(input)中學習的多模態VLM,能夠看懂圖像,有辦法做到視覺問答,部分VLM還能夠捕捉影像裡的空間屬性。
運用在機器人領域中,就有機會以VLM產生文字描述,接著建構模型,藉此學習文字描述與機器人動作的關係。如此一來,不只能夠利用規劃能力分解步驟,還有辦法掌握環境、物體,以及兩者之間的空間關係。
不過,即便克服技術,成本也是大問題。
「你要訓練一個機器人,又會煮飯、曬衣服、洗衣服,還要幫你泡咖啡,有人按門鈴又要開門,去市場買菜還要提包包,你要懂那麼多,成本一定很高,」余孝先說道。
他分析,機器人要完成如此多樣的任務,首先要有能夠適合執行任務的硬體部件。再者,軟體上每個任務要做到通用化,切每種任務都要各自學習,考量資料、訓練和處理不同任務消耗的資源,加總軟體和硬體成本,恐怕突破天價。
然而,現階段若聘請人類勞工,價格遠遠低於購買一台通才型家事機器人的費用,余孝先因此評斷,現在距離常見於科幻小說的家庭機器人落地還很遠。
胡竹生同樣強調,家庭環境遠比想像中複雜,有很多因素要考慮。而且,在家庭裡執行的任務不但瑣碎而且複雜無比,連工程規格都很難釐清,現在討論言之過早。
如何克服機器人的通用化挑戰?
從學界到業界,為了推動機器人的通用化,從各個面向都在努力。既然演算法還無法克服狀況,有人便致力於打造出能夠通用化的學習機制;資料蒐集不易,因此有人想盡辦法降低累積資料的成本。
就資料面來說,孫紹華分享,有史丹佛大學的團隊開發出ALOHA相關專案,讓機器人觀察專家的示範,從中學習應對不同情境的方法,屬於模仿學習(Imitation Learning)的領域。
孫紹華解釋,雖然ALOHA專案沒有特別改進演算法,但打造出方便搜集資料的系統,讓機器人能夠從示範中學習(learn from demonstration dataset)。人類專家會遠端操控機器人完成動作,例如炒菜、清洗碗盤等,藉此收集大量示範資料,接下來便可以利用這些資料訓練機器人,讓它在未來能自主完成類似任務,不需要專家再介入。
同樣是從資料面著手,NVIDIA的虛擬世界平台Omniverse,則是活用模擬(simulation),降低在現實世界中訓練機器人的龐大成本。Hillbot也是走相同路數,同樣透過模擬,並結合合成資料(synthetic data)技術,希望能夠解決在物理環境中,生成訓練資料效率不高的問題。
韓錚解釋,開發者利用Hillbot的模擬器,不用替每種場景逐一編寫程式碼,活用模擬讓機器人有辦法應對不同的可能性。他希望可以讓機器人建立起「可轉移技能」(transferrable skills),習得新能力後,便能夠運用在不同場景之中。
韓錚的野心不止步於通用化,打造出通用型機器人,才是最終目標。具體做法是,把每種處理任務的方法,加到一個技能平台之中,若機器人可以逐步掌握不同能力,就能擴大旗能耐,不再只是處理單一任務的漸進式進展。
就學習機制本身,孫紹華分享,已經有研究者嘗試不同取徑,不再使用神經網絡端到端(end-to-end)的學習策略,而是採取一套以程式/程式碼為指導的機器人學習框架(program-guided/code-guided robot learning),讓機器人掌握並運用基礎技能,進一步學習更複雜的能力。包含他個人,以及Google的研究員都投入這個方向。
更細緻地說,研究者會定義出特定領域(domain)的程式空間(program space),讓演算法自行推導出一套策略,例如以程式實現出走迷宮的右手定則。孫紹華解釋,最有效的迷宮解法不是直接生成一連串動作,而是與人類相似,自然地針對不同任務,歸納出一套合理的高層次方法解決問題。
他指出,神經網絡搜尋的參數空間很大,可能在過度配適的情況記起所有場景。但在這套從基於程式語言出發的學習方法,已經事先規定搜尋空間,「演算法能夠搜尋到這樣(右手定則)可以解決任務的高層次想法,否則就無法處理所有(迷宮)的變化,」也才有辦法捕捉到走迷宮背後隱藏的邏輯。
邁向通用型機器人的未來?
雖然發展通用型機器人有著諸多挑戰,但仍有新創與企業前仆後繼地投入。
致力於打造通用機器人基礎模型、得到OpenAI、亞馬遜創辦人貝佐斯(Jeff Bezos)投資的新創Physical Intelligence便是其中之一。他們在去年(2024)端出模型π0 (pi-zero),讓機器人成為通才(generalist),可以摺衣服、組裝箱子、泡咖啡。
此外,Google則在2023年號召研究者們,共同建置機器人功能資料庫,並將其和影像辨識領域的經典資料集ImageNet對比,希望推動通才模型的發展。除了Google之外,亞馬遜投資的Covariant也想打造機器人領域的基礎模型,同時亦有不少新創也在戮力研發。
以特斯拉打造的人形機器人Optimus來說,馬斯克(Elon Musk)便指出它是通用型的機器人,可以替人類扛下危險、重複性高的工作,適合配置在工廠之中。
那麼,距離有通用能力的家用機器人真的落地還有多久?受訪者們的想法不一,有人樂觀表示三年內就能做到,也有人表示還要發展很長時間。
無論技術上要通過多少考驗,才能等到通用型的機器人,更值得關注的反而是人類社會如何看待機器人。就像自駕車能否通過社會大眾檢視一樣,當機器人有能力走入家庭,也會遇到相同挑戰。
「有一個機器人可以在家裡面做各種料理,你讓機器人開明火安全嗎?誰來負這個責任?」孫紹華認為,技術以外,還有很多倫理問題有待克服。
從自動化到自主化,再邁向通用化,直至通用型態,機器人的進化之路,仍在不斷延續。