AI將讓機器人通用化！萬能主婦與救災戰士能成軍？商機多大？

ChatGPT等生成式AI加持下，讓機器人往通用化（generalization）邁進。未來能否進一步「斜槓」成通用型（general-purpose）的機器人？例如以往掃地機器人只會掃地；洗碗機只會洗碗，未來將有「萬能主婦」型機器人，煮飯、清潔、照顧家人都行！或可挑戰多元救援任務的「救災戰士」機器人。追逐通用化的瓶頸在哪？通用型機器人又有哪些挑戰？商機多大？《遠見》友善拆解。

【目錄】
▌什麼是機器人的通用化？
▌什麼是通用型的機器人？
▌為什麼要追求機器人的通用化？
▌為什麼要追求通用型態的機器人？
▌機器人通用化的瓶頸在哪？
▌發展通用型機器人的挑戰在哪？
▌如何克服機器人的通用化挑戰？
▌邁向通用型機器人的未來？

什麼是機器人的通用化？

機器人的通用化（generalization，或譯為泛化），指的是將機器人已經學會的能力（ability）、技能（skill）或行為（behavior），應用在未曾見過的任務之中也能上手，而這些任務又與訓練過的任務具有相似性。

研究專長為機器人學習（robot learning）、利用機器學習（machine learning）讓機器人能夠習得技能，台灣大學電機工程學系助理教授孫紹華解釋，機器學習的核心，便是當演算法遇上不在訓練集（training set）中的新資料，也能夠表現出色，「沒看過的情況下也做得很好。」

就孫紹華關注的深度強化學習（deep reinforcement learning）演算法來說，便是期待以其驅動機器人、達到泛化。舉生活化的場景為例，訓練一台機器人舉起放在餐桌上的杯子，想要達到通用，代表機器人在面對杯子形狀、大小、材質或者擺放位置時，都有辦法順利舉起杯子。

孫紹華的願景是機器人能夠部署在家中、工廠裡，可以有彈性又有智慧地做各種事情。孫紹華提供。

向外推廣，當餐桌的高度、材質和狀態改變時，機器人也能靈活應對；甚至是從餐桌變換為水槽、高腳椅、地板，機器人一樣可以拿起杯子。「你可不可以看過一定訓練的任務，就把其他沒看過的任務也解掉了？」孫紹華指出，通用化的挑戰在於，機器人需要具備足夠的靈活性，能夠應對物品的形狀、材質變化，甚至在未知的環境中執行任務。

倘若可以適應變動、無需重新學習，這樣便是達成通用化。

從生活變換至產業應用，訓練一部機器人在倉庫中移動，若要達成通用化，意味著轉移機器人到全新環境，遇上截然不同的空間配置，或者出現障礙物，又或者是地面材質與過往不同時，機器人仍可克服萬難，抵達目的地。

當環境出現特殊情況，例如因為有人打翻水，使得地面變得濕滑，機器人有辦法偵測情況，進而透過減速避免滑倒；遇上有人遺落地面的外套時，機器人可以調整方向，選擇繞過障礙，甚至自動找出一條更快達到終點的路徑，這些都是通用化的展現。

以亞馬遜的位於美國華盛頓州的配送中心PAE2為例，不同的機器人各自分擔相異任務，包含辨識、分類、儲存、包裝貨品等工作。

亞馬遜的物流中心裡有負責不同任務的機器人，圖中的機械手臂能夠抬起貨品，放置在其他載重機器人上。曾子軒攝

若要處理的貨物只有一種，事情很簡單，但能夠容納高達4千萬件庫存的PAE2，存放著書籍、玩具等不同商品。對人類來說，抱起積木、遙控汽車和玩偶不難，但要機器人精準抓取不同類型的玩具，事情就變得複雜，這也是學界與業界著力研發通用化的原因。

什麼是通用型的機器人？

需要補充的是，通用化（generalization）和通用（general-purpose）的意思不同，前者指的是機器人能夠將學到的技能，應用在相似但略有不同的場景，例如，一台能抓取特定大小物品的機器人，若具備通用化能力，就能適應不同形狀或材質的物品。

後者則描述機器人具有多元能力，可以執行類型多變、彼此沒有關聯的任務，例如從端咖啡到擦窗戶的多功能服務機器人。相較於專用機器人，通用機器人的靈活性和應用範圍顯著更廣。

通用化要求的是在相對固定的任務範圍內，提升機器人的適應性（adaptability），因此主要挑戰是如何有效提升模型的應用邊界，並確保系統在面對未知情境時，仍然保持穩定。就應用來說，更加適合垂直領域，例如倉儲中從拿起貨品的機器人，若能做到通用化，就能處理各種商品類型。

通用則需要機器人掌握完全不同類型的能力，挑戰同時體現在軟體與硬體上，軟體要整合視覺、觸覺等多模態的學習方式，並有辦法在收到指令後做出對應的表現，硬體則要在設計上保持靈活性。就應用來說，更加適合水平領域，如家庭助理型機器人能同時幫忙清潔、做飯和陪伴老人。

為什麼要追求機器人的通用化？

「過往機器人大多強調自動化（automation），現在則強調自主化（autonomy）。」工研院副院長胡竹生用簡單的一句話，解釋機器人領域的轉變。

自動化，指的是按照預先設定的計劃或劇本執行任務，行為已經固定，通常很難改變。自主化，從名字便能看出，機器人能做的事情變得更多，例如依照環境變化調整計畫，或者根據目標生成計畫，甚至可能改變目標，以便得到更好的結果。

當環境固定，也確認要執行的任務內容時，例如工業環境裡，工業型機器人只需依照固定流程運作，執行重複性高的工作，不用對環境變化作出即時反應，便能有效提高生產效率。在這樣的情況下，機器人即便沒有達到通用，也足以替人類帶來價值。

工研院副院長胡竹生強調，機器人的「行為」，同時要考慮機器人所在的環境，以及為了達到目的之行動。工研院提供。

當環境變得複雜、任務變得多元，能夠達成通用化的機器人，便可以做得更多。機器人新創Hillbot共同創辦人暨執行長韓錚（Robin Han）觀察，機器人生態系統的發展正朝向需要執行多種任務，或者在不可預測環境中運作的模式發展。

「專用機器人雖然在特定任務上效率很高，但缺乏處理各種條件或適應不斷變化的業務需求的靈活性。」他表示，不管是物流、醫療保健或者製造業，產業對於具有適應能力的機器人需求日增。

以零售場景來說，韓錚舉例，因為貨物類型和擺放環境的多樣性，過往揀選與放置貨品等任務，過往只能由人類執行，「這個過程牽涉到很多變數。」Hillbot開發通用型機器人時，便是鎖定這類具有一定程度複雜性的產業挑戰，希望讓機器人從專為特定任務設計，轉向為學到能夠廣泛適用在不同場景的能力。

將場景拉回工業環境，若有部機器人負責移動生產線上的零件，它們會根據預先設定的程式和固定規則行動，例如沿著既定路徑移動或按照指令搬運指定位置的零件。當環境發生變化，例如有零件被誤放至他處，機器人仍會依照原先的劇本行動，可能導致找不到零件或無法完成搬運任務，從而影響整條生產線的效率。

若是能夠做到自主化的機器人，便可以利用自己的感知能力，例如以視覺語言模型（Vision Language Model，VLM）判斷物體的空間關係，或者透過光學雷達（LiDAR，或譯為雷射雷達）掃描環境，「看」出零件不在該有的位置，進而重新評估應該如何搬運零件。

機器人能夠以布同方式「看」見四周，例如運用光學雷達掃描環境。曾子軒攝

雖然沒有提前編寫應對變化的劇本，機器人仍能自主完成目標，靈活適應環境變化。

增加處理任務多元性、提升陌生場景適應力，都是機器人走向通用後，帶給應用端的價值。不過，通用化對機器人開發者來說也是福音，因為當機器人不用重新搜集資料、訓練模型，等同直接省下為了新任務訓練機器人所需的時間與金錢。

為什麼要追求通用型態的機器人？

追求通用型態的機器人，意味著機器人不僅能在特定領域中活動，也能執行多樣化、跨領域的任務。目前市面上的掃地機器人專門負責清潔地板，洗碗機則專攻洗碗，而通用型態的機器人則試圖將這些家務能力集於一身，成為能夠同時處理多項家事的全能助手。

這樣的通用性不僅止於家庭生活。在醫療場景中，通用型態的機器人可以同時擔任護理、運送和簡易手術的助手，減輕醫護人員的負擔；在災難救援中，通用型態的機器人能完成搜索倖存者、搬運重物和提供緊急救護等多種任務，顯著提高救援效率。此外，在工業自動化中，通用型態的機器人能適應不同生產線的需求，靈活切換工作任務，大幅降低生產成本。

機器人具有多種外型，從機械手臂到移動式載具，再到類似人的長相，重點不止在於外觀，而更在於功能。陳品融攝。

可以說，通用型態的機器人是人類對機器人技術的終極想像。它們不僅能適應多變的環境，還能處理複雜的任務，並與人類進行自然的互動。事實上，即便是還只有在家裡面活動的孩童，也能從生活經驗裡，想像出家用的通用型機器人應該具備哪些能力：能煮飯、清潔、照顧家人，甚至陪自己玩躲貓貓、傳接球。

然而，通用型的機器人尚未問世，問題並不在於人類缺乏想像力，而在於技術層面的挑戰依然嚴峻。

機器人通用化的瓶頸在哪？

學界與業界正在往機器人發展通用化能力的目標前進，也有人開始探索實現通用型機器人的可能性。但無論是哪一項，距離實現仍有挑戰存在。

以機器人通用化來說，資料、訓練和感知環境等面向，都還有課題等待解決。

以資料來說，或因為訓練資料過度集中，或因為環境變化太大，無法搜集足夠資料，導致模型無法達到通用化。韓錚觀察，想要訓練機器人，必須收集現實世界的大量資料，但過程又貴又花時間，還得在控制下的環境中執行，「這些限制阻礙了可擴展性和適應性。」

就訓練而言，挑戰則出在演算法仍無法達到通用化。孫紹華分享，包含他自己在內的研究者，曾經採用深度強化學習方法，讓神經網絡學習策略（policy），希望機器人有辦法走出迷宮。其中，獎勵（reward）為機器人能否成功脫險。

孫紹華關注的機器人學習領域，重點就是讓機器人以機器學習技術學會執行不同任務。取自NTU Robot Learning Lab

理想上，經過訓練後，機器人應該有辦法找到走出迷宮的通用策略，例如採用常見的「右手原則」，也就是手摸著牆壁、沿著右手方向不斷前行。雖然訓練時，機器人成功解決所有任務，但當研究者擴大迷宮規模時，機器人開始走不出迷宮。

「你就可以知道這個神經網絡，其實完全沒有學會人類面對迷宮時高階的想法（high-level idea），它只是單純用一個很奇怪的形式，把訓練遇到的所有情況背下。」孫紹華感嘆，機器人的能力強大，可以記下訓練階段多樣的迷宮佈局，但卻學不會對人類而言頗為簡單的規則，並沒有做到泛化。

除了資料和訓練時的挑戰，機器人的感知能力也有待提升，例如更深入掌握光線與視角變化，以及習慣動態場景，才有辦法適應環境變化，也才更有條件討論環境變數與物品更動後，要怎麼完成任務。

【高爾夫玩家必讀雙刊】遠見 × ALBA 雙刊一年 $2,999，趨勢視野加高爾夫實戰，一次訂閱世界與球場都到位>>

發展通用型機器人的挑戰在哪？

機器人通用化雖然有一定困難，但發展通用型機器人的瓶頸更為巨大。

工研院AI策略長余孝先將困難切成兩部分，一部分和技術有關，另一部分則涉及成本效益。就技術來說，余孝先認為人們談論的「自主性」，其實可以拆分成不同能力。

他以「人類請機器人泡咖啡」為例，流程上機器人要先理解人類意圖，接著將意圖轉譯為機器人能夠執行的行動，最後則是理解環境，並依照感知到的資訊搭配制定出的行動計畫。這當中，既有軟體，也有硬體。

工研院AI策略長余孝先指出，生成式AI提升機器人的互動、感知等能力。工研院提供。

以硬體來說，余孝先認為硬體上機械與電控已經成熟，不管是控制機器人控制手指高度、將手指伸多長以便按下按鈕，現有機器人都能夠完成，但軟體層面上還是有挑戰在。

余孝先表示，第一階段的「理解」（understanding）已經不再是問題。隨著大語言模型（Large Language Model，LLM）的發展，機器人得到LLM加持後，提升理解自然語言、與人類互動的能力，人類不管是打字，還是直接開口說話，機器人都能聽懂指令。

第二階段的「規劃」（planning），則是機器人領域長年發展的課題，以泡咖啡來說，就要明確制定出流程中的每個節點，包含燒熱水、找咖啡粉、拿水杯等環節。余孝先指出，已經多年未見到規劃能力的進展，理由不是無法推進，而是沒辦法克服更末端的挑戰，也就是第三階段的「感知」（sensing）。

「即便能夠聽懂（交辦的）工作，（機器人）還是要摸索，找到那個杯子、咖啡機，這非常困難，⋯⋯要對周遭環境了解。」余孝先強調，若機器人無法在物理世界靈活運作，就算有規劃能力也沒有太大幫助。

事實上，在軟體世界中，發展大語言模型在內的基礎模型（foundation model），並提升其推理能力（reasoning），往AI Agent（AI代理）的願景邁進，對於培養機器人的規劃能力，便有很大助益。

數位世界的Agent能夠自主處理許多任務，但映射到物理世界，就得額外考慮更多環境相關變數。曾子軒攝。

胡竹生指出，人類下指令後，LLM可以將指令轉化為明確、可執行的詳細步驟。不過，要從平面中的文字描述，落地成機器人在立體世界裡採取的行為，並非一蹴可幾。例如，光是要機器人執行「倒熱水」的步驟，就要釐清水杯的類型、確定傾倒熱水的流速。

想要從大語言模型推進至大行為模型（Large Behavior Model，LBM），就是機器人發展的重點之一。胡竹生舉例，從同步圖像與文字輸入（input）中學習的多模態VLM，能夠看懂圖像，有辦法做到視覺問答，部分VLM還能夠捕捉影像裡的空間屬性。

運用在機器人領域中，就有機會以VLM產生文字描述，接著建構模型，藉此學習文字描述與機器人動作的關係。如此一來，不只能夠利用規劃能力分解步驟，還有辦法掌握環境、物體，以及兩者之間的空間關係。

不過，即便克服技術，成本也是大問題。

「你要訓練一個機器人，又會煮飯、曬衣服、洗衣服，還要幫你泡咖啡，有人按門鈴又要開門，去市場買菜還要提包包，你要懂那麼多，成本一定很高，」余孝先說道。

他分析，機器人要完成如此多樣的任務，首先要有能夠適合執行任務的硬體部件。再者，軟體上每個任務要做到通用化，切每種任務都要各自學習，考量資料、訓練和處理不同任務消耗的資源，加總軟體和硬體成本，恐怕突破天價。

余孝先認為，即便研發出能夠執行各種家事任務的機器人，一般家庭也不會願意花大錢購買。曾子軒攝。

然而，現階段若聘請人類勞工，價格遠遠低於購買一台通才型家事機器人的費用，余孝先因此評斷，現在距離常見於科幻小說的家庭機器人落地還很遠。

胡竹生同樣強調，家庭環境遠比想像中複雜，有很多因素要考慮。而且，在家庭裡執行的任務不但瑣碎而且複雜無比，連工程規格都很難釐清，現在討論言之過早。

如何克服機器人的通用化挑戰？

從學界到業界，為了推動機器人的通用化，從各個面向都在努力。既然演算法還無法克服狀況，有人便致力於打造出能夠通用化的學習機制；資料蒐集不易，因此有人想盡辦法降低累積資料的成本。

就資料面來說，孫紹華分享，有史丹佛大學的團隊開發出ALOHA相關專案，讓機器人觀察專家的示範，從中學習應對不同情境的方法，屬於模仿學習（Imitation Learning）的領域。

孫紹華解釋，雖然ALOHA專案沒有特別改進演算法，但打造出方便搜集資料的系統，讓機器人能夠從示範中學習（learn from demonstration dataset）。人類專家會遠端操控機器人完成動作，例如炒菜、清洗碗盤等，藉此收集大量示範資料，接下來便可以利用這些資料訓練機器人，讓它在未來能自主完成類似任務，不需要專家再介入。

同樣是從資料面著手，NVIDIA的虛擬世界平台Omniverse，則是活用模擬（simulation），降低在現實世界中訓練機器人的龐大成本。Hillbot也是走相同路數，同樣透過模擬，並結合合成資料（synthetic data）技術，希望能夠解決在物理環境中，生成訓練資料效率不高的問題。

韓錚解釋，開發者利用Hillbot的模擬器，不用替每種場景逐一編寫程式碼，活用模擬讓機器人有辦法應對不同的可能性。他希望可以讓機器人建立起「可轉移技能」（transferrable skills），習得新能力後，便能夠運用在不同場景之中。

韓錚的野心不止步於通用化，打造出通用型機器人，才是最終目標。具體做法是，把每種處理任務的方法，加到一個技能平台之中，若機器人可以逐步掌握不同能力，就能擴大旗能耐，不再只是處理單一任務的漸進式進展。

就學習機制本身，孫紹華分享，已經有研究者嘗試不同取徑，不再使用神經網絡端到端（end-to-end）的學習策略，而是採取一套以程式／程式碼為指導的機器人學習框架（program-guided/code-guided robot learning），讓機器人掌握並運用基礎技能，進一步學習更複雜的能力。包含他個人，以及Google的研究員都投入這個方向。

更細緻地說，研究者會定義出特定領域（domain）的程式空間（program space），讓演算法自行推導出一套策略，例如以程式實現出走迷宮的右手定則。孫紹華解釋，最有效的迷宮解法不是直接生成一連串動作，而是與人類相似，自然地針對不同任務，歸納出一套合理的高層次方法解決問題。

他指出，神經網絡搜尋的參數空間很大，可能在過度配適的情況記起所有場景。但在這套從基於程式語言出發的學習方法，已經事先規定搜尋空間，「演算法能夠搜尋到這樣（右手定則）可以解決任務的高層次想法，否則就無法處理所有（迷宮）的變化，」也才有辦法捕捉到走迷宮背後隱藏的邏輯。

邁向通用型機器人的未來？

雖然發展通用型機器人有著諸多挑戰，但仍有新創與企業前仆後繼地投入。

致力於打造通用機器人基礎模型、得到OpenAI、亞馬遜創辦人貝佐斯（Jeff Bezos）投資的新創Physical Intelligence便是其中之一。他們在去年（2024）端出模型π0 （pi-zero），讓機器人成為通才（generalist），可以摺衣服、組裝箱子、泡咖啡。

此外，Google則在2023年號召研究者們，共同建置機器人功能資料庫，並將其和影像辨識領域的經典資料集ImageNet對比，希望推動通才模型的發展。除了Google之外，亞馬遜投資的Covariant也想打造機器人領域的基礎模型，同時亦有不少新創也在戮力研發。

亞馬遜機器人工程總監維特芮（Emily Vetterick）分享，亞馬遜和Covariant團隊合作，成立前沿AI機器人團隊（Frontier AI robotics team）。曾子軒攝

以特斯拉打造的人形機器人Optimus來說，馬斯克（Elon Musk）便指出它是通用型的機器人，可以替人類扛下危險、重複性高的工作，適合配置在工廠之中。

那麼，距離有通用能力的家用機器人真的落地還有多久？受訪者們的想法不一，有人樂觀表示三年內就能做到，也有人表示還要發展很長時間。

無論技術上要通過多少考驗，才能等到通用型的機器人，更值得關注的反而是人類社會如何看待機器人。就像自駕車能否通過社會大眾檢視一樣，當機器人有能力走入家庭，也會遇到相同挑戰。

「有一個機器人可以在家裡面做各種料理，你讓機器人開明火安全嗎？誰來負這個責任？」孫紹華認為，技術以外，還有很多倫理問題有待克服。

從自動化到自主化，再邁向通用化，直至通用型態，機器人的進化之路，仍在不斷延續。