訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

遠見39週年 遠見39週年 全年最優惠25折起,現在就是訂閱最好時機!

AI將讓機器人通用化!萬能主婦與救災戰士能成軍?商機多大?

曾子軒
user

曾子軒

2025-01-03

瀏覽數 1,550+

透過大語言模型的加持,現在有許多面向民眾的機器人,已經能夠流利地與人們互動。陳品融攝。
透過大語言模型的加持,現在有許多面向民眾的機器人,已經能夠流利地與人們互動。陳品融攝。

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

ChatGPT等生成式AI加持下,讓機器人往通用化(generalization)邁進。未來能否進一步「斜槓」成通用型(general-purpose)的機器人?例如以往掃地機器人只會掃地;洗碗機只會洗碗,未來將有「萬能主婦」型機器人,煮飯、清潔、照顧家人都行!或可挑戰多元救援任務的「救災戰士」機器人。追逐通用化的瓶頸在哪?通用型機器人又有哪些挑戰?商機多大?《遠見》友善拆解。

什麼是機器人的通用化? 

機器人的通用化(generalization,或譯為泛化),指的是將機器人已經學會的能力(ability)、技能(skill)或行為(behavior),應用在未曾見過的任務之中也能上手,而這些任務又與訓練過的任務具有相似性。

研究專長為機器人學習(robot learning)、利用機器學習(machine learning)讓機器人能夠習得技能,台灣大學電機工程學系助理教授孫紹華解釋,機器學習的核心,便是當演算法遇上不在訓練集(training set)中的新資料,也能夠表現出色,「沒看過的情況下也做得很好。」

就孫紹華關注的深度強化學習(deep reinforcement learning)演算法來說,便是期待以其驅動機器人、達到泛化。舉生活化的場景為例,訓練一台機器人舉起放在餐桌上的杯子,想要達到通用,代表機器人在面對杯子形狀、大小、材質或者擺放位置時,都有辦法順利舉起杯子。

孫紹華的願景是機器人能夠部署在家中、工廠裡,可以有彈性又有智慧地做各種事情。孫紹華提供。

孫紹華的願景是機器人能夠部署在家中、工廠裡,可以有彈性又有智慧地做各種事情。孫紹華提供。

向外推廣,當餐桌的高度、材質和狀態改變時,機器人也能靈活應對;甚至是從餐桌變換為水槽、高腳椅、地板,機器人一樣可以拿起杯子。「你可不可以看過一定訓練的任務,就把其他沒看過的任務也解掉了?」孫紹華指出,通用化的挑戰在於,機器人需要具備足夠的靈活性,能夠應對物品的形狀、材質變化,甚至在未知的環境中執行任務。

倘若可以適應變動、無需重新學習,這樣便是達成通用化。

從生活變換至產業應用,訓練一部機器人在倉庫中移動,若要達成通用化,意味著轉移機器人到全新環境,遇上截然不同的空間配置,或者出現障礙物,又或者是地面材質與過往不同時,機器人仍可克服萬難,抵達目的地。

當環境出現特殊情況,例如因為有人打翻水,使得地面變得濕滑,機器人有辦法偵測情況,進而透過減速避免滑倒;遇上有人遺落地面的外套時,機器人可以調整方向,選擇繞過障礙,甚至自動找出一條更快達到終點的路徑,這些都是通用化的展現。

以亞馬遜的位於美國華盛頓州的配送中心PAE2為例,不同的機器人各自分擔相異任務,包含辨識、分類、儲存、包裝貨品等工作。

亞馬遜的物流中心裡有負責不同任務的機器人,圖中的機械手臂能夠抬起貨品,放置在其他載重機器人上。曾子軒攝

亞馬遜的物流中心裡有負責不同任務的機器人,圖中的機械手臂能夠抬起貨品,放置在其他載重機器人上。曾子軒攝

若要處理的貨物只有一種,事情很簡單,但能夠容納高達4千萬件庫存的PAE2,存放著書籍、玩具等不同商品。對人類來說,抱起積木、遙控汽車和玩偶不難,但要機器人精準抓取不同類型的玩具,事情就變得複雜,這也是學界與業界著力研發通用化的原因。

什麼是通用型的機器人?

需要補充的是,通用化(generalization)和通用(general-purpose)的意思不同,前者指的是機器人能夠將學到的技能,應用在相似但略有不同的場景,例如,一台能抓取特定大小物品的機器人,若具備通用化能力,就能適應不同形狀或材質的物品。

後者則描述機器人具有多元能力,可以執行類型多變、彼此沒有關聯的任務,例如從端咖啡到擦窗戶的多功能服務機器人。相較於專用機器人,通用機器人的靈活性和應用範圍顯著更廣。

通用化要求的是在相對固定的任務範圍內,提升機器人的適應性(adaptability),因此主要挑戰是如何有效提升模型的應用邊界,並確保系統在面對未知情境時,仍然保持穩定。就應用來說,更加適合垂直領域,例如倉儲中從拿起貨品的機器人,若能做到通用化,就能處理各種商品類型。

通用則需要機器人掌握完全不同類型的能力,挑戰同時體現在軟體與硬體上,軟體要整合視覺、觸覺等多模態的學習方式,並有辦法在收到指令後做出對應的表現,硬體則要在設計上保持靈活性。就應用來說,更加適合水平領域,如家庭助理型機器人能同時幫忙清潔、做飯和陪伴老人。

為什麼要追求機器人的通用化? 

「過往機器人大多強調自動化(automation),現在則強調自主化(autonomy)。」工研院副院長胡竹生用簡單的一句話,解釋機器人領域的轉變。

自動化,指的是按照預先設定的計劃或劇本執行任務,行為已經固定,通常很難改變。自主化,從名字便能看出,機器人能做的事情變得更多,例如依照環境變化調整計畫,或者根據目標生成計畫,甚至可能改變目標,以便得到更好的結果。

當環境固定,也確認要執行的任務內容時,例如工業環境裡,工業型機器人只需依照固定流程運作,執行重複性高的工作,不用對環境變化作出即時反應,便能有效提高生產效率。在這樣的情況下,機器人即便沒有達到通用,也足以替人類帶來價值。

工研院副院長胡竹生強調,機器人的「行為」,同時要考慮機器人所在的環境,以及為了達到目的之行動。工研院提供。

工研院副院長胡竹生強調,機器人的「行為」,同時要考慮機器人所在的環境,以及為了達到目的之行動。工研院提供。

當環境變得複雜、任務變得多元,能夠達成通用化的機器人,便可以做得更多。機器人新創Hillbot共同創辦人暨執行長韓錚(Robin Han)觀察,機器人生態系統的發展正朝向需要執行多種任務,或者在不可預測環境中運作的模式發展。

「專用機器人雖然在特定任務上效率很高,但缺乏處理各種條件或適應不斷變化的業務需求的靈活性。」他表示,不管是物流、醫療保健或者製造業,產業對於具有適應能力的機器人需求日增。

以零售場景來說,韓錚舉例,因為貨物類型和擺放環境的多樣性,過往揀選與放置貨品等任務,過往只能由人類執行,「這個過程牽涉到很多變數。」Hillbot開發通用型機器人時,便是鎖定這類具有一定程度複雜性的產業挑戰,希望讓機器人從專為特定任務設計,轉向為學到能夠廣泛適用在不同場景的能力。

將場景拉回工業環境,若有部機器人負責移動生產線上的零件,它們會根據預先設定的程式和固定規則行動,例如沿著既定路徑移動或按照指令搬運指定位置的零件。當環境發生變化,例如有零件被誤放至他處,機器人仍會依照原先的劇本行動,可能導致找不到零件或無法完成搬運任務,從而影響整條生產線的效率。

若是能夠做到自主化的機器人,便可以利用自己的感知能力,例如以視覺語言模型(Vision Language Model,VLM)判斷物體的空間關係,或者透過光學雷達(LiDAR,或譯為雷射雷達)掃描環境,「看」出零件不在該有的位置,進而重新評估應該如何搬運零件。

機器人能夠以布同方式「看」見四周,例如運用光學雷達掃描環境。曾子軒攝

機器人能夠以布同方式「看」見四周,例如運用光學雷達掃描環境。曾子軒攝

雖然沒有提前編寫應對變化的劇本,機器人仍能自主完成目標,靈活適應環境變化。

增加處理任務多元性、提升陌生場景適應力,都是機器人走向通用後,帶給應用端的價值。不過,通用化對機器人開發者來說也是福音,因為當機器人不用重新搜集資料、訓練模型,等同直接省下為了新任務訓練機器人所需的時間與金錢。

為什麼要追求通用型態的機器人? 

追求通用型態的機器人,意味著機器人不僅能在特定領域中活動,也能執行多樣化、跨領域的任務。目前市面上的掃地機器人專門負責清潔地板,洗碗機則專攻洗碗,而通用型態的機器人則試圖將這些家務能力集於一身,成為能夠同時處理多項家事的全能助手。

這樣的通用性不僅止於家庭生活。在醫療場景中,通用型態的機器人可以同時擔任護理、運送和簡易手術的助手,減輕醫護人員的負擔;在災難救援中,通用型態的機器人能完成搜索倖存者、搬運重物和提供緊急救護等多種任務,顯著提高救援效率。此外,在工業自動化中,通用型態的機器人能適應不同生產線的需求,靈活切換工作任務,大幅降低生產成本。

機器人具有多種外型,從機械手臂到移動式載具,再到類似人的長相,重點不止在於外觀,而更在於功能。陳品融攝。

機器人具有多種外型,從機械手臂到移動式載具,再到類似人的長相,重點不止在於外觀,而更在於功能。陳品融攝。

可以說,通用型態的機器人是人類對機器人技術的終極想像。它們不僅能適應多變的環境,還能處理複雜的任務,並與人類進行自然的互動。事實上,即便是還只有在家裡面活動的孩童,也能從生活經驗裡,想像出家用的通用型機器人應該具備哪些能力:能煮飯、清潔、照顧家人,甚至陪自己玩躲貓貓、傳接球。

然而,通用型的機器人尚未問世,問題並不在於人類缺乏想像力,而在於技術層面的挑戰依然嚴峻。

機器人通用化的瓶頸在哪? 

學界與業界正在往機器人發展通用化能力的目標前進,也有人開始探索實現通用型機器人的可能性。但無論是哪一項,距離實現仍有挑戰存在。

以機器人通用化來說,資料、訓練和感知環境等面向,都還有課題等待解決。

以資料來說,或因為訓練資料過度集中,或因為環境變化太大,無法搜集足夠資料,導致模型無法達到通用化。韓錚觀察,想要訓練機器人,必須收集現實世界的大量資料,但過程又貴又花時間,還得在控制下的環境中執行,「這些限制阻礙了可擴展性和適應性。」

就訓練而言,挑戰則出在演算法仍無法達到通用化。孫紹華分享,包含他自己在內的研究者,曾經採用深度強化學習方法,讓神經網絡學習策略(policy),希望機器人有辦法走出迷宮。其中,獎勵(reward)為機器人能否成功脫險。

孫紹華關注的機器人學習領域,重點就是讓機器人以機器學習技術學會執行不同任務。取自NTU Robot Learning Lab

孫紹華關注的機器人學習領域,重點就是讓機器人以機器學習技術學會執行不同任務。取自NTU Robot Learning Lab

理想上,經過訓練後,機器人應該有辦法找到走出迷宮的通用策略,例如採用常見的「右手原則」,也就是手摸著牆壁、沿著右手方向不斷前行。雖然訓練時,機器人成功解決所有任務,但當研究者擴大迷宮規模時,機器人開始走不出迷宮。

「你就可以知道這個神經網絡,其實完全沒有學會人類面對迷宮時高階的想法(high-level idea),它只是單純用一個很奇怪的形式,把訓練遇到的所有情況背下。」孫紹華感嘆,機器人的能力強大,可以記下訓練階段多樣的迷宮佈局,但卻學不會對人類而言頗為簡單的規則,並沒有做到泛化。

除了資料和訓練時的挑戰,機器人的感知能力也有待提升,例如更深入掌握光線與視角變化,以及習慣動態場景,才有辦法適應環境變化,也才更有條件討論環境變數與物品更動後,要怎麼完成任務。

8/17賴佩霞新書分享會 | 在基隆塔來一場心靈對話,立即報名!

發展通用型機器人的挑戰在哪? 

機器人通用化雖然有一定困難,但發展通用型機器人的瓶頸更為巨大。

工研院AI策略長余孝先將困難切成兩部分,一部分和技術有關,另一部分則涉及成本效益。就技術來說,余孝先認為人們談論的「自主性」,其實可以拆分成不同能力。

他以「人類請機器人泡咖啡」為例,流程上機器人要先理解人類意圖,接著將意圖轉譯為機器人能夠執行的行動,最後則是理解環境,並依照感知到的資訊搭配制定出的行動計畫。這當中,既有軟體,也有硬體。

工研院AI策略長余孝先指出,生成式AI提升機器人的互動、感知等能力。工研院提供。

工研院AI策略長余孝先指出,生成式AI提升機器人的互動、感知等能力。工研院提供。

以硬體來說,余孝先認為硬體上機械與電控已經成熟,不管是控制機器人控制手指高度、將手指伸多長以便按下按鈕,現有機器人都能夠完成,但軟體層面上還是有挑戰在。

余孝先表示,第一階段的「理解」(understanding)已經不再是問題。隨著大語言模型(Large Language Model,LLM)的發展,機器人得到LLM加持後,提升理解自然語言、與人類互動的能力,人類不管是打字,還是直接開口說話,機器人都能聽懂指令。

第二階段的「規劃」(planning),則是機器人領域長年發展的課題,以泡咖啡來說,就要明確制定出流程中的每個節點,包含燒熱水、找咖啡粉、拿水杯等環節。余孝先指出,已經多年未見到規劃能力的進展,理由不是無法推進,而是沒辦法克服更末端的挑戰,也就是第三階段的「感知」(sensing)。

「即便能夠聽懂(交辦的)工作,(機器人)還是要摸索,找到那個杯子、咖啡機,這非常困難,⋯⋯要對周遭環境了解。」余孝先強調,若機器人無法在物理世界靈活運作,就算有規劃能力也沒有太大幫助。

事實上,在軟體世界中,發展大語言模型在內的基礎模型(foundation model),並提升其推理能力(reasoning),往AI Agent(AI代理)的願景邁進,對於培養機器人的規劃能力,便有很大助益。

數位世界的Agent能夠自主處理許多任務,但映射到物理世界,就得額外考慮更多環境相關變數。曾子軒攝。

數位世界的Agent能夠自主處理許多任務,但映射到物理世界,就得額外考慮更多環境相關變數。曾子軒攝。

胡竹生指出,人類下指令後,LLM可以將指令轉化為明確、可執行的詳細步驟。不過,要從平面中的文字描述,落地成機器人在立體世界裡採取的行為,並非一蹴可幾。例如,光是要機器人執行「倒熱水」的步驟,就要釐清水杯的類型、確定傾倒熱水的流速。

想要從大語言模型推進至大行為模型(Large Behavior Model,LBM),就是機器人發展的重點之一。胡竹生舉例,從同步圖像與文字輸入(input)中學習的多模態VLM,能夠看懂圖像,有辦法做到視覺問答,部分VLM還能夠捕捉影像裡的空間屬性。

運用在機器人領域中,就有機會以VLM產生文字描述,接著建構模型,藉此學習文字描述與機器人動作的關係。如此一來,不只能夠利用規劃能力分解步驟,還有辦法掌握環境、物體,以及兩者之間的空間關係。

不過,即便克服技術,成本也是大問題。

「你要訓練一個機器人,又會煮飯、曬衣服、洗衣服,還要幫你泡咖啡,有人按門鈴又要開門,去市場買菜還要提包包,你要懂那麼多,成本一定很高,」余孝先說道。

他分析,機器人要完成如此多樣的任務,首先要有能夠適合執行任務的硬體部件。再者,軟體上每個任務要做到通用化,切每種任務都要各自學習,考量資料、訓練和處理不同任務消耗的資源,加總軟體和硬體成本,恐怕突破天價。

余孝先認為,即便研發出能夠執行各種家事任務的機器人,一般家庭也不會願意花大錢購買。曾子軒攝。

余孝先認為,即便研發出能夠執行各種家事任務的機器人,一般家庭也不會願意花大錢購買。曾子軒攝。

然而,現階段若聘請人類勞工,價格遠遠低於購買一台通才型家事機器人的費用,余孝先因此評斷,現在距離常見於科幻小說的家庭機器人落地還很遠。

胡竹生同樣強調,家庭環境遠比想像中複雜,有很多因素要考慮。而且,在家庭裡執行的任務不但瑣碎而且複雜無比,連工程規格都很難釐清,現在討論言之過早。

如何克服機器人的通用化挑戰? 

從學界到業界,為了推動機器人的通用化,從各個面向都在努力。既然演算法還無法克服狀況,有人便致力於打造出能夠通用化的學習機制;資料蒐集不易,因此有人想盡辦法降低累積資料的成本。

就資料面來說,孫紹華分享,有史丹佛大學的團隊開發出ALOHA相關專案,讓機器人觀察專家的示範,從中學習應對不同情境的方法,屬於模仿學習(Imitation Learning)的領域。

孫紹華解釋,雖然ALOHA專案沒有特別改進演算法,但打造出方便搜集資料的系統,讓機器人能夠從示範中學習(learn from demonstration dataset)。人類專家會遠端操控機器人完成動作,例如炒菜、清洗碗盤等,藉此收集大量示範資料,接下來便可以利用這些資料訓練機器人,讓它在未來能自主完成類似任務,不需要專家再介入。

同樣是從資料面著手,NVIDIA的虛擬世界平台Omniverse,則是活用模擬(simulation),降低在現實世界中訓練機器人的龐大成本。Hillbot也是走相同路數,同樣透過模擬,並結合合成資料(synthetic data)技術,希望能夠解決在物理環境中,生成訓練資料效率不高的問題。

韓錚解釋,開發者利用Hillbot的模擬器,不用替每種場景逐一編寫程式碼,活用模擬讓機器人有辦法應對不同的可能性。他希望可以讓機器人建立起「可轉移技能」(transferrable skills),習得新能力後,便能夠運用在不同場景之中。

韓錚的野心不止步於通用化,打造出通用型機器人,才是最終目標。具體做法是,把每種處理任務的方法,加到一個技能平台之中,若機器人可以逐步掌握不同能力,就能擴大旗能耐,不再只是處理單一任務的漸進式進展。

就學習機制本身,孫紹華分享,已經有研究者嘗試不同取徑,不再使用神經網絡端到端(end-to-end)的學習策略,而是採取一套以程式/程式碼為指導的機器人學習框架(program-guided/code-guided robot learning),讓機器人掌握並運用基礎技能,進一步學習更複雜的能力。包含他個人,以及Google的研究員都投入這個方向。

更細緻地說,研究者會定義出特定領域(domain)的程式空間(program space),讓演算法自行推導出一套策略,例如以程式實現出走迷宮的右手定則。孫紹華解釋,最有效的迷宮解法不是直接生成一連串動作,而是與人類相似,自然地針對不同任務,歸納出一套合理的高層次方法解決問題。

他指出,神經網絡搜尋的參數空間很大,可能在過度配適的情況記起所有場景。但在這套從基於程式語言出發的學習方法,已經事先規定搜尋空間,「演算法能夠搜尋到這樣(右手定則)可以解決任務的高層次想法,否則就無法處理所有(迷宮)的變化,」也才有辦法捕捉到走迷宮背後隱藏的邏輯。

邁向通用型機器人的未來? 

雖然發展通用型機器人有著諸多挑戰,但仍有新創與企業前仆後繼地投入。

致力於打造通用機器人基礎模型、得到OpenAI、亞馬遜創辦人貝佐斯(Jeff Bezos)投資的新創Physical Intelligence便是其中之一。他們在去年(2024)端出模型π0 (pi-zero),讓機器人成為通才(generalist),可以摺衣服、組裝箱子、泡咖啡。

此外,Google則在2023年號召研究者們,共同建置機器人功能資料庫,並將其和影像辨識領域的經典資料集ImageNet對比,希望推動通才模型的發展。除了Google之外,亞馬遜投資的Covariant也想打造機器人領域的基礎模型,同時亦有不少新創也在戮力研發。

亞馬遜機器人工程總監維特芮(Emily Vetterick)分享,亞馬遜和Covariant團隊合作,成立前沿AI機器人團隊(Frontier AI robotics team)。曾子軒攝

亞馬遜機器人工程總監維特芮(Emily Vetterick)分享,亞馬遜和Covariant團隊合作,成立前沿AI機器人團隊(Frontier AI robotics team)。曾子軒攝

以特斯拉打造的人形機器人Optimus來說,馬斯克(Elon Musk)便指出它是通用型的機器人,可以替人類扛下危險、重複性高的工作,適合配置在工廠之中。

那麼,距離有通用能力的家用機器人真的落地還有多久?受訪者們的想法不一,有人樂觀表示三年內就能做到,也有人表示還要發展很長時間。

無論技術上要通過多少考驗,才能等到通用型的機器人,更值得關注的反而是人類社會如何看待機器人。就像自駕車能否通過社會大眾檢視一樣,當機器人有能力走入家庭,也會遇到相同挑戰。

「有一個機器人可以在家裡面做各種料理,你讓機器人開明火安全嗎?誰來負這個責任?」孫紹華認為,技術以外,還有很多倫理問題有待克服。

從自動化到自主化,再邁向通用化,直至通用型態,機器人的進化之路,仍在不斷延續。

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務