Google為機器人裝上思考大腦，會泡咖啡代表什麼意義？

Google DeepMind宣布發表新一代機器人模型，賦予實體機器人更加強大的思考與泛化（generalization）能力，讓機器人能夠掌握分類垃圾、沖泡咖啡等複雜任務，從實驗室走向通用的商業化應用更進一步。消息一出引起全球業界廣泛討論，為何機器人會這些人類日常任務，代表重大意義？委請機器人擔當長照護理的時間點已經不遠？

Google AI中樞DeepMind昨日（25）發布更新，機器人團隊Gemini Robotics更新兩款模型，同時推出Agent框架，讓兩款模型共同運作。

扮演高階大腦的Gemini Robotics-ER 1.5負責規劃與推理，而作為執行中樞的 Gemini Robotics 1.5 則將計畫轉化為精確的馬達動作。

機器人大腦能夠好好思考，再採取行動

Google DeepMind機器人團隊負責人卡羅萊納（Carolina Parada）在Google官方部落格新文章中解釋，傳統的視覺語言模型（vison language model）一般都是直接將指令轉化為機器人的動作。

本次的新模型Gemini Robotics 1.5與Agent框架，則是實現先思考、再行動（thinks before acting），先以自然語言生成內部思考過程，在規劃並依照邏輯做出決策以後，接著才會執行。

Gemini Robotics 1.5模型具有時間和空間推理功能，想要倒咖啡時，可以自行推理出咖啡杯應該放置的位置。Google官方部落格

舉例來說，若要按照顏色分類衣物，扮演大腦角色的Gemini Robotics-ER 1.5，能夠理解實體環境，接著制定詳盡的多步驟計畫，自主將大任務拆解成「拿起紅色毛衣、放入黑色籃子」等一系列可執行的小步驟。

接著，扮演執行者角色的視覺語言模型Gemini Robotics 1.5，會接受ER模型下達的自然語言指令，將其轉換為具體的機器人動作。

如此一來，可以提升機器人的任務成功率，也使其決策過程更加透明。

另一項重要進展則是「跨本體學習」（Learns across embodiments）。卡羅萊納解釋，模型透過某台機器人習得的技能，可以直接轉移到外型、結構不同的另一台機器人上執行，不用再針對新硬體重新訓練。

這項能力的意義在於，未來企業部署機器人時，可大幅縮短學習週期、降低客製化成本，為規模化應用掃除障礙。

現實環境複雜、非結構化，機器人很像幼兒

Google DeepMind產品協理坎德拉（Kendra Byrne）和研究科學家夏飛（Fei Xia，中文為音譯）在另一篇官方部落格的文章中解釋，當機器人接到「依當地規定分類垃圾」的指令後，它能主動上網搜尋回收指南，接著觀察眼前的物品，最終制定出符合規範的分類計畫並執行。

這種整合數位工具與物理世界互動的能力，讓機器人從只能在可控環境下工作的工具，轉變為能夠在未知環境中主動解決問題的智慧實體，為其進入家庭、辦公室、醫院等複雜場景提供可能性。

回顧機器人產業的發展現況，更能凸顯此次更新的革命性意義。

Google DeepMind研究副總裁紀懷新（Ed Chi）先前接受《遠見》採訪時曾經解釋，以往機器人的應用場景，主要局限於工廠產線等高度結構化的環境，並且用來執行重複性任務。

要從封閉場域進入開放環境，就會遇上諸多問題。他舉例，對人類來說很簡單的任務，例如拿起一個玻璃杯但不會捏碎，對機器人而言就是極其複雜的工程問題。

【挺 Team Taiwan！】2026 線上書展應援倒數>>訂遠見兩年送一年再送好書六選二

從判斷力道、規劃夾取角度，到應對物體不慎翻倒的突發狀況，對機器人來說都是挑戰，要讓機器人進入開放世界，需要更聰明的大腦，還需要一套能深刻理解並駕馭物理世界法則的通用智慧。

紀懷新解釋，一旦進入美食街、家裡客廳這種混亂場景，面對形態各異的垃圾與突發狀況，傳統機器人的運作方式便會捉襟見肘。蘇義傑攝

卡羅萊納在先前的訪談中，也曾將當前最頂尖的機器人比喻為一個「聰明的兩歲幼兒」，雖然能理解簡單概念，但處理複雜或全新的任務時仍需大量練習。

「如果你教它做更複雜的事，例如我們有一個教機器人做摺紙狐狸的例子，它實際上需要時間練習才能做到。」這種在基礎理解之上、但對複雜技能需要大量重複練習的狀態，就是機器人的瓶頸。

不管是YouTube影片，或者是部分廠商的展示中，能夠看到令人驚艷的特技機器人，但卡羅萊納強調，許多看似高難度的動作，其實只是讓機器人學習並且死背排演過後的序列。

對比之下，Gemini機器人團隊試圖達成的目標，是讓機器人真正做到推理。

她以打包午餐為例：「它需要去推理打包午餐是什麼意思。⋯⋯但事情永遠不會如你預期地發展，因為這些都是很柔軟、會動來動去的東西。」這種在不可預測的環境中做出反應和應對的能力，就是通用性的核心，也是目前最大的挑戰。

當前機器人能力的不可預測性，連研究人員自己都時常感到驚訝。卡羅萊納分享，團隊成員曾經隨意地將一個玩具籃球框放在機器人面前，並請它灌籃，而機器人從未接受過任何相關訓練。

「結果，它花了不到四分之一秒，就決定把球放進籃球框裡，」她認為這樣的神奇舉動，得益於Gemini模型對灌籃概念的理解。

不過，這種能力湧現（emergence）也側面印證了其幼兒般的狀態，雖然機器人能舉一反三，但其行為邊界和穩定性，仍需大量測試與探索，遠未達到可以完全信賴的成熟階段。

追求通用性，有望幫上長照、勞動力缺乏問題

這次Google雖然更新機器人基礎模型，增加模型推理能力、加強模型學習效率，但Google DeepMind 的目光不止於此，其最終目標是打造出如同科幻作品中能處理各種家務的通用型機器人，實現真正實體世界當中的AGI。

追求通用機器人，固然是科學家心目中的聖杯，但同時也是應對全球高齡化、勞動力短缺等社會議題的潛在解方。一個能夠陪伴長者安全過馬路、處理日常起居的機器人，其前提正是必須具備適應全新、不可控環境的強大能力。

雖然這次Gemini Robotics的模型更新有所突破，前方仍有挑戰待克服，包括如何將通用性與更精細的靈巧操作相結合、如何讓機器人在真實環境中持續學習，以及如何賦予它們理解人類肢體語言的社交智慧。

然而，卡羅萊納很樂觀。她表示過去業界討論通用機器人還停留在「有生之年能否看到」，現在的辯論已轉為「是五年還是十年後實現」。她預測，未來兩年將是機器人領域的關鍵期，市場極有可能迎來一場如同大型語言模型般的技術大爆發。

從長遠來看，機器人模型的進展，既是機器人變得更聰明，同時，機器人與物理世界的真實互動所產生的寶貴資料，也將反過來讓模型變得更加強大，使其更深刻地理解人類所處的空間與因果關係，最終加速通用人工智慧的到來。