Google的Gemini AI，引領接駁服務未來狂想曲

編按：Google Gemini代表的多模態AI技術，有可能為計程車產業開啟一扇通往未來的大門。穿過這扇門，我們既要看到技術的無限可能，也不能忽視人文關懷的初心。計程車的未來，不僅屬於更聰明的機器，也屬於願意擁抱改變的人類。

不知為何，我對AI技術的過度發展，一直抱持些許的不安。Google上個月在矽谷的2025 I∕O大會上，揭示Gemini AI的強大能力。以下將從技術落地與服務創新的角度，探討Gemini AI對未來移動產業的影響，以及如何對人類司機角色帶來結構性的改變。

先講結論：Gemini做為Google最新一代的多模態人工智慧模型，具備卓越的語言理解與生成能力，以及對環境的感知和多模態互動的能力。未來，若結合Alphabet旗下Waymo的自動駕駛計程車隊與Android XR眼鏡，將意味著在Google的AI生態體系中，所有移動載具不僅能自行駕駛，還能聽懂人類的語言、看懂周遭環境，並即時與不同利害關係人交流，將是一場天翻地覆的世紀大創新。

多模態AI時代來臨：Gemini展現語言與感知能力

Gemini被定位為一個「原生多模態」的前沿模型，能同時處理文字、圖像、影片、程式碼等多種形式的資訊，並進行推理。這代表它可以將任意輸入轉換為任意輸出，猶如新世代的資訊「I∕O」介面。在語言方面，Gemini採用了最新的大型語言模型技術，擁有長達數百萬字元的上下文記憶能力，可進行連貫深入的對話和內容生成。更重要的是，Gemini內建了強大的推理與規劃模組，能模擬人類多步思考的過程。正如Google執行長Sundar Pichai描述的，Gemini時代的AI，是一種「可以推理、規劃和記憶的智能系統」，能提前多步思考、跨軟體和系統協作，在人類的監督下代為完成任務。這種深層次的主動思考與個人化智能，讓AI不再只是被動回答問題的工具，而是能積極理解目標，並制定行動方案的代理人（Agent）。

在感知與多模態互動方面，Gemini的原生多模態設計，使它能統一理解不同來源的資訊。例如，它可以同時解析車輛的攝影機畫面、雷達感測數據，以及乘客透過語音提出的要求，將這些輸入彙整成有意義的情境理解。Google DeepMind的研究也顯示，Gemini的「世界知識」及「連鎖式推理」能力，讓它能整合多重模態數據，並模擬人類的思考方式，進行靈活決策。換言之，Gemini不僅看得到、聽得懂，還能將所見所聞轉化為對情境的深刻理解，進而做出接近人類判斷的反應。

自駕車與AI助手：打造高度自動化的接駁服務

未來的無人計程車？Alphabet旗下的自動駕駛計程車，已在美國多個城市試營運中。在可預見的未來，當Google主導的Gemini AI數據量愈大愈大、模型愈來愈成熟之後，未來的Waymo無人車隊，將能提供更安全、高效且貼心的接駁服務。

一方面，Gemini能參與自駕系統的訓練與決策優化。Waymo最近宣布，已開始使用Google的多模態大型語言模型Gemini來提升自動駕駛技術，透過引入Gemini模型，進行端到端的訓練，機器人計程車的決策能力獲得了重大突破。具體而言，結合Gemini的自駕模型，可以將車輛感測器蒐集的數據（如攝影機影像、雷達回波），即時轉換為行車路徑決策，讓無人車在遇到障礙物或需要臨時變換車道時，能更快速且精確地反應。得益於Gemini廣博的知識庫和推理能力，即使在複雜多變的道路情境中（例如，突發有動物竄出、前方施工改道），系統也能依靠對現實世界規律的理解，靈活地規劃出最佳路徑。

這種結合了學習通用知識與專業感知的自駕AI，被認為可望克服傳統自動駕駛系統在陌生場景下的表現局限，使自動駕駛車隊更接近真正的全面自主。

另一方面，Gemini將使自駕計程車具備前所未有的即時互動與服務智能。傳統的人機介面，如簡單的導航語音助理，往往侷限於預先定義的指令集。但有了Gemini，多模態 AI助手可以在車內，與乘客進行自然的語音對話。例如，乘客只需口頭描述需求：「幫我找一條不繞遠路且經過便利商店的路線。」或者「請推薦附近有兒童安全座椅的評價高餐廳」，車載的Gemini助理就能即時理解這些複雜請求，並做出回應。它或許會先在地圖資料中查詢沿途的便利商店，再綜合導航避開壅塞路段，最後給出一條最佳路線方案。同時，Gemini助手可透過語音將規劃結果告知乘客，甚至進一步詢問乘客偏好（例如是否有特定便利商店品牌）。

整個互動過程，如同一位貼心且博學的司機在為您服務：無論是臨時改變目的地、沿途加停，還是向遊客介紹景點，AI助手都能對答如流。這種高度自然的即時語音互動，將徹底改變乘客的乘車體驗——計程車不再只是冷冰冰的移動工具，而成為具有對話能力與智慧的「移動管家」。

高教永續舞台　第七屆遠見USR獎說明會開放報名>>掌握最新評選辦法

更進一步，Gemini的多模態能力，還意味着乘客與車輛的互動，將不再局限於語音。例如，乘客可以拿起手機（或載著Google眼鏡），向車內螢幕展示某個地標或圖片，AI助手能認出圖中景物，並直接導航前往那裡；又或者，針對車內的緊急狀況（乘客突發身體不適），車載AI可以同時透過影像感測，確認乘客狀態並用語音提供協助（如自動聯繫醫療單位，或是引導乘客使用車內急救設備）。多模態互動的引入，使計程車服務變得更為立體：AI能「看」能「聽」，也能即時採取行動或提供資訊，真正做到全方位地照顧乘客需求。

顛覆服務架構：人類司機角色的挑戰與轉型

當AI與自駕技術聯手提供高度自動化的接駁服務時，傳統以人力司機為核心的計程車產業架構將被顛覆。首先，可以預見的挑戰是：大量日常載客服務將由機器取代人力。在未來的無人計程車隊中，駕駛動作由自動駕駛系統完成，乘客服務與互動，則由AI助手承擔。曾經屬於司機的任務——從接單、導航、駕駛、到和乘客聊天、處理特殊需求——如今大部分都可由AI自主完成。這意味著傳統司機做為「車輛操作者」和「服務提供者」的角色將弱化，許多情境下甚至不再需要人類介入。

然而，這並不意味著人類在接駁服務中將徹底消失。相反地，我們將看到人類司機角色的轉型與重新定位。當機器承擔繁重且標準化的工作後，人類可以在人性化與例外處理的環節展現價值。未來的計程車司機，可能不再是傳統意義上握著方向盤的駕駛員，而更像是車隊管理員或遠端監控員。他們透過監控中心，同時監察多輛自駕計程車的運行情況，介入處理AI難以判斷的突發狀況。例如，當某輛無人計程車遇到前方事故交通封閉，AI遲遲無法決定繞道方案時，後端的人類監控員可以即時接管導航或遠端控制車輛脫困。這種人機協同的模式，讓少數人類監管者即可輔助整個龐大的自動車隊運作，效率遠勝過去一對一服務的司機模式。

除此之外，服務層面的人性需求也將為人類留下重要位置。雖然AI助手可以透過語音和乘客互動，但在某些場景下，「人」的溫度無可替代。例如，面對年長者或身心障礙乘客時，即便車輛可以自動駕駛，他們可能依然需要有人攙扶上下車、協助搬運輪椅或行李，甚至在情感上提供安撫與陪伴。在這類情況下，人類司機的角色更接近行動助理或照護員。未來或許會出現載著Android XR眼鏡，與車子保持同步互動的「乘客服務專員」，他們將駕駛工作交給了自動化系統，自己則隨車照顧有特殊需求的乘客。這種分工能確保科技帶來效率的同時，不犧牲對人的關懷。

當然，對於現有的大批職業司機而言，這場轉型伴隨著陣痛和結構性改變。短期內，他們將面臨就業形態轉變的壓力：部分傳統司機可能需要重新培訓，升任為車隊管理、調度，或是專攻特定服務領域；也有一部分人可能選擇離開這個行業。在轉型過程中，社會需提供配套措施，例如，職業訓練與社會安全支持，以協助勞動力從舊有模式平穩過渡到新的人機協作模式。同時，產業各方也須重新思考計程車服務的價值定義：當「安全抵達目的地」這一基本價值由機器充分保障後，人類司機／服務者能為乘客提供的附加價值將成為關鍵（例如，貼心的交流、在地人文知識、臨機應變的判斷等等）。未來的計程車服務業，或將從「勞力密集」轉變為「智慧與關懷密集」的產業。

邁向人機協作的新未來

當前的技術趨勢顯示，計程車產業正站在變革的十字路口上。從Google Gemini引領的多模態AI革命，到Waymo自駕車日漸成熟，筆者隱約看到了一幅高度自動化與智慧化的未來接駁服務場景。在這幅場景中，人類司機的角色將被重新定義：機器擅長的領域（精準駕駛、巨量資訊處理、標準化服務），將逐步由 AI取代或輔助；而人類擅長的部分（創意應變、同理心交流、複雜決策中的價值判斷），則將成為服務的差異化亮點。

對計程車司機而言，挑戰固然巨大，但新的機遇也隨之而來。未來的他們，或許成為智慧車隊的管理者，駕馭的不再是一輛車，而是整個系統；又或者，成為專精特定客層的服務專家，在AI平台上提供個性化、人性化的價值。在人類與AI協作的模式下，「駕駛」這個職業可能蛻變出全新的樣貌：人與機器各展所長，共同完成單方無法勝任的任務。就像過去自動提款機（ATM）的出現，並未消滅銀行行員這個職業，而是讓行員轉型提供更高價值的服務。我們也有理由相信，自駕車與AI助手的普及，將推動計程車司機群體向專業化、精細化方向發展。

總而言之，Google Gemini代表的多模態AI技術，有可能為計程車產業開啟一扇通往未來的大門。穿過這扇門，我們既要看到技術的無限可能，也不能忽視人文關懷的初心。計程車的未來，不僅屬於更聰明的機器，也屬於願意擁抱改變的人類。在前瞻思惟的引領下，人機協作的計程車服務將更智慧、更溫暖，也更具韌性地滿足社會的移動需求。讓我們拭目以待，在不久的將來（10～20年後），迎接這場科技與人性交織變革的到來。

本文章反映作者意見，不代表《遠見》立場

（作者為逢甲大學社會創新暨永續碩士在職學位學程特聘教授）