編按:Google Gemini代表的多模態AI技術,有可能為計程車產業開啟一扇通往未來的大門。穿過這扇門,我們既要看到技術的無限可能,也不能忽視人文關懷的初心。計程車的未來,不僅屬於更聰明的機器,也屬於願意擁抱改變的人類。
不知為何,我對AI技術的過度發展,一直抱持些許的不安。Google上個月在矽谷的2025 I∕O大會上,揭示Gemini AI的強大能力。以下將從技術落地與服務創新的角度,探討Gemini AI對未來移動產業的影響,以及如何對人類司機角色帶來結構性的改變。
先講結論:Gemini做為Google最新一代的多模態人工智慧模型,具備卓越的語言理解與生成能力,以及對環境的感知和多模態互動的能力。未來,若結合Alphabet旗下Waymo的自動駕駛計程車隊與Android XR眼鏡,將意味著在Google的AI生態體系中,所有移動載具不僅能自行駕駛,還能聽懂人類的語言、看懂周遭環境,並即時與不同利害關係人交流,將是一場天翻地覆的世紀大創新。
多模態AI時代來臨:Gemini展現語言與感知能力
Gemini被定位為一個「原生多模態」的前沿模型,能同時處理文字、圖像、影片、程式碼等多種形式的資訊,並進行推理。這代表它可以將任意輸入轉換為任意輸出,猶如新世代的資訊「I∕O」介面。在語言方面,Gemini採用了最新的大型語言模型技術,擁有長達數百萬字元的上下文記憶能力,可進行連貫深入的對話和內容生成。更重要的是,Gemini內建了強大的推理與規劃模組,能模擬人類多步思考的過程。正如Google執行長Sundar Pichai描述的,Gemini時代的AI,是一種「可以推理、規劃和記憶的智能系統」,能提前多步思考、跨軟體和系統協作,在人類的監督下代為完成任務。這種深層次的主動思考與個人化智能,讓AI不再只是被動回答問題的工具,而是能積極理解目標,並制定行動方案的代理人(Agent)。
在感知與多模態互動方面,Gemini的原生多模態設計,使它能統一理解不同來源的資訊。例如,它可以同時解析車輛的攝影機畫面、雷達感測數據,以及乘客透過語音提出的要求,將這些輸入彙整成有意義的情境理解。Google DeepMind的研究也顯示,Gemini的「世界知識」及「連鎖式推理」能力,讓它能整合多重模態數據,並模擬人類的思考方式,進行靈活決策。換言之,Gemini不僅看得到、聽得懂,還能將所見所聞轉化為對情境的深刻理解,進而做出接近人類判斷的反應。
自駕車與AI助手:打造高度自動化的接駁服務
未來的無人計程車?Alphabet旗下的自動駕駛計程車,已在美國多個城市試營運中。在可預見的未來,當Google主導的Gemini AI數據量愈大愈大、模型愈來愈成熟之後,未來的Waymo無人車隊,將能提供更安全、高效且貼心的接駁服務。
一方面,Gemini能參與自駕系統的訓練與決策優化。Waymo最近宣布,已開始使用Google的多模態大型語言模型Gemini來提升自動駕駛技術,透過引入Gemini模型,進行端到端的訓練,機器人計程車的決策能力獲得了重大突破。具體而言,結合Gemini的自駕模型,可以將車輛感測器蒐集的數據(如攝影機影像、雷達回波),即時轉換為行車路徑決策,讓無人車在遇到障礙物或需要臨時變換車道時,能更快速且精確地反應。得益於Gemini廣博的知識庫和推理能力,即使在複雜多變的道路情境中(例如,突發有動物竄出、前方施工改道),系統也能依靠對現實世界規律的理解,靈活地規劃出最佳路徑。
這種結合了學習通用知識與專業感知的自駕AI,被認為可望克服傳統自動駕駛系統在陌生場景下的表現局限,使自動駕駛車隊更接近真正的全面自主。
另一方面,Gemini將使自駕計程車具備前所未有的即時互動與服務智能。傳統的人機介面,如簡單的導航語音助理,往往侷限於預先定義的指令集。但有了Gemini,多模態 AI助手可以在車內,與乘客進行自然的語音對話。例如,乘客只需口頭描述需求:「幫我找一條不繞遠路且經過便利商店的路線。」或者「請推薦附近有兒童安全座椅的評價高餐廳」,車載的Gemini助理就能即時理解這些複雜請求,並做出回應。它或許會先在地圖資料中查詢沿途的便利商店,再綜合導航避開壅塞路段,最後給出一條最佳路線方案。同時,Gemini助手可透過語音將規劃結果告知乘客,甚至進一步詢問乘客偏好(例如是否有特定便利商店品牌)。
整個互動過程,如同一位貼心且博學的司機在為您服務:無論是臨時改變目的地、沿途加停,還是向遊客介紹景點,AI助手都能對答如流。這種高度自然的即時語音互動,將徹底改變乘客的乘車體驗——計程車不再只是冷冰冰的移動工具,而成為具有對話能力與智慧的「移動管家」。
更進一步,Gemini的多模態能力,還意味着乘客與車輛的互動,將不再局限於語音。例如,乘客可以拿起手機(或載著Google眼鏡),向車內螢幕展示某個地標或圖片,AI助手能認出圖中景物,並直接導航前往那裡;又或者,針對車內的緊急狀況(乘客突發身體不適),車載AI可以同時透過影像感測,確認乘客狀態並用語音提供協助(如自動聯繫醫療單位,或是引導乘客使用車內急救設備)。多模態互動的引入,使計程車服務變得更為立體:AI能「看」能「聽」,也能即時採取行動或提供資訊,真正做到全方位地照顧乘客需求。
顛覆服務架構:人類司機角色的挑戰與轉型
當AI與自駕技術聯手提供高度自動化的接駁服務時,傳統以人力司機為核心的計程車產業架構將被顛覆。首先,可以預見的挑戰是:大量日常載客服務將由機器取代人力。在未來的無人計程車隊中,駕駛動作由自動駕駛系統完成,乘客服務與互動,則由AI助手承擔。曾經屬於司機的任務——從接單、導航、駕駛、到和乘客聊天、處理特殊需求——如今大部分都可由AI自主完成。這意味著傳統司機做為「車輛操作者」和「服務提供者」的角色將弱化,許多情境下甚至不再需要人類介入。
然而,這並不意味著人類在接駁服務中將徹底消失。相反地,我們將看到人類司機角色的轉型與重新定位。當機器承擔繁重且標準化的工作後,人類可以在人性化與例外處理的環節展現價值。未來的計程車司機,可能不再是傳統意義上握著方向盤的駕駛員,而更像是車隊管理員或遠端監控員。他們透過監控中心,同時監察多輛自駕計程車的運行情況,介入處理AI難以判斷的突發狀況。例如,當某輛無人計程車遇到前方事故交通封閉,AI遲遲無法決定繞道方案時,後端的人類監控員可以即時接管導航或遠端控制車輛脫困。這種人機協同的模式,讓少數人類監管者即可輔助整個龐大的自動車隊運作,效率遠勝過去一對一服務的司機模式。
除此之外,服務層面的人性需求也將為人類留下重要位置。雖然AI助手可以透過語音和乘客互動,但在某些場景下,「人」的溫度無可替代。例如,面對年長者或身心障礙乘客時,即便車輛可以自動駕駛,他們可能依然需要有人攙扶上下車、協助搬運輪椅或行李,甚至在情感上提供安撫與陪伴。在這類情況下,人類司機的角色更接近行動助理或照護員。未來或許會出現載著Android XR眼鏡,與車子保持同步互動的「乘客服務專員」,他們將駕駛工作交給了自動化系統,自己則隨車照顧有特殊需求的乘客。這種分工能確保科技帶來效率的同時,不犧牲對人的關懷。
當然,對於現有的大批職業司機而言,這場轉型伴隨著陣痛和結構性改變。短期內,他們將面臨就業形態轉變的壓力:部分傳統司機可能需要重新培訓,升任為車隊管理、調度,或是專攻特定服務領域;也有一部分人可能選擇離開這個行業。在轉型過程中,社會需提供配套措施,例如,職業訓練與社會安全支持,以協助勞動力從舊有模式平穩過渡到新的人機協作模式。同時,產業各方也須重新思考計程車服務的價值定義:當「安全抵達目的地」這一基本價值由機器充分保障後,人類司機/服務者能為乘客提供的附加價值將成為關鍵(例如,貼心的交流、在地人文知識、臨機應變的判斷等等)。未來的計程車服務業,或將從「勞力密集」轉變為「智慧與關懷密集」的產業。
邁向人機協作的新未來
當前的技術趨勢顯示,計程車產業正站在變革的十字路口上。從Google Gemini引領的多模態AI革命,到Waymo自駕車日漸成熟,筆者隱約看到了一幅高度自動化與智慧化的未來接駁服務場景。在這幅場景中,人類司機的角色將被重新定義:機器擅長的領域(精準駕駛、巨量資訊處理、標準化服務),將逐步由 AI取代或輔助;而人類擅長的部分(創意應變、同理心交流、複雜決策中的價值判斷),則將成為服務的差異化亮點。
對計程車司機而言,挑戰固然巨大,但新的機遇也隨之而來。未來的他們,或許成為智慧車隊的管理者,駕馭的不再是一輛車,而是整個系統;又或者,成為專精特定客層的服務專家,在AI平台上提供個性化、人性化的價值。在人類與AI協作的模式下,「駕駛」這個職業可能蛻變出全新的樣貌:人與機器各展所長,共同完成單方無法勝任的任務。就像過去自動提款機(ATM)的出現,並未消滅銀行行員這個職業,而是讓行員轉型提供更高價值的服務。我們也有理由相信,自駕車與AI助手的普及,將推動計程車司機群體向專業化、精細化方向發展。
總而言之,Google Gemini代表的多模態AI技術,有可能為計程車產業開啟一扇通往未來的大門。穿過這扇門,我們既要看到技術的無限可能,也不能忽視人文關懷的初心。計程車的未來,不僅屬於更聰明的機器,也屬於願意擁抱改變的人類。在前瞻思惟的引領下,人機協作的計程車服務將更智慧、更溫暖,也更具韌性地滿足社會的移動需求。讓我們拭目以待,在不久的將來(10~20年後),迎接這場科技與人性交織變革的到來。
本文章反映作者意見,不代表《遠見》立場
(作者為逢甲大學社會創新暨永續碩士在職學位學程特聘教授)