AI代理如何落地？簡立峰剖析Gemini 3昭示的前行之路

2025年，基礎模型能力持續朝「代理」層級邁進，但真正導入AI代理的台灣企業還不到16％。Google前台灣董事總經理簡立峰如何看待這波代理趨勢？Gemini 3的關鍵突破何在？為何邊緣AI應用會是台灣致勝點？

從OpenAI進入紅色警戒、迅速發布GPT 5.2，回擊Google表現出色的Gemini 3 Pro，可見得AI模型競爭依舊激烈。台灣雖難以在基礎模型戰場上掙得一席之地，卻很可能在邊緣、垂直應用上發光發熱。

企業該何時、如何出手？看懂目前AI發展趨勢，是不得不做的基本功。

Google前台灣董事總經理簡立峰在9日舉行的「INSIDE Future Day」上，回顧被視為「AI代理元年」的2025年，指出主流AI模型在幾個指標上有顯著突破，顯示AI能力已由理解、對話，進展到推理、規劃，而這正是AI要執行「代理」的必備能力。

一個是在講求推理能力的國際競賽上取得佳績。2025年間，OpenAI與Google的前沿模型順利拿下國際數學奧林匹亞（IMO）與國際大學生程式設計競賽（ICPC）的金牌，力壓大多數人類對手。

11月發布的Gemini 3 Pro，更在較新穎的基準測試中展現出「營運」能力。根據安全評估機構Andon Labs設計的Vending-Bench 2，眾家模型在虛擬的1年期間，以500美元的起始資金，經營自動販賣機業務，並根據最終銀行帳戶餘額進行評分。

Andon Labs設計的Vending-Bench 2，讓眾家模型在虛擬的1年期間，以500美元的起始資金，經營自動販賣機業務。取自Andon Labs官網

這需要模型在長時間內保持穩定、高效率的規劃及執行能力，例如與供應商信件往來溝通議價，而不只是測試單一任務的可行性。

目前，Gemini 3 Pro是表現最突出的模型，一年後的帳戶餘額為5478美元。Claude Opus 4.5以4967美元緊追在後。報告特別指出，Gemini 3 Pro拔得頭籌的主因是長時間內善用工具，且善於尋找價格優惠的供應商。

各家AI模型經營自動販賣機業務，Gemini 3 Pro表現最突出。取自Andon Labs官網

簡立峰指出，這顯示AI已有在零售業內擔起部分營運工作的能力。

根據OpenAI對通用智慧的分層架構，最高的第五層級是可運行整個「組織」的事務，這也是最接近AGI的一層。雖然目前模型能力還在第二層「推理」與第三層「代理」之間浮動，但似乎也已露出些許更高層級的曙光。販賣機測試是一例，Alpha家族中曾奪得諾貝爾化學獎的AlphaFold，可視為第四層「創新」的代表之一。

Gemini 3關鍵突破，代理商務將在購物季大放異彩？

簡立峰指出，Gemini 3 Pro不僅在「人類最後考試」（Human's Last Exam）這樣高難度的測試中繳出AI至今最佳表現，螢幕畫面的理解能力更高達72.7％，與GPT5.1的3.5％可說不在同一個等級上。簡立峰認為，關鍵在Gemini的多模態能力與上下文視窗的長度。

「可以說Google在打造的是航空母艦，而ChatGPT在打造的是一個巡洋艦。」簡立峰比喻，初期來說，巡洋艦較易打造，燃料夠的情況下可以跑得很快。但一旦等到需要更多資料、時間與成本來打造的航空母艦完成時，就能擊敗巡洋艦。這也是為什麼Google在前三年看起來落後於OpenAI，「因為這樣的航空母艦，短期內訓練不出來。」

基於這種對螢幕畫面上的工作內容的理解能力，AI現在可以為使用者執行摘要、統整等任務，下一步就是邁向動作產出，這就是代理的基本概念。

簡立峰觀察，目前代理工具還處於發展階段。現階段成效最顯著的是程式碼、行銷與研究等領域，但還無法覆蓋所有任務範疇。

年尾的耶誕購物季，會是觀察代理在電商領域如何發威的好時機。數據顯示，愈來愈多人願意讓AI代勞選購耶誕禮物。如Shopify近期普查顯示，約有三分之二的已開發國家消費者，計畫使用AI輔助購物。麥肯錫亦預測，到2030年，全球將有3～5兆美元的購物交易透過AI代理完成。

AI推薦導流若更加精準，可能推升購買量，也有望產生新商模。簡立峰透露，根據他與品牌業者的交流，許多業者也已經準備好向這類AI代理商務投入廣告預算。

信任與成本兩大挑戰，AI代理難落地

在論壇上同步發布的《INSIDE》白皮書《AI Agent 元年，台灣企業的導入現況與未來挑戰》，則勾勒出企業在導入AI代理進入營運的痛點與挑戰。

這份報告在2025年8～11月間，普查了台灣157間企業、專訪20家品牌，顯示即使大多數企業了解什麼是AI代理，實際達成企業級落地的比例卻僅有15.9％。這與員工個人應用比例（96.2％）及企業廣義AI工具導入率（43.3％）相較，足見導入AI代理的門檻仍高。（延伸閱讀：「AI代理元年」成績如何？BCG報告：近八成企業將導入）

報告指出，受訪企業導入AI代理的兩大痛點分別是成本與信任。

SpaceX 上市話題延燒，太空經濟成為全球焦點。訂閱《遠見》雜誌 3 個月，即可從《鋼鐵人馬斯克》與《太空商業時代》中選 1 本好書，從人物思維到未來商業版圖，讀懂這波科技變局，限時方案價 $612

取用雲端模型的計價模式，使得API成本浮動，不易規劃明確預算。對此，報告建議可改變購買模式，如轉向地端部署，或設定使用量上限。

信任危機的一大來源是模型幻覺。這目前難以根除，但企業仍可透過提升資料準備度、以RAG這類技術限制存取可靠資料庫，降低幻覺風險。

《INSIDE》主編鍾效京直言，AI代理要發揮效用的關鍵，在於「擁有足夠的垂直資料量」。目前，多數企業對AI代理的想像仍停留在降本增效的層面，最熱門的用法是「自動化客服」。

但使用通用模型解決垂直應用問題的成效有限。鍾效京指出，「唯有懂產業裡面的 know-how 的垂直 AI，才能找到真正應用的場景。」

《INSIDE》主編鍾效京發表2025年白皮書報告。傅莞淇攝