Google TPU全拆解:它曾贏棋王,如何破輝達這一局?

林士蕙
user

林士蕙

2025-12-02

瀏覽數 350+

TPU並非新技術,它是Google自2015年就部署的內部「黑科技」。取自Google Blog
TPU並非新技術,它是Google自2015年就部署的內部「黑科技」。取自Google Blog

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

Google TPU近期傳出Meta有意洽購,Gemini 3僅靠自家TPU就可訓練完成,近期讓輝達股價暴跌!難道TPU將取代GPU?AI硬體霸主要換人了?其實TPU並非新技術,它是Google自2015年就部署的內部「黑科技」,曾在AlphaGo對弈棋王李世乭一役中扮演讓模型思考加速的關鍵角色。到底TPU是什麼?如今最新一代的TPU若如傳言推向市場會贏過輝達GPU嗎?NVIDIA護城河為何尚未全部攻破?對AI供應鏈來說,又指出哪些變革?新概念股正成軍?一文彙整業內最新研究說法。

TPU是什麼?和GPU差異在哪?

TPU是什麼?和CPU與GPU的差異在哪?根據Google官方說法,CPU可以理解成電腦中「用途最廣、能處理各式工作的大腦」。至於GPU一開始的用途則是為了協助CPU,特別強化與影像、影片、模擬相關的重度運算。

TPU 完全不同,它是一開始就是專為AI打造的晶片。

TPU 屬於ASIC (Application─specific integrated circuit,特定應用積體電路)的一種,它不是面面俱到的通用型晶片,而是為單一目的量身定做。它的核心任務,就是高速處理AI模型所需的大量矩陣運算與向量運算,讓模型訓練與推論能更快、更有效率。

舉例來說,輝達的GPU可以廣泛用在如遊戲需要的影像處理、或者科學計算、以及AI機器學習等,不會僅限於AI,但是TPU這類ASIC則是專門設計來訓練如Gemini這類AI相關應用,是兩者基本上的差異。

事實上,包括Meta 、微軟與亞馬遜都曾表示考慮打造ASIC晶片。ASIC與GPU的完整差異比較,ASIC概念股一次看

Google TPU如何出現?歷代創新?

TPU為何會出現?早在2013年,Google內部就發現CPU性能的極限。Google首席科學家Jeff Dean曾受訪指出,當時內部預估的數據令人心驚:如果有一天Google的數億用戶升級使用語音來搜尋網路資料,每天光使用三分鐘,就會迫使Google將現有的全球資料中心數量翻倍才能滿足需求 !

所以,Google團隊那時起在市場上考察了許多替代技術,卻遲遲找不到適合的方案,才決定在內部啟動一項祕密計畫,也就是自製晶片TPU的開始。

後來,第一版的TPUv1於2015年在 Google 內部部署,並於2016年Google I/O 大會上正式對外公開。根據Google官方部落格揭露,在AlphaGo戰勝人類棋王李世乭的歷史性對弈中,TPUv1扮演了關鍵角色:它幫助AlphaGO思考速度更快,還能預判更遠的下一步棋該怎麼下。

在AlphaGo戰勝人類棋王李世乭的歷史性對弈中,TPUv1扮演了關鍵角色。取自維基百科

在AlphaGo戰勝人類棋王李世乭的歷史性對弈中,TPUv1扮演了關鍵角色。取自維基百科

至於在最新一代TPU v7 Ironwood問世前,歷代TPU的創新也相當先進,快速幫助當時的 Google團隊發展許多先進應用,如支援 Google 搜尋、語音辨識、翻譯以及AlphaGo等專案。技術里程碑彙整如下:

TPU v1:AI 推論專用 

創新:Google 第一款專為機器學習設計的客製化晶片 (ASIC),針對「推論」(Inference) 任務進行優化。

TPU v2:AI訓練超級電腦 

創新:從推論擴展至「訓練」(Training) 領域。引入了 TPU Pod 架構,透過高速互連技術將256個晶片串聯,打造出強大的 AI 訓練超級電腦。

TPU v3:導入液冷技術

創新:隨著運算效能提升,為了更有效解決散熱與能效問題,首次在伺服器中大規模引入液冷技術 (Liquid Cooling)。

TPU v4:全光交換OCS

創新: 採用了全光交換技術 (Optical Circuit Switches, OCS),讓 TPU Pod 內的晶片通訊速度更快、更可靠,大幅提升大規模運算的效率。

TPU v5p:大記憶體與 3D Torus

創新: 專為大型模型訓練優化,大幅擴增高頻寬記憶體 (HBM) 至 95GB,並採用 3D Torus 網路架構以提升擴展性 。 

Trillium (TPU v6):專為生成式AI打造

創新: 專為訓練及運行最先進的生成式 AI 模型(如 Gemini 1.5)而設計。 效能: 每晶片的運算效能較前一代 (TPU v5e) 提升了 4.7 倍,同時兼顧更高的能源效率。

Google TPU v7 Ironwood如何優於輝達?特色在哪?

許多矽谷公司如Meta、Amazon,微軟,內部都有開發客製化晶片ASIC的計畫。為何Google TPU 最新一代v7在11月發表後,立即震驚業界?彙整Google官方過往資訊,以及知名半導體調查機構Semi Analysis於26日公開上線了最新一代Google TPU v7的分析報告,可以發現TPU有許多地方優於輝達:

首先,成本更低就是關鍵。

Semi Analysis團隊指出,TPUv7的每總擁有成本(TCO)比輝達低,可以彌補性能上的些微差距。這是什麼?TCO(Per Total Cost of Ownership)指的是用來衡量 「獲得每一單位實際運算效能,究竟要花多少錢」的指標,裡面要衡量的包括了:硬體採購成本、營運成本、軟體效率與利用率等。

該調查機構進一步分析, 輝達對其GPU及其周邊系統(CPU、交換器、電纜)收取極高的利潤,墊高了客戶的採購成本,導致TCO遜於Google的TPU。舉例來說,即使 Google  TPU目前是加價租給外部客戶如Anthropic,其每小時TCO估計仍比使用NVIDIA GB200 低約30% 。

吃隔夜菜會致癌嗎?火鍋湯可以喝嗎?咖啡可以每天喝嗎?|免費報名>顏宗海醫師將用最白話的方式,帶你破解常見的食安疑惑!

客戶採購晶片,性能也是重要考量,最新一代的TPUv7在性能上和輝達旗艦版晶片差距仍在,但Semi Analysis估算成本上的精省足可彌補TPU性能的弱點。

此外,Google TPU v7的設計上還有以下特色:

特色一:雙小晶片設計

根據 Google Cloud 官方技術文件與發布資訊,Ironwood 架構採用了 「雙小晶片架構」(Dual-chiplet architecture),這是與前幾代 TPU最顯著的差異之一。採用 Chiplet 設計的主因是可以提高製造的成本效益與良率。

每個最新一代Ironwood TPU 封裝包含 2 個獨立的小晶片。這兩個小晶片通過高速的 D2D(Die-to-Die) 介面互連,該介面的速度比標準的晶片間互連(ICI)快上6倍。

其實,前台積電高層、現為鴻海科技集團董事的蔣尚義,已於今年遠見高峰會上提出,小晶片將是台灣不可錯過的新趨勢

特色二:OCS全光交換

全光交換技術(Optical Circuit Switches,OCS)是Google TPU上的核心創新, 主要是Google 發現,當連接成千上萬個機櫃時,如果全部買傳統電子交換器,光是把光轉成電、再轉回光的成本與電力相當高,採用OCS設計會大幅降低成本也節能。

至於OCS的運作原理,不同於傳統的EPS交換器,不會將光訊號轉換為電訊號,而是直接將輸入的光像是鏡子般反射到輸出的端口 。雖然 OCS切換速度物理上較電子交換器慢,但對於 AI 訓練這類長時間、大流量且穩定的連線需求來說,其低延遲與高節能的優勢反而更適合採用。

最新一代TPUv7則透過更進階的系統架構與雙運算晶粒(Dual Die)設計,大幅提升連線效率並降低成本 。

特色三:液冷

據Google官方資訊,內部團隊在2018年就決定從傳統的氣冷之外,引進液冷技術,相較輝達在2024年才對外宣布啟動液冷散熱革命,布局更早。

Google 2025年8月針對最新TPU v7 (Ironwood)的一份簡報中,則指出v7使用了v3與v4以來就開發出的第三代液冷控制技術,像是從串聯改為平行水流,這樣能確保每一顆晶片都能獲得相同溫度的冷卻液,讓效能不會有差異。

另外TPU還有主動式閥門調節技術 (Valve-Controlled Flow Rate)。簡單來說,Google 在液冷迴路中加入了可變閥門,系統可以根據當下的運算負載和溫度感測器數據,動態調整流經特定區域的水流量。 在低負載時減少幫浦功耗;在高負載時增加流量抑制熱點,可說是Google善用軟體來優化水冷的獨到創新。

若與輝達GB300的液冷技術相較,GB300則是採取了每個GPU與CPU晶片獨立的水冷板設計,來讓散熱效果不會出現差異。

Google TPU,為何仍未全面超越輝達?

根據《The Information》及多家外媒報導,Meta正在與Google 進行談判,計畫從2026 年開始租賃Google Cloud TPU,並可能在2027年直接購買 TPU 晶片部署於自家數據中心。更指出一些 Google高層私下認為,TPU推到市場上銷售,有機會奪走輝達資料中心業務10%營收,約值數十億美元。

雖然目前未獲官方證實,消息一出立刻讓輝達美股股價暴跌。

至於根據Google官方公開過的雲端TPU用戶,則包括Anthropic、Midjourney、Salesforce等矽谷頂尖軟體、AI廠商。 

但是為何仍有人認為,輝達GPU的護城河未全面攻破?

第一個原因是,Google TPU需要頂尖工程師人才方能善用。 

調查機構Semi Analysis認為,TPU的核心優勢在於貫徹「系統重於微架構(Systems Matter More Than Microarchitecture)」的設計哲學,也就是透過系統級的軟硬整合,讓非頂尖性能的晶片效能也可以大大升級 。然而,由於Google團隊為TPU打造來內部使用的工具,並未對外部客戶開放,這設立了極高的技術門檻:想透過租賃獲益的客戶,必須具備與Google相當水準的頂尖工程團隊,才能駕馭這套系統。

以Anthropic為例,他們之所以能大規模採用TPU,關鍵在於其團隊擁有前Google編譯器專家。對於絕大多數缺乏這類軟硬體全端人才的企業而言,輝達擁有成熟CUDA生態系與開箱即用的便利性,仍是不可替代的首選 。由於這類高階人才在AI 時代極度稀有,TPU要在短期內全面瓦解NVIDIA GPU 的護城河,可能性仍不高。

第二個原因是周邊生態不容易一夕間轉換。

輝達CUDA畢竟已有20年經營歷史,許多開發者已經習慣在此生態開發專案。另外,雖然 Google 積極推動JAX 等框架,但現有的開源模型大多預設針對NVIDIA GPU優化,要轉移到TPU需要額外的轉換工作與程式碼調整,這道「轉換成本」的門檻,也會讓願意加入Google TPU陣營的企業相對較少,或採取兩者並行的方式。

至於輝達與Google雙方團隊怎麼回應GPU與TPU之爭?

Google官方近期回應外界傳言指出,雖然Gemini 3是單獨使用TPU訓練完成,「我們自製的TPU和輝達GPU的需求都在加速成長中。我們將一如既往地繼續支持兩者。」

輝達則於26日發表官方聲明指出,「我們樂見Google取得成功——他們在AI領域有很棒的進展,而我們也會持續供應晶片給Google。NVIDIA領先業界一個世代,是目前唯一能運行所有AI模型、且隨處皆可進行運算的平台。相較於專為特定AI框架或功能設計的ASIC ,NVIDIA提供了更高的效能、更全面的通用性和更棒的替代性。」

其他專家如何看待輝達GPU與Google TPU的競爭?

目前Google提供的是租賃服務,非直接銷售,Anthropic是透過部分租賃,部分從博通採購取得TPU,但近期傳言Google有可能改變策略。根據大摩分析師Brian Nowak團隊預測,若傳言成真,Google直接向Meta等大型客戶出售晶片,預計到2027年,Google可能對外銷售50萬至100萬顆TPU。但大摩認為對比起輝達預估出貨量,TPU短期內頂多只是侵蝕,不至於全面取代輝達GPU霸主地位。

外媒《經濟學人》近期也做了深入分析,指出Google TPU確實撼動了輝達的霸主地位。

你可能也喜歡

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務