AI與LLM愈強愈缺算力?關鍵就在台積電

黃朝健
user

黃朝健

2026-03-12

瀏覽數

台積電不只是晶圓代工廠,更是支撐AI產業放量與伺服器供應節奏的重要節點。僅為情境配圖,取自Shutterstock
台積電不只是晶圓代工廠,更是支撐AI產業放量與伺服器供應節奏的重要節點。僅為情境配圖,取自Shutterstock

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

編按:AI與LLM快速擴張,競爭焦點正從模型能力轉向算力與供應鏈。當生成式AI走向大規模部署,晶片、HBM與先進封裝成為關鍵瓶頸。在這場算力競賽中,台積電不只是晶圓代工廠,更是支撐AI產業放量與伺服器供應節奏的重要節點。

大語言模型(LLM)表面上像是「軟體變聰明了」:更會寫、更會答、更會推理。實際上,LLM正在重塑一整套「硬體體系」。模型能走多遠,愈來愈不只取決於參數有多大、演算法有多巧,而是取決於更現實的底層條件:算力夠不夠、記憶體頻寬快不快、多台伺服器之間的連通順不順、散熱和供電扛不扛得住,還有最關鍵的「供應鏈跟不跟得上」。所以,當生成式AI從小規模試點走向全面部署,市場的提問也跟著變了:大家不再只問「模型有多厲害」,而是開始追問「算力能不能穩定放大、產能能不能持續供貨」?

在這條供應鏈上,台積電不是單純「跟到趨勢」的受益者,而是核心節點。它把LLM需要的先進晶片,做成可量產的規模,同時也把瓶頸往後段推:先進封裝(advanced packaging)與高頻寬記憶體(High-Bandwidth Memory, HBM),正在決定AI伺服器到底能不能真的放量。更有意思的是,模型端也在同步改寫遊戲規則,讓模型不再只是「拚命堆參數、堆算力」,而是開始「更精明地用算力」,讓企業微調與部署的成本曲線有機會往下走。只是不管模型怎麼變聰明,最後都會回到同一個硬問題:硬體供應和製造節奏能否撐得住?

LLM的真正問題:不是「算得動」,而是可持續執行

LLM看起來是在做很「純粹的運算」:一層一層的矩陣乘法,把輸入文字轉成下一個最可能的字。但真正跑起來,你會發現它更像一場「資料搬運」的硬仗。模型的權重、每一層的中間張量,必須在記憶體和運算單元之間不停來回;只要頻寬不夠延遲太高,再強的算力也會被卡住:晶片明明很快,卻常常在等資料。

也因此,LLM的硬體需求,早就不是「換更快的GPU」這麼單純,而是整套系統工程要一起到位:也就是GPU加速器要夠、HBM要撐得住頻寬、多台機器的高速連通協作要順暢、散熱與供電也要跟得上功耗密度。少了其中任何一塊,整體效能就會被拖累,甚至直接影響能不能放量部署。

在這個架構裡,HBM的地位被推到前所未有的高度。對LLM來說,HBM不只是「記憶體零件」,更像是把資料餵進運算核心的高速公路:路面寬度不夠,車流再多也塞;路況不穩,整體交通吞吐就容易卡頓。更現實的是,HBM的供貨節奏與更新版本的世代切換,會直接牽動整體服務機能不能營運起來,甚至影響雲端服務的成本曲線。換句話說,LLM的競爭表面在比模型,底層其實也在比:誰能把「資料高速公路」鋪得更寬、更穩、更持久。

MoE:把「大模型」改寫成「會挑人上場的團隊」

近年另一個很重要的模型趨勢是MoE(Mixture of Experts,混合專家)。你可以把它想成公司怎麼做事:不是每次遇到問題,就把全公司的人都拉來開會,而是看題目屬於法務、財務還是工程,直接找最懂的那幾個部門出來處理

MoE的精髓就在「只叫部分人上場」。模型整體規模可以做得很大,但每次推論只啟用其中一小部分專家。設計得好的話,就有機會用比較省的成本,換到更強效果。

因此,MoE的重點會聚焦在把「堆算力」轉成「系統怎麼跑得順」:

路由分發一定要精準:把問題分派給最會解的那幾個專家,才省算力又不掉品質。

多台機器的連通要順暢:因為MoE會把token分派到不同「專家」,那些專家可能分散在不同GPU/不同機器上,資料就得在卡與卡、機與機之間一直搬運。連結順暢度一慢(延遲高、頻寬不夠、壅塞),整體推理和訓練就會被拖延。

部署門檻更高:特別是多個GPU、多個伺服器一起執行時,工程複雜度明顯上升。

所以,MoE的意思不是「算力不重要了」,而是把比賽從「誰堆更多算力」推進到「誰能把算力、記憶體、互連、部署整套系統做得更順」的綜合布局。

近年另一個很重要的模型趨勢是MoE(Mixture of Experts,混合專家),精髓就在「只叫部分人上場」。取自Nvidia官網

近年另一個很重要的模型趨勢是MoE(Mixture of Experts,混合專家),精髓就在「只叫部分人上場」。取自Nvidia官網

語言模型微調:企業花錢的不是訓練,是「把模型變成你能用的樣子」

對大多數企業來說,主戰場其實不是「從零訓練一個超大基礎模型」,而是把現成的大模型調成自己真正用得上的版本。也就是微調(fine-tuning)和客製化對齊:讓模型懂你的語氣、懂你的流程、懂你的專業詞彙和資料格式,而且還得在成本可控、風險可管的前提上線。

此時最務實、也最常見的路線,就是參數高效率微調(PEFT),像LoRA。它的核心概念很直觀:不用把整個模型重新訓練一遍,而是在關鍵位置加上一點點可學習的「小模組」,讓模型把你的需求學起來,微調效果上,主要追求三個面向:

.用更少的可訓練參數,做到接近全量微調的效果。

.把資料與算力成本壓下來,迭代速度更快。

讓小團隊也能做出「能上線、能用」的企業版本。

這件事對產業的意義很大,因為它把LLM的商業化,推向一種更像軟體產品開發的節奏:先上線、再修正、再迭代、再訓練。當微調和版本迭代變成日常,算力需求也會出現兩個很明顯的結構性轉變:

1.訓練仍然吃算力,但企業更常做的是「多次、頻繁」的微調與再訓練,而不是一次就砸下去做超大規模訓練。

2.推論量會更可怕:模型一旦上線就是24小時在跑,真正長期燒錢的常是推論;而推論最吃的不是「再多算力」,而是記憶體頻寬、封裝整合、整體系統效率

世界棒球經典賽(WBC)開打,台灣棒球如何在情感與經濟之間取得平衡,成為推動產業升級的關鍵力量?

所以,換句話說:MoE、LoRA這些方法,確實讓模型端更「精打細算」地用算力,但它們沒有讓硬體端變得不重要;反而因為應用更普及、迭代更頻繁,最後更考驗的,是整條供應鏈能不能撐得住放量與長期運轉

台積電的定位:不只製程領先,更關乎整條產業鏈節拍

談到台積電,市場第一時間想到的當然是先進製程:幾奈米、EUV、良率、誰先量產。但在LLM開始「放量」的時代,更值得留意的是另一件事:台積電的影響力不只在「做得多先進」,更在於它牽動整條產業鏈的節奏。因為當雲端與大型客戶把需求拉長成多年期、結構性的擴張,競爭關鍵就不再是「有沒有需求」,而是更現實的兩句話:「供不供得上、供得穩不穩?」對雲端服務商來說,模型再強,如果硬體供應跟不上,最後也只能「排隊上線」;對企業用戶來說,最怕的不是算力貴,而是交期不確定、版本上不去、成本曲線壓不下來。

這也帶出LLM產業一個務實結論:需求端常常不是最大問題,放量的節拍才是重點所在,而這個節拍,往往不是卡在前段的晶圓製造,而是更容易被忽略、卻更決定「能不能出貨」的後段環節。最常見的卡點主要有三個:

第一,是先進封裝的產能與良率爬坡

AI加速器不是單一晶片就能賣,通常要把運算晶片、HBM、機台互連整合成模組,才能把頻寬、延遲、功耗密度推到可營運的狀態。封裝線若是產能不足、良率不穩,再多晶片也可能卡在最後一道工序,變成「做得出來、組不出來」。

第二,是HBM 能不能同步跟上

對LLM來說,HBM真的不是配角,它更像是「把資料送進GPU」的高速公路。HBM一旦不夠,問題不是慢一點而已,而是整台機器可能根本湊不齊、出貨也無法順利。很多時候延遲的不是GPU,而是記憶體缺貨,結果伺服器就只能卡在那邊等料。

第三,是系統層的散熱、供電與測試環節能不能撐住

AI伺服器的功耗密度很高,散熱方案、電源設計、機櫃與機房條件都會成為硬限制;再加上測試與驗證流程一旦拉長,出貨節奏就會被拖慢。這些都不是單一廠商可以靠「某個技術突破」一次解決,而是要靠整條供應鏈一起同步。

把這三個構面放回來看台積電的營運,就能理解為什麼它不只是「晶圓代工」的代表。對LLM產業而言,台積電更像是把前段製程能力、後段封裝整合,以及供應鏈協同節奏串起來的關鍵節點之一。當市場從只盯「幾奈米」轉而更關注封裝、HBM、出貨節奏,其實反映的是同一件事:LLM的競賽正在從單點技術,走向整體供應鏈的執行力。而能把這套營運節奏持平、持穩的廠商,才有機會把「強大的語言模型」真正變成服務跑得動、規模做得大的製程供應鏈。

台積電不只是「晶圓代工」的代表。僅為情境配圖,取自Shutterstock

台積電不只是「晶圓代工」的代表。僅為情境配圖,取自Shutterstock

地緣政治把供應鏈「制度化」:台、日、中、美各走一套邏輯

LLM的算力供應鏈,近年很明顯被地緣政治「插旗」:它不再只是市場分工,而是逐步變成一套「規則及產能布局」的國際角力。四方的策略邏輯不一樣,但共同點很清楚:算力正在被當成戰略資源來管理。因此,供應鏈的決策不只看成本與效率,還要看合規、風險與政治可行性。

台灣仍是先進製程與先進封裝的核心基地,但壓力也回到最硬的製造戰:擴產速度要快、人才要補得上、成本要壓得住、良率要穩。這些不是口號,而是直接反映在交期與報價上;任何一段掉鏈子,就會變成客戶的排程風險與供應不確定性。

日本則把高階產能視為「經濟安保」的一部分,積極推動關鍵製造落地。對全球大客戶而言,「產能在哪裡」逐漸不只是新聞話題,而是採購條件的一環:分散單點風險、確保特定區域可供應,會被寫進更長期的供應策略。

美國的作法更偏制度化:透過出口管制與工具和設備限制,把競爭規則固定下來,並讓合規要求更早進入商業流程。結果是企業不只要算成本與效能,還必須在產品規格、客戶審查、供貨地區與版本策略上,提前把「能不能賣、賣到哪裡」納入設計。

中國在限制之下更傾向多路並進:一方面強化自己研發能力,另一方面也可能出現極端的繞道取得、不平衡的製程替代供應,以及有意圖的蒸餾模型並行。這使得供應鏈的溯源、審查與風險控管成本上升,灰色空間也更容易成為國際摩擦點,進一步提高AI地緣競賽的不確定性。

把四方放在同一張圖上看,你會發現LLM的競賽已經不只是「模型誰更強」,而是「誰能在規則與風險之下,把算力供應做得更穩、更可預期」。

LLM競賽正從「模型能力」走向「供應鏈能力」

接下來幾年,LLM的勝負不只在演算法與模型架構,也會落在更務實的地方:硬體與供應鏈的執行力。MoE、LoRA,以及各種微調技術,確實讓模型端更有效率、迭代更快;同樣的算力,可以做出更好的效果,小團隊也更容易把模型調成「能用的版本」。但這些進步,同時把市場推向一個更大的現實:模型可以靠方法變聰明,但規模要靠供應鏈撐得起來。誰能把模型做大,還得看誰能把產能、組裝、記憶體、交期與風險管理一併拉起來。因此,未來的語言模型搭配AI晶片的效能,必須著重在三個構面的深思:

第一,封裝產能與良率能不能跟不跟得上AI加速器不是做出晶片就算數,還要把運算晶片、HBM、互連整合成模組,才能放到伺服器裡大量出貨。封裝線的產能與良率爬坡速度,就是放量的節拍器。

第二,HBM供貨夠不夠、新一代銜接順不順?LLM的推論與訓練很吃頻寬,HBM就是資料高速公路;只要記憶體端卡住,整機就組不起來,出貨曲線自然上不去。更麻煩的,是新一代接得上接不上,牽涉產能轉換與良率磨合,任何不順都會反映在交期與成本上。

第三,地緣風險會不會把交期與成本放大出口管制、設備限制、產能多地化、用途審查,正在把「規則」變成供應鏈的一部分。對大客戶來說,最怕的是不確定性:不是今天能買到,明天就一定能買到;不是這季能成交,下一季就一定能成交。

把這三個構面串起來,就會了解,LLM表面是「文字的革命」,背後其實是一條新的工業體系:從晶圓、封裝、記憶體,到跨境規則與供應韌性,缺一不可。台積電在其中的角色,也因此從「先進製程的代表」延伸為「AI 放量節奏的關鍵節點」。未來的AI權力結構,很可能就由這句話決定:能把模型做大的人很多,但能把供應鏈撐大、把系統做穩的人,才有機會把AI熱潮變成長期的產業影響力,台灣也更有機會在大國AI霸權的國際博弈中生存。

AI治理有方 新北市打造智慧城市資安新典範
數位專題

AI治理有方 新北市打造智慧城市資安新典範

洞察趨勢的新北市政府,以超前部署、積極布局的策略,致力打造宜居、創新的智慧城市,聚焦「基礎建設」、「關鍵技術」、「智慧應用」三大面向,新北市已同步展現具體成果,體現地方政府的前瞻思維與執行力。

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務