AI與LLM愈強愈缺算力？關鍵就在台積電

編按：AI與LLM快速擴張，競爭焦點正從模型能力轉向算力與供應鏈。當生成式AI走向大規模部署，晶片、HBM與先進封裝成為關鍵瓶頸。在這場算力競賽中，台積電不只是晶圓代工廠，更是支撐AI產業放量與伺服器供應節奏的重要節點。

大語言模型（LLM）表面上像是「軟體變聰明了」：更會寫、更會答、更會推理。實際上，LLM正在重塑一整套「硬體體系」。模型能走多遠，愈來愈不只取決於參數有多大、演算法有多巧，而是取決於更現實的底層條件：算力夠不夠、記憶體頻寬快不快、多台伺服器之間的連通順不順、散熱和供電扛不扛得住，還有最關鍵的「供應鏈跟不跟得上」。所以，當生成式AI從小規模試點走向全面部署，市場的提問也跟著變了：大家不再只問「模型有多厲害」，而是開始追問「算力能不能穩定放大、產能能不能持續供貨」？

在這條供應鏈上，台積電不是單純「跟到趨勢」的受益者，而是核心節點。它把LLM需要的先進晶片，做成可量產的規模，同時也把瓶頸往後段推：先進封裝（advanced packaging）與高頻寬記憶體（High-Bandwidth Memory, HBM），正在決定AI伺服器到底能不能真的放量。更有意思的是，模型端也在同步改寫遊戲規則，讓模型不再只是「拚命堆參數、堆算力」，而是開始「更精明地用算力」，讓企業微調與部署的成本曲線有機會往下走。只是不管模型怎麼變聰明，最後都會回到同一個硬問題：硬體供應和製造節奏能否撐得住？

LLM的真正問題：不是「算得動」，而是可持續執行

LLM看起來是在做很「純粹的運算」：一層一層的矩陣乘法，把輸入文字轉成下一個最可能的字。但真正跑起來，你會發現它更像一場「資料搬運」的硬仗。模型的權重、每一層的中間張量，必須在記憶體和運算單元之間不停來回；只要頻寬不夠或延遲太高，再強的算力也會被卡住：晶片明明很快，卻常常在等資料。

也因此，LLM的硬體需求，早就不是「換更快的GPU」這麼單純，而是整套系統工程要一起到位：也就是GPU加速器要夠、HBM要撐得住頻寬、多台機器的高速連通協作要順暢、散熱與供電也要跟得上功耗密度。少了其中任何一塊，整體效能就會被拖累，甚至直接影響能不能放量部署。

在這個架構裡，HBM的地位被推到前所未有的高度。對LLM來說，HBM不只是「記憶體零件」，更像是把資料餵進運算核心的高速公路：路面寬度不夠，車流再多也塞；路況不穩，整體交通吞吐就容易卡頓。更現實的是，HBM的供貨節奏與更新版本的世代切換，會直接牽動整體服務機能不能營運起來，甚至影響雲端服務的成本曲線。換句話說，LLM的競爭表面在比模型，底層其實也在比：誰能把「資料高速公路」鋪得更寬、更穩、更持久。

MoE：把「大模型」改寫成「會挑人上場的團隊」

近年另一個很重要的模型趨勢是MoE（Mixture of Experts，混合專家）。你可以把它想成公司怎麼做事：不是每次遇到問題，就把全公司的人都拉來開會，而是看題目屬於法務、財務還是工程，直接找最懂的那幾個部門出來處理。

MoE的精髓就在「只叫部分人上場」。模型整體規模可以做得很大，但每次推論只啟用其中一小部分專家。設計得好的話，就有機會用比較省的成本，換到更強效果。

因此，MoE的重點會聚焦在把「堆算力」轉成「系統怎麼跑得順」：

路由分發一定要精準：把問題分派給最會解的那幾個專家，才省算力又不掉品質。

多台機器的連通要順暢：因為MoE會把token分派到不同「專家」，那些專家可能分散在不同GPU/不同機器上，資料就得在卡與卡、機與機之間一直搬運。連結順暢度一慢（延遲高、頻寬不夠、壅塞），整體推理和訓練就會被拖延。

部署門檻更高：特別是多個GPU、多個伺服器一起執行時，工程複雜度明顯上升。

所以，MoE的意思不是「算力不重要了」，而是把比賽從「誰堆更多算力」推進到「誰能把算力、記憶體、互連、部署整套系統做得更順」的綜合布局。

近年另一個很重要的模型趨勢是MoE（Mixture of Experts，混合專家），精髓就在「只叫部分人上場」。取自Nvidia官網

語言模型微調：企業花錢的不是訓練，是「把模型變成你能用的樣子」

對大多數企業來說，主戰場其實不是「從零訓練一個超大基礎模型」，而是把現成的大模型調成自己真正用得上的版本。也就是微調（fine-tuning）和客製化對齊：讓模型懂你的語氣、懂你的流程、懂你的專業詞彙和資料格式，而且還得在成本可控、風險可管的前提上線。

此時最務實、也最常見的路線，就是參數高效率微調（PEFT），像LoRA。它的核心概念很直觀：不用把整個模型重新訓練一遍，而是在關鍵位置加上一點點可學習的「小模組」，讓模型把你的需求學起來，微調效果上，主要追求三個面向：

．用更少的可訓練參數，做到接近全量微調的效果。

．把資料與算力成本壓下來，迭代速度更快。

．讓小團隊也能做出「能上線、能用」的企業版本。

這件事對產業的意義很大，因為它把LLM的商業化，推向一種更像軟體產品開發的節奏：先上線、再修正、再迭代、再訓練。當微調和版本迭代變成日常，算力需求也會出現兩個很明顯的結構性轉變：

1.訓練仍然吃算力，但企業更常做的是「多次、頻繁」的微調與再訓練，而不是一次就砸下去做超大規模訓練。

2.推論量會更可怕：模型一旦上線就是24小時在跑，真正長期燒錢的常是推論；而推論最吃的不是「再多算力」，而是記憶體頻寬、封裝整合、整體系統效率。

掌握趨勢脈動，用英語前進世界！遠見x LiveABC雜誌連訂優惠(英語入門～專業新聞英語版本任你搭)，半年期只要1,890元(7折)

所以，換句話說：MoE、LoRA這些方法，確實讓模型端更「精打細算」地用算力，但它們沒有讓硬體端變得不重要；反而因為應用更普及、迭代更頻繁，最後更考驗的，是—整條供應鏈能不能撐得住放量與長期運轉。

台積電的定位：不只製程領先，更關乎整條產業鏈節拍

談到台積電，市場第一時間想到的當然是先進製程：幾奈米、EUV、良率、誰先量產。但在LLM開始「放量」的時代，更值得留意的是另一件事：台積電的影響力不只在「做得多先進」，更在於它牽動整條產業鏈的節奏。因為當雲端與大型客戶把需求拉長成多年期、結構性的擴張，競爭關鍵就不再是「有沒有需求」，而是更現實的兩句話：「供不供得上、供得穩不穩？」對雲端服務商來說，模型再強，如果硬體供應跟不上，最後也只能「排隊上線」；對企業用戶來說，最怕的不是算力貴，而是交期不確定、版本上不去、成本曲線壓不下來。

這也帶出LLM產業一個務實結論：需求端常常不是最大問題，放量的節拍才是重點所在，而這個節拍，往往不是卡在前段的晶圓製造，而是更容易被忽略、卻更決定「能不能出貨」的後段環節。最常見的卡點主要有三個：

第一，是先進封裝的產能與良率爬坡。

AI加速器不是單一晶片就能賣，通常要把運算晶片、HBM、機台互連整合成模組，才能把頻寬、延遲、功耗密度推到可營運的狀態。封裝線若是產能不足、良率不穩，再多晶片也可能卡在最後一道工序，變成「做得出來、組不出來」。

第二，是HBM 能不能同步跟上。

對LLM來說，HBM真的不是配角，它更像是「把資料送進GPU」的高速公路。HBM一旦不夠，問題不是慢一點而已，而是整台機器可能根本湊不齊、出貨也無法順利。很多時候延遲的不是GPU，而是記憶體缺貨，結果伺服器就只能卡在那邊等料。

第三，是系統層的散熱、供電與測試環節能不能撐住。

AI伺服器的功耗密度很高，散熱方案、電源設計、機櫃與機房條件都會成為硬限制；再加上測試與驗證流程一旦拉長，出貨節奏就會被拖慢。這些都不是單一廠商可以靠「某個技術突破」一次解決，而是要靠整條供應鏈一起同步。

把這三個構面放回來看台積電的營運，就能理解為什麼它不只是「晶圓代工」的代表。對LLM產業而言，台積電更像是把前段製程能力、後段封裝整合，以及供應鏈協同節奏串起來的關鍵節點之一。當市場從只盯「幾奈米」轉而更關注封裝、HBM、出貨節奏，其實反映的是同一件事：LLM的競賽正在從單點技術，走向整體供應鏈的執行力。而能把這套營運節奏持平、持穩的廠商，才有機會把「強大的語言模型」真正變成服務跑得動、規模做得大的製程供應鏈。

台積電不只是「晶圓代工」的代表。僅為情境配圖，取自Shutterstock

地緣政治把供應鏈「制度化」：台、日、中、美各走一套邏輯

LLM的算力供應鏈，近年很明顯被地緣政治「插旗」：它不再只是市場分工，而是逐步變成一套「規則及產能布局」的國際角力。四方的策略邏輯不一樣，但共同點很清楚：算力正在被當成戰略資源來管理。因此，供應鏈的決策不只看成本與效率，還要看合規、風險與政治可行性。

台灣仍是先進製程與先進封裝的核心基地，但壓力也回到最硬的製造戰：擴產速度要快、人才要補得上、成本要壓得住、良率要穩。這些不是口號，而是直接反映在交期與報價上；任何一段掉鏈子，就會變成客戶的排程風險與供應不確定性。

日本則把高階產能視為「經濟安保」的一部分，積極推動關鍵製造落地。對全球大客戶而言，「產能在哪裡」逐漸不只是新聞話題，而是採購條件的一環：分散單點風險、確保特定區域可供應，會被寫進更長期的供應策略。

美國的作法更偏制度化：透過出口管制與工具和設備限制，把競爭規則固定下來，並讓合規要求更早進入商業流程。結果是企業不只要算成本與效能，還必須在產品規格、客戶審查、供貨地區與版本策略上，提前把「能不能賣、賣到哪裡」納入設計。

中國在限制之下更傾向多路並進：一方面強化自己研發能力，另一方面也可能出現極端的繞道取得、不平衡的製程替代供應，以及有意圖的蒸餾模型並行。這使得供應鏈的溯源、審查與風險控管成本上升，灰色空間也更容易成為國際摩擦點，進一步提高AI地緣競賽的不確定性。

把四方放在同一張圖上看，你會發現LLM的競賽已經不只是「模型誰更強」，而是「誰能在規則與風險之下，把算力供應做得更穩、更可預期」。

LLM競賽正從「模型能力」走向「供應鏈能力」

接下來幾年，LLM的勝負不只在演算法與模型架構，也會落在更務實的地方：硬體與供應鏈的執行力。MoE、LoRA，以及各種微調技術，確實讓模型端更有效率、迭代更快；同樣的算力，可以做出更好的效果，小團隊也更容易把模型調成「能用的版本」。但這些進步，同時把市場推向一個更大的現實：模型可以靠方法變聰明，但規模要靠供應鏈撐得起來。誰能把模型做大，還得看誰能把產能、組裝、記憶體、交期與風險管理一併拉起來。因此，未來的語言模型搭配AI晶片的效能，必須著重在三個構面的深思：

第一，封裝產能與良率能不能跟不跟得上？AI加速器不是做出晶片就算數，還要把運算晶片、HBM、互連整合成模組，才能放到伺服器裡大量出貨。封裝線的產能與良率爬坡速度，就是放量的節拍器。

第二，HBM供貨夠不夠、新一代銜接順不順？LLM的推論與訓練很吃頻寬，HBM就是資料高速公路；只要記憶體端卡住，整機就組不起來，出貨曲線自然上不去。更麻煩的，是新一代接得上接不上，牽涉產能轉換與良率磨合，任何不順都會反映在交期與成本上。

第三，地緣風險會不會把交期與成本放大？出口管制、設備限制、產能多地化、用途審查，正在把「規則」變成供應鏈的一部分。對大客戶來說，最怕的是不確定性：不是今天能買到，明天就一定能買到；不是這季能成交，下一季就一定能成交。

把這三個構面串起來，就會了解，LLM表面是「文字的革命」，背後其實是一條新的工業體系：從晶圓、封裝、記憶體，到跨境規則與供應韌性，缺一不可。台積電在其中的角色，也因此從「先進製程的代表」延伸為「AI 放量節奏的關鍵節點」。未來的AI權力結構，很可能就由這句話決定：能把模型做大的人很多，但能把供應鏈撐大、把系統做穩的人，才有機會把AI熱潮變成長期的產業影響力，台灣也更有機會在大國AI霸權的國際博弈中生存。