在AI競賽邁入推論時代之際,「秒回」正成為新的勝負關鍵,也讓自研ASIC晶片的競爭全面升溫。NVIDIA在2025年底以200億美元整合Groq公司的LPU(Language Processing Unit,語言處理單元)技術,正面迎戰雲端巨頭的自研布局。「導入LPU,最直接的改變就是速度,回應可以快上約35倍,讓互動更接近真人對話,」NVIDIA AI與資料中心GPU產品行銷總監夏爾.納拉辛漢(Shar Narasimhan)指出。這是一場圍繞即時性與成本效率展開的系統戰,當AI能夠幾乎即時回應、且以更低成本生成Token,ASIC的競爭邏輯也正被重新改寫。
「在AI世界裡,決定勝負的,不是單一晶片,而是整個系統能不能一起變快,」 納拉辛漢用一句話點出AI領域的關鍵,也說明了NVIDIA近期導入LPU的核心思維。
多數人以為,雲端巨頭投入ASIC,是為了追求更好的效能與功耗比。但在納拉辛漢看來,真正的關鍵是成本。「開發者會選擇能獲得最佳解決方案的地方,」他說,「這也包括誰能提供最低的Token成本。」
當AI應用進入推論階段,每一次回應、每一個Token都代表成本。隨著應用變得愈來愈即時頻繁,Token成本會被無限放大。
也因此,NVIDIA導入LPU的第一個目標,就是降低這件事。
納拉辛漢指出,「導入LPU的好處,是速度可以快上約35倍,這讓AI的回應更快,也讓互動更自然。」這不只是效能提升,而是直接改變使用體驗。
當AI回應趨近即時,它不再只是工具,而更像是一個可以即時對話、持續互動的系統,甚至類似於真人對話。更關鍵的是,當NVIDIA能以更低成本生成Token,雲端巨頭自研晶片原本建立在「降低成本」上的經濟邏輯,也將隨之被動搖。
不跟你比晶片,而是打「系統戰」
面對自研晶片浪潮,NVIDIA並沒有選擇做更多晶片,而是選擇整合。納拉辛漢直言,AI推論已經不是單一晶片可以完成的任務。在大規模推論場景中,GPU和LPU是交錯運作,由GPU負責一部分工作,LPU負責另一部分工作,且彼此之間會不斷交換資料。
意味著GPU不再是唯一主角,而是與LPU、CPU等不同處理器一起合作。這背後,是NVIDIA一直強調的「極致協同設計」。
「當我們讓一個部分變快,就會發現另一個部分變慢,然後我們就會去修復它,」納拉辛漢說。也因此,NVIDIA的策略不是單點突破,而是持續優化整個系統。
當GPU加速後,CPU成為瓶頸,就推出新架構;當推論延遲成為問題,就導入LPU。這種不斷「移動瓶頸」的能力,是對手很難追上的地方。
提前卡位Agent時代
這次導入LPU,另一個更深層的目的,是為了下一波AI應用,也就是Agentic AI。未來的AI,不只是回答問題,而是多個AI代理彼此協作、互相對話,這類應用對速度的要求,比現在高出許多。
納拉辛漢表示,如果你問一個很複雜的問題,現在可能需要幾個小時,但透過GPU加上LPU,一切都會快很多。目前GPU的推論速度大約是每秒100個Tokens,而NVIDIA的目標,是把這個數字提升到每秒1000~2000Tokens。
當延遲幾乎消失,AI才有機會真正進入更多場景,例如機器人、自駕車與工業自動化。
從這次整合Groq LPU的布局來看,NVIDIA的角色已經不只是晶片供應商,它更像是在打造一整套AI基礎設施。「每一種處理器都會被用到,差別只在比例」,納拉辛漢說。在這個架構中,GPU、CPU、LPU各自扮演不同角色,共同完成運算。也因此,競爭的核心,不再是誰的晶片比較強,而是誰的系統更完整。
當雲端巨頭還在思考如何打造更好的晶片時,NVIDIA已經在讓整個系統一起變快,這或許就是它能持續領先的真正原因。