AI算力賽拐點！Google釋出的TurboQuant是什麼？記憶體需求消失中？業界解析

AI 算力競賽出現重大技術拐點！全球搜尋引擎巨頭 Google 於近日無預警釋出全新 AI 記憶體壓縮技術「TurboQuant」，宣稱能在不犧牲模型精準度的前提下，將生成式 AI 推理階段最吃資源的「鍵值快取（KV Cache）」空間需求大砍 6 倍，並讓運算速度暴增 8 倍。

此項突破性算法被視為 AI 成本曲線的「破壞者」，卻也引發市場對硬體需求萎縮的疑慮。消息傳出後，美股記憶體族群集體跳水，美光（Micron）、威騰（WDC）等權值股應聲重挫，反映出投資人對 AI 資本支出（CAPEX）結構改變的強烈焦慮。

TurboQuant是什麼？業界為何為之震驚？

在 LLM（大語言模型）推理過程中，為了處理長文本，系統必須將過往對話資訊存放在 KV Cache 中，這如同 AI 的「數位隨身筆記」。隨着對話長度增加，這本筆記會迅速擠爆 GPU 的高頻寬記憶體（HBM），成為 AI 運行的最大瓶頸。

Google 本次發表的 TurboQuant，核心優勢在於解決了傳統壓縮技術產生的「記憶體雜訊（Overhead）」。該技術由兩大關鍵專利組成：

1. PolarQuant（極座標量化）：傳統向量以 XYZ 座標標註，運算繁瑣。Google 改採「極座標」邏輯，將複雜的方位簡化為「半徑」與「角度」。這好比將原本要標記「往東走 3 公里、再往北走 4 公里」的資訊，簡化為「以 37 度角走 5 公里」。這種幾何結構的轉換，大幅減少了資料處理的負荷。

2. QJL（ Quantized Johnson-Lindenstrauss）：這是一套極其精簡的 1bit 數學校正機制。僅利用額外的 1 位元（Sign Bit）來精準修正壓縮過程中的殘餘誤差，讓模型即使被壓縮到僅剩 3bit，在 LongBench 等多項基準測試中仍能達成「零精度損失」。

Google 選擇將這套足以成為核心競爭力的技術完全開源，不僅優化了 Gemini 等大型模型的檢索效率，更為全人類的離線 AI 發展鋪平道路。

根據實測，在輝達（NVIDIA）H100 加速器上，TurboQuant 相比未壓縮方案，效能最高提升了 8 倍，且無須重新訓練模型即可直接掛載，堪稱 AI 部署的「降本增效神兵」。

美股記憶體族群哀鴻遍野，恐慌還是過度反應？

儘管技術進步令人振奮，但資本市場的直覺卻是「硬體需求恐將萎縮」。美股25日收盤，記憶體板塊出現劇烈修正：

美股記憶體族群25日表現

晟碟（SNDK）：慘跌 5.7%
威騰電子（WDC）：重挫 4.7%
美光科技（MU）：下跌 3.0%
希捷（STX）：下跌 4.0%

不過，台股26日開盤，記憶體族群表現漲跌互見，記憶體雙雄南亞科、華邦電催出漲聲，南亞科更是「一字漲停」，表現相當強悍。

富國銀行（Wells Fargo）分析師 Andrew Rocha 點出關鍵：「當 context window（上下文窗口）越來越大，KV Cache 的爆炸性成長原本是推升記憶體需求的保證。但 TurboQuant 正在直接攻擊這條成本曲線，一旦被廣泛採用，資料中心對記憶體容量的規格要求將被打上大問號。」

全台指定教師於 2026/5/1-5/31 期間憑「教育信箱」登記，即可暢讀《遠見線上讀》1個月>>