menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

美股

Google TPU的前世今生:Meta投送抱、輝達暴跌 都跟這顆「自救晶片」有關

鉅亨網新聞中心

隨著 Meta(META-US) 傳可能在 2027 年於數據中心部署 Google(GOOGL-US) TPU 的消息傳出,市場大震盪,輝達股價「跌跌不休」。但值得注意的是,十年前,Google 啟動 TPU 專案,只是為解決 AI 運算效率瓶頸,而如今 TPU 不僅支撐 Google 核心業務,也成為全球 AI 推理基礎設施的重要標竿。

cover image of news article
Meta投送抱、輝達暴跌 都跟Google TPU有關。(圖:Shutterstock)

作為 Google 自研 AI 晶片,TPU 從 2015 年起為解決深度學習運算效率問題而生,如今已成為公司推理和數據中心的核心命脈。


自 2015 年啟動以來,Google 的 TPU 並非為了展示技術實力,而是迫於業務規模增長的壓力。

隨著深度學習在 Google 內部核心業務(如搜尋與廣告)廣泛應用,工程團隊發現若全面採用深度模型,全球數據中心功耗將激增,即使大量採購 GPU 也無法滿足需求,更會造成成本暴增。

因此,Google 決定自研 ASIC 加速器,目標是打造「可大量部署於數據中心、專用於矩陣運算的高能效晶片」,而非單純追求通用性能。

最後,TPU v1 於 2016 年正式上線,支援 Google 翻譯及部分搜尋功能,證明 ASIC 方案具備可行性。

2017 年 Transformer 論文問世後,Google 意識到新架構的計算模式與 TPU 高度契合。

於是,Google 開始打造全棧閉環,把包括軟體框架、編譯器、晶片架構、網路拓撲及散熱系統在內的優勢全握在手中。

此後,TPU 從單一晶片升級為 AI 基礎設施的核心,逐步支援訓練與推理工作,並從 v2、v3 開始開放給 Google 雲端客戶,邁入商業化階段。

儘管早期的生態系統和兼容性仍不如 GPU,Google 仍透過 XLA 編譯器、高效 Pod 架構、液冷數據中心,以及軟硬體深度協同設計,成功開闢出一條獨具特色的發展道路。

TPU v4 於 2021 年問世,首度以 4096 顆晶片構成超節點,通過自研的 2D/3D 環形拓撲網路實現高效跨晶片通訊,直接推動超大規模 AI 時代的到來。

而 PaLM 540B 模型便在此系統上完成訓練。

Google 以實際行動證明,只要集群規模足夠龐大、互聯效率足夠高,模型性能幾乎能隨計算量線性增長,而 TPU 的網路拓撲與調度系統,正是支撐這一規律的核心硬體基石。

2023 至 2024 年間,TPU v5p 成為轉折點,首次大規模進入 Google 廣告、搜尋排序、YouTube 推薦及地圖預測等盈利產品線,性能較 v4 翻倍,並推出彈性節點架構,企業客戶可按需擴展至近 9000 顆晶片。

Meta 與 Anthropic 等 AI 公司開始認真評估 TPU v5p,標誌 TPU 從「內部黑科技」走向「生態可選方案」。

2024 年的 TPU v6(Trillium)則全面針對推理設計,FP8 吞吐提升、片上 SRAM 翻倍、KV Cache 深度優化,能效比上一代提升 67%。

Google 指出,v6 旨在成為「推理時代最省錢的商業引擎」。

十年間,TPU 從解決計算瓶頸的「救命專案」,演化為挑戰輝達霸權的戰略級武器。

Google 第七代 TPU 登場:從「實驗項目」到「數據中心命

2025 年,Google 推出第七代 TPU(TPU v7,代號 Ironwood),在架構、規模、可靠性、網路與軟體系統上進行了全面重構,迅速成為全球 AI 基礎設施領域最受矚目的硬體產品。

Ironwood 的問世,標誌 TPU 正式從「追趕者時代」邁入「進攻時代」,同時宣告 Google 將推理場景視為未來十年的核心戰場。

與以往以訓練為主的 v5p 及以能效為主的 v6e 不同,Ironwood 從一開始就針對超大規模在線推理設計,並首次在多項關鍵指標上與輝達 Blackwell 系列正面競爭。

單晶片性能方面,Ironwood 的 FP8 稠密算力達 4.6 petaFLOPS,略高於輝達 B200 的 4.5 petaFLOPS,躋身全球旗艦加速器第一梯隊。

記憶體配置 192GB HBM3e,頻寬 7.4 TB/s,與 B200 的 192GB/8 TB/s 相差無幾;晶片間通訊頻寬為 9.6 Tbps,雖不及 Blackwell 的 14.4 Tbps,但 Google 採取完全不同的系統級設計路線,使單純數值比較已無法完全衡量其優勢。

然而,真正讓 Ironwood 成為里程碑的,是其超大規模擴展能力。

單個 Ironwood Pod 可整合 9216 顆晶片,構成超節點,FP8 峰值性能超過 42.5 exaFLOPS。

Google 技術文件指出,在特定 FP8 負載下,這一 Pod 的性能相當於最接近競品系統的 118 倍,展現的不僅是單晶片實力,而是系統架構與拓撲設計的全面碾壓。

支撐如此規模的核心,是 Google 十年磨一劍的 2D/3D 環面拓撲結合光路交換(OCS)網路。

與輝達依靠 NVLink 與高階交換機構建的 NVL72(僅 72 顆 GPU)不同,Google 放棄傳統以交換機為中心的設計,採用 3D 環面拓撲直接連接所有晶片,並透過 OCS 實現動態光路重構。

OCS 本質上如同「光版人工電話交換台」,利用 MEMS 微鏡在毫秒級完成光訊號切換,幾乎不增加延遲。

更重要的是,當集群內出現晶片故障時,OCS 能立即繞開壞點,確保整個計算域不中斷。

憑藉此技術,Google 液冷 Ironwood 系統的年可用性高達 99.999%,全年停機時間不到六分鐘。在超大規模 AI 集群中,這一表現遠超基於 GPU 的訓練集群常見水準,堪稱業界標杆。

在這樣的狀況下,Google 已將 TPU 集群從「實驗玩具」徹底升級為「數據中心命脈」。

在推理場景下,Ironwood 展現出系統級的降維打擊能力。單個節點提供 1.77 PB 高頻寬 HBM,所有晶片幾乎等距訪問,對 KV 緩存管理至關重要。

推理時代最昂貴的並非算力,而是記憶體頻寬與緩存命中率;Ironwood 透過共享大規模高速內存及極低通訊開銷,有效降低重複計算,大幅提升效率。

內部測試顯示,在同等負載下,Ironwood 的推理成本比 GPU 旗艦系統低 30%-40%,極端情況下更高。

軟體方面,MaxText 框架全面支援最新訓練與推理技術,GKE 拓撲感知調度可依 Pod 實時狀態智慧分配任務,推理網關則支持前綴緩存感知路由。

綜合優化後,首 Token 延遲最高下降 96%,整體推理成本再降 30%。

Ironwood 不僅助力 Google 自家 Gemini 系列保持領先,也直接撬動外部生態。

其中,Anthropic 宣佈,未來 Claude 系列的訓練與部署將使用多達一百萬顆 TPU,即便擁有 AWS Trainium 等替代方案的玩家,也無法忽視 Ironwood 在超大規模推理上的世代優勢。


section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty