新聞

Ironwood TPU及Axion虛擬機全面推出開啟AI推論新時代

· 2025年11月10日

Google Cloud宣布推出三款基於客製化晶片的新產品，專門為推論和代理工作負載設計。Ironwood是Google Cloud第七代TPU，將陸續推出；全新Arm架構的Axion執行個體N4A已推出預覽版，提供較同等級x86虛擬機器高達2倍的性價比；首款Arm架構裸機執行個體C4A metal亦即將推出預覽版。這三款產品的推出，標誌著企業AI應用進入推論優先的全新階段。

Ironwood TPU的卓越效能突破

Ironwood作為Google Cloud迄今效能最強的客製化晶片，相較於上一代TPU v5p，峰值效能提升了10倍。與TPU v6e（Trillium）相比，每塊晶片的訓練和推論工作負載效能更提升超過4倍，同時兼具業界領先的能源效益。這款晶片專為應對最嚴苛的工作負載而設，涵蓋大規模模型訓練、複雜的強化學習，到高容量、低延遲的AI推論和模型服務。

Ironwood可在一組超節點中擴展至9,216塊晶片，並以速度達9.6 Tb/s的突破性晶片互連網絡連接。這種大規模的連接性使數千塊晶片能夠快速相互通訊，並存取高達1.77 Petabytes的共享高頻寬記憶體，從而克服即使是最嚴苛模型的數據瓶頸。當需要更強大效能時，Ironwood可以跨pod擴展，形成數十萬個TPU的叢集。

系統級設計方面，Google Cloud的光路交換技術可作為動態、可重組的結構，在服務持續運行的同時，能夠即時繞過中斷並恢復工作負載。根據IDC最近報告，AI Hypercomputer客戶平均達成了353%的三年投資報酬率、降低28%的IT成本，並使IT團隊效率提升55%。

業界廣泛採用的實際案例

Anthropic運算主管James Bradbury表示：「我們的客戶有財富500強企業，亦有初創公司，他們都依賴Claude執行最關鍵的工作。隨著需求持續指數級增長，我們正在增加運算資源，以推動AI研究和產品開發的邊界不斷擴展。Ironwood在推論效能和訓練可擴展性上都實現了高效提升，同時保持客戶期望的速度和可靠性。」Anthropic更計劃使用多達100萬個TPU。

Lightricks研究總監Yoav HaCohen指出：「我們依靠Google Cloud TPU及其龐大的ICI網絡，為我們領先的開源多模態生成模型LTX-2實現突破性的訓練效率提升。隨著我們邁進推論時代，Ironwood早期的測試結果讓我們充滿信心。我們相信Ironwood將協助我們為全球數百萬客戶打造更細膩、精確和高擬真度的圖像和影片生成。」

Essential AI基礎設施主管Philip Monk亦表示：「我們需要龐大且高效率的擴展能力，而Google Cloud的Ironwood TPU正好滿足此需求。該平台的部署十分簡易，讓我們的工程師能立即運用其強大效能，專注於加速AI領域的突破。」

軟硬件協同設計帶來整體效能提升

AI Hypercomputer的硬件與軟件協同設計，旨在全面釋放Ironwood卓越的處理效能與記憶體潛力。Google Cloud欣然宣布，使用TPU服務的客戶現可受惠於Google Kubernetes Engine的Cluster Director功能，提升系統效能和營運，涵蓋進階的維護和拓撲感知。

針對模型訓練階段，Google Cloud發布了高效能開源LLM框架MaxText的新強化功能，使其更易於操作最新的訓練和強化學習優化技術，例如監督式微調功能及生成式強化策略優化。在推論方面，Google Cloud最近宣布了vLLM中對TPU的強化支援，允許開發者僅需進行少量配置更改，即可在GPU和TPU之間切換或同步運行兩者。此外，GKE Inference Gateway功能能在TPU伺服器之間進行智能負載平衡，將生成首個詞元的時間縮短高達96%，且服務成本降低多達30%。

Axion重新定義通用運算效率

Axion是Google客製化、基於Arm Neoverse的CPU，旨在為日常工作負載提供卓越的效能、成本和能源效益。N4A虛擬機器搭載高達64個vCPU、512GB DDR5記憶體，以及網絡效能可達50 Gbps，支援自訂機型，並可配置Hyperdisk Balanced與Throughput磁碟區，非常適合微服務、容器化應用程式、開源資料庫、批次處理、數據分析、開發環境及支援AI應用的網頁服務工作。

C4A metal首款基於Arm架構的裸機執行個體，搭載高達96個vCPU、768GB DDR5記憶體，提供高達100Gbps的網絡效能，為專業工作負載提供專用的實體伺服器，例如Android開發、車用系統、具備嚴格授權要求的軟件及複雜的模擬運行。已推出的C4A則持續高效能，搭載高達72個vCPU、576GB DDR5記憶體、Tier 1網絡效能高達100Gbps，配備高達6TB本機Titanium SSD。

Axion在實際應用中的成果

Vimeo託管與交付營運資深總監Joe Peled表示：「在全新Axion N4A執行個體上的初步測試引人矚目，成功解鎖了更高效能。相較於同等級的x86虛擬機器，我們觀察到核心轉檔工作負載的效能提升了30%。這為改善我們的單位經濟效益和擴展服務方面，指明了一條清晰的道路。」

ZoomInfo基礎架構首席架構師Sergei Koren指出：「在N4A執行個體的預覽測試中，我們發現這些關鍵工作負載的性價比相較於x86提升了60%。這使我們能夠更有效地擴展平台，並以更快的速度為客戶創造更多價值。」

Rise雲端與軟體架構師Or Ben Dahan提到：「遷移至Google Cloud的Axion產品組合，為我們帶來了關鍵的競爭優勢。我們將運算消耗降低了20%，同時透過C4A執行個體維持了低而穩定的延遲表現。我們現在正測試N4A系列，其CPU消耗相較於舊有基礎架構減少了15%，進一步降低了成本。」

AI與日常運算的強大融合

在AI模型架構、軟件和技術不斷演進的環境下，企業要脫穎而出，需要整合專門用於模型訓練和服務打造的AI加速器，並搭配高效的通用型CPU來處理日常工作及所有AI相關的工作負載。無論用戶是選擇專門使用Ironwood和Axion的組合，還是將它們與AI Hypercomputer上提供的其他運算選項混合搭配，Google Cloud的系統級方案為用戶帶來高度靈活性和能力，以滿足最高強度的工作需求。

Google Cloud的客製化晶片創新歷史深厚，除Ironwood和Axion外，還開發了用於YouTube的影片編碼單元及適用於行動裝置的Tensor G5自研晶片。每個時期，Google都致力打造能夠實現效能突破的處理器，而這一切唯有透過深度的系統級協同設計，將模型研究、軟件和硬件開發整合於一處才能實現。十年前，Google正是這樣打造出第一代TPU，進而造就了八年前Transformer架構的誕生，該架構正是當今大多數現代AI的基石。

Ironwood TPU初期的部署將集中於美國，Google Cloud預計將在2026年中將其擴展至全球各個地區。用戶可立即註冊試用Ironwood、Axion N4A或C4A metal，體驗新一代運算平台為AI工作負載帶來的效能與成本優勢。