Ironwood TPU及Axion虛擬機全面推出 開啟AI推論新時代

Google Cloud宣布推出三款基於客製化晶片的新產品,專門為推論和代理工作負載設計。Ironwood是Google Cloud第七代TPU,將陸續推出;全新Arm架構的Axion執行個體N4A已推出預覽版,提供較同等級x86虛擬機器高達2倍的性價比;首款Arm架構裸機執行個體C4A metal亦即將推出預覽版。這三款產品的推出,標誌著企業AI應用進入推論優先的全新階段。

Ironwood TPU的卓越效能突破

Ironwood作為Google Cloud迄今效能最強的客製化晶片,相較於上一代TPU v5p,峰值效能提升了10倍。與TPU v6e(Trillium)相比,每塊晶片的訓練和推論工作負載效能更提升超過4倍,同時兼具業界領先的能源效益。這款晶片專為應對最嚴苛的工作負載而設,涵蓋大規模模型訓練、複雜的強化學習,到高容量、低延遲的AI推論和模型服務。

Ironwood可在一組超節點中擴展至9,216塊晶片,並以速度達9.6 Tb/s的突破性晶片互連網絡連接。這種大規模的連接性使數千塊晶片能夠快速相互通訊,並存取高達1.77 Petabytes的共享高頻寬記憶體,從而克服即使是最嚴苛模型的數據瓶頸。當需要更強大效能時,Ironwood可以跨pod擴展,形成數十萬個TPU的叢集。

系統級設計方面,Google Cloud的光路交換技術可作為動態、可重組的結構,在服務持續運行的同時,能夠即時繞過中斷並恢復工作負載。根據IDC最近報告,AI Hypercomputer客戶平均達成了353%的三年投資報酬率、降低28%的IT成本,並使IT團隊效率提升55%。

業界廣泛採用的實際案例

Anthropic運算主管James Bradbury表示:「我們的客戶有財富500強企業,亦有初創公司,他們都依賴Claude執行最關鍵的工作。隨著需求持續指數級增長,我們正在增加運算資源,以推動AI研究和產品開發的邊界不斷擴展。Ironwood在推論效能和訓練可擴展性上都實現了高效提升,同時保持客戶期望的速度和可靠性。」Anthropic更計劃使用多達100萬個TPU。

Lightricks研究總監Yoav HaCohen指出:「我們依靠Google Cloud TPU及其龐大的ICI網絡,為我們領先的開源多模態生成模型LTX-2實現突破性的訓練效率提升。隨著我們邁進推論時代,Ironwood早期的測試結果讓我們充滿信心。我們相信Ironwood將協助我們為全球數百萬客戶打造更細膩、精確和高擬真度的圖像和影片生成。」

Essential AI基礎設施主管Philip Monk亦表示:「我們需要龐大且高效率的擴展能力,而Google Cloud的Ironwood TPU正好滿足此需求。該平台的部署十分簡易,讓我們的工程師能立即運用其強大效能,專注於加速AI領域的突破。」

軟硬件協同設計帶來整體效能提升

AI Hypercomputer的硬件與軟件協同設計,旨在全面釋放Ironwood卓越的處理效能與記憶體潛力。Google Cloud欣然宣布,使用TPU服務的客戶現可受惠於Google Kubernetes Engine的Cluster Director功能,提升系統效能和營運,涵蓋進階的維護和拓撲感知。

針對模型訓練階段,Google Cloud發布了高效能開源LLM框架MaxText的新強化功能,使其更易於操作最新的訓練和強化學習優化技術,例如監督式微調功能及生成式強化策略優化。在推論方面,Google Cloud最近宣布了vLLM中對TPU的強化支援,允許開發者僅需進行少量配置更改,即可在GPU和TPU之間切換或同步運行兩者。此外,GKE Inference Gateway功能能在TPU伺服器之間進行智能負載平衡,將生成首個詞元的時間縮短高達96%,且服務成本降低多達30%。

Axion重新定義通用運算效率

Axion是Google客製化、基於Arm Neoverse的CPU,旨在為日常工作負載提供卓越的效能、成本和能源效益。N4A虛擬機器搭載高達64個vCPU、512GB DDR5記憶體,以及網絡效能可達50 Gbps,支援自訂機型,並可配置Hyperdisk Balanced與Throughput磁碟區,非常適合微服務、容器化應用程式、開源資料庫、批次處理、數據分析、開發環境及支援AI應用的網頁服務工作。

C4A metal首款基於Arm架構的裸機執行個體,搭載高達96個vCPU、768GB DDR5記憶體,提供高達100Gbps的網絡效能,為專業工作負載提供專用的實體伺服器,例如Android開發、車用系統、具備嚴格授權要求的軟件及複雜的模擬運行。已推出的C4A則持續高效能,搭載高達72個vCPU、576GB DDR5記憶體、Tier 1網絡效能高達100Gbps,配備高達6TB本機Titanium SSD。

Axion在實際應用中的成果

Vimeo託管與交付營運資深總監Joe Peled表示:「在全新Axion N4A執行個體上的初步測試引人矚目,成功解鎖了更高效能。相較於同等級的x86虛擬機器,我們觀察到核心轉檔工作負載的效能提升了30%。這為改善我們的單位經濟效益和擴展服務方面,指明了一條清晰的道路。」

ZoomInfo基礎架構首席架構師Sergei Koren指出:「在N4A執行個體的預覽測試中,我們發現這些關鍵工作負載的性價比相較於x86提升了60%。這使我們能夠更有效地擴展平台,並以更快的速度為客戶創造更多價值。」

Rise雲端與軟體架構師Or Ben Dahan提到:「遷移至Google Cloud的Axion產品組合,為我們帶來了關鍵的競爭優勢。我們將運算消耗降低了20%,同時透過C4A執行個體維持了低而穩定的延遲表現。我們現在正測試N4A系列,其CPU消耗相較於舊有基礎架構減少了15%,進一步降低了成本。」

AI與日常運算的強大融合

在AI模型架構、軟件和技術不斷演進的環境下,企業要脫穎而出,需要整合專門用於模型訓練和服務打造的AI加速器,並搭配高效的通用型CPU來處理日常工作及所有AI相關的工作負載。無論用戶是選擇專門使用Ironwood和Axion的組合,還是將它們與AI Hypercomputer上提供的其他運算選項混合搭配,Google Cloud的系統級方案為用戶帶來高度靈活性和能力,以滿足最高強度的工作需求。

Google Cloud的客製化晶片創新歷史深厚,除Ironwood和Axion外,還開發了用於YouTube的影片編碼單元及適用於行動裝置的Tensor G5自研晶片。每個時期,Google都致力打造能夠實現效能突破的處理器,而這一切唯有透過深度的系統級協同設計,將模型研究、軟件和硬件開發整合於一處才能實現。十年前,Google正是這樣打造出第一代TPU,進而造就了八年前Transformer架構的誕生,該架構正是當今大多數現代AI的基石。

Ironwood TPU初期的部署將集中於美國,Google Cloud預計將在2026年中將其擴展至全球各個地區。用戶可立即註冊試用Ironwood、Axion N4A或C4A metal,體驗新一代運算平台為AI工作負載帶來的效能與成本優勢。

繼續閱讀

最新電競現場活動記事

You may also like...