您當前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2024-05-15 11:38
谷歌云今天宣布即將推出迄今為止最強大、最節(jié)能的張量處理單元 Trillium TPU。
谷歌的 TPU 與 Nvidia 公司的圖形處理單元類似,后者已成為運行生成人工智能工作負載的最受歡迎的硬件。谷歌希望通過 Trillium 為企業(yè)提供 Nvidia GPU 的替代品。
Trillium今天在Google I/O 2024上推出,是該公司的第六代 TPU。它旨在為最苛刻的生成式人工智能模型和工作負載提供支持,提供比現(xiàn)有 TPU 顯著增強的計算、內存和網(wǎng)絡功能。
谷歌云機器學習、系統(tǒng)和云 AI 副總裁兼總經(jīng)理 Amin Vadhat 表示,與谷歌宣布的目前最強大的芯片TPU v5e相比,Trillium TPU 的峰值計算性能提高了 4.7 倍。Cloud Next 去年八月。為了實現(xiàn)更高的性能,Google 投入了大量精力來擴展執(zhí)行計算的矩陣乘法單元或 MXU 的大小,并提高了其整體時鐘速度。
此外,Trillium GPU 的高帶寬內存容量和帶寬是原來的兩倍,而芯片間互連帶寬也增加了一倍。Amin 表示,這些增強功能將顯著縮短大型語言模型的訓練時間和服務延遲。
另一項新的創(chuàng)新是第三代SparseCore,它是一個專業(yè)加速器,用于處理先進的基于人工智能的排名和推薦系統(tǒng)中的超大嵌入。借此,Trillium TPU 將能夠訓練下一代基礎人工智能模型,并以更低的延遲和成本為它們提供服務。Amin 表示,與此同時,它們的能效提升高達 67%,這意味著比 TPU v5e 更低的運行成本和更小的碳足跡。
谷歌表示,Trillium 將于今年晚些時候推出,能夠在單個高帶寬、低延遲 Pod 中擴展到超過 256 個 TPU。通過利用 Google 在 Pod 級可擴展性、多切片技術和Titanium 智能處理單元方面的進步,用戶將能夠鏈接數(shù)百個 Trillium TPU 的單獨 Pod,以構建 PB 級超級計算機和數(shù)據(jù)中心網(wǎng)絡。
Google Cloud 的一些客戶已經(jīng)制定了使用 Trillium TPU 的計劃。例如,谷歌DeepMind將使用新芯片來訓練和服務下一代谷歌Gemini模型,并且比以前更快、更高效、延遲更低。此外,一家名為Deep Genomics Inc. 的公司正計劃使用 Trillium TPU 來推進人工智能藥物發(fā)現(xiàn)。
Deep Genomics 創(chuàng)始人兼首席信息官 Brendan Frey 表示:“我們的使命是創(chuàng)建和應用先進的人工智能模型,以突破 RNA 治療領域的可能性界限。”他希望 Trillium TPU 能夠改善其人工智能的訓練和運行基礎模型100倍。“先進的人工智能模型突破了 RNA 治療領域的可能性界限。”
Trillium TPU 還將與Google Cloud 的 AI 超級計算機項目集成,該項目是一個超級計算機平臺,旨在運行尖端的 AI 工作負載。AI超級計算機將最先進的TPU和GPU與開源軟件框架和靈活的消費模型集成在一起,以支持極其強大的新型AI工作負載的開發(fā)。
當 Trillium 推出時,它將作為另一個硬件選項添加到 AI 超級計算機中,與谷歌的 TPU v5p 和 Nvidia 的 H100 GPU 一起。該公司還計劃將 Nvidia 的新型 Blackwell GPU 與 AI 超級計算機集成,但尚未透露具體時間,因此尚不清楚 Trillium TPU 是否會首先推出。
谷歌推出第六代 Google Cloud TPU Trillium
生成式人工智能正在改變我們與技術互動的方式,同時為業(yè)務影響帶來巨大的效率機會。但這些進步需要更大的計算、內存和通信來訓練和微調最有能力的模型,并以交互方式為全球用戶群提供服務。十多年來,谷歌一直在開發(fā)定制的人工智能專用硬件、張量處理單元(TPU),以推動規(guī)模和效率的前沿發(fā)展。
該硬件支持我們今天在 Google I/O 上宣布的多項創(chuàng)新,包括Gemini 1.5 Flash、Imagen 3和Gemma 2等新型號;所有這些模型都經(jīng)過 TPU 訓練并提供服務。為了提供下一代前沿模型并讓您也能做到這一點,我們很高興推出第六代 TPU Trillium,它是迄今為止性能最強、能效最高的 TPU。
與 TPU v5e 相比,Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍,令人印象深刻。我們將高帶寬內存 (HBM) 容量和帶寬增加了一倍,并將 TPU v5e 的芯片間互連 (ICI) 帶寬增加了一倍。此外,Trillium還配備了第三代SparseCore,這是一種專用加速器,用于處理高級排名和推薦工作負載中常見的超大嵌入。Trillium TPU 可以更快地訓練下一波基礎模型,并以更少的延遲和更低的成本為這些模型提供服務。至關重要的是,我們的第六代 TPU 也是最具可持續(xù)性的:Trillium TPU 的能效比 TPU v5e 高出 67% 以上。
Trillium 可以在單個高帶寬、低延遲 Pod 中擴展到多達 256 個 TPU。除了這種 Pod 級可擴展性之外,借助多切片技術和Titanium 智能處理單元 (IPU ),Trillium TPU 還可以擴展到數(shù)百個 Pod,從而連接建筑物級超級計算機中的數(shù)萬個芯片,這些芯片通過每秒數(shù) PB 的速度互連數(shù)據(jù)中心網(wǎng)絡。
十多年前,谷歌認識到需要首款用于機器學習的芯片。2013 年,我們開始開發(fā)世界上第一個專用人工智能加速器 TPU v1,隨后于 2017 年推出了第一個云 TPU。如果沒有 TPU,Google 的許多最受歡迎的服務(例如實時語音搜索、照片對象識別、交互式語言翻譯以及 Gemini、Imagen 和 Gemma 等最先進的基礎模型都是不可能的。事實上,TPU 的規(guī)模和效率為 Google Research 的Transformers基礎工作奠定了基礎,而 Transformers 是現(xiàn)代生成人工智能的算法基礎。
TPU 是專為神經(jīng)網(wǎng)絡而設計的,我們始終致力于改善 AI 工作負載的訓練和服務時間。與 TPU v5e 相比,Trillium每芯片的峰值計算量提高了 4.7 倍。為了達到這種性能水平,我們擴大了矩陣乘法單元 (MXU)的大小并提高了時鐘速度。此外,SparseCores 通過戰(zhàn)略性地卸載來自 TensorCores 的隨機和細粒度訪問來加速嵌入繁重的工作負載。
HBM 容量和帶寬加倍使 Trillium 能夠處理具有更多權重和更大鍵值緩存的更大模型。下一代 HBM 可實現(xiàn)更高的內存帶寬、更高的能效以及靈活的通道架構,以提高內存吞吐量。這可以縮短大型模型的訓練時間和服務延遲。這是模型權重和鍵值緩存的兩倍,訪問速度更快,計算能力更強,可加速 ML 工作負載。ICI 帶寬加倍使訓練和推理作業(yè)能夠擴展到數(shù)萬個芯片,這得益于定制光學 ICI 互連與 Pod 中 256 個芯片的戰(zhàn)略組合以及Google Jupiter Networking(將可擴展性擴展到集群中的數(shù)百個 Pod)。
Trillium TPU 將為下一波人工智能模型和代理提供動力,我們期待幫助我們的客戶獲得這些先進的功能。例如,自動駕駛汽車公司Nuro致力于通過機器人技術通過使用 Cloud TPU 訓練模型來創(chuàng)造更美好的日常生活;Deep Genomics正在利用人工智能為藥物發(fā)現(xiàn)的未來提供動力,并期待他們的下一個由 Trillium 提供支持的基礎模型將如何改變患者的生活;谷歌云年度人工智能合作伙伴德勤將提供 Trillium,通過生成式人工智能實現(xiàn)業(yè)務轉型。對 Trillium TPU 上長上下文、多模式模型的訓練和服務的支持也將使Google DeepMind能夠比以往更快、更高效、延遲更低地訓練和服務未來幾代 Gemini 模型。
Trillium TPU 是 Google Cloud人工智能超級計算機的一部分,這是一種專為尖端人工智能工作負載而設計的突破性超級計算架構。它集成了性能優(yōu)化的基礎設施(包括 Trillium TPU)、開源軟件框架和靈活的消費模型。我們對 JAX、PyTorch/XLA 和 Keras 3 等開源庫的承諾為開發(fā)人員提供支持。對 JAX 和 XLA 的支持意味著為任何上一代 TPU 編寫的聲明性模型描述直接映射到 Trillium TPU 的新硬件和網(wǎng)絡功能。我們還與 Hugging Face 在 Optimum-TPU 上合作,以簡化模型訓練和服務。
“我們與 Google Cloud 的合作使 Hugging Face 用戶可以更輕松地在 Google Cloud 的 AI 基礎設施(包括 TPU)上微調和運行開放模型。我們很高興能夠通過即將推出的第六代Trillium TPU進一步加速開源 AI ,并且我們預計開放模型將繼續(xù)提供最佳性能,因為與上一代相比,每個芯片的性能提高了 4.7 倍。我們將通過我們新的 Optimum-TPU 庫,讓所有 AI 構建者輕松獲得 Trillium 的性能!” - Hugging Face 產(chǎn)品主管 Jeff Boudier說。
自 2017 年以來,Sada 每年都榮獲年度合作伙伴獎,并提供 Google 云服務以實現(xiàn)最大影響。
作為值得驕傲的 Google Cloud 首要合作伙伴,SADA 與全球知名的 AI 先驅有著 20 年的悠久歷史。我們正在為數(shù)千名不同的客戶快速集成人工智能。憑借我們豐富的經(jīng)驗和人工智能超計算機架構,我們迫不及待地想幫助我們的客戶利用 Trillium 釋放生成人工智能模型的下一個前沿領域的價值。
- Miles Ward,Sada 首席技術官說
AI 超級計算機還提供 AI/ML 工作負載所需的靈活消費模型。動態(tài)工作負載調度程序 (DWS) 讓訪問 AI/ML 資源變得更加容易,并幫助客戶優(yōu)化支出。Flex 啟動模式可以通過同時調度所需的所有加速器來改善突發(fā)工作負載(例如訓練、微調或批處理作業(yè))的體驗,無論您的入口點是什么:Vertex AI Training、Google Kubernetes Engine (GKE) 或 Google Cloud Compute引擎。
Lightricks 很高興能夠通過 AI 超級計算機的性能提升和效率提升來重新獲得價值。
“自 Cloud TPU v4 以來,我們一直在將 TPU 用于文本到圖像和文本到視頻模型。憑借 TPU v5p 和 AI 超級計算機的效率,我們的訓練速度實現(xiàn)了 2.5 倍的驚人提升!第六代 Trillium TPU 令人難以置信,與上一代相比,每芯片的計算性能提高了 4.7 倍,HBM 容量和帶寬提高了 2 倍。當我們擴展文本到視頻模型時,這對我們來說來得正是時候。我們還期待使用 Dynamic Workload Scheduler 的彈性啟動模式來管理我們的批量推理作業(yè)并管理我們未來的 TPU 預留。” - Lightricks 核心生成人工智能研究團隊負責人Yoav HaCohen 博士說。
Google Cloud TPU 是人工智能加速領域的前沿技術,經(jīng)過定制設計和優(yōu)化,可為大規(guī)模人工智能模型提供支持。TPU 獨家通過 Google Cloud 提供,為訓練和服務 AI 解決方案提供無與倫比的性能和成本效益。無論是復雜的大型語言模型還是圖像生成的創(chuàng)造性潛力,TPU 都有助于開發(fā)人員和研究人員突破人工智能世界的可能界限。
參考鏈接:https://siliconangle.com/2024/05/14/google-cloud-unveils-trillium-tpu-powerful-ai-processor-far/
https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus/

來源:半導體行業(yè)觀察