您當(dāng)前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2024-11-20 10:24
在 2024 年超級計算機(jī)大會上,這家人工智能計算巨頭展示了可能是迄今為止最大的人工智能“芯片”——四 GPU Grace Blackwell GB200 NVL4 Superchip,同時宣布其 H200 NVL PCIe 模塊已全面上市,可供運行人工智能工作負(fù)載的企業(yè)服務(wù)器使用。

這再次表明該公司正在擴(kuò)展半導(dǎo)體芯片的傳統(tǒng)定義,以推動其 AI 計算雄心。
該產(chǎn)品于周一在超級計算 2024 活動上發(fā)布,比 Nvidia 最近推出的 Grace Blackwell GB200 Superchip更進(jìn)了一步,后者于 3 月作為該公司新的旗艦 AI 計算產(chǎn)品發(fā)布。這家 AI 計算巨頭還宣布其 H200 NVL PCIe 模塊全面上市,這將使今年早些時候推出的 H200 GPU 更適用于標(biāo)準(zhǔn)服務(wù)器平臺。
Nvidia 加速計算總監(jiān) Dion Harris 上周在與記者的簡報會上表示,GB200 NVL4 Superchip專為運行高性能計算和 AI 工作負(fù)載的“單服務(wù)器 Blackwell 解決方案”而設(shè)計。
這些服務(wù)器解決方案包括惠普企業(yè)的 Cray Supercomputing EX154n 加速器刀片,該刀片于上周發(fā)布,最多可容納 224 個 B200 GPU。據(jù) HPE 稱,Cray 刀片服務(wù)器預(yù)計將于 2025 年底上市。
根據(jù) Nvidia 分享的圖片顯示,GB200 Superchip 看起來就像一塊光滑的黑色主板,將一個基于 Arm 的 Grace GPU 與兩個基于 Nvidia 新 Blackwell 架構(gòu)的 B200 GPU 連接起來。而 NVL4 產(chǎn)品似乎將 Superchip 的表面積增加了一倍,在更大的主板上安裝了兩個 Grace CPU 和四個 B200 GPU。
GB200 Grace Blackwell NVL4 Superchip是標(biāo)準(zhǔn)(非 NVL4)雙 GPU 變體的更強(qiáng)大變體,在一個主板上配備了多達(dá)四個通過 NVLink 相互連接的B200 Blackwell GPU 和兩個基于 Grace ARM 的 CPU。該解決方案旨在處理 HPC 和 AI 混合工作負(fù)載,具有高達(dá) 1.3TB 的連貫內(nèi)存。Nvidia 宣傳 GB200 NVL4 的模擬性能是其直接前身 Nvidia GH200 NVL4 Grace Hopper Superchip的 2.2 倍,訓(xùn)練性能是其直接前身的 1.8 倍,推理性能是其直接前身的 1.8 倍。
與標(biāo)準(zhǔn) GB200 Superchip一樣,GB200 NVL4 使用 Nvidia 第五代 NVLink 芯片間互連,實現(xiàn) CPU 和 GPU 之間的高速通信。該公司此前曾表示,這一代 NVLink 可使每個 GPU 的雙向吞吐量達(dá)到 1.8 TB/s。
Nvidia 表示,GB200 NVL4 Superchip具有 1.3 TB 的一致內(nèi)存,可通過 NVLink 在四個 B200 GPU 之間共享。
為了展示 GB200 NVL4 的計算能力,該公司將其與之前發(fā)布的 GH200 NVL4 Superchip進(jìn)行了比較,后者最初于一年前作為 Quad GH200 推出,由四個 Grace Hopper GH200 Superchip組成。GH200 Superchip包含一個 Grace CPU 和一個 Hopper H200 GPU。
與 GH200 NVL4 相比,GB200 NVL4 使用 MILC 代碼的模擬工作負(fù)載速度提高了 2.2 倍,訓(xùn)練 3700 萬參數(shù)的 GraphCast 天氣預(yù)報 AI 模型的速度提高了 80%,使用 16 位浮點精度對 70 億參數(shù)的 Llama 2 模型進(jìn)行推理的速度提高了 80%。
該公司沒有提供任何進(jìn)一步的規(guī)格或性能聲明。
哈里斯在與記者的簡報中表示,Nvidia 的合作伙伴預(yù)計將在本周的 2024 年超級計算大會上推出基于 Blackwell 的全新解決方案。
他說道:“得益于參考架構(gòu),Blackwell 的推出進(jìn)展順利,使合作伙伴能夠快速將產(chǎn)品推向市場,同時添加自己的定制功能。”
Nvidia發(fā)布H200 NVL PCIe模塊
除了發(fā)布 GB200 NVL4 Superchip外,Nvidia 還宣布其之前發(fā)布的 H200 NVL PCIe 卡將于下個月在合作伙伴系統(tǒng)中推出。
NVL4 模塊包含 Nvidia 的 H200 GPU,該 GPU 于今年早些時候以 SXM 外形尺寸推出,適用于 Nvidia 的 DGX 系統(tǒng)以及服務(wù)器供應(yīng)商的 HGX 系統(tǒng)。H200 是該公司 H100 的后繼產(chǎn)品,使用相同的 Hopper 架構(gòu),并幫助 Nvidia 成為生成 AI 工作負(fù)載 AI 芯片的主要提供商。
與標(biāo)準(zhǔn) PCIe 設(shè)計不同的是,H200 NVL 由兩張或四張 PCIe 卡組成,這些卡使用 Nvidia 的 NVLink 互連橋連接在一起,使每個 GPU 的雙向吞吐量達(dá)到 900 GB/s。該產(chǎn)品的前身 H100 NVL 僅通過 NVLink 連接兩張卡。
與帶有液體冷卻選項的 H200 SXM 相比,它也采用風(fēng)冷。
哈里斯表示,雙槽 PCIe 外形尺寸使 H200 NVL“成為具有低功耗、風(fēng)冷企業(yè)機(jī)架設(shè)計的數(shù)據(jù)中心的理想選擇,具有靈活的配置,可為每個 AI 和 HPC 工作負(fù)載提供加速,無論其規(guī)模大小”。
他說:“公司可以使用現(xiàn)有的機(jī)架,選擇最適合其需求的 GPU 數(shù)量,從 1、2、4 甚至 8 個 GPU 中選擇,NVLink 域可擴(kuò)展到 4 個。”“企業(yè)可以使用 H200 NVL 來加速 AI 和 HPC 應(yīng)用,同時通過降低功耗來提高能源效率。”
與其 SXM 同類產(chǎn)品一樣,H200 NVL 配備 141GB 高帶寬內(nèi)存和 4.8 TB/s 內(nèi)存帶寬,而 H100 NVL 的容量為 94 GB 和 3.9 TB/s,但其最大熱設(shè)計功率僅為 600 瓦,而不是 H200 SXM 版本的最大 700 瓦,據(jù)該公司稱。
這導(dǎo)致 H200 NVL 的性能略低于 SXM 模塊。例如,H200 NVL 只能達(dá)到 64 位浮點 (FP64) 30 萬億次浮點運算和 8 位整數(shù) (INT8) 3,341 萬億次浮點運算,而 SXM 版本可以達(dá)到 FP64 34 萬億次浮點運算和 INT8 3,958 萬億次浮點運算。(萬億次浮點運算是每秒一萬億次浮點運算的計量單位。)
Nvidia 表示,在對 700 億參數(shù)的 Llama 3 模型進(jìn)行推理時,H200 NVL 比 H100 NVL 快 70%。至于 HPC 工作負(fù)載,該公司表示 H200 NVL 在逆時遷移建模方面快 30%。
H200 NVL 附帶 Nvidia AI Enterprise 軟件平臺的五年訂閱,該平臺配備 Nvidia NIM 微服務(wù),可加速 AI 開發(fā)。
參考鏈接
https://www.crn.com/news/components-peripherals/2024/nvidia-reveals-4-gpu-gb200-nvl4-superchip-releases-h200-nvl-module

來源:內(nèi)容編譯自crn