日韩av无码强奸记录久久久久久久 ,美女一级黄色影片

英偉達(dá)GB 300細(xì)節(jié)曝光，下一代GPU怪獸

嘉峪檢測(cè)網(wǎng) 2024-12-27 14:53

Nvidia 推出其第一代 Blackwell B200 系列處理器時(shí)遇到了阻礙，原因是產(chǎn)量問(wèn)題，并且還出現(xiàn)了幾份未經(jīng)證實(shí)的服務(wù)器過(guò)熱報(bào)告。然而，據(jù) SemiAnalysis報(bào)道，Nvidia 的第二代Blackwell B300 系列處理器似乎即將問(wèn)世。它們不僅具有更大的內(nèi)存容量，而且性能提高了 50%，而 TDP 僅增加了 200W。

Nvidia 的 B300 系列處理器采用了經(jīng)過(guò)大幅調(diào)整的設(shè)計(jì)，仍將采用臺(tái)積電的 4NP 制造工藝（針對(duì) Nvidia 進(jìn)行優(yōu)化的 4nm 級(jí)節(jié)點(diǎn)，性能增強(qiáng)），但報(bào)告稱(chēng)，它們的計(jì)算性能將比 B200 系列處理器高出 50%。性能提升的代價(jià)是高達(dá) 1,400W 的 TDP，僅比 GB200 高 200W。SemiAnalysis 稱(chēng)，B300 將在 B200 上市大約半年后上市。

Nvidia B300 系列的第二項(xiàng)重大改進(jìn)是使用 12-Hi HBM3E 內(nèi)存堆棧，可提供 288 GB 內(nèi)存和 8 TB/s 帶寬。增強(qiáng)的內(nèi)存容量和更高的計(jì)算吞吐量將實(shí)現(xiàn)更快的訓(xùn)練和推理，推理成本最多可降低三倍，因?yàn)?B300 可以處理更大的批量大小并支持?jǐn)U展的序列長(zhǎng)度，同時(shí)解決用戶交互中的延遲問(wèn)題。

除了更高的計(jì)算性能和更大的內(nèi)存外，Nvidia 的第二代 Blackwell 機(jī)器還可能采用該公司的 800G ConnectX-8 NIC。該 NIC 的帶寬是當(dāng)前 400G ConnectX-7 的兩倍，并且有 48 個(gè) PCIe 通道，而其前代產(chǎn)品只有 32 個(gè)。這將為新服務(wù)器提供顯著的橫向擴(kuò)展帶寬改進(jìn)，這對(duì)大型集群來(lái)說(shuō)是一個(gè)勝利。

B300 和 GB300 的另一個(gè)重大改進(jìn)是，與 B200 和 GB200 相比，Nvidia 據(jù)稱(chēng)將重新設(shè)計(jì)整個(gè)供應(yīng)鏈。該公司將不再試圖銷(xiāo)售整個(gè)參考主板或整個(gè)服務(wù)器機(jī)箱。相反，Nvidia 將只銷(xiāo)售搭載 SXM Puck 模塊、Grace CPU 和 Axiado 主機(jī)管理控制器 (HMC) 的 B300。因此，將允許更多公司參與 Blackwell 供應(yīng)鏈，這有望使基于 Blackwell 的機(jī)器更容易獲得。

借助 B300 和 GB300，Nvidia 將為其超大規(guī)模和 OEM 合作伙伴提供更多設(shè)計(jì) Blackwell 機(jī)器的自由，這將影響它們的定價(jià)甚至性能。

Nvidia 的圣誕禮物：GB300 和 B300

在 GB200 和 B200 發(fā)布僅 6 個(gè)月后，他們就向市場(chǎng)推出了一款全新的 GPU，名為 GB300 和 B300。雖然表面上聽(tīng)起來(lái)只是漸進(jìn)式的，但實(shí)際效果遠(yuǎn)超預(yù)期。

這些變化尤其重要，因?yàn)樗鼈儼▽?duì)推理模型推理和訓(xùn)練性能的巨大提升。Nvidia 為所有超大規(guī)模企業(yè)，尤其是亞馬遜、供應(yīng)鏈中的某些參與者、內(nèi)存供應(yīng)商及其投資者準(zhǔn)備了一份特別的圣誕禮物。隨著向 B300 的轉(zhuǎn)移，整個(gè)供應(yīng)鏈正在重組和轉(zhuǎn)變，為許多贏家?guī)?lái)了禮物，但也有一些輸家得到了煤炭。

B300 GPU 是基于 TSMC 4NP 工藝節(jié)點(diǎn)的全新流片，也就是說(shuō)，它是針對(duì)計(jì)算芯片的微調(diào)設(shè)計(jì)。這使得 GPU 在產(chǎn)品層面上能夠提供比 B200高 50% 的 FLOPS。部分性能提升將來(lái)自 200W 的額外功率，GB300 和 B300 HGX 的 TDP 分別達(dá)到 1.4KW 和 1.2KW（而 GB200 和 B200 的 TDP 分別為 1.2KW 和 1KW）。

其余性能提升將來(lái)自架構(gòu)增強(qiáng)和系統(tǒng)級(jí)增強(qiáng)，例如 CPU 和 GPU 之間的功率浮動(dòng)。功率浮動(dòng)是指 CPU 和 GPU 之間動(dòng)態(tài)重新分配功率。

除了 FLOPS 增加外，內(nèi)存還從 8-Hi 升級(jí)到 12-Hi HBM3E，每個(gè) GPU 的 HBM 容量增加到 288GB。但是，引腳速度將保持不變，因此內(nèi)存帶寬仍為每 GPU 8TB/s。請(qǐng)注意，三星正在從圣誕老人那里獲得煤炭，因?yàn)樗麄冎辽僭谖磥?lái) 9 個(gè)月內(nèi)無(wú)法進(jìn)入 GB200 或 GB300。

此外，Nvidia 也因?yàn)槭フQ節(jié)的氣氛，所以定價(jià)也相當(dāng)有意思。這改變了 Blackwell 的利潤(rùn)率，但以后再討論定價(jià)和利潤(rùn)率的問(wèn)題。首先要討論的是性能變化。

為推理模型推理而構(gòu)建

由于長(zhǎng)序列長(zhǎng)度會(huì)增加 KVCache，從而限制關(guān)鍵批次大小和延遲，因此內(nèi)存的改進(jìn)是 OpenAI O3 風(fēng)格 LLM 推理訓(xùn)練和推理的關(guān)鍵。

下圖顯示了 Nvidia 當(dāng)前幾代 GPU 在 1k 輸入token、19k 輸出token上運(yùn)行對(duì)token經(jīng)濟(jì)學(xué)的改進(jìn)，這類(lèi)似于 OpenAI 的 o1 和 o3 模型中的思路鏈。這個(gè)演示性的屋頂線模擬是在 FP8 的 LLAMA 405B 上運(yùn)行的，因?yàn)樗俏覀兛梢允褂?H100 和 H200 GPU（我們可以訪問(wèn)的 GPU）模擬的最佳公共模型。

從 H100 升級(jí)到 H200 純粹是內(nèi)存更大、速度更快的升級(jí)，有兩個(gè)效果。

由于內(nèi)存帶寬更大，所有可比批次大小的交互性普遍提高了 43%（H200 @ 4.8TB/s vs H100 @ 3.35TB/s）。

由于 H200 運(yùn)行的批處理大小比 H100 大，每秒可生成 3 倍的令牌，因此成本降低了約 3 倍。這種差異主要是因?yàn)?KVCache 限制了總批處理大小。

更大內(nèi)存容量帶來(lái)的動(dòng)態(tài)變化似乎不成比例的好處是巨大的。對(duì)于操作員來(lái)說(shuō)，這兩款 GPU 之間的性能和經(jīng)濟(jì)差異比紙面上的規(guī)格所暗示的要大得多：

由于請(qǐng)求和響應(yīng)之間等待時(shí)間過(guò)長(zhǎng)，推理模型的用戶體驗(yàn)可能會(huì)很差。如果您可以提供更快的推理時(shí)間，這將增加用戶使用和付費(fèi)的傾向。

3 倍的成本差異是巨大的。坦率地說(shuō)，通過(guò)中代內(nèi)存升級(jí)實(shí)現(xiàn) 3 倍性能提升的硬件是瘋狂的，比摩爾定律、黃定律或我們所見(jiàn)過(guò)的任何其他硬件改進(jìn)速度都要快得多。

我們觀察到，最強(qiáng)大和差異化的模型能夠比能力稍差的模型收取更高的費(fèi)用。前沿模型的毛利率超過(guò) 70%，但落后模型的利潤(rùn)率低于 20%。推理模型不必是一條思路。搜索是存在的，并且可以擴(kuò)展以提高性能，就像 O1 Pro 和 O3 中所做的那樣。這使得更智能的模型能夠解決更多問(wèn)題，并為每個(gè) GPU 產(chǎn)生更多收入。

當(dāng)然，Nvidia 并不是唯一一家能夠增加內(nèi)存容量的公司。ASIC 可以做到這一點(diǎn)，事實(shí)上，AMD 可能處于有利地位，因?yàn)樗鼈兊膬?nèi)存容量比 Nvidia 更高，一般來(lái)說(shuō)，MI300X 的內(nèi)存容量為 192GB，MI325X 的內(nèi)存容量為 256GB，MI350X 的內(nèi)存容量為 288GB……不過(guò)圣誕老人黃有一只叫做 NVLink 的紅鼻子馴鹿。

當(dāng)我們轉(zhuǎn)向 GB200 NVL72 和 GB300 NVL72 時(shí)，基于 Nvidia 的系統(tǒng)的性能和成本將大幅提升。在推理中使用 NVL72 的關(guān)鍵點(diǎn)在于它能夠讓 72 個(gè) GPU 以極低的延遲處理同一個(gè)問(wèn)題，共享內(nèi)存。世界上沒(méi)有其他加速器具有全對(duì)全交換連接。世界上沒(méi)有其他加速器可以通過(guò)交換機(jī)完成所有縮減。

Nvidia 的 GB200 NVL72 和 GB300 NVL72 對(duì)于實(shí)現(xiàn)許多關(guān)鍵功能至關(guān)重要。

更高的交互性使得每個(gè)思路鏈的延遲更低。

72 個(gè) GPU 分散 KVCache，以實(shí)現(xiàn)更長(zhǎng)的思維鏈（提高智能）。

與典型的 8 GPU 服務(wù)器相比，批量大小擴(kuò)展效果更好，從而降低了成本。

通過(guò)搜索更多樣本來(lái)解決同一問(wèn)題，可以提高準(zhǔn)確性并最終提高模型性能。

因此，使用 NVL72 的token經(jīng)濟(jì)學(xué)要好 10 倍以上，尤其是在長(zhǎng)推理鏈上。KVCache 消耗內(nèi)存對(duì)經(jīng)濟(jì)來(lái)說(shuō)是致命的，但 NVL72 是將推理長(zhǎng)度擴(kuò)展到高批次 100k+ token的唯一方法。

Blackwell 供應(yīng)鏈為 GB300 重新設(shè)計(jì)

隨著 GB300 的推出，Nvidia 提供的供應(yīng)鏈和內(nèi)容發(fā)生了巨大變化。對(duì)于 GB200，Nvidia 提供整個(gè) Bianca 主板（包括 Blackwell GPU、Grace CPU、512GB LPDDR5X、VRM 內(nèi)容，全部集成在一個(gè) PCB 上），以及開(kāi)關(guān)托盤(pán)和銅背板。

對(duì)于 GB300，Nvidia 不會(huì)提供整個(gè) Bianca 主板，而是僅提供“SXM Puck”模塊上的 B300、BGA 封裝上的 Grace CPU 以及來(lái)自美國(guó)初創(chuàng)公司 Axiado 而非 GB200 的 Aspeed 的 HMC

最終客戶現(xiàn)在將直接采購(gòu)計(jì)算板上的剩余組件，第二層內(nèi)存將是 LPCAMM 模塊，而不是焊接的 LPDDR5X。美光將成為這些模塊的主要供應(yīng)商。

交換機(jī)托盤(pán)和銅背板保持不變，這些組件全部由 Nvidia 提供。

轉(zhuǎn)向 SXM Puck 為更多 OEM 和 ODM 參與計(jì)算托盤(pán)提供了機(jī)會(huì)。以前只有 Wistron 和 FII 可以制造 Bianca 計(jì)算板，現(xiàn)在更多的 OEM 和 ODM 可以制造。Wistron 是 ODM 方面最大的輸家，因?yàn)樗チ?Bianca 板的份額。對(duì)于 FII 來(lái)說(shuō)，Bianca 板層面的份額損失被他們是 SXM Puck 和 SXM Puck 所依賴的插槽的獨(dú)家制造商這一事實(shí)所抵消。Nvidia 正試圖為 Puck 和插槽引入其他供應(yīng)商，但他們尚未下任何其他訂單。

另一個(gè)重大轉(zhuǎn)變是 VRM 內(nèi)容。雖然 SXM Puck 上有一些 VRM 內(nèi)容，但大部分板載 VRM 內(nèi)容將由超大規(guī)模制造商/OEM 直接從 VRM 供應(yīng)商處采購(gòu)。10 月 25 日，我們向Core Research 訂閱者發(fā)送了一份說(shuō)明，說(shuō)明 B300 如何重塑供應(yīng)鏈，特別是圍繞電壓調(diào)節(jié)器模塊（“VRM”）。我們特別指出了單片電源系統(tǒng)將如何因商業(yè)模式的轉(zhuǎn)變而失去市場(chǎng)份額，以及哪些新進(jìn)入者正在獲得市場(chǎng)份額。在我們向客戶發(fā)送說(shuō)明后的一個(gè)月內(nèi)，由于市場(chǎng)意識(shí)到了我們領(lǐng)先研究中的事實(shí)，MPWR 下跌了 37% 以上。

Nvidia 還在 GB300 平臺(tái)上提供 800G ConnectX-8 NIC，在 InfiniBand 和以太網(wǎng)上提供兩倍的橫向擴(kuò)展帶寬。Nvidia 不久前取消了 GB200 的 ConnectX-8，原因是上市時(shí)間復(fù)雜，并且放棄在 Bianca 板上啟用 PCIe Gen 6。

ConnectX-8 相比 ConnectX-7 有了巨大改進(jìn)。它不僅擁有 2 倍帶寬，還擁有 48 個(gè) PCIe 通道（而非 32 個(gè) PCIe 通道），從而支持獨(dú)特的架構(gòu)，例如風(fēng)冷 MGX B300A。此外，ConnectX-8 還支持 SpectrumX ，而在之前的 400G 代產(chǎn)品中，SpectrumX 所需的Bluefield 3 DPU 效率要低得多。

GB300 對(duì)超大規(guī)模的影響

GB200 和 GB300 延遲對(duì)超大規(guī)模計(jì)算的影響意味著，從第三季度開(kāi)始，許多訂單將轉(zhuǎn)向 Nvidia 新的更昂貴的 GPU。截至上周，所有超大規(guī)模計(jì)算公司都已決定繼續(xù)使用 GB300。部分原因是 GB300 的性能因更高的 FLOPS 和更大的內(nèi)存而提高，但也有一部分原因是他們能夠掌控自己的命運(yùn)。

由于上市時(shí)間的挑戰(zhàn)以及機(jī)架、冷卻和電力輸送/密度的重大變化，超大規(guī)模企業(yè)無(wú)法在服務(wù)器級(jí)別對(duì) GB200 進(jìn)行太大的更改。這導(dǎo)致 Meta 放棄了能夠從 Broadcom 和 Nvidia 多源獲取 NIC 的所有希望，轉(zhuǎn)而完全依賴 Nvidia。在其他情況下，例如 Google，他們放棄了內(nèi)部 NIC，轉(zhuǎn)而只與 Nvidia 合作。

對(duì)于超大規(guī)模的數(shù)千人組織來(lái)說(shuō)，這就像黑板上的釘子一樣，他們習(xí)慣于對(duì)從 CPU 到網(wǎng)絡(luò)，甚至螺絲和金屬板的所有東西進(jìn)行成本優(yōu)化。

最令人震驚的例子是亞馬遜，它選擇了非常次優(yōu)的配置，與參考設(shè)計(jì)相比，TCO 更差。由于使用 PCIe 交換機(jī)和效率較低的 200G Elastic Fabric Adaptor NIC（需要風(fēng)冷），亞馬遜無(wú)法部署 NVL72 機(jī)架，如 Meta、Google、Microsoft、Oracle、X.AI 和 Coreweave。由于其內(nèi)部 NIC，亞馬遜不得不使用 NVL36，由于背板和交換機(jī)內(nèi)容更多，每個(gè) GPU 的成本也更高。總而言之，由于定制方面的限制，亞馬遜的配置不是最優(yōu)的。

現(xiàn)在，借助 GB300，超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商能夠定制主板、冷卻系統(tǒng)等。這使得亞馬遜能夠構(gòu)建自己的定制主板，該主板采用水冷，并集成了之前采用風(fēng)冷的組件，例如 Astera Labs PCIe 交換機(jī)。在 25 年第三季度，水冷更多組件以及最終在 K2V6 400G NIC 上實(shí)現(xiàn) HVM 意味著亞馬遜可以重新轉(zhuǎn)向 NVL72 架構(gòu)并大大改善其 TCO。

不過(guò)，有一個(gè)很大的缺點(diǎn)，那就是超大規(guī)模企業(yè)必須進(jìn)行大量的設(shè)計(jì)、驗(yàn)證和確認(rèn)工作。這無(wú)疑是超大規(guī)模企業(yè)有史以來(lái)必須設(shè)計(jì)的最復(fù)雜的平臺(tái)（谷歌的 TPU 系統(tǒng)除外）。某些超大規(guī)模企業(yè)將能夠快速設(shè)計(jì)，但其他團(tuán)隊(duì)速度較慢的企業(yè)則落后了?？傮w而言，盡管有市場(chǎng)取消報(bào)告，但我們認(rèn)為微軟是部署 GB300 速度最慢的企業(yè)之一，原因是設(shè)計(jì)速度太快，他們?nèi)栽诘谒募径荣?gòu)買(mǎi)一些 GB200。

由于組件從 Nvidia 的利潤(rùn)堆積中抽出，轉(zhuǎn)移到 ODM 身上，因此客戶支付的總價(jià)格相差很大。ODM 的收入會(huì)受到影響，最重要的是，Nvidia 的毛利率也會(huì)在一年內(nèi)發(fā)生變化。

參考鏈接

https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/

來(lái)源：Internet

英偉達(dá)GB 300細(xì)節(jié)曝光，下一代GPU怪獸

相關(guān)新聞：

英偉達(dá)GB 300細(xì)節(jié)曝光，下一代GPU怪獸