中文字幕一级黄色A级片|免费特级毛片。性欧美日本|偷拍亚洲欧美1级片|成人黄色中文小说网|A级片视频在线观看|老司机网址在线观看|免费一级无码激情黄所|欧美三级片区精品网站999|日韩av超碰日本青青草成人|一区二区亚洲AV婷婷

您當(dāng)前的位置:檢測(cè)資訊 > 科研開發(fā)

拆解英偉達(dá)的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

嘉峪檢測(cè)網(wǎng)        2025-12-21 13:06

“不是芯片越來越強(qiáng)了,而是芯片正在被重新組合。”

在摩爾定律日益式微的背景下,芯片設(shè)計(jì)早已從“單芯片封裝”走向了“多芯片集成”。這種趨勢(shì)下,Die-to-Die(芯粒間)通信接口,不再是底層工程師才關(guān)注的“邊角料”,而是架構(gòu)設(shè)計(jì)能否擴(kuò)展的關(guān)鍵制約。

2024年 IEEE VLSI Symposium 上,NVIDIA 的 Yoshinori Nishi 給出了一份信息密度極高的演講報(bào)告:《I/O Design Considerations for Die-to-Die Interfaces》。這份報(bào)告不僅全面總結(jié)了芯?;ヂ?lián)的底層工程邏輯,也讓我們看到了 NVIDIA 在 Chiplet 時(shí)代如何用系統(tǒng)視角理解 I/O 的演進(jìn)。

今天,我不會(huì)“翻譯”這份報(bào)告,而是將它拆解為 10 個(gè)關(guān)鍵要點(diǎn),幫你厘清 Die-to-Die I/O 設(shè)計(jì)中真正重要的那些事。

 

一、Chiplet 崛起不是折中方案,而是系統(tǒng)設(shè)計(jì)的新范式

在過去,SoC 是性能堆疊的唯一選擇。而今,以 AI、HPC、LLM 為代表的新型計(jì)算任務(wù),將單芯片推向物理極限。Chiplet 架構(gòu)成為打破物理瓶頸的新解法:多個(gè)芯粒,按需集成,以連接代替集成。

NVIDIA 的兩個(gè)系統(tǒng)案例非常直觀:

SELENE (2021):4,448 GPUs,112 TB/s互聯(lián)帶寬

EOS (2023):10,752 GPUs,1100 TB/s互聯(lián)帶寬

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

性能提升接近 10 倍,靠的正是系統(tǒng)層的“多芯片耦合”,而非單芯片工藝突破。

當(dāng)晶體管無法繼續(xù)堆疊,我們就只能靠“拼圖”來追趕算力。

 

二、Die-to-Die 接口的本質(zhì):不是連上了,而是“扛得住”

Die-to-Die 的作用不僅是連通芯粒,更是要在 帶寬、能效、延遲、信號(hào)完整性 之間找到最優(yōu)點(diǎn)。

報(bào)告中提到的關(guān)鍵數(shù)據(jù):

類型

能效(pJ/bit)

帶寬密度(Tb/s/mm)

Die-to-Die (Interposer)

<1

~5.8

Medium-reach SerDes

1–3

~1.5

Long-reach SerDes

5–10

<1

例如,在 55μm bump pitch + 19 lane × 25.2Gbps 的配置下:

單層 Edge BW = 1.45 Tb/s/mm

四層堆疊提升至 5.8 Tb/s/mm

能效低至 0.19 pJ/bit(Ref[10])

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

這不是“連起來就行”,而是需要“每一比特都值”。

芯片間的連接密度,正在變成架構(gòu)可擴(kuò)展性的瓶頸。

 

三、Interposer 堆疊布局,是從二維向三維的結(jié)構(gòu)突破

報(bào)告詳解了 Die-to-Die 接口在 Interposer 中通過堆疊布局提升帶寬的策略:

堆疊層數(shù): 4 個(gè) PHY 水平層

總路徑長(zhǎng)度: <1.2mm

每通道速率: 25.2Gbps/lane

層間間距: 約 <300μm

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

但越多層 → 越多 cross-talk、時(shí)延難以匹配、設(shè)計(jì)復(fù)雜性劇增。

這也暴露了 Interposer 本身的“物理上限”:

層數(shù)受限(布線資源有限)

PHY 形狀、延遲補(bǔ)償困難

電源完整性(PI)成主要難題

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

這要求系統(tǒng)設(shè)計(jì)者提前在芯粒形狀、RDL 排布階段就考慮互聯(lián)的物理成本。

 

四、時(shí)鐘架構(gòu)是地基,不是配角

NVIDIA 強(qiáng)調(diào)了 Delay-Matched Clock Forwarding(延遲匹配時(shí)鐘前傳)的優(yōu)勢(shì):

近乎完美的 jitter 抑制

低敏感度 于供電噪聲

RX 的數(shù)據(jù)采樣時(shí)間由 TX 控制,更易同步

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

但也提出工程難點(diǎn):

時(shí)鐘路徑必須等價(jià)于數(shù)據(jù)路徑

所有電氣特性(如 tr/tf、load、電阻)需完全匹配

若電壓/溫度波動(dòng)不匹配,會(huì)導(dǎo)致眼圖坍塌

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

UCIe 給出了一種推薦實(shí)現(xiàn),但并不唯一。真正難點(diǎn)在于,如何把“數(shù)據(jù)路徑 + clock forwarding”做到 delay 等價(jià)。

沒有可靠的時(shí)鐘架構(gòu),再先進(jìn)的I/O也無法穩(wěn)定前進(jìn)。

 

五、I/O 的測(cè)試架構(gòu)決定了整個(gè)項(xiàng)目的交付風(fēng)險(xiǎn)

在 Chiplet 模式下,大部分 I/O 只有在集成完成后才能測(cè)試。但等到那時(shí),發(fā)現(xiàn)問題就太晚了。

NVIDIA 提出兩套策略:

晶圓級(jí)測(cè)試(wafer-level loopback): 通過預(yù)留 probe pad、局部回環(huán)路徑在 die 內(nèi)做 at-speed 測(cè)試

集成后測(cè)試: 利用 PRBS 發(fā)生器 + 錯(cuò)誤檢測(cè)器 + Phase Interpolator,做 eye margin 校驗(yàn)

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

每個(gè)通道建議用獨(dú)立 PRBS 種子,確保 bit-error 分析精度,并通過 boot 階段自動(dòng) phase 校準(zhǔn),彌補(bǔ)溫漂/壓漂。

這是在告訴設(shè)計(jì)者:

測(cè)試不是驗(yàn)證設(shè)計(jì),測(cè)試本身就是設(shè)計(jì)的一部分。

 

六、別用錯(cuò)能效公式,數(shù)據(jù)表也會(huì)騙人

NVIDIA 提出一個(gè)簡(jiǎn)單但易錯(cuò)的點(diǎn):

不要將能效計(jì)算為:

功耗 / (2 × 單向帶寬)

正確方式應(yīng)該是:

能效 = 總功耗 / (雙向總帶寬)

以 PHYA/PHYB 相同的結(jié)構(gòu)為例:

TX19 + RX19

25.2Gbps/lane × 19 = 478.8Gbps

總帶寬 = 957.6Gbps

功耗 = 180mW

則能效 = 0.188 pJ/b

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

看似小問題,實(shí)則關(guān)乎性能指標(biāo)的“幻覺誤導(dǎo)”。尤其在芯片招標(biāo)、技術(shù)比較中,可能造成重大誤判。

 

七、UCIe 是好協(xié)議,但不是最終答案

NVIDIA 多次提到 UCIe(Universal Chiplet Interconnect Express)Rev1.1,但同時(shí)指出它存在物理層的三大挑戰(zhàn):

不同工藝芯片電壓不同,VDDa ≠ VDDb

Front-end 拓?fù)鋵?shí)現(xiàn)差異大,標(biāo)準(zhǔn)只是“邏輯兼容”

高速(>16GT/s)場(chǎng)景下,UCIe 并未提供 AC-toggle 或 SBD 支持

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

因此,芯片設(shè)計(jì)團(tuán)隊(duì)在使用 UCIe 時(shí)應(yīng)具備“差異容忍”能力。

標(biāo)準(zhǔn)是協(xié)作的起點(diǎn),不是交付的保證。

 

八、前端拓?fù)溥x擇,是 I/O 的根本差異點(diǎn)

從“CMOS 非終止”到“AC-Toggle”,NVIDIA 全面梳理了各種 I/O front-end 拓?fù)涞?trade-off:

類型

帶寬能力

反射風(fēng)險(xiǎn)

延遲匹配難度

功耗

電源域兼容

CMOS unterminated

CMOS Terminated

中-高

可控

一般

N-over-N

較難

AC-Toggle

強(qiáng)

選擇錯(cuò)誤的 topology,意味著整個(gè)系統(tǒng)的布線、電源、clock 都要為其讓路。

 

九、PAM4 與 SBD:未來高帶寬的兩個(gè)技術(shù)賭注

NVIDIA 對(duì)未來高速連接路徑給出了兩種技術(shù)方向:

PAM4(4-level Pulse Amplitude Modulation):

每符號(hào)2比特,4個(gè)電平

減小 Nyquist 頻率(→ 降低通道損耗)

問題:

電平 margin 低(33%)

更易受串?dāng)_影響(-9.54dB SNR)

相位 margin 損失(40%)

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

SBD(Simultaneous Bi-Directional):

每根線支持雙向全速通信

電平與 NRZ 類似,兼容現(xiàn)有前端設(shè)計(jì)

適合 loopback 自測(cè)試場(chǎng)景

目前不被 UCIe 支持,但能效領(lǐng)先:

50Gbps/wire @ 0.297 pJ/b(Ref[12])

拆解 NVIDIA 的芯片互聯(lián)邏輯:Die-to-Die I/O 設(shè)計(jì)的十個(gè)關(guān)鍵點(diǎn)

PAM4 是頻譜壓縮術(shù),SBD 是物理層復(fù)用術(shù)。

 

十、結(jié)語:Die-to-Die I/O 是“芯片系統(tǒng)設(shè)計(jì)”本身

這份報(bào)告的最后說:

“PHY design for Die-to-Die interface may appear simple, but it requires careful planning and considerations.”

我想補(bǔ)上一句:

Die-to-Die,不是 I/O 工程,是系統(tǒng)設(shè)計(jì)的錨點(diǎn),是架構(gòu)約束的物理化呈現(xiàn)。

 

分享到:

來源:半導(dǎo)體產(chǎn)業(yè)報(bào)告

相關(guān)新聞: