您當(dāng)前的位置:檢測(cè)資訊 > 科研開發(fā)
嘉峪檢測(cè)網(wǎng) 2025-12-21 13:06
“不是芯片越來越強(qiáng)了,而是芯片正在被重新組合。”
在摩爾定律日益式微的背景下,芯片設(shè)計(jì)早已從“單芯片封裝”走向了“多芯片集成”。這種趨勢(shì)下,Die-to-Die(芯粒間)通信接口,不再是底層工程師才關(guān)注的“邊角料”,而是架構(gòu)設(shè)計(jì)能否擴(kuò)展的關(guān)鍵制約。
2024年 IEEE VLSI Symposium 上,NVIDIA 的 Yoshinori Nishi 給出了一份信息密度極高的演講報(bào)告:《I/O Design Considerations for Die-to-Die Interfaces》。這份報(bào)告不僅全面總結(jié)了芯?;ヂ?lián)的底層工程邏輯,也讓我們看到了 NVIDIA 在 Chiplet 時(shí)代如何用系統(tǒng)視角理解 I/O 的演進(jìn)。
今天,我不會(huì)“翻譯”這份報(bào)告,而是將它拆解為 10 個(gè)關(guān)鍵要點(diǎn),幫你厘清 Die-to-Die I/O 設(shè)計(jì)中真正重要的那些事。
一、Chiplet 崛起不是折中方案,而是系統(tǒng)設(shè)計(jì)的新范式
在過去,SoC 是性能堆疊的唯一選擇。而今,以 AI、HPC、LLM 為代表的新型計(jì)算任務(wù),將單芯片推向物理極限。Chiplet 架構(gòu)成為打破物理瓶頸的新解法:多個(gè)芯粒,按需集成,以連接代替集成。
NVIDIA 的兩個(gè)系統(tǒng)案例非常直觀:
SELENE (2021):4,448 GPUs,112 TB/s互聯(lián)帶寬
EOS (2023):10,752 GPUs,1100 TB/s互聯(lián)帶寬

性能提升接近 10 倍,靠的正是系統(tǒng)層的“多芯片耦合”,而非單芯片工藝突破。
當(dāng)晶體管無法繼續(xù)堆疊,我們就只能靠“拼圖”來追趕算力。
二、Die-to-Die 接口的本質(zhì):不是連上了,而是“扛得住”
Die-to-Die 的作用不僅是連通芯粒,更是要在 帶寬、能效、延遲、信號(hào)完整性 之間找到最優(yōu)點(diǎn)。
報(bào)告中提到的關(guān)鍵數(shù)據(jù):
|
類型 |
能效(pJ/bit) |
帶寬密度(Tb/s/mm) |
|
Die-to-Die (Interposer) |
<1 |
~5.8 |
|
Medium-reach SerDes |
1–3 |
~1.5 |
|
Long-reach SerDes |
5–10 |
<1 |
例如,在 55μm bump pitch + 19 lane × 25.2Gbps 的配置下:
單層 Edge BW = 1.45 Tb/s/mm
四層堆疊提升至 5.8 Tb/s/mm
能效低至 0.19 pJ/bit(Ref[10])

這不是“連起來就行”,而是需要“每一比特都值”。
芯片間的連接密度,正在變成架構(gòu)可擴(kuò)展性的瓶頸。
三、Interposer 堆疊布局,是從二維向三維的結(jié)構(gòu)突破
報(bào)告詳解了 Die-to-Die 接口在 Interposer 中通過堆疊布局提升帶寬的策略:
堆疊層數(shù): 4 個(gè) PHY 水平層
總路徑長(zhǎng)度: <1.2mm
每通道速率: 25.2Gbps/lane
層間間距: 約 <300μm

但越多層 → 越多 cross-talk、時(shí)延難以匹配、設(shè)計(jì)復(fù)雜性劇增。
這也暴露了 Interposer 本身的“物理上限”:
層數(shù)受限(布線資源有限)
PHY 形狀、延遲補(bǔ)償困難
電源完整性(PI)成主要難題

這要求系統(tǒng)設(shè)計(jì)者提前在芯粒形狀、RDL 排布階段就考慮互聯(lián)的物理成本。
四、時(shí)鐘架構(gòu)是地基,不是配角
NVIDIA 強(qiáng)調(diào)了 Delay-Matched Clock Forwarding(延遲匹配時(shí)鐘前傳)的優(yōu)勢(shì):
近乎完美的 jitter 抑制
低敏感度 于供電噪聲
RX 的數(shù)據(jù)采樣時(shí)間由 TX 控制,更易同步

但也提出工程難點(diǎn):
時(shí)鐘路徑必須等價(jià)于數(shù)據(jù)路徑
所有電氣特性(如 tr/tf、load、電阻)需完全匹配
若電壓/溫度波動(dòng)不匹配,會(huì)導(dǎo)致眼圖坍塌

UCIe 給出了一種推薦實(shí)現(xiàn),但并不唯一。真正難點(diǎn)在于,如何把“數(shù)據(jù)路徑 + clock forwarding”做到 delay 等價(jià)。
沒有可靠的時(shí)鐘架構(gòu),再先進(jìn)的I/O也無法穩(wěn)定前進(jìn)。
五、I/O 的測(cè)試架構(gòu)決定了整個(gè)項(xiàng)目的交付風(fēng)險(xiǎn)
在 Chiplet 模式下,大部分 I/O 只有在集成完成后才能測(cè)試。但等到那時(shí),發(fā)現(xiàn)問題就太晚了。
NVIDIA 提出兩套策略:
晶圓級(jí)測(cè)試(wafer-level loopback): 通過預(yù)留 probe pad、局部回環(huán)路徑在 die 內(nèi)做 at-speed 測(cè)試
集成后測(cè)試: 利用 PRBS 發(fā)生器 + 錯(cuò)誤檢測(cè)器 + Phase Interpolator,做 eye margin 校驗(yàn)

每個(gè)通道建議用獨(dú)立 PRBS 種子,確保 bit-error 分析精度,并通過 boot 階段自動(dòng) phase 校準(zhǔn),彌補(bǔ)溫漂/壓漂。
這是在告訴設(shè)計(jì)者:
測(cè)試不是驗(yàn)證設(shè)計(jì),測(cè)試本身就是設(shè)計(jì)的一部分。
六、別用錯(cuò)能效公式,數(shù)據(jù)表也會(huì)騙人
NVIDIA 提出一個(gè)簡(jiǎn)單但易錯(cuò)的點(diǎn):
不要將能效計(jì)算為:
功耗 / (2 × 單向帶寬)
正確方式應(yīng)該是:
能效 = 總功耗 / (雙向總帶寬)
以 PHYA/PHYB 相同的結(jié)構(gòu)為例:
TX19 + RX19
25.2Gbps/lane × 19 = 478.8Gbps
總帶寬 = 957.6Gbps
功耗 = 180mW
則能效 = 0.188 pJ/b

看似小問題,實(shí)則關(guān)乎性能指標(biāo)的“幻覺誤導(dǎo)”。尤其在芯片招標(biāo)、技術(shù)比較中,可能造成重大誤判。
七、UCIe 是好協(xié)議,但不是最終答案
NVIDIA 多次提到 UCIe(Universal Chiplet Interconnect Express)Rev1.1,但同時(shí)指出它存在物理層的三大挑戰(zhàn):
不同工藝芯片電壓不同,VDDa ≠ VDDb
Front-end 拓?fù)鋵?shí)現(xiàn)差異大,標(biāo)準(zhǔn)只是“邏輯兼容”
高速(>16GT/s)場(chǎng)景下,UCIe 并未提供 AC-toggle 或 SBD 支持

因此,芯片設(shè)計(jì)團(tuán)隊(duì)在使用 UCIe 時(shí)應(yīng)具備“差異容忍”能力。
標(biāo)準(zhǔn)是協(xié)作的起點(diǎn),不是交付的保證。
八、前端拓?fù)溥x擇,是 I/O 的根本差異點(diǎn)
從“CMOS 非終止”到“AC-Toggle”,NVIDIA 全面梳理了各種 I/O front-end 拓?fù)涞?trade-off:
|
類型 |
帶寬能力 |
反射風(fēng)險(xiǎn) |
延遲匹配難度 |
功耗 |
電源域兼容 |
|
CMOS unterminated |
低 |
高 |
易 |
低 |
差 |
|
CMOS Terminated |
中-高 |
中 |
可控 |
高 |
一般 |
|
N-over-N |
高 |
中 |
較難 |
低 |
差 |
|
AC-Toggle |
高 |
低 |
高 |
中 |
強(qiáng) |
選擇錯(cuò)誤的 topology,意味著整個(gè)系統(tǒng)的布線、電源、clock 都要為其讓路。
九、PAM4 與 SBD:未來高帶寬的兩個(gè)技術(shù)賭注
NVIDIA 對(duì)未來高速連接路徑給出了兩種技術(shù)方向:
PAM4(4-level Pulse Amplitude Modulation):
每符號(hào)2比特,4個(gè)電平
減小 Nyquist 頻率(→ 降低通道損耗)
問題:
電平 margin 低(33%)
更易受串?dāng)_影響(-9.54dB SNR)
相位 margin 損失(40%)

SBD(Simultaneous Bi-Directional):
每根線支持雙向全速通信
電平與 NRZ 類似,兼容現(xiàn)有前端設(shè)計(jì)
適合 loopback 自測(cè)試場(chǎng)景
目前不被 UCIe 支持,但能效領(lǐng)先:
50Gbps/wire @ 0.297 pJ/b(Ref[12])

PAM4 是頻譜壓縮術(shù),SBD 是物理層復(fù)用術(shù)。
十、結(jié)語:Die-to-Die I/O 是“芯片系統(tǒng)設(shè)計(jì)”本身
這份報(bào)告的最后說:
“PHY design for Die-to-Die interface may appear simple, but it requires careful planning and considerations.”
我想補(bǔ)上一句:
Die-to-Die,不是 I/O 工程,是系統(tǒng)設(shè)計(jì)的錨點(diǎn),是架構(gòu)約束的物理化呈現(xiàn)。

來源:半導(dǎo)體產(chǎn)業(yè)報(bào)告