您當(dāng)前的位置:檢測(cè)資訊 > 科研開(kāi)發(fā)
嘉峪檢測(cè)網(wǎng) 2025-05-27 19:10
本文是聯(lián)發(fā)科(MediaTek)存儲(chǔ)器電路設(shè)計(jì)專家Sushil Kumar在2025年第72屆國(guó)際固態(tài)電路會(huì)議(ISSCC)SRAM專題會(huì)議上發(fā)表的題為《A 3nm FinFET 2.2Gsearch/s 0.305fJ/b TCAM with Dynamically Gated Search Lines for Data-Center ASICs》的演講,闡述了聯(lián)發(fā)科新研發(fā)的一款采用3納米Fin-FET工藝的TCAM存儲(chǔ)器,該存儲(chǔ)器設(shè)計(jì)創(chuàng)新性地引入了動(dòng)態(tài)門控搜索線技術(shù),專為數(shù)據(jù)中心專用集成電路(ASIC)打造。
演講摘要
數(shù)據(jù)包分類與轉(zhuǎn)發(fā)是數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)核心組件(如交換機(jī)、路由器)的基礎(chǔ)功能,用于高效管理和引導(dǎo)網(wǎng)絡(luò)流量。數(shù)據(jù)包分類通過(guò)解析包頭信息識(shí)別流量特征,進(jìn)而執(zhí)行訪問(wèn)控制(ACL)、服務(wù)質(zhì)量(QoS)等策略;數(shù)據(jù)包轉(zhuǎn)發(fā)則依據(jù)路由表確定數(shù)據(jù)包的下一跳路徑。三態(tài)內(nèi)容尋址存儲(chǔ)器(TCAM)通過(guò)并行內(nèi)存搜索將輸入數(shù)據(jù)包頭與存儲(chǔ)規(guī)則進(jìn)行比對(duì),從而加速這兩項(xiàng)任務(wù)。TCAM提供的快速并行查找功能,使其成為DCN專用集成電路(ASIC)不可或缺的基礎(chǔ)IP核。然而TCAM存在顯著能耗代價(jià)——全條目并行搜索功耗密集,這將影響網(wǎng)絡(luò)設(shè)備的運(yùn)行效率、可靠性及環(huán)境足跡。為降低DCN-TCAM功耗,聯(lián)發(fā)科設(shè)計(jì)了一款基于3nm FinFET工藝、支持2.2G次搜索/秒、能效0.305fJ/比特的TCAM,其創(chuàng)新設(shè)計(jì)包括: (1)動(dòng)態(tài)門控搜索線(DGSL)架構(gòu),可實(shí)現(xiàn)37.4%的功耗節(jié)省與46.6%的峰值電流降低; (2)非對(duì)稱分割架構(gòu)(ASA),可帶來(lái)與位寬相關(guān)的額外節(jié)電效益。
Outline
數(shù)據(jù)中心網(wǎng)絡(luò)專用集成電路(ASIC,Application Specific Integrated Circuit)
網(wǎng)絡(luò)規(guī)則的空間局部性
TCAM(三態(tài)內(nèi)容尋址存儲(chǔ)器)結(jié)構(gòu)框圖
基準(zhǔn)TCAM架構(gòu)及其挑戰(zhàn)
動(dòng)態(tài)門控搜索線(DGSL,Dynamically Gated Search Line)架構(gòu)
• 動(dòng)態(tài)搜索線(SL)的節(jié)能設(shè)計(jì)
• 峰值電流降低
非對(duì)稱分割架構(gòu)(ASA)
與現(xiàn)有技術(shù)的對(duì)比優(yōu)勢(shì)
總結(jié)與結(jié)論
數(shù)據(jù)中心網(wǎng)絡(luò)專用集成電路(ASIC)
組成部分
• 互聯(lián)網(wǎng)交換機(jī)與路由器
核心任務(wù)
• 分類(Classification): 基于策略
• 轉(zhuǎn)發(fā)(Forwarding): 基于路由表
訪問(wèn)控制列表(ACL)
• 規(guī)則集合: 策略/路由表
DCN ASIC 的核心需求
• 高速并行查找
• 大容量規(guī)則存儲(chǔ)

典型數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)
TCAM(三態(tài)內(nèi)容尋址存儲(chǔ)器): DCN ASIC 的基礎(chǔ)IP核
網(wǎng)絡(luò)規(guī)則的空間局部性
規(guī)則的相似性與優(yōu)先級(jí)
• 相似規(guī)則通常相鄰存儲(chǔ): 內(nèi)容相似的規(guī)則傾向于被編程在彼此靠近的位置
TCAM劃分為8個(gè)存儲(chǔ)塊(Bank)
• 每個(gè)存儲(chǔ)塊代表不同的優(yōu)先級(jí)層級(jí)
匹配規(guī)則的空間局部性
• 若某個(gè)搜索關(guān)鍵字匹配了特定條目,則后續(xù)匹配條目很可能位于其附近。
• 若數(shù)據(jù)包匹配了存儲(chǔ)塊 B6 中的規(guī)則,則不太可能同時(shí)匹配存儲(chǔ)塊 B0 中的規(guī)則。

TCAM (三態(tài)內(nèi)容尋址存儲(chǔ)器)結(jié)構(gòu)框圖
TCAM 結(jié)構(gòu)框圖
規(guī)格
• 512條目×220位
接口信號(hào)
• 控制輸入: CK(Clock):時(shí)鐘信號(hào);SR(Search Enable):搜索使能信號(hào)
• 數(shù)據(jù)輸入: SD(Search Data Input): 待搜索數(shù)據(jù)輸入(220 位)
• 輸出: HIT(匹配結(jié)果): 若SDI與某條目?jī)?nèi)容匹配則輸出高電平,否則輸出低電平。
存儲(chǔ)塊架構(gòu)
• 512條目均分為8個(gè)存儲(chǔ)塊(Bank),每塊含 64 條目。
• 220位SDI拆分為2級(jí)匹配寬度(每級(jí)110 位)
• 每存儲(chǔ)塊每級(jí)為64條目×110位

512條目×220位模塊框圖
TCAM 存儲(chǔ)單元
位單元結(jié)構(gòu)
• 兩個(gè)6T-SRAM單元: 用于存儲(chǔ)三態(tài)值
• 4T-NMOS堆疊結(jié)構(gòu): 將搜索關(guān)鍵字(Search Key)與TCAM中的三態(tài)值進(jìn)行比對(duì)
功能特性
• 失配(Mismatch):輸出下拉至低電平;
匹配(Match):保持高電平
• 讀寫操作: 與標(biāo)準(zhǔn)6T-SRAM一致

TCAM位單元與真值表
基準(zhǔn) TCAM 架構(gòu)及其挑戰(zhàn)
基準(zhǔn)架構(gòu)
并行階段S1和S2操作
預(yù)比較操作(Pre-compare)
• GIO生成S1_GSLT/C(存儲(chǔ)塊輸入信號(hào))
• LIO提供 S1_SLT/C(比較基準(zhǔn)值)
• ML(匹配線)在比較前預(yù)充電至高電平
比較操作(Compare Operation)
• SDI與TCAM存儲(chǔ)值在ML上進(jìn)行比對(duì)
• S1HIT和S2HIT信號(hào)經(jīng)觸發(fā)器鎖存,生成每個(gè)條目的最終匹配輸出(HIT)。

基準(zhǔn)TCAM 特性:S1和S2并行工作(兩級(jí)比較電路同時(shí)運(yùn)行以提升吞吐率)
基準(zhǔn)架構(gòu)
并行階段S1和S2操作
預(yù)比較操作(Pre-compare)
• GIO生成S1_GSLT/C(存儲(chǔ)塊輸入信號(hào))
• LIO提供S1_SLT/C(比較基準(zhǔn)值)
• ML(匹配線)在比較前預(yù)充電至高電平
比較操作(Compare Operation)
• SDI與TCAM存儲(chǔ)值在ML上進(jìn)行比對(duì)
• S1HIT和S2HIT信號(hào)經(jīng)觸發(fā)器鎖存,生成每個(gè)條目的最終匹配輸出(HIT)。

基準(zhǔn)TCAM特性:S1和S2并行工作(兩級(jí)比較電路同時(shí)運(yùn)行以提升吞吐率)
基準(zhǔn)架構(gòu)
并行階段S1和S2操作
預(yù)比較操作(Pre-compare)
• GIO生成S1_GSLT/C(存儲(chǔ)塊輸入信號(hào))
• LIO提供S1_SLT/C(比較基準(zhǔn)值)
• ML(匹配線) 在比較前預(yù)充電至高電平
比較操作(Compare Operation)
• SDI與TCAM存儲(chǔ)值在ML上進(jìn)行比對(duì)
• S1HIT和S2HIT信號(hào)經(jīng)觸發(fā)器鎖存,生成每個(gè)條目的最終匹配輸出(HIT)。

基準(zhǔn)TCAM特性:S1和S2并行工作(兩級(jí)比較電路同時(shí)運(yùn)行以提升吞吐率)
挑戰(zhàn): 動(dòng)態(tài)搜索功耗
最壞情況: 全失配(all-miss)
細(xì)分項(xiàng)
• 匹配線(ML)35%: 每周期預(yù)充電與放電
• 搜索線(SL)37%:每周期根據(jù)數(shù)據(jù)翻轉(zhuǎn)(SLT/C信號(hào)切換)
• 其他(28%): GSLT/C切換、控制邏輯、HIT信號(hào)等
已提出許多降低匹配線功耗的技術(shù)
降低搜索線(SL)功耗難以實(shí)現(xiàn)
TCAM功耗分布分析

核心挑戰(zhàn):如何降低匹配線(ML)和搜索線(SL)的功耗?
動(dòng)態(tài)門控搜索線(DGSL,Dynamically Gated Search Line)架構(gòu)
• 動(dòng)態(tài)搜索線(SL)的節(jié)能設(shè)計(jì)
• 峰值電流降低
DGSL TCAM 架構(gòu)

DGSL(動(dòng)態(tài)門控搜索線架構(gòu),Dynamically Gated Search-line)
DGSL TCAM 架構(gòu)詳解
S1與S2階段順序執(zhí)行
•3周期延遲
匹配線(ML)節(jié)能
搜索線(SL)節(jié)能: 依賴三大創(chuàng)新組件
①S1HIT線或(Wired-OR)邏輯電路: 快速識(shí)別潛在匹配區(qū)域
②S1NOMISS流水線觸發(fā)器(P1NM):鎖存階段S1的無(wú)失配標(biāo)志
③時(shí)鐘門控單元(CGSC): 動(dòng)態(tài)關(guān)閉未激活區(qū)域的時(shí)鐘信號(hào)

DGSL TCAM 架構(gòu)詳解
S1與S2階段順序執(zhí)行
•3周期延遲
匹配線(ML)節(jié)能
搜索線(SL)節(jié)能: 依賴三大創(chuàng)新組件
①S1HIT線或(Wired-OR)邏輯電路: 快速識(shí)別潛在匹配區(qū)域
②S1NOMISS流水線觸發(fā)器(P1NM):鎖存階段S1的無(wú)失配標(biāo)志
③時(shí)鐘門控單元(CGSC): 動(dòng)態(tài)關(guān)閉未激活區(qū)域的時(shí)鐘信號(hào)

DGSL TCAM 的匹配線(ML)節(jié)能機(jī)制
阻止S2階段ML預(yù)充電
•當(dāng)大多數(shù)條目失配(miss)時(shí),S1HIT信號(hào)基于預(yù)比較結(jié)果保持為0。
•通過(guò)觸發(fā)器(flopped)鎖存的S1HIT信號(hào),關(guān)閉S2階段的ML預(yù)充電。

DGSL TCAM-搜索線(SL)節(jié)能機(jī)制(1/2)
關(guān)鍵組件1: 線或(WIRED OR)邏輯電路
• 當(dāng)主控信號(hào)MSAE=0時(shí),對(duì)S1MISS信號(hào)線進(jìn)行預(yù)充電。
• 所有一級(jí)匹配信號(hào)(S1HIT)通過(guò)分布式線或結(jié)構(gòu)匯總至S1MISS
• 任一存儲(chǔ)塊命中(S1HIT=1)→S1MISS立即下拉至0
• 全存儲(chǔ)塊失配(所有S1HIT=0)→S1MISS維持預(yù)充電高電平1


DGSL TCAM-搜索線(SL)節(jié)能機(jī)制(1/2)
關(guān)鍵組件1:線或(WIRED OR)邏輯電路
•當(dāng)主控信號(hào)MSAE=0時(shí),對(duì)S1MISS信號(hào)線進(jìn)行預(yù)充電。
•所有一級(jí)匹配信號(hào)(S1HIT)通過(guò)分布式線或結(jié)構(gòu)匯總至S1MISS
•任一存儲(chǔ)塊命中(S1HIT=1)→S1MISS立即下拉至0
•全存儲(chǔ)塊失配(所有S1HIT=0)→S1MISS維持預(yù)充電高電平1


DGSL TCAM-搜索線(SL)節(jié)能機(jī)制(2/2)
關(guān)鍵組件2: S1無(wú)失配觸發(fā)器(S1NOMISS F/F)
關(guān)鍵組件3: 時(shí)鐘門控單元(CGSC)
• EN_S2SL-二級(jí)搜索線使能信號(hào)
• S2SCLK-門控生成的局部時(shí)鐘


DGSL時(shí)序?qū)Ρ确治?/span>
基準(zhǔn)架構(gòu)vsDGSL仿真與時(shí)序圖
• 分布式全局搜索線架構(gòu)下,S2階段的SCLK(搜索時(shí)鐘)與SLT/C(搜索線真值/補(bǔ)碼信號(hào))無(wú)翻轉(zhuǎn)。

DGSL架構(gòu)的搜索功耗優(yōu)化
ML(匹配線)功耗節(jié)省: 較基線降低16.7%
DGSL搜索線(SL)功耗節(jié)省
•與全未命中存儲(chǔ)體數(shù)量呈線性節(jié)省關(guān)系
• 全存儲(chǔ)體未命中時(shí)總功耗降低37.4%

DGSL峰值電流降低與基線對(duì)比

TCAM中的并行搜索:高峰值電流
• IR壓降問(wèn)題
基線峰值主要由ML(機(jī)器學(xué)習(xí))主導(dǎo)
DGSL峰值電流降低與基線對(duì)比

DGSL(全未命中創(chuàng)新存儲(chǔ)體): 阻止S2-ML預(yù)充電
• 峰值事件轉(zhuǎn)移至SL切換
• 峰值電流降至基準(zhǔn)值的80.3%
DGSL峰值電流降低與基線對(duì)比

DGSL(全存儲(chǔ)體未命中模式): 有效抑制S2_SLT/C信號(hào)翻轉(zhuǎn)
• 峰值電流事件回移至ML預(yù)充電階段
• 峰值電流降至基準(zhǔn)值的53.4%
非對(duì)稱分割架構(gòu)(ASA)
DCN(數(shù)據(jù)中心網(wǎng)絡(luò))可支持最高220位搜索鍵寬的不同實(shí)例配置
• 對(duì)于220位實(shí)例,110位分別分配至第1和第2階段。

能否通過(guò)對(duì)較小10位寬實(shí)例采用位分割技術(shù)來(lái)降低功耗?
非對(duì)稱分割架構(gòu)(ASA)
164位分割方案
• 對(duì)稱分割: 每階段82位
• 非對(duì)稱分割: 第一階段54位,第二階段110位。
非對(duì)稱分割架構(gòu)(ASA)

164位分割方案
• 對(duì)稱分割: 每階段82位
• 非對(duì)稱分割: 第一階段54位,第二階段110位。
在S1階段進(jìn)行預(yù)比較可節(jié)省ML與SL功耗
采用ASA架構(gòu)的節(jié)能效果

512×164配置可節(jié)省51%的搜索功耗
512×124實(shí)例實(shí)現(xiàn)最高節(jié)能效率達(dá)62.5%
與現(xiàn)有技術(shù)的對(duì)比優(yōu)勢(shì)
總結(jié)與結(jié)論
與現(xiàn)有技術(shù)的對(duì)比優(yōu)勢(shì)

實(shí)現(xiàn)了最高頻率和最大存儲(chǔ)密度
芯片照片與性能總結(jié)表

結(jié)論
本文提出一款512條目×220位搜索位的動(dòng)態(tài)門控搜索線(DGSL)TCAM存儲(chǔ)器。
相較于基準(zhǔn)架構(gòu),該設(shè)計(jì)實(shí)現(xiàn)了37.4%的功耗降低,搜索能耗達(dá)0.305飛焦/比特(fJ/b)。
該宏單元(Macro)實(shí)現(xiàn)了業(yè)界最高的2.2 GHz工作頻率。
該設(shè)計(jì)實(shí)現(xiàn)46.6%的峰值電流降低。
該宏單元(Macro)實(shí)現(xiàn)業(yè)界最高存儲(chǔ)密度:4.97Mb/mm²。
針對(duì)10位窄位寬實(shí)例的非對(duì)稱分割架構(gòu)(ASA)實(shí)現(xiàn)方案。
3nm FinFET工藝硅驗(yàn)證結(jié)果

來(lái)源:半導(dǎo)體先進(jìn)工藝論壇