少妇人妻Av在线,久草性爱AV在线,欧美网站在线观看

聯(lián)發(fā)科3納米TCAM存儲(chǔ)器技術(shù)介紹

嘉峪檢測(cè)網(wǎng) 2025-05-27 19:10

本文是聯(lián)發(fā)科(MediaTek)存儲(chǔ)器電路設(shè)計(jì)專家Sushil Kumar在2025年第72屆國(guó)際固態(tài)電路會(huì)議(ISSCC)SRAM專題會(huì)議上發(fā)表的題為《A 3nm FinFET 2.2Gsearch/s 0.305fJ/b TCAM with Dynamically Gated Search Lines for Data-Center ASICs》的演講,闡述了聯(lián)發(fā)科新研發(fā)的一款采用3納米Fin-FET工藝的TCAM存儲(chǔ)器,該存儲(chǔ)器設(shè)計(jì)創(chuàng)新性地引入了動(dòng)態(tài)門控搜索線技術(shù),專為數(shù)據(jù)中心專用集成電路(ASIC)打造。

演講摘要

數(shù)據(jù)包分類與轉(zhuǎn)發(fā)是數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)核心組件(如交換機(jī)、路由器)的基礎(chǔ)功能,用于高效管理和引導(dǎo)網(wǎng)絡(luò)流量。數(shù)據(jù)包分類通過(guò)解析包頭信息識(shí)別流量特征,進(jìn)而執(zhí)行訪問(wèn)控制(ACL)、服務(wù)質(zhì)量(QoS)等策略;數(shù)據(jù)包轉(zhuǎn)發(fā)則依據(jù)路由表確定數(shù)據(jù)包的下一跳路徑。三態(tài)內(nèi)容尋址存儲(chǔ)器(TCAM)通過(guò)并行內(nèi)存搜索將輸入數(shù)據(jù)包頭與存儲(chǔ)規(guī)則進(jìn)行比對(duì),從而加速這兩項(xiàng)任務(wù)。TCAM提供的快速并行查找功能,使其成為DCN專用集成電路(ASIC)不可或缺的基礎(chǔ)IP核。然而TCAM存在顯著能耗代價(jià)——全條目并行搜索功耗密集,這將影響網(wǎng)絡(luò)設(shè)備的運(yùn)行效率、可靠性及環(huán)境足跡。為降低DCN-TCAM功耗,聯(lián)發(fā)科設(shè)計(jì)了一款基于3nm FinFET工藝、支持2.2G次搜索/秒、能效0.305fJ/比特的TCAM,其創(chuàng)新設(shè)計(jì)包括: (1)動(dòng)態(tài)門控搜索線(DGSL)架構(gòu),可實(shí)現(xiàn)37.4%的功耗節(jié)省與46.6%的峰值電流降低; (2)非對(duì)稱分割架構(gòu)(ASA),可帶來(lái)與位寬相關(guān)的額外節(jié)電效益。

Outline

數(shù)據(jù)中心網(wǎng)絡(luò)專用集成電路(ASIC,Application Specific Integrated Circuit)

網(wǎng)絡(luò)規(guī)則的空間局部性

TCAM(三態(tài)內(nèi)容尋址存儲(chǔ)器)結(jié)構(gòu)框圖

基準(zhǔn)TCAM架構(gòu)及其挑戰(zhàn)

動(dòng)態(tài)門控搜索線(DGSL,Dynamically Gated Search Line)架構(gòu)

• 動(dòng)態(tài)搜索線(SL)的節(jié)能設(shè)計(jì)

• 峰值電流降低

非對(duì)稱分割架構(gòu)(ASA)

與現(xiàn)有技術(shù)的對(duì)比優(yōu)勢(shì)

總結(jié)與結(jié)論

數(shù)據(jù)中心網(wǎng)絡(luò)專用集成電路(ASIC)

組成部分

• 互聯(lián)網(wǎng)交換機(jī)與路由器

核心任務(wù)

• 分類(Classification): 基于策略

• 轉(zhuǎn)發(fā)(Forwarding): 基于路由表

訪問(wèn)控制列表(ACL)

• 規(guī)則集合: 策略/路由表

DCN ASIC 的核心需求

• 高速并行查找

• 大容量規(guī)則存儲(chǔ)

典型數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)

TCAM(三態(tài)內(nèi)容尋址存儲(chǔ)器): DCN ASIC 的基礎(chǔ)IP核

網(wǎng)絡(luò)規(guī)則的空間局部性

規(guī)則的相似性與優(yōu)先級(jí)

• 相似規(guī)則通常相鄰存儲(chǔ): 內(nèi)容相似的規(guī)則傾向于被編程在彼此靠近的位置

TCAM劃分為8個(gè)存儲(chǔ)塊(Bank)

• 每個(gè)存儲(chǔ)塊代表不同的優(yōu)先級(jí)層級(jí)

匹配規(guī)則的空間局部性

• 若某個(gè)搜索關(guān)鍵字匹配了特定條目,則后續(xù)匹配條目很可能位于其附近。

• 若數(shù)據(jù)包匹配了存儲(chǔ)塊 B6 中的規(guī)則，則不太可能同時(shí)匹配存儲(chǔ)塊 B0 中的規(guī)則。

TCAM (三態(tài)內(nèi)容尋址存儲(chǔ)器)結(jié)構(gòu)框圖

TCAM 結(jié)構(gòu)框圖

規(guī)格

• 512條目×220位

接口信號(hào)

• 控制輸入: CK(Clock)：時(shí)鐘信號(hào)；SR(Search Enable)：搜索使能信號(hào)

• 數(shù)據(jù)輸入: SD(Search Data Input): 待搜索數(shù)據(jù)輸入(220 位)

• 輸出: HIT(匹配結(jié)果): 若SDI與某條目?jī)?nèi)容匹配則輸出高電平,否則輸出低電平。

存儲(chǔ)塊架構(gòu)

• 512條目均分為8個(gè)存儲(chǔ)塊(Bank),每塊含 64 條目。

• 220位SDI拆分為2級(jí)匹配寬度(每級(jí)110 位)

• 每存儲(chǔ)塊每級(jí)為64條目×110位

512條目×220位模塊框圖

TCAM 存儲(chǔ)單元

位單元結(jié)構(gòu)

• 兩個(gè)6T-SRAM單元: 用于存儲(chǔ)三態(tài)值

• 4T-NMOS堆疊結(jié)構(gòu): 將搜索關(guān)鍵字(Search Key)與TCAM中的三態(tài)值進(jìn)行比對(duì)

功能特性

• 失配(Mismatch)：輸出下拉至低電平；

匹配(Match)：保持高電平

• 讀寫操作: 與標(biāo)準(zhǔn)6T-SRAM一致

TCAM位單元與真值表

基準(zhǔn) TCAM 架構(gòu)及其挑戰(zhàn)

基準(zhǔn)架構(gòu)

并行階段S1和S2操作

預(yù)比較操作(Pre-compare)

• GIO生成S1_GSLT/C(存儲(chǔ)塊輸入信號(hào))

• LIO提供 S1_SLT/C(比較基準(zhǔn)值)

• ML(匹配線)在比較前預(yù)充電至高電平

比較操作(Compare Operation)

• SDI與TCAM存儲(chǔ)值在ML上進(jìn)行比對(duì)

• S1HIT和S2HIT信號(hào)經(jīng)觸發(fā)器鎖存,生成每個(gè)條目的最終匹配輸出(HIT)。

基準(zhǔn)TCAM 特性:S1和S2并行工作(兩級(jí)比較電路同時(shí)運(yùn)行以提升吞吐率)

基準(zhǔn)架構(gòu)

并行階段S1和S2操作

預(yù)比較操作(Pre-compare)

• GIO生成S1_GSLT/C(存儲(chǔ)塊輸入信號(hào))

• LIO提供S1_SLT/C(比較基準(zhǔn)值)

• ML(匹配線)在比較前預(yù)充電至高電平

比較操作(Compare Operation)

• SDI與TCAM存儲(chǔ)值在ML上進(jìn)行比對(duì)

• S1HIT和S2HIT信號(hào)經(jīng)觸發(fā)器鎖存,生成每個(gè)條目的最終匹配輸出(HIT)。

基準(zhǔn)TCAM特性:S1和S2并行工作(兩級(jí)比較電路同時(shí)運(yùn)行以提升吞吐率)

基準(zhǔn)架構(gòu)

并行階段S1和S2操作

預(yù)比較操作(Pre-compare)

• GIO生成S1_GSLT/C(存儲(chǔ)塊輸入信號(hào))

• LIO提供S1_SLT/C(比較基準(zhǔn)值)

• ML(匹配線) 在比較前預(yù)充電至高電平

比較操作(Compare Operation)

• SDI與TCAM存儲(chǔ)值在ML上進(jìn)行比對(duì)

• S1HIT和S2HIT信號(hào)經(jīng)觸發(fā)器鎖存,生成每個(gè)條目的最終匹配輸出(HIT)。

基準(zhǔn)TCAM特性:S1和S2并行工作(兩級(jí)比較電路同時(shí)運(yùn)行以提升吞吐率)

挑戰(zhàn): 動(dòng)態(tài)搜索功耗

最壞情況: 全失配(all-miss)

細(xì)分項(xiàng)

• 匹配線(ML)35%: 每周期預(yù)充電與放電

• 搜索線(SL)37%：每周期根據(jù)數(shù)據(jù)翻轉(zhuǎn)(SLT/C信號(hào)切換)

• 其他(28%): GSLT/C切換、控制邏輯、HIT信號(hào)等

已提出許多降低匹配線功耗的技術(shù)

降低搜索線(SL)功耗難以實(shí)現(xiàn)

TCAM功耗分布分析

核心挑戰(zhàn):如何降低匹配線(ML)和搜索線(SL)的功耗？

動(dòng)態(tài)門控搜索線(DGSL,Dynamically Gated Search Line)架構(gòu)

• 動(dòng)態(tài)搜索線(SL)的節(jié)能設(shè)計(jì)

• 峰值電流降低

DGSL TCAM 架構(gòu)

DGSL(動(dòng)態(tài)門控搜索線架構(gòu),Dynamically Gated Search-line）

DGSL TCAM 架構(gòu)詳解

S1與S2階段順序執(zhí)行

•3周期延遲

匹配線(ML)節(jié)能

搜索線(SL)節(jié)能: 依賴三大創(chuàng)新組件

①S1HIT線或(Wired-OR)邏輯電路: 快速識(shí)別潛在匹配區(qū)域

②S1NOMISS流水線觸發(fā)器(P1NM):鎖存階段S1的無(wú)失配標(biāo)志

③時(shí)鐘門控單元(CGSC): 動(dòng)態(tài)關(guān)閉未激活區(qū)域的時(shí)鐘信號(hào)

DGSL TCAM 架構(gòu)詳解

S1與S2階段順序執(zhí)行

•3周期延遲

匹配線(ML)節(jié)能

搜索線(SL)節(jié)能: 依賴三大創(chuàng)新組件

①S1HIT線或(Wired-OR)邏輯電路: 快速識(shí)別潛在匹配區(qū)域

②S1NOMISS流水線觸發(fā)器(P1NM):鎖存階段S1的無(wú)失配標(biāo)志

③時(shí)鐘門控單元(CGSC): 動(dòng)態(tài)關(guān)閉未激活區(qū)域的時(shí)鐘信號(hào)

DGSL TCAM 的匹配線(ML)節(jié)能機(jī)制

阻止S2階段ML預(yù)充電

•當(dāng)大多數(shù)條目失配(miss)時(shí),S1HIT信號(hào)基于預(yù)比較結(jié)果保持為0。

•通過(guò)觸發(fā)器(flopped)鎖存的S1HIT信號(hào),關(guān)閉S2階段的ML預(yù)充電。

DGSL TCAM-搜索線(SL)節(jié)能機(jī)制(1/2)

關(guān)鍵組件1: 線或(WIRED OR)邏輯電路

• 當(dāng)主控信號(hào)MSAE=0時(shí),對(duì)S1MISS信號(hào)線進(jìn)行預(yù)充電。

• 所有一級(jí)匹配信號(hào)(S1HIT)通過(guò)分布式線或結(jié)構(gòu)匯總至S1MISS

• 任一存儲(chǔ)塊命中(S1HIT=1)→S1MISS立即下拉至0

• 全存儲(chǔ)塊失配(所有S1HIT=0)→S1MISS維持預(yù)充電高電平1

DGSL TCAM-搜索線(SL)節(jié)能機(jī)制(1/2)

關(guān)鍵組件1:線或(WIRED OR)邏輯電路

•當(dāng)主控信號(hào)MSAE=0時(shí),對(duì)S1MISS信號(hào)線進(jìn)行預(yù)充電。

•所有一級(jí)匹配信號(hào)(S1HIT)通過(guò)分布式線或結(jié)構(gòu)匯總至S1MISS

•任一存儲(chǔ)塊命中(S1HIT=1)→S1MISS立即下拉至0

•全存儲(chǔ)塊失配(所有S1HIT=0)→S1MISS維持預(yù)充電高電平1

DGSL TCAM-搜索線(SL)節(jié)能機(jī)制(2/2）

關(guān)鍵組件2: S1無(wú)失配觸發(fā)器(S1NOMISS F/F)

關(guān)鍵組件3: 時(shí)鐘門控單元(CGSC)

• EN_S2SL-二級(jí)搜索線使能信號(hào)

• S2SCLK-門控生成的局部時(shí)鐘

DGSL時(shí)序?qū)Ρ确治?/span>

基準(zhǔn)架構(gòu)vsDGSL仿真與時(shí)序圖

• 分布式全局搜索線架構(gòu)下,S2階段的SCLK(搜索時(shí)鐘)與SLT/C(搜索線真值/補(bǔ)碼信號(hào))無(wú)翻轉(zhuǎn)。

DGSL架構(gòu)的搜索功耗優(yōu)化

ML(匹配線)功耗節(jié)省: 較基線降低16.7%

DGSL搜索線(SL)功耗節(jié)省

•與全未命中存儲(chǔ)體數(shù)量呈線性節(jié)省關(guān)系

• 全存儲(chǔ)體未命中時(shí)總功耗降低37.4%

DGSL峰值電流降低與基線對(duì)比

TCAM中的并行搜索:高峰值電流

• IR壓降問(wèn)題

基線峰值主要由ML(機(jī)器學(xué)習(xí))主導(dǎo)

DGSL峰值電流降低與基線對(duì)比

DGSL(全未命中創(chuàng)新存儲(chǔ)體): 阻止S2-ML預(yù)充電

• 峰值事件轉(zhuǎn)移至SL切換

• 峰值電流降至基準(zhǔn)值的80.3%

DGSL峰值電流降低與基線對(duì)比

DGSL(全存儲(chǔ)體未命中模式): 有效抑制S2_SLT/C信號(hào)翻轉(zhuǎn)

• 峰值電流事件回移至ML預(yù)充電階段

• 峰值電流降至基準(zhǔn)值的53.4%

非對(duì)稱分割架構(gòu)(ASA)

DCN(數(shù)據(jù)中心網(wǎng)絡(luò))可支持最高220位搜索鍵寬的不同實(shí)例配置

• 對(duì)于220位實(shí)例,110位分別分配至第1和第2階段。

能否通過(guò)對(duì)較小10位寬實(shí)例采用位分割技術(shù)來(lái)降低功耗？

非對(duì)稱分割架構(gòu)(ASA)

164位分割方案

• 對(duì)稱分割: 每階段82位

• 非對(duì)稱分割: 第一階段54位,第二階段110位。

非對(duì)稱分割架構(gòu)(ASA)

164位分割方案

• 對(duì)稱分割: 每階段82位

• 非對(duì)稱分割: 第一階段54位,第二階段110位。

在S1階段進(jìn)行預(yù)比較可節(jié)省ML與SL功耗

采用ASA架構(gòu)的節(jié)能效果

512×164配置可節(jié)省51%的搜索功耗

512×124實(shí)例實(shí)現(xiàn)最高節(jié)能效率達(dá)62.5%

與現(xiàn)有技術(shù)的對(duì)比優(yōu)勢(shì)

總結(jié)與結(jié)論

與現(xiàn)有技術(shù)的對(duì)比優(yōu)勢(shì)

實(shí)現(xiàn)了最高頻率和最大存儲(chǔ)密度

芯片照片與性能總結(jié)表

結(jié)論

本文提出一款512條目×220位搜索位的動(dòng)態(tài)門控搜索線(DGSL)TCAM存儲(chǔ)器。

相較于基準(zhǔn)架構(gòu),該設(shè)計(jì)實(shí)現(xiàn)了37.4%的功耗降低,搜索能耗達(dá)0.305飛焦/比特(fJ/b)。

該宏單元(Macro)實(shí)現(xiàn)了業(yè)界最高的2.2 GHz工作頻率。

該設(shè)計(jì)實(shí)現(xiàn)46.6%的峰值電流降低。

該宏單元(Macro)實(shí)現(xiàn)業(yè)界最高存儲(chǔ)密度:4.97Mb/mm²。

針對(duì)10位窄位寬實(shí)例的非對(duì)稱分割架構(gòu)(ASA)實(shí)現(xiàn)方案。

3nm FinFET工藝硅驗(yàn)證結(jié)果

來(lái)源：半導(dǎo)體先進(jìn)工藝論壇

聯(lián)發(fā)科3納米TCAM存儲(chǔ)器技術(shù)介紹

相關(guān)新聞：