您當前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2025-07-25 22:14
本文是臺積電(TSMC)存儲器IP開發(fā)總監(jiān)Tsung-Yung Jonathan Chang博士在2025年第72屆國際固態(tài)電路會議(ISSCC)SRAM專題會議上發(fā)表的題為《A 38.1Mb/mm2 SRAM in a 2nm-CMOS-Nanosheet Technology for High-Density and Energy-Efficient Compute》的演講。
英特爾與臺積電關于先進制程節(jié)點中的相同SRAM面積微縮成果對比在上篇公眾號發(fā)文中我們詳細闡述了英特爾基于18A工藝節(jié)點RibbonFET與PowerVia技術的高容量(HCC)/高密度(HDC)6T SRAM架構:相較FinFET方案,HCC與HDC存儲單元面積分別縮減至0.77倍與0.88倍,對應0.023μm²與0.021μm²。通過優(yōu)化傳輸門(PG)與下拉管(PD)比例,可在讀寫路徑間實現(xiàn)最低VMIN。RibbonFET技術使HDC/HCC存儲單元無需依賴字線欠壓驅(qū)動(WLUD)等輔助電路即可達成具有競爭優(yōu)勢的VMIN,并在全壓驅(qū)動下獲得額外讀取性能增益。臺積電在2025年ISSCC SRAM專題會議中詳述其2nm(N2)節(jié)點的SRAM微縮路線。SRAM微縮在3nm節(jié)點停滯之后,于2nm節(jié)點實現(xiàn)部分重啟。臺積電基于2nm的SRAM宏單元采用0.021μm²存儲單元,陣列規(guī)模為4096×145(總?cè)萘?80Kb)。相較前代節(jié)點,存儲密度提升10%,達到38.1Mb/mm²。為實現(xiàn)這一目標,臺積電通過最大化存儲單元陣列規(guī)模并最小化外圍電路:2nm納米片晶體管技術改善了存儲單元的開關電流比,使得單條位線(BL)可負載的單元數(shù)量翻倍。相較于FinFET技術最大256單元/BL的限制,2nm技術允許其擴展至512單元/BL。此外,采用飛行位線(FBL)架構進一步提升了陣列效率。這本質(zhì)上是利用納米片晶體管(NSH)較FinFET更優(yōu)的Ion/Ioff特性,重構外圍電路設計。綜上所述,盡管技術路徑不同(納米片vs納米帶),臺積電N2與英特爾18A均實現(xiàn)SRAM存儲單元0.021μm²級密度。從單純追求特征尺寸微縮,轉(zhuǎn)向器件結構創(chuàng)新(GAA)與系統(tǒng)級供電/互連優(yōu)化(PowerVia/FBL)的協(xié)同設計。新型晶體管通過Ion/Ioff提升,推動存儲陣列規(guī)模擴展與外圍電路精簡,為存算一體架構奠定物理基礎。
演講摘要在本文中,臺積電(TSMC)提出了一種基于2nm CMOS納米片工藝的38.1Mb/mm² 高密度SRAM設計,用于高密度與高能效計算應用。該設計采用0.021um²的高密度存儲單元,并通過設計-工藝協(xié)同優(yōu)化(DTCO),使整體SRAM密度較前代技術節(jié)點提升1.1倍。
嵌入式存儲器是片上系統(tǒng)(SoC)設計的關鍵組成部分,其中靜態(tài)隨機存取存儲器(SRAM)在提升各類應用場景的系統(tǒng)性能中發(fā)揮著核心作用。隨著技術節(jié)點的演進,對高容量片上SRAM的持續(xù)需求推動著存儲密度的極限優(yōu)化。在成熟技術節(jié)點中,縮小存儲單元面積曾是實現(xiàn)SRAM微縮的主要途徑;然而,隨著技術進入更先進節(jié)點,單純依賴單元面積微縮的難度顯著增加。此時,設計-工藝協(xié)同優(yōu)化(DTCO)成為芯片層級進一步縮減面積的關鍵手段。我們通過同步優(yōu)化單元及外圍電路設計以提高存儲密度。同時,我們的SRAM設計充分利用了2nm納米片技術的獨特優(yōu)勢。通過探索SRAM宏架構、設計輔助技術和版圖規(guī)劃等多個設計維度的創(chuàng)新,實現(xiàn)了存儲陣列性能的全面提升。本方案的核心設計目標是在最小化外圍電路面積的同時最大化存儲陣列占比:基于2nm納米片晶體管優(yōu)異的開關電流比(Ion/Ioff),將單條位線(BL)驅(qū)動單元數(shù)量提升至前代技術的2倍,最大位線負載能力實現(xiàn)倍數(shù)級提升,直接擴大有效存儲陣列規(guī)模。此外,我們針對外圍邏輯電路實施了三項特殊設計規(guī)則(詳見圖29.1.1(a)),實現(xiàn)面積效率的突破性優(yōu)化。

圖29.1.1:(a)采用特殊邏輯規(guī)則實現(xiàn)外圍邏輯電路面積縮減;(b)高密度SRAM位密度技術演進趨勢
為提升存儲密度,本文提出一種基于2nm納米片技術的高密度(HD)SRAM設計方案。該SRAM宏單元采用0.021um²存儲單元,總?cè)萘窟_580kb(4096×145)。通過設計-工藝協(xié)同優(yōu)化(DTCO),其整體密度較前代技術節(jié)點提升10%,實現(xiàn)38.1Mb/mm²的存儲密度(見圖29.1.1(b))。為降低最小寫入電壓(VMIN),設計中集成負位線(NBL)寫入輔助技術[1-5]。

圖29.1.1:(a)采用特殊邏輯規(guī)則實現(xiàn)外圍邏輯電路面積縮減;(b)高密度SRAM位密度技術演進趨勢圖
29.1.2(a)展示了采用FinFET技術的傳統(tǒng)SRAM宏設計架構。在該設計中:受限于FinFET器件的電流驅(qū)動能力,每條位線(BL)最多驅(qū)動256個單元。相比之下,2nm納米片技術憑借存儲單元開關電流比(Ion/Ioff)的大幅提升,成功將單條位線(BL)驅(qū)動單元數(shù)量增至512個,使SRAM宏單元的存儲效率獲得顯著提升。此外,通過將位線(BL)容量增加到512個存儲單元,并采用飛行位線(FBL)架構,陣列效率得到了提升。圖29.1.2(b)展示了飛行位線(FBL)宏單元架構,其上下存儲區(qū)均有512行存儲單元,上存儲區(qū)位線(BL)通過下存儲區(qū)上方的懸空位線第二層金屬(FBL metal 2)連接到主輸入輸出(MIO)模塊,形成1024偽行架構,相較傳統(tǒng)FBL架構(僅支持256行)實現(xiàn)容量倍增。

圖29.1.2:(a)典型FinFET SRAM宏架構;(b)采用512行上下存儲區(qū)的飛行位線(FBL)宏架構
然而,隨著單條位線(BL)驅(qū)動單元數(shù)量的增加以及底層存儲區(qū)飛行位線(FBL)架構的引入,會導致頂層與底層存儲區(qū)的BL電阻和電容增大。由于位線(BL)電阻/電容顯著增加,實現(xiàn)1024偽行架構(每條位線驅(qū)動512單元+FBL層疊加512單元)時存在以下三個關鍵技術挑戰(zhàn):(1)由于BL電阻升高導致遠端負位線(NBL)電壓損失加劇;2)位線升壓電容需求增加;(3)BL預充電時間延長;為了應對這些挑戰(zhàn),本文創(chuàng)新性地提出將寫入輔助模塊(WAU)與位線預充電電路(BPCU)分布式布局于存儲陣列遠端。該優(yōu)化設計提高了遠端存儲單元的可寫入性和預充電能力。
圖29.1.3(a)展示了所提出的遠端寫入輔助(FE-WA)與遠端預充電(FE-PRE)方案,旨在將每條位線(BL)驅(qū)動單元數(shù)擴展至512個。為緩解遠端單元寫入性能劣化,FE-WA與FE-PRE模塊分別置于上下存儲區(qū)的頂端。上存儲區(qū)BL通過金屬2層(FBL)跨越下存儲區(qū),連接至主輸入輸出(MIO)模塊;MIO的寫入驅(qū)動器采用負位線(NBL)技術實現(xiàn)寫入輔助。傳統(tǒng)設計中,負位線(NBL)升壓電容通常采用MOS電容結構,通過耦合效應產(chǎn)生帶負偏壓(NVSS)的電壓。升壓電容集成于主I/O模塊(MIO)內(nèi)部,生成的NBL偏壓信號需穿越底層存儲區(qū)金屬布線,最終傳輸至頂層和底層存儲區(qū)的遠端寫入輔助模塊(FE-WA)。

圖29.1.3:(a)所提出的遠端寫入輔助(FE-WA)與遠端預充電(FE-PRE)方案,支持單條位線(BL)驅(qū)動512個存儲單元;(b)控制FE-WA與FE-PRE模塊的全局信號框圖。金屬4層(M4)布線作為金屬耦合電容介質(zhì),將負偏壓(NVSS)傳輸至遠端寫入輔助模塊(FE-WA)。在遠端寫入輔助(FE-WA)模塊中,DT和DC控制一對NMOS寫入驅(qū)動器,源極連接NVSS以向單元注入負偏壓。串聯(lián)在寫入驅(qū)動器漏極的另一對NMOS作為列復用選擇器,這對NMOS晶體管的柵極由列地址(Y[0], …, Y[n])控制,實現(xiàn)目標列的寫入使能。當寫入“0”時,MIO模塊中的寫入驅(qū)動器受DT=0和DC=1及WPB選通信號觸發(fā),開始拉低位線 BL [0] 的電位;遠端寫入輔助(FE-WA)模塊同步響應DT=0與DC=1,協(xié)助遠端BL[0]放電至目標負壓。接下來,NBL_ENB信號激活MOS電容與金屬4層電容進行耦合,產(chǎn)生負偏壓信號NVSS,隨后NVSS通過NMOS寫入驅(qū)動器對向選定BL的近端與遠端傳輸。寫入操作完成后,位線(BL)會被預充電至電源電壓(VDD),從而結束寫入周期。為了縮短寫入周期,遠端預充電(FE-PRE)模塊配備了一對 PMOS預充電和均衡晶體管,用于協(xié)助將位線(BL)的電位恢復至電源電壓(VDD)。圖29.1.3(b)展示了控制遠端寫入輔助(FE-WA)模塊與遠端預充電(FE-PRE)模塊的全局信號架構圖,為了激活遠端寫入輔助(FE-WA)模塊,列選通信號(Y[0:n])通過金屬4層(M4)從控制模塊(CNT)傳輸至遠端寫入輔助(FE-WA)模塊,同時利用局部緩沖器來輔助信號重構。此外,寫入數(shù)據(jù)信號(DT和 DC),也就是鎖存的待寫入數(shù)據(jù)信號,同樣通過金屬4層(M4)走線穿過陣列傳輸至遠端寫入輔助(FE-WA)模塊。遠端預充電(FE-PRE)模塊由位線預充電信號(BLPRE)激活,該信號也通過金屬4層(M4)走線傳輸至遠端預充電(FE-PRE)模塊。

圖29.1.3:(a)所提出的遠端寫入輔助(FE-WA)與遠端預充電(FE-PRE)方案,支持單條位線(BL)驅(qū)動512個存儲單元;(b)控制FE-WA與FE-PRE模塊的全局信號框圖。
圖29.1.4(a)展示了禁用遠端寫入輔助(FE-WA)與遠端預充電(FE-PRE)模塊時的仿真波形。由于高位線時間常數(shù)(BL time constant)的存在,當僅激活近端負位線(NBL)時,遠端位線(BL)無法達到所需的NBL電壓,導致遠端單元發(fā)生寫入失敗。此外,高BL時間常數(shù)會延長BL恢復至VDD的預充電時間。相比之下,圖29.1.4(b)則呈現(xiàn)了啟用FE-WA與FE-PRE模塊后的仿真波形:負位線(NBL)偏置信號能夠傳輸?shù)竭h端存儲單元;因此,這些存儲單元能夠達到成功寫入操作所需的負位線(NBL)電壓。此外,FE-PRE模塊的啟用使BL復位至VDD的速度提升約2倍,大幅縮短預充電時間。

圖29.1.4:(a)FE-WA與FE-PRE模塊禁用時的仿真波形;(b)FE-WA與FE-PRE模塊啟用時的仿真波形。
除高密度SRAM外,采用高容量單元(HC Cell)的雙泵式SRAM(Double-Pumped SRAM)同樣是支撐高性能計算(HPC)應用的關鍵技術。為提升能效表現(xiàn),本設計采用圖29.1.5所示的雙軌追蹤方案(Dual-Tracking Scheme),以降低動態(tài)功耗并提升速度。在低電壓(VDD)工作模式下,該追蹤方案通過動態(tài)調(diào)節(jié)確保SRAM在最小工作電壓(VMIN)下仍保持足夠的讀取裕量(RM);而在標稱電壓范圍內(nèi),設計自動切換至TURBO模式——繞過追蹤電路并啟用純邏輯延遲路徑,從而最大化運行頻率。這種TURBO模式切換可提高最大工作頻率(fMAX),并避免在額定電源電壓(VDD)下運行時出現(xiàn)過大的讀取裕量(RM)。相較3nm工藝同類設計,所提出的雙跟蹤方案使雙泵式SRAM的速度提升了6.3%,動態(tài)功耗降低了11.5%,從而使能源效率提高了20%。

圖29.1.5:雙泵式SRAM(Double-Pumped SRAM)的雙軌追蹤方案(Dual-Tracking Scheme)
圖29.1.6(a)展示了2Mb高密度(HD)SRAM硅測試芯片在25℃下的最小工作電壓(VMIN)測試結果:集成4個580kb SRAM宏單元,這些宏單元被配置為4096×145的四路復用(mux-4)結構,且每條位線(BL)上有偽1024個存儲單元。
圖29.1.6(b)展示了256Mb高密度SRAM在25℃下的最小工作電壓(VMIN)性能,由2048個SRAM宏單元構成,這些宏單元被配置為4096×32 的十六路復用(mux-16)結構,且每條位線(BL)上有256個存儲單元。與未使用寫入輔助技術的情況相比,應用寫入輔助技術使2Mb和256Mb的SRAM在95%分位處的最小工作電壓(VMIN)均降低了300mV。圖29.1.6(c)展示了雙泵式32kb SRAM在25℃下,配置為 512×64的四路復用(mux-4)結構的頻率-電壓測試結果(Shmoo 圖)。所提出的雙跟蹤方案使得該SRAM在1.05V電源電壓下能夠?qū)崿F(xiàn)4.2GHz的最大工作頻率(fMAX)。

圖29.1.6:(a)基于1024偽單元架構的2Mb高密度SRAM(HD-SRAM)在25℃下的最小工作電壓(VMIN)的硅測試結果。傳統(tǒng)256單元/位線(cells/BL)架構的256Mb HD-SRAM VMIN累積分布圖;(c)雙泵式SRAM的頻率/電壓測試結果(Shmoo圖)。
圖29.1.7展示了SRAM測試芯片及其核心參數(shù)摘要。其中一款測試芯片集成了4個580kb SRAM宏單元(配置為每條位線1024個偽存儲單元),其特點是采用了遠端寫入輔助和預充電方案,用于芯片制造完成后的硅后調(diào)試,該測試芯片的總?cè)萘繛?Mb。另一塊測試芯片包含2048個SRAM宏單元,每個宏單元的容量為128kb(配置為每條位線256個存儲單元),其總?cè)萘繛?56Mb, 該測試芯片集成冗余設計(redundancy)與可編程寫入輔助選項,可提升良率與可靠性。此外,兩款測試芯片均采用2nm CMOS納米片工藝制造。

圖29.1.7:測試芯片顯微照片與關鍵指標匯總表
致謝作者謹此感謝研發(fā)團隊為本研究提供的晶圓制造支持,以及測試部門完成的芯片測試工作。

參考文獻
[1] J. Chang et al., “A 3nm 256Mb SRAM in FinFET Technology with New Array Banking Architecture and Write-Assist Circuitry Scheme for High-Density and Low-VMIN Applications”, IEEE VLSI Symp., 2023.
[2] J. Chang et al., “A 5nm 135Mb SRAM in EUV and High-Mobility-Channel FinFET Technology with Metal Coupling and Charge-Sharing Write-Assist Circuitry Schemes for High Density and Low-VMIN Applications,” ISSCC, pp. 238-239, 2020.
[3] J. Chang et al., “A 7nm 256Mb SRAM in High-K Metal-Gate FinFET Technology with Write-Assist Circuitry for Low-VMIN Applications”, ISSCC, pp. 206-207, 2017.
[4] T. Song et al., “A 7nm FinFET SRAM using EUV lithography with dual write-driver assist circuitry for low-voltage applications”, ISSCC, pp. 198-200, 2018.
[5] Y. Kim et al., “Energy-Efficient High Bandwidth 6T SRAM Design on Intel 4 CMOS Technology”, IEEE VLSI Symp., pp. 212-213, 2022.


來源:Internet