您當前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2024-12-04 11:05
據(jù)韓媒KEDGLOBAL引述相關消息透露,SK海力士將采用目前最先進的代工技術3納米工藝,在2025年下游生產(chǎn)定制的HBM4芯片。
報道指出,這家韓國芯片制造商原計劃在5納米節(jié)點上為客戶定制第六代高帶寬工廠(HBM4)。它正與代工領導者臺積電(TSMC)合作開發(fā)HBM4。但最近,應主要客戶對更先進工廠的要求,SK海力士已轉(zhuǎn)向3 納米工藝生產(chǎn) HBM4,預計將于2025 年下半年向 Nvidia 公司供貨。
消息人士告訴《韓國經(jīng)濟日報》,SK海力士將于3月份推出相當多的在3納米HBM芯片上的HBM4原型。Nvidia的圖形處理單元(GPU)產(chǎn)品目前基于4納米HBM芯片。借助臺積電的CoWoS封裝,基片位于連接到 GPU 的 HBM 底部,充當 GPU 的大腦。與采用 5 nm 基片的 HBM4 相比,堆疊在 3 nm 基片上的 HBM 預計性能將提高 20-30%。
在華盛頓限制對華出口之際,SK海力士正全力投入 Nvidia Corp.、Google LLC 和 Microsoft Corp. 等美國大型科技公司,以減少對中國的依賴,因此英特爾轉(zhuǎn)向 3 nm 代工工藝。
SK 海力士占據(jù)全球 HBM 市場約一半的份額,并將其大部分 HBM 產(chǎn)品運往全球最大的 AI 芯片買家 Nvidia。使用 3 納米基片生產(chǎn) HBM4 將進一步拉大其與三星電子的差距,后者計劃將其 4 納米代工工藝應用于第六代 HBM(即 HBM4)。
HBM漸成主流
正如Alphawave Semi在一篇文章中所說,隨著 AI 模型的規(guī)模和復雜性不斷增長,它們會生成和處理越來越龐大的數(shù)據(jù)集,從而導致內(nèi)存系統(tǒng)出現(xiàn)性能瓶頸。這些內(nèi)存密集型操作會給內(nèi)存層次結構帶來壓力,尤其是在訓練大型神經(jīng)網(wǎng)絡等高吞吐量場景中。
我們看到 CPU 處理能力不斷提高,遵循摩爾定律,但內(nèi)存訪問速度卻沒有保持同樣的速度。專用 AI 硬件雖然能夠?qū)崿F(xiàn)極高的并行性,但受到內(nèi)存延遲和帶寬的限制。這種瓶頸通常稱為內(nèi)存墻,會嚴重影響整個系統(tǒng)的性能。為了應對這些挑戰(zhàn)并縮小內(nèi)存性能差距,人們正在探索 3D 堆疊內(nèi)存技術等領域的進步,通常稱為高帶寬內(nèi)存 (HBM)。

HBM 采用 3D 堆疊架構,其中內(nèi)存芯片垂直堆疊并通過硅通孔 (TSV) 互連。堆疊的 DRAM 通過中介層連接到處理器芯片。這減少了數(shù)據(jù)必須傳輸?shù)奈锢砭嚯x,并允許更高的數(shù)據(jù)傳輸速率和更低的延遲。

總體而言,HBM擁有以下幾點優(yōu)勢:
高帶寬– 使用寬內(nèi)存接口總線可為芯片之間的數(shù)據(jù)傳輸提供大量帶寬。這對于并行處理工作負載(例如 AI 模型訓練和深度學習中的工作負載)特別有用。
更小的外形尺寸– 與傳統(tǒng)內(nèi)存配置相比,HBM 的 3D 堆疊設計占用空間更小。這些堆疊隨后安裝在處理器旁邊的硅或有機中介層上,從而形成高度緊湊的內(nèi)存系統(tǒng)。
低功耗– HBM 的設計功耗也低于傳統(tǒng)內(nèi)存,尤其是在提供高帶寬時。低功耗是現(xiàn)代計算硬件設計的一個關鍵因素,特別是對于通常大規(guī)模部署的 AI 系統(tǒng)而言。
降低延遲– 與 DDR 和 GDDR 等片外內(nèi)存解決方案相比,HBM 可提供更低的延遲。憑借最近對 2.5D 中介層和 3D 堆疊等先進封裝技術的投資,它可實現(xiàn)更緊湊的 SoC 設計,適合異構計算。
對于性能和帶寬至關重要的應用,HBM 具有顯著優(yōu)勢,盡管成本高、復雜度高,但它仍然是最可行的解決方案之一。隨著計算工作量因人工智能和大數(shù)據(jù)的爆炸式增長而不斷演變,管理和訪問內(nèi)存的新方法對于克服內(nèi)存瓶頸至關重要。
而隨著人工智能的復雜性不斷增加,HBM 在釋放下一代人工智能硬件的全部潛力方面的作用將變得越來越重要。隨著演變,下一代 HBM4 和 HBM4E 技術將通過將接口寬度加倍至 2048 位來進一步滿足 AI 工作負載的需求。

但是,隨之而來的挑戰(zhàn),也是顯而易見的。
HBM實施挑戰(zhàn)
因為實現(xiàn)具有高帶寬內(nèi)存 (HBM) 的 2.5D 系統(tǒng)級封裝 (SiP) 是一個復雜的過程,涉及架構定義、設計高可靠性中介層通道以及對整個數(shù)據(jù)路徑進行穩(wěn)健測試(包括系統(tǒng)級驗證)。
總體而言,HBM擁有幾方面的挑戰(zhàn):
制造復雜性– HBM 采用 3D 堆疊架構構建,制造 TSV 和對齊多層內(nèi)存芯片所需的精度遠高于傳統(tǒng)內(nèi)存。此外,HBM 通常安裝在硅中介層或有機中介層上,這為內(nèi)存堆棧和處理器之間提供高速通信。這需要先進的光刻技術和精確的芯片放置,這增加了制造的整體復雜性。
熱管理– 由于 HBM 的堆疊特性,多個 DRAM 芯片彼此疊放,內(nèi)存芯片產(chǎn)生的熱量會積聚在堆疊中。這帶來了巨大的熱挑戰(zhàn)。通常需要使用液體冷卻、熱界面材料 (TIM) 和集成散熱器等先進冷卻方法來緩解熱節(jié)流。
總擁有成本– 由于 2.5D 中介層和 3D 堆疊技術需要先進的制造技術,實現(xiàn)高產(chǎn)量可能非常具有挑戰(zhàn)性。即使任何堆疊芯片或互連中出現(xiàn)一個缺陷,也可能導致整個 HBM 堆疊失效,從而降低整體制造產(chǎn)量并增加成本。
在具體實現(xiàn)過程中,則需要注意以下幾方面的問題:
首先,在高級設計與架構規(guī)劃時,要確定必要的帶寬、延遲和功率要求對于規(guī)劃整體系統(tǒng)架構非常重要。單片芯片還可以分解為更小的專用模塊(稱為chiplet),以處理系統(tǒng)內(nèi)的特定功能。這種方法可以提供增強的設計靈活性、功率效率、產(chǎn)量和整體可擴展性。

來到中介層設計的時候,由于中介層可以是硅材料或有機材料,并支持多個金屬層以處理 HBM 堆棧和計算芯片之間的高密度布線。值得一提的是,因為HBM4 將以 HBM3E 中的改進為基礎,旨在進一步提高數(shù)據(jù)速率、能效和內(nèi)存密度。由于接口寬度增加了一倍(至 2048 位),但 HBM4 內(nèi)存shoreline 與 HBM3E 保持不變,因此主要挑戰(zhàn)是如何管理 PHY 和中介層中更密集的 I/O 布線。布局應確保仔細的信號布線、電源分配和接地,以最大限度地減少通過通道的串擾和損耗,從而滿足 HBM4E 規(guī)范。
去到SI和PI分析時,為了防止 HBM4E 數(shù)據(jù)速率下的信號衰減,我們需要執(zhí)行阻抗匹配、屏蔽等技術,并采取措施確保相鄰走線之間的串擾最小。中介層的特征包括插入損耗 (IL)、反射損耗 (RL)、功率總串擾 (PSXT) 和插入損耗與串擾比 (ICR),以表征通道并確保我們滿足下一代 HBM4E 技術的要求。
此外,供電網(wǎng)絡也需要仔細規(guī)劃,以確定去耦電容、低阻抗路徑和關鍵敏感信號的專用電源層。在確定供電網(wǎng)絡的目標阻抗時,需要考慮主板、封裝、中介層和硅片等所有組件的噪聲貢獻。

最后,廣泛的 SI-PI 測試可確保 HBM 封裝符合抖動和功率規(guī)格。將中介層引起的抖動分解為 ISI、串擾和上升-下降時間退化有助于識別影響 EYE 閉合的主要通道參數(shù),并有助于更好的布局和 I/O 架構優(yōu)化。
對數(shù)據(jù)路徑中的所有組件進行系統(tǒng)級測試對于確保組裝好的封裝滿足設計階段規(guī)定的性能規(guī)格至關重要。包括支持 DFT 的設計在內(nèi)的綜合測試套件對于實現(xiàn)高產(chǎn)量的早期診斷也至關重要。

自定義的HBM
在過去,我們談的HBM都是通用的HBM,但從HBM 4開始,則以客制化為主流。在AI 已經(jīng)突破了計算系統(tǒng)極限的當下,HBM 的自定義實現(xiàn)允許與計算芯片和自定義邏輯進行更好的集成,因此可以成為證明其復雜性合理的性能差異化因素。
整體看來,定制 HBM 集成具有以下幾點優(yōu)勢:
1、更好地協(xié)調(diào)記憶與需求
定制 HBM4 設計意味著優(yōu)化內(nèi)存和內(nèi)存控制器,使其與處理器或 AI 加速器的特定需求緊密結合。這可能涉及調(diào)整內(nèi)存配置(例如,通過增加帶寬、減少延遲或添加更多內(nèi)存層)并微調(diào)芯片間接口以確保順暢快速的通信。
2、2.5D集成
在 2.5D 封裝中,處理器芯片和 HBM 定制芯片并排放置在中介層上,中介層充當它們之間的高速通信橋梁。這種方法允許使用寬數(shù)據(jù)總線和短互連,從而實現(xiàn)更高的帶寬和更低的延遲。
3、芯片間接口提高了帶寬
芯片間接口可以支持高時鐘速率的超寬數(shù)據(jù)總線,從而實現(xiàn)巨大的帶寬吞吐量。
4、它還可以改善延遲
通過縮短內(nèi)存和處理器之間的距離,芯片到芯片接口可以最大限度地減少訪問外部內(nèi)存帶來的延遲。這在 AI 模型訓練和推理中至關重要,因為延遲會嚴重影響性能。
5、電源效率
更短的互連距離和對外部內(nèi)存控制器需求的減少降低了功耗。這對于運行高功耗 AI 工作負載的數(shù)據(jù)中心以及對電源效率至關重要的邊緣 AI 設備來說是一個關鍵優(yōu)勢。
總體而言,當與芯片到芯片接口結合使用時,定制 HBM 可提供強大的解決方案,幫助解決 AI 芯片面臨的內(nèi)存瓶頸問題。通過利用 2.5D 和 3D 堆疊等先進封裝技術,AI 芯片可以實現(xiàn)超高內(nèi)存帶寬、更低延遲和更高能效。這對于處理現(xiàn)代 AI 工作負載的海量數(shù)據(jù)需求至關重要,特別是在深度學習、實時推理和高性能計算等應用中。雖然在成本和熱管理方面存在挑戰(zhàn),但性能優(yōu)勢使這種方法對于下一代 AI 硬件系統(tǒng)非常有價值。
而使用諸如 UCIe 標準 (Universal Chiplet Interconnect Express) 之類的芯片到芯片接口則是創(chuàng)建自定義 HBM 的一種尖端方法,該方案涉及將內(nèi)存芯片與計算芯片緊密集成,以實現(xiàn)極高的帶寬以及組件之間的低延遲。在這種實現(xiàn)中,內(nèi)存控制器通過內(nèi)存基座芯片上的硅通孔 (TSV) PHY 直接與 HBM DRAM 接口連接。來自主機或計算機的命令通過使用流式協(xié)議的芯片到芯片接口進行轉(zhuǎn)換。這允許重用主芯片上已占用的芯片到芯片海岸線,用于核心到核心或核心到 I/O 連接。這種實現(xiàn)需要 IP 供應商、DRAM 供應商和最終客戶之間的密切合作,以創(chuàng)建自定義內(nèi)存基座芯片。

但要實現(xiàn)這個,需要產(chǎn)業(yè)鏈的完美結合。
寫在最后
HBM 4的定制化已經(jīng)在產(chǎn)業(yè)鏈達成共識。但依然還有通過HBM 4的需求。
kedgloabal在報道中表示,對于通用的 HBM4 和 HBM4E,SK 海力士將與臺積電合作采用 12 納米工藝技術。這家全球第二大內(nèi)存芯片制造商使用其基礎芯片制造了 HBM3E,即第五代 HBM。但對于 HBM4 芯片,它已決定采用臺積電的技術。
應 Nvidia 的要求,SK 海力士正在加快 HBM4 芯片的開發(fā)。
Nvidia 首席執(zhí)行官黃仁勛最近要求 SK 集團董事長崔泰源將 12 層 HBM4 芯片的供應從 SK 的 2026 年初的計劃提前六個月,崔泰源上個月在 SK AI 峰會 2024 上發(fā)表主題演講時表示。
與此同時,韓國半導體行業(yè)消息人士上個月告訴《韓國經(jīng)濟日報》,特斯拉公司已要求三星和 SK 海力士提供用于通用的 HBM4 原型樣品。在測試原型后,這家全球第一大電動汽車制造商預計將選擇這兩家公司中的一家作為其 HBM4 供應商。
至于他們韓國本土的另一個競爭對手三星。早前消息顯示,三星電子目前正在開發(fā)HBM4,以提供給微軟和Meta。報道指出,三星將以4nm量產(chǎn)HBM4,對抗SK海力士/臺積電聯(lián)盟。
參考鏈接
https://www.kedglobal.com/korean-chipmakers/newsView/ked202412030008
https://www.design-reuse.com/industryexpertblogs/57123/redefining-xpu-memory-for-ai-data-centers-through-custom-hbm4-part-3.html

來源:Internet