HBM3:对芯片设计的重大影响

从高性能计算到人工智能训练、游戏和汽车应用,对带宽的永无止境的需求正在推动下一代高带宽内存的发展。

HBM3将使每个堆栈的带宽和容量增加2倍,以及其他一些优势。曾经被认为是用于减少片外存储器中信号流量延迟的“慢而宽”的存储器技术正在变得更快、更宽。在某些情况下,它甚至被用于L4缓存。

ARM首席研究工程师 Alejandro Rico 表示:“这些新功能将在每传输位焦耳和更多设计方面实现更高水平的能源效率,这些设计仅采用 HBM3 内存解决方案,无需额外的封装外内存。” “AI/ML、HPC 和数据分析中的应用程序可以利用额外的带宽来保持扩展性能。正确利用 HBM3 带宽需要具有高带宽片上网络和处理元件的平衡处理器设计,以通过提高内存级并行度来最大化数据速率。”

Rambus产品营销、IP 核高级总监 Frank Ferro 指出,AI 训练芯片通常需要 1 TB 的原始数据处理信息,而 HBM3 正在达到这一水平. “用户在开发 ASIC 以构建更好的捕鼠器来解决 AI 问题时,正在推动更多带宽。每个人都试图想出一个更高效的处理器来实现他们特定的神经网络,并通过更好的内存利用率和 CPU 利用率更有效地实现这些。对于 AI 训练,HBM 一直是首选,因为它提供了最大的带宽、最佳的功率和最佳的占用空间。它有点贵,但对于这些应用程序——尤其是进入云中的应用程序——他们可以负担得起。那里真的没有真正的障碍,尤其是在一个中介层上有多个 HBM。HBM3 实际上只是一种自然迁移。”

图 1:不同 HBM 版本的 I/O 速度。资料来源:Rambus/SK 海力士

虽然JEDEC尚未公布尚未批准的 HBM3 规范的详细信息,但 Rambus报告其HBM3子系统带宽将增加至 8.4 Gbps,而 HBM2e 为 3.6 Gbps。实施 HBM3 的产品预计将于 2023 年初发货。

“当芯片的关键性能指标是每瓦内存带宽时,或者 HBM3 是实现所需带宽的唯一方法时,HBM3 是有益的,” Cadence IP 组产品营销组总监 Marc Greenberg 说。“与 DDR5、LPDDR5/5X 或 GDDR6 等基于 PCB 的方法相比,这种带宽和效率是以系统中额外硅片为代价的,而且制造/组装/库存成本可能更高。额外的硅通常是中介层,以及每个 HBM3 DRAM 堆栈下方的基础芯片。”

为什么这很重要

在HBM首次宣布以来的十年中,该标准的2.5代已经上市。在此期间,该数据的量创建,捕获,复制和消耗来自2泽字节增加到2010年的64.2 ZB在2020年,根据Statista,其预测这个数字将几乎三倍在2025年发展到181 ZB。

“2016 年,HBM2 将信号速率翻倍至 2 Gbps,带宽翻倍至 256 GB/s。” Synopsys高级产品营销经理 Anika Malhotra 说。“两年后,HBM2E 出现并最终实现了 3.6 Gbps 和 460 GB/s 的数据速率。对性能的渴求与日俱增,高级工作负载对带宽的需求不断增加,因为更高的内存带宽是并将继续成为计算性能的关键推动因素。”

除此之外,为了更快地处理所有这些数据,芯片设计变得越来越复杂,通常使用专门的加速器以及片上和封装内存储器和接口。她说,HBM 越来越被视为将异构分布式处理推向一个完全不同的水平的一种方式。

“最初,图形公司将高带宽内存视为朝着演进方向迈出的明确一步,但随后网络和数据中心社区意识到 HBM 可以在其内存层次结构中添加新的内存层以获得更多带宽,并且所有推动数据中心发展的因素——更低的延迟、更快的访问、更少的延迟、更低的功耗,”马尔霍特拉说。“通常,CPU 针对容量进行了优化,而加速器和 GPU 针对带宽进行了优化。然而,随着模型大小呈指数增长,我们看到对容量和带宽的需求不断增长,无需权衡。我们看到了更多的内存分层,其中包括支持软件可见的 HBM 和 DDR,以及使用 HBM 作为 DDR 支持的缓存的软件透明缓存。除了 CPU 和 GPU,HBM 在数据中心 FPGA 中也很受欢迎。”

HBM 最初旨在替代 GDDR 等其他内存,由一些领先的半导体公司,特别是 Nvidia 和 AMD 推动。这些公司仍在积极参与推动 JEDEC 任务组的发展,其中 Nvidia 是主席,AMD 是主要贡献者之一。

Synopsys 内存接口 IP 产品营销经理 Brett Murdock 表示,对于 GPU,如今有两种选择。“一个选项仍然使用 GDDR,在 SoC 周围有大量设备。另一种选择是改用 HBM。使用 HBM,您将获得更多带宽和更少的物理接口来处理。权衡是总体成本更高。另一个优点是物理接口更少,功耗更低。GDDR 是一个非常耗电的接口,而 HBM 是一个超级节能的接口。所以在一天结束时,客户提出的真正问题是,“我把钱花在哪里?” 有了 HBM3,这真的会开始使平衡转向,'也许我想把这些钱花在 HBM 上。'”

HBM 2/2e 在最初推出时被降级为某些细分市场,只有 AMD 和 Nvidia 是唯一的用户,但 HBM 2/2e 现在拥有非常大的用户安装基础。当 HBM3 最终被 JEDEC 批准时,这种增长预计将大大扩大。

关键权衡

芯片制造商已经明确表示,当系统中存在中介层时,HBM3 是有意义的,例如基于小芯片的设计,因为这个原因已经使用了硅中介层。“但是,在系统中还没有中介层的许多情况下,GDDR6、LPDDR5/5X 或 DDR5 等 PCB 内存解决方案可能比明确添加中介层更划算实施 HBM3,”Cadence 的格林伯格说。

然而,随着规模经济的生效,这些权衡可能会变得不那么重要。Synopsys 的 Murdock 表示,使用 HBM3 的用户最大的考虑是管理PPA,因为与 GDDR 相比,对于相同的带宽,HBM 设备将具有更小的硅面积、更低的功耗和更少的物理接口来处理。

“此外,与 DDR、GDDR 或 LPDDR 接口相比,在事物的 IP 端使用 HBM 设备,你如何在 SoC 上物理实现它们是狂野的西部,”默多克说。“你可以在芯片一侧放置一个完整的线性 PHY。你可以绕一个角。你可以把它折叠起来。有无数种方法可以实现该物理接口。但是对于 HBM,当您放下一个 HBM 立方体时,JEDEC 已经准确定义了该立方体上的凹凸贴图是什么样子。用户将其放置在中介层上,它将紧邻 SoC,因此对于如何在 SoC 上构建凹凸贴图,实际上只有一种可行的选择——匹配 HBM 设备。这推动了 PHY 的物理实现。”

这些决定也会影响可靠性。虽然就颠簸的位置而言,灵活性可能较低,但增加的可预测性也可能意味着更高的可靠性。

“对于如何将这些东西连接在一起,中介层有几种不同的选择,但归根结底,如果我查看 GDDR、LPDDR 或 DDR,我可以构建一百万种不同的电路板并将它们连接到一百万种不同的方式,”他说。“这会导致一百万种不同的实现,以及一百万种不同的机会让某人把事情搞砸。使用 HBM,您放入 PHY,放入设备,这两者之间的中介层很简单。对于英伟达来说,中介层连接看起来与 AMD、英特尔或其他任何打算这样做的人一样。除了 SoC 和 HBM 设备之间的一些最小间距规则之外,您将如何做到这一点没有太多变化。差不多就是这样。这应该导致与3D IC的工具团队合作 能够在两个设备之间快速路由内插器,因为在你将如何做到这一点上真的不可能有大量的可变性。”

另一个影响可靠性的因素是某件事已经完成了多少次。“事实上,我们为每个客户做同样的事情,或者几乎同样的事情,这意味着我们真的很擅长,而且已经过实践证明。我知道它适用于 AMD 和他们出货的数百万台设备,那么为什么我们第一次向这个新的 AI 客户销售 HBM 会有什么不同呢?我们不需要重新发明任何东西,”默多克说。

尤其是2.5D和3D带来的复杂性,可以消除的变量越多越好。

Synopsys 的 Malhotra 表示,毫不奇怪,电源管理是 AI/ML 应用程序的首要考虑因素,其中 HBM3 有望被广泛采用。“对于数据中心和边缘设备来说都是如此。权衡围绕着功率、性能、面积和带宽。对于边缘计算,权衡的复杂性不断增加,在传统 PPA 方程中添加了第四个变量——带宽。在 AI/ML 的处理器设计或加速器设计中,在计算功耗、性能、面积、带宽的权衡时,很大程度上取决于工作负载的性质。”

确保它有效

虽然 HBM3 实现看起来很简单,但没有什么是简单的。并且由于这些存储器通常用于关键任务应用程序,因此确保它们按预期工作需要额外的工作。Rambus 的IP 核高级产品营销工程师 Joe Rodriguez表示,应该使用许多供应商提供的硅后调试和硬件启动工具来确保整个存储器子系统按预期运行。

用户通常会利用供应商提供的测试平台和仿真环境,以便他们可以使用控制器并开始运行仿真,以查看系统与 HBM 2e/3 系统的性能如何。

“在考虑整体系统效率时,物理实施一直是 HBM 的一个挑战,因为您的面积如此之小,”Rambus 的 Ferro 说。“这是一件好事,但现在你有了一个 CPU 或一个 GPU,你可能有四个或更多的 HBM DRAM,而且你的占用空间很小。这意味着热量、功率、信号完整性、制造可靠性都是物理设计实施中必须解决的问题。”

图 2:具有 HBM3 内存的 2.5D/3D 系统架构。资料来源:Rambus

为了从内插器和封装设计中获得最大性能,即使在速度为 3.2 和 3.6 的 HBM2e 中,许多公司也在努力通过内插器获得良好的信号完整性。更复杂的是,每个代工厂对这些中介层都有不同的设计规则,有些规则比其他规则更具挑战性。

“通过HBM3,他们增加了层数,并增加了中介层的能力——电介质厚度等——使这个问题更容易解决,”费罗说。“但即使在上一代,很多客户也在挠头说,'你如何让这个东西以每秒 3.2 Gb 的速度运行?'”

结论

在可预见的未来,通往更高内存带宽的道路仍将继续,但即将推出的 HBM3 有望开启系统设计的新阶段,将系统性能提升到一个新的水平。

为实现这一目标,行业参与者必须继续满足具有存储器接口 IP 的数据密集型 SoC 的设计和验证要求,以及针对 HBM3 等最先进协议的验证解决方案。总的来说,这些解决方案应该拼接在一起,以允许验证协议和时序检查器的规范合规性,以及确保不会发生错误逃逸的覆盖模型。

查看更多芯片制造知识,请搜索“众壹云”

主营产品:风机,工业空调