HBM上演“存储墙消失术”?
文︱王树一
图︱Rambus
算力破T(即TOPS,每秒万亿次运算)已不新鲜,顶级高算力芯片的单颗算力峰值如今在数百T级别,但存储器带宽破T(TB/s,每秒万亿字节带宽)凤毛麟角。由于算力和存储器带宽/接口带宽发展速度的不均衡,对于数据中心和人工智能训练系统这类既需要高算力又需要大数据的应用,存储数据吞吐能力就成为限制系统性能的最主要因素,即所谓“存储墙”。
解决“存储墙”问题是信息技术的一个热点研究方向,工程界和学术界都有很多研究人员投身其中,从商业可落地角度来看,当前HBM技术突破存储墙的潜力极大。
继2020年将内存接口子系统技术HBM2E的带宽推到461GB/s之后,国际著名硅IP厂商Rambus再接再厉,于2021年8月推出HBM3,带宽达到1.075TB/s,单通道数据速率高达8.4Gbps,采用标准的16通道设置(每通道位宽为64位),可达1024位宽,支持2、4、8、12和16 HBM3 DRAM堆叠,最高支持32Gb信道密度,性能指标均为业内领先。Rambus大中华区总经理苏雷表示:“这是非常震撼的技术实现!”
HBM3发展历程
当前商用化落地的内存技术主要有DDR、LPDDR、GDDR和HBM等几类,不同技术各具特色。DDR是最通用的存储器,从个人电脑到服务器都有广泛应用,出货量最大、成本最低;LPDDR则优化了功耗,适用于手机、便携设备和其他对功耗要求较高的应用场景;GDDR主要针对图像和视频应用,速度高、成本较高;HBM则为高性能计算、数据中心、人工智能训练等对高带宽应用量身打造,性能高、面积小,但成本高。
高带宽内存( High Bandwidth Memory )是一种立体(3维或2.5维)堆叠存储方案,即通过硅通孔(TSV)技术将存储器颗粒垂直堆叠起来,然后利用中介层将存储器颗粒和内存控制器相连,垂直堆叠的好处是避免了平面堆积造成的面积过大而难以制造的问题,而且只要封装的信号完整性和散热设计允许,多层堆叠就可以持续增加系统带宽。
存储器堆叠最早在闪存(Flash)技术上开始商业化。2007年4月,东芝推出了8颗闪存颗粒堆叠的NAND闪存芯片,2007年9月,海力士推出的新品就将闪存颗粒堆叠数量提高到了24颗。
DRAM堆叠技术商业化始于尔必达(已于2012年破产),2009年9月,尔必达发布一颗堆叠了四个DDR3 SDRAM的存储器产品,容量达到8GB。随后,三星和海力士纷纷跟进,推出类似产品。
第一个 HBM 标准 JESD235 于 2013 年 10 月发布。HBM1的单通道数据传输速率达到1Gbps,2016年落地的HBM2即将该速度提升到2Gbps,带宽可做到256GB/s。2018年HBM2E推出,初代产品单通道速率提升到3.4Gbps,Rambus后来又将之提升到3.6Gbps。
2021年6月,SK海力士发布HBM3产品,单通道数据传输速率达到5.2Gbps。不过时至今日,JEDEC尚未发布HBM3标准,但Rambus也已经为HBM3商业化落地做好了准备,Rambus HBM3 技术将单通道数据传输速率提升到8.4Gbps。据Rambus IP核产品营销高级总监 Frank Ferro介绍,当前DRAM还不支持8.4Gbps速率,Rambus将设计速率提升到这个水准,既为开发人员提供了更高的设计裕度,也为客户产品规划铺垫出更长的路径。
HBM3优势与瓶颈
Frank Ferro表示,数据中心等应用不断上升的带宽需求驱动着HBM技术快速迭代,而这类应用对于带宽的需求几无上限,这意味着“HBM的发展可能不会遇到障碍。”
与其他技术相比,HBM最大优势就是立体堆叠。“DDR接口位宽只有64位,通过3D堆叠DRAM颗粒的方式,HBM将位宽提升到1024位,这是HBM与其他竞争技术相比最大的优势。”
立体堆叠让HBM成为当前主流存储技术中面积最小、数据位宽最宽、数据吞吐带宽最大的技术,但另一方面,3D堆叠也限制着HBM单通道速率。立体堆叠要用到中介层,由于中介层技术限制,当前HBM单通道速率远不如GDDR内存。Frank Ferro告诉探索科技(ID:techsugar):“Rambus将HBM3单通道速率提升到了8.4Gbps,但GDDR速率已经达到了16或18Gbps。”
Frank Ferro指出,在线宽、金属层厚度,以及堆叠层数等方向,中介层还有很多改进的空间,通过增加线宽、金属层厚度等技术手段,还可以大幅提升HBM单通道速率。“总的来说,HBM尚处于相对早期阶段,未来还有很长的路要走。”
在HBM立体封装设计过程中,保证信号完整性是首要任务,如此多的高速信号在如此小的面积内实现互连,信号完整性设计和散热设计难度极高。为解决这些难题,Rambus在两年前就开始对HBM3的信道进行仿真和实验,通过一次次技术迭代,Rambus为客户提供了一个完整的内存子系统产品参考设计。从经过硅验证的物理层(PHY)和数字控制器,到中介层和封装,Rambus为客户提供全面的技术框架和参考设计支持。Frank Ferro说:“Rambus提供的不仅是IP,而是整个HBM3系统的设计参考与支持。”
除了技术难,成本高也是HBM产品普及的另一个限制。相比传统存储器封装,2.5D立体封装成本较高,因此成本敏感型场景很少选择HBM,Rambus正在和HBM生态链上的厂商通力合作,希望通过技术迭代来降低成本,从而将HBM的高性能惠及更多应用。
HBM在中国市场
由于HBM3技术还很新,当前主要与一些面向人工智能和机器学习芯片厂商展开合作,而从IP技术完备到芯片正式上市,通常还有18个月到两年的时间,所以苏雷预期采用Rambus HBM3技术的芯片将在2023年前后上市。
苏雷认为,互联网经济的繁荣让中国企业在人工智能、数据中心和云计算等领域发展走到了世界前列,并展现出强劲的潜力,所以Rambus将中国市场视为最重要的海外市场。自2020年开始,Rambus开始在中国举办年度设计峰会(Design Summit),这让中国成为总部之外唯一举办设计峰会的区域市场。
燧原科技等厂商已经在HBM2E上与Rambus进行过合作。由于双方签有保密协议,对于HBM3的意向客户,苏雷并未透露。他说:“可以透露的是,现在Rambus已经和国内一些一线AI客户就HBM3在进行密切合作。”