高带宽闪存(HBF),这是专为 AI 领域设计的新型存储器架构。HBF全称High Bandwidth Flash,其结构与堆叠DRAM芯片的HBM类似,是一种通过堆叠NAND闪存而制成的产品。

在设计上,HBF结合了3D NAND闪存和高带宽存储器(HBM)的特性,能更好地满足AI推理的需求。HBF的堆叠设计类似于HBM,通过硅通孔(TSVs)将多个高性能闪存核心芯片堆叠,连接到可并行访问闪存子阵列的逻辑芯片上。也就是基于 SanDisk的 BICS 3D NAND 技术,采用CMOS直接键合到阵列(CBA)设计,将3D NAND存储阵列键合在I/O 芯片上。
HBF 打破了传统的 NAND 设计,实现了独立访问的存储器子阵列。其核心创新点包括:
分布式控制结构:每组NAND芯片可独立并行访问,优化控制器算法将NAND固有毫秒级延迟压缩至微秒级,匹配AI推理需求。
密集互连架构:采用芯片到晶圆键合技术,构建密集互连的存储结构,支持多NAND阵列并行访问,大幅提升I/O带宽。
非易失性存储:基于NAND闪存特性,HBF无需刷新电流即可长期保持数据,降低功耗并提升可靠性。
HBF可匹配HBM的带宽,同时以相近的成本实现每个堆栈的容量比HBM高出8到16倍。HBF使用16个核心芯片,单堆栈容量可达512GB,8个HBF堆栈可实现 4TB的容量,可支持AI大模型运行在GPU硬件上,其高容量特性发挥得十分出色。单颗HBF可容纳完整的64B 模型,有望应用于手机端大模型本地化,也适用于自动驾驶、AI玩具、IoT等边缘设备的低功耗、高容量的边缘AI存储需求。
不过,HBF主要具备高带宽和容量的特性,该技术针对的是读取密集型AI推理任务,而不是延迟敏感型应用。对内存需求增加、计算需求减少催生了一种新范式,称之为“以存储为中心的人工智能”,它最适合基于HBF的系统。最开始一些人认为,基于NAND的技术无法满足AI的需求。例如NAND的延迟水平过高,写入速度与DRAM不匹配,或是耐用性问题。但是,HBF是重新构想的NAND,具备极高的性能。但基于4000亿参数的Llama3.1模型,模拟GPU搭载HBF和HBM的性能差异。在不考虑容量的情况下,观察推理引擎流程各个阶段的推断结果时,可以发现这两个系统之间的整体性能差异仅在2.2%以内。
预计到2030年,HBF市场规模将达到120亿美元,虽然这仅占同年HBM市场规模(约1170亿美元)的 10%,但预计它将与HBM形成互补,并加速其增长。相信HBF技术凭借其大容量、高带宽、低成本和低功耗等优势,将成为AI推理的存储新贵。
本文章转载自网络,如有侵权请联系删除,谢谢!