内存类型和工艺

内存层次结构(按速度排序)

SRAM(片内)

特点:晶体管多、面积大、驱动力强、读写无破坏、天然支持同周期多端口访问、不需要刷新

密度低、面积大、单位容量极贵

  1. 寄存器 — 最快,直接贴执行单元

    H100 单 SM 寄存器堆 256 KB(65536 个 32-bit 项),比 L1 还大。它不靠多端口冲速度,而是把寄存器静态切给数十个驻留 warp;一个 warp 卡内存就秒切下一个,用 warp 切换隐藏延迟。寄存器堆只要”够分”就行 — 这也是 GPU 占用率(occupancy)受寄存器用量限制的根因。

  2. L1 Cache — SRAM 实现

  3. L2 Cache(SM 级 / Chip 级) — SRAM 实现

  4. L3 Cache(Last Level Cache) — CPU 常见,部分 GPU/SoC 也有类似设计


L1 到 L3 的设计哲学差异

L1 的”奢侈”体现在三件事 — 晶体管做大(驱动电流强、充放电快)、辅助电路堆料(多端口、密集 sense amp,有些设计干脆用 8T 让读写互不干扰)、容量被刻意做小(SRAM 访问延迟会随容量增大而上升,所以 L1 故意只做几十 KB,不是造不大,是为了快主动做小)。

L3 反着来 — 晶体管做到最小、单元挤得最紧、外围电路精简共享,换来大容量低成本,代价是延迟到了 ≈10 ns 级。


DRAM(片外)

特点:独立工艺产线、需要刷新、密度高于 SRAM

  1. 主内存 / 显存(DDR / LPDDR / GDDR / HBM)

    • GDDR(消费级) — 围着 GPU 焊在 PCB 上的独立 DRAM 颗粒,针对图形带宽优化。RTX 5090 这类游戏卡用的就是 GDDR7。
    • HBM(数据中心) — 把多层 DRAM 裸片垂直堆叠,通过硅中介层和 GPU 紧贴在一起共同封装。H100 / B200 / MI300 / TPU 这类 AI 加速卡的显存全是 HBM。

    GDDR 和 HBM 内部的存储单元跟 DDR 内存条上的颗粒本质相同,差别全在封装工艺

NAND Flash(SSD)

特点:非易失性、通过 SATA(老接口)或 NVMe / PCIe(主流)接主板

HDD(磁记录,非半导体)

特点:机械结构、密度靠材料创新逐步提升、成本最低但延迟最高


HBM 技术详解

HBM 的核心工艺链:

一句话总结:HBM 不是”更快的 DRAM”,是”用先进封装把普通 DRAM 拼成超宽总线的工程奇迹” — 而这套工程链(TSMC CoWoS + SK Hynix MR-MUF + 自定义 base die)就是当下 AI 算力供给的最深瓶颈。


总结

所有存储的差异,都来自同一条权衡 — 越靠近计算、越追求快,就越要牺牲容量、抬高单位成本;越远离计算、越追求大和便宜,就越要忍受慢

理解这条主线后,可以从三个维度判断任何存储技术新闻的定位:

维度 核心逻辑
易失性 数据靠什么撑着?易失性(SRAM、DRAM、HBM)靠通电维持的电学状态,断电状态塌掉;非易失性(Flash、HDD、新兴)靠被物理性困住或固定的状态(电子困在浮栅里、磁畴方向钉在盘片上),断电不丢
单元复杂度 决定速度和单位成本 — SRAM 一个比特 6 晶体管所以又快又贵;DRAM 一个比特 1 晶体管+1 电容所以又便宜又能做大;NAND 一个比特一个浮栅还能堆 300+ 层再多塞几比特所以容量爆炸;HDD 不是半导体,密度靠材料创新一步步压低成本
物理距离 靠多近、走多远,决定带宽和延迟 — 寄存器贴执行单元最快;L1 比 L3 快是因为容量做小走线短;HBM 单元和普通 DRAM 一样慢但靠贴 GPU + 1024 bit 超宽接口把带宽拉到几 TB/s;HDD 慢是因为有机械运动这个根本物理瓶颈

理解了这条主线之后,看到”AMD 3D V-Cache 又加大”、”HBM4 来了”、”321 层 3D NAND 量产”、”HAMR 30 TB 硬盘发布”、”MRAM 进入车规级”这些新闻时,就能立刻判断它在哪条工艺线上推进 — 都不过是在”换原理 / 改工艺 / 推堆叠 / 提密度”这几条线上的某一处再加一刀


参考