内存类型和工艺

内存层次结构（按速度排序）

SRAM（片内）

特点：晶体管多、面积大、驱动力强、读写无破坏、天然支持同周期多端口访问、不需要刷新

密度低、面积大、单位容量极贵

寄存器 — 最快，直接贴执行单元

H100 单 SM 寄存器堆 256 KB（65536 个 32-bit 项），比 L1 还大。它不靠多端口冲速度，而是把寄存器静态切给数十个驻留 warp；一个 warp 卡内存就秒切下一个，用 warp 切换隐藏延迟。寄存器堆只要”够分”就行 — 这也是 GPU 占用率（occupancy）受寄存器用量限制的根因。
L1 Cache — SRAM 实现
L2 Cache（SM 级 / Chip 级） — SRAM 实现
L3 Cache（Last Level Cache） — CPU 常见，部分 GPU/SoC 也有类似设计

L1 到 L3 的设计哲学差异

L1 的”奢侈”体现在三件事 — 晶体管做大（驱动电流强、充放电快）、辅助电路堆料（多端口、密集 sense amp，有些设计干脆用 8T 让读写互不干扰）、容量被刻意做小（SRAM 访问延迟会随容量增大而上升，所以 L1 故意只做几十 KB，不是造不大，是为了快主动做小）。

L3 反着来 — 晶体管做到最小、单元挤得最紧、外围电路精简共享，换来大容量低成本，代价是延迟到了 ≈10 ns 级。

DRAM（片外）

特点：独立工艺产线、需要刷新、密度高于 SRAM

主内存 / 显存（DDR / LPDDR / GDDR / HBM）
- GDDR（消费级） — 围着 GPU 焊在 PCB 上的独立 DRAM 颗粒，针对图形带宽优化。RTX 5090 这类游戏卡用的就是 GDDR7。
- HBM（数据中心） — 把多层 DRAM 裸片垂直堆叠，通过硅中介层和 GPU 紧贴在一起共同封装。H100 / B200 / MI300 / TPU 这类 AI 加速卡的显存全是 HBM。
GDDR 和 HBM 内部的存储单元跟 DDR 内存条上的颗粒本质相同，差别全在封装工艺。

NAND Flash（SSD）

特点：非易失性、通过 SATA（老接口）或 NVMe / PCIe（主流）接主板

HDD（磁记录，非半导体）

特点：机械结构、密度靠材料创新逐步提升、成本最低但延迟最高

HBM 技术详解

HBM 的核心工艺链：

垂直堆叠 — 把多层 DRAM 裸片（4-16 层）垂直堆叠在一起
硅通孔（TSV, Through-Silicon Via） — 在芯片里打孔，实现层间垂直连接。直径从 ≈10 μm 缩到 ≈6 μm，pitch 从 ≈40 μm 缩到 ≈25 μm。每个 16-Hi 堆叠要打 1024 数据 + 几百控制 + 测试，总数几千根 TSV，任何一根开路整条堆叠报废 — 这是良率的核心瓶颈
硅中介层（Silicon Interposer） — 整个堆叠体通过硅中介层和 GPU 紧贴在一起共同封装
超宽接口 — 每个堆叠 1024 bit，远超 GDDR 的 32 bit/chip

一句话总结：HBM 不是”更快的 DRAM”，是”用先进封装把普通 DRAM 拼成超宽总线的工程奇迹” — 而这套工程链（TSMC CoWoS + SK Hynix MR-MUF + 自定义 base die）就是当下 AI 算力供给的最深瓶颈。

总结

所有存储的差异，都来自同一条权衡 — 越靠近计算、越追求快，就越要牺牲容量、抬高单位成本；越远离计算、越追求大和便宜，就越要忍受慢。

理解这条主线后，可以从三个维度判断任何存储技术新闻的定位：

维度	核心逻辑
易失性	数据靠什么撑着？易失性（SRAM、DRAM、HBM）靠通电维持的电学状态，断电状态塌掉；非易失性（Flash、HDD、新兴）靠被物理性困住或固定的状态（电子困在浮栅里、磁畴方向钉在盘片上），断电不丢
单元复杂度	决定速度和单位成本 — SRAM 一个比特 6 晶体管所以又快又贵；DRAM 一个比特 1 晶体管+1 电容所以又便宜又能做大；NAND 一个比特一个浮栅还能堆 300+ 层再多塞几比特所以容量爆炸；HDD 不是半导体，密度靠材料创新一步步压低成本
物理距离	靠多近、走多远，决定带宽和延迟 — 寄存器贴执行单元最快；L1 比 L3 快是因为容量做小走线短；HBM 单元和普通 DRAM 一样慢但靠贴 GPU + 1024 bit 超宽接口把带宽拉到几 TB/s；HDD 慢是因为有机械运动这个根本物理瓶颈

理解了这条主线之后，看到”AMD 3D V-Cache 又加大”、”HBM4 来了”、”321 层 3D NAND 量产”、”HAMR 30 TB 硬盘发布”、”MRAM 进入车规级”这些新闻时，就能立刻判断它在哪条工艺线上推进 — 都不过是在”换原理 / 改工艺 / 推堆叠 / 提密度”这几条线上的某一处再加一刀。

参考

Storage Types: CPU & GPU Memory Hierarchy