跳到主要内容

NVIDIA GPU 算力对比表:FP32 / FP16 / Tensor Core 全览

NVIDIA 架构演进与 Tensor Core 精度支持

按时间顺序展示各代架构的 Tensor Core 代数及支持的精度格式

架构 & 代表卡Tensor Core 代数首次/主要支持的精度
Pascal(P100 等)无 Tensor Core只支持 FP32/FP64 常规计算(无 FP16 Tensor Core)
Volta(V100)第 1 代FP16 Tensor Core(训练混合精度起点)
Turing(T4, RTX 20)第 2 代在 Volta FP16 基础上新增 INT8 / INT4 Tensor Core 精度
Ampere(A100, A30, 部分 RTX A 系列)第 3 代保留 FP16 + INT8/INT4,新加 BF16TF32 支持
Hopper(H100/H200)第 4 代延续 FP16/BF16/TF32/INT8/INT4,新加 FP8(两种 nvFP8 格式)
Blackwell(B100/GB200, RTX Blackwell)第 5 代延续上面所有,并加强 FP8,新增 FP4 Tensor Core 精度(极致低精度)

说明

  • FP32 / FP16(非 Tensor):普通 CUDA 浮点算力。对大部分 GeForce / RTX 工作站卡来说,FP16 标称带宽 ≈ FP32,所以直接写成相同数值。
  • FP16 Tensor:Tensor Core 的 FP16/BF16 理论峰值,更接近你训练/推理时真正关心的算力。部分 Hopper/Blackwell 官方数据是 带稀疏 的峰值,dense 一般约为 1/2,在备注里说明。
  • 数值都取自官方 datasheet 或大厂方案商的规格表,有的四舍五入到 0.1 TFLOPS 左右。

1️⃣ 消费级 GeForce RTX 40 / 50 系列

单位:TFLOPS;FP16(非 Tensor)基本可视为 = FP32。

型号架构FP32FP16(非 Tensor)FP16 Tensor(大致,dense)显存备注
RTX 5090Blackwell (GB202)104.8≈104.8419 FP16 Tensor(≈838 含稀疏)32 GB GDDR7顶级消费卡,50 系列旗舰
RTX 5080Blackwell56.3≈56.3142.3 FP16 Tensor(≈284.6 含稀疏)16 GB GDDR7高端 4K/AI 卡
RTX 5070 TiBlackwell43.9≈43.9官方暂未单独给出16 GB GDDR7中高端
RTX 5070Blackwell30.9≈30.9官方暂未单独给出12 GB GDDR7主流 2K
RTX 5060 TiBlackwell23.7≈23.78 或 16 GB GDDR7(不同板卡)主流卡
RTX 5060Blackwell19.2≈19.28 GB GDDR7入门 2K/1080p
RTX 5050Blackwell13.2≈13.28 GB GDDR6入门级
RTX 4090Ada (AD102)82.6≈82.6≈330 FP16 Tensor(≈661 含稀疏)24 GB GDDR6X40 系列旗舰,AI 常用
RTX 4080 SUPERAda52.2≈52.2418 FP16 Tensor(≈836 含稀疏)16 GB GDDR6X高端
RTX 4070Ada29.1≈29.1233 FP16 Tensor(≈466 含稀疏)12 GB GDDR6X主流 2K 游戏/轻量训练
RTX 4060 Ti 8GBAda22.1≈22.1177 FP16 Tensor(估算,参考 NVIDIA/评测表)8 GB GDDR6性价比中端,显存偏小

2️⃣ RTX 工作站 / L 系列

这些更偏专业渲染 / 推理 / 轻量训练。

型号定位架构FP32FP16(非 Tensor)FP16 Tensor(dense 近似)显存备注
RTX 6000 Ada工作站Ada≈91.1 TFLOPS≈91.1165 TFLOPS FP16 Tensor(≈330 含稀疏)48 GB GDDR6 ECC很常见的本地训练/推理卡
RTX Pro 6000 Blackwell工作站Blackwell≈109.7 TFLOPS FP32≈109.7503.8 TFLOPS FP16 Tensor(≈1007.6 含稀疏)96 GB GDDR7新一代高端工作站/服务器卡
L20数据中心推理Ada≈59.4 TFLOPS FP32≈59.4≈59.35 TFLOPS FP16 Tensor(dense)48 GB GDDR6低功耗推理,性价比高
L40S数据中心训练/推理Ada≈91.6 TFLOPS FP32≈91.6≈362.1 TFLOPS FP16 Tensor(≈733 含稀疏)48 GB GDDR6很接近 A100 级别的 AI 卡

3️⃣ 数据中心训练卡(V100 / A100 / H100 / H200 / H20 / GB200 / GB300)

下面的 FP16 基本都是 Tensor Core 算力,更接近实际训练/推理速度。

型号架构FP32FP16 Tensor(标称)显存备注
Tesla V100 32GBVolta14.1 TFLOPS FP32125 TFLOPS(SXM,Tensor Core;PCIe 约 112)32 GB HBM2老牌训练卡,很多老集群还在用
A100 80GBAmpere19.5 TFLOPS FP32312 TFLOPS FP16 Tensor(624 含稀疏)80 GB HBM2e,≈2 TB/sHopper 前一代主力
H100 80GB SXMHopper67 TFLOPS FP32数据手册:1,979 TFLOPS FP16 Tensor(含稀疏),dense ≈990 TFLOPS80 GB HBM3,3.35 TB/s现在很多云厂商的主力训练卡
H200 SXMHopper+67 TFLOPS FP32官方/合作伙伴给出:1,979 TFLOPS FP16 Tensor(基本同 H100,dense 约 990)141 GB HBM3e,≈4.8 TB/s相当于「大显存版 H100」
H20 96GBHopper(中国阉割版)(FP32 官方没太强调,约 60+)资料里给:≈148 TFLOPS FP16/BF16 Tensor(dense),INT8/FP8≈296 TOPS/TFLOPS96 GB HBM3针对受限市场的「降配 H100」
GB200 (每颗 GPU)Blackwell80 TFLOPS FP32(Blackwell Ultra/B200 级)5 PFLOPS FP16/BF16 Tensor(dense),≈10 PFLOPS 含稀疏(NVL72 或 superchip 汇总时)≈192–288 GB HBM3e(随具体 B200/GB200 版本略有差异)GB200 一般以 Grace+2×Blackwell 组成 superchip 使用
GB300 (每颗 GPU)Blackwell Ultra80 TFLOPS FP32(GB300 Ultra)NVL72 机柜总计 360 PFLOPS FP16,72 GPU → 每 GPU ≈5 PFLOPS FP16(dense)单 GPU 约 279 GB HBM3e,8 TB/s 带宽(Ultra 版本)GB300 相比 GB200 FP16 提升约 1.5×,更偏推理/"AI reasoning"

解读建议

关于稀疏性

  • Hopper/Blackwell 的官方 FP16/BF16 数经常写的是「带结构化稀疏」的峰值(比如 H100 的 1,979 TFLOPS),dense 算力大约除以 2
  • 对 GeForce / RTX 6000 Ada 这类卡,如果你只用普通 CUDA FP16,而不用 Tensor Core,FP16 算力基本就按 FP32 那一列来估算。

显存带宽

  • 显存带宽对训练/推理性能影响很大,HBM3/HBM3e 的带宽远超 GDDR6/GDDR6X/GDDR7
  • 数据中心卡通常配备更高的显存带宽(2-8 TB/s),消费级卡通常在 0.5-1 TB/s 范围

功耗考虑

  • 数据中心卡功耗通常在 300-700W 范围
  • 消费级卡功耗通常在 200-450W 范围
  • 选择 GPU 时需要考虑数据中心的供电和散热能力

参考资料