NVIDIA GeForce RTX 4070 预训练吞吐量——我可以期待什么?
答案
NVIDIA GeForce RTX 4070 提供 29.1 TFLOPS 的 FP16 性能,14.6 TFLOPS 的 FP32 性能,并由 12 GB 显存以 504 GB/s 速度供给。
基准测试:混合精度下的 LLM 训练在显存可容纳的批量大小时接近峰值 FLOPS 利用率;LLM 推理通常在自回归解码时达到理论带宽限制的 5-15%;扩散模型相比旧款加速器提升最大,得益于更快的注意力内核与原始计算性能提升叠加。
The NVIDIA GeForce RTX 4070 page has the complete datasheet and side-by-side comparisons.