NVIDIA L40 beban kerja yang terikat memori vs terikat komputasi
Jawaban
Judul performa NVIDIA L40: 181 TFLOPS FP16, 90.5 TFLOPS FP32, 864 GB/s bandwidth, 48 GB VRAM.
Dikonversi ke benchmark praktis: pelatihan model LLM 7B parameter dalam FP16 dengan ukuran batch wajar biasanya memaksimalkan komputasi sebelum bandwidth; penyajian waktu nyata pada model yang sama biasanya terikat bandwidth dan mengikuti angka 864 GB/s. Benchmark generasi gambar difusi berada di antara keduanya — langkah berat komputasi memanfaatkan tensor core dengan baik, sementara blok perhatian masih menggunakan bandwidth.
Check the NVIDIA L40 page for complete specifications and related GPU matchups.