NVIDIA L40 beban terikat memori vs beban terikat pengiraan
Jawapan
Tajuk prestasi NVIDIA L40: 181 TFLOPS FP16, 90.5 TFLOPS FP32, 864 GB/s lebar jalur, 48 GB VRAM.
Ditukar kepada penanda aras praktikal: latihan model LLM 7B parameter dalam FP16 dengan saiz kelompok munasabah biasanya menyaturkan pengiraan sebelum lebar jalur; penyajian masa nyata pada model yang sama biasanya terikat lebar jalur dan mengikuti angka 864 GB/s. Penanda aras penjanaan imej difusi berada di antara kedua-duanya — langkah berat pengiraan menggunakan teras tensor dengan baik, manakala blok perhatian masih menggunakan lebar jalur.
Check the NVIDIA L40 page for complete specifications and related GPU matchups.