NVIDIA L40 beban terikat memori vs beban terikat pengiraan

Jawapan

Tajuk prestasi NVIDIA L40: 181 TFLOPS FP16, 90.5 TFLOPS FP32, 864 GB/s lebar jalur, 48 GB VRAM.

Ditukar kepada penanda aras praktikal: latihan model LLM 7B parameter dalam FP16 dengan saiz kelompok munasabah biasanya menyaturkan pengiraan sebelum lebar jalur; penyajian masa nyata pada model yang sama biasanya terikat lebar jalur dan mengikuti angka 864 GB/s. Penanda aras penjanaan imej difusi berada di antara kedua-duanya — langkah berat pengiraan menggunakan teras tensor dengan baik, manakala blok perhatian masih menggunakan lebar jalur.

Check the NVIDIA L40 page for complete specifications and related GPU matchups.

Lebih Banyak FAQ tentang NVIDIA L40

Terokai NVIDIA L40