Apakah bandwidth memori NVIDIA L40 cukup untuk inferensi produksi LLM?
Jawaban
Versi singkat dari lembar spesifikasi NVIDIA L40: 48 GB GDDR6, 864 GB/s, 181 TFLOPS FP16, 90.5 TFLOPS FP32, Ada Lovelace (2023), 300W.
Versi panjang: kartu ini dioptimalkan untuk perkalian matriks presisi campuran pada tensor besar, yang memang dibutuhkan oleh pelatihan dan inferensi produksi transformer. Bandwidth cukup besar untuk menghindari jeda pada operasi perhatian, dan kapasitas VRAM mencakup ukuran model modern tanpa perlu memindahkan data ke memori CPU.
Full specs, benchmarks, and comparisons are on the NVIDIA L40 page.