Este lățimea de bandă a memoriei NVIDIA L40 suficientă pentru inferența în producție a modelelor LLM?
Răspuns
Versiunea scurtă a fișei tehnice NVIDIA L40: 48 GB GDDR6, 864 GB/s, 181 TFLOPS FP16, 90.5 TFLOPS FP32, Ada Lovelace (2023), 300W.
Versiunea lungă: placa este optimizată pentru multiplicarea matricelor în precizie mixtă pe tensori mari, exact ceea ce cer antrenamentul și inferența de producție a transformatoarelor. Lățimea de bandă este suficient de generoasă pentru a evita blocajele în operațiunile de atenție, iar capacitatea VRAM acoperă dimensiunile moderne ale modelelor fără a necesita descărcare pe memoria CPU.
Full specs, benchmarks, and comparisons are on the NVIDIA L40 page.