Sarcini limitate de memorie vs sarcini limitate de calcul pentru NVIDIA L40

Răspuns

Titlul performanței NVIDIA L40: 181 TFLOPS FP16, 90.5 TFLOPS FP32, 864 GB/s lățime de bandă, 48 GB VRAM.

Convertit în benchmark-uri practice: antrenarea unui LLM de 7 miliarde de parametri în FP16 cu dimensiuni rezonabile de lot tipic saturează calculul înaintea lățimii de bandă; servirea în timp real pe același model este de obicei limitată de bandă și urmează cifra 864 GB/s. Benchmark-urile de generare a imaginilor prin difuzie se situează între cele două — pașii care consumă mult calcul utilizează bine nucleele tensor, în timp ce blocurile de atenție ating încă lățimea de bandă.

Check the NVIDIA L40 page for complete specifications and related GPU matchups.

Mai multe întrebări frecvente despre NVIDIA L40

Explorează NVIDIA L40