Je šířka pásma paměti NVIDIA L40 dostatečná pro produkční inferenci LLM?
Odpověď
Krátká verze specifikace NVIDIA L40: 48 GB GDDR6, 864 GB/s, 181 FP16 TFLOPS, 90.5 FP32 TFLOPS, Ada Lovelace (2023), 300W.
Dlouhá verze: karta je optimalizována pro maticové násobení smíšené přesnosti na velkých tenzorech, což přesně odpovídá požadavkům tréninku transformerů a produkční inference. Propustnost je dostatečně velkorysá, aby se zabránilo zdržování při operacích pozornosti, a kapacita VRAM pokrývá moderní velikosti modelů bez nutnosti přesunu do paměti CPU.
Full specs, benchmarks, and comparisons are on the NVIDIA L40 page.