Je šířka pásma paměti NVIDIA L40 dostatečná pro produkční inferenci LLM?

Odpověď

Krátká verze specifikace NVIDIA L40: 48 GB GDDR6, 864 GB/s, 181 FP16 TFLOPS, 90.5 FP32 TFLOPS, Ada Lovelace (2023), 300W.

Dlouhá verze: karta je optimalizována pro maticové násobení smíšené přesnosti na velkých tenzorech, což přesně odpovídá požadavkům tréninku transformerů a produkční inference. Propustnost je dostatečně velkorysá, aby se zabránilo zdržování při operacích pozornosti, a kapacita VRAM pokrývá moderní velikosti modelů bez nutnosti přesunu do paměti CPU.

Full specs, benchmarks, and comparisons are on the NVIDIA L40 page.

Více FAQ o NVIDIA L40

Prozkoumat NVIDIA L40