NVIDIA L40 cargas de trabajo limitadas por memoria vs limitadas por computación
Respuesta
Titular de rendimiento de NVIDIA L40: 181 TFLOPS FP16, 90.5 TFLOPS FP32, 864 GB/s de ancho de banda, 48 GB de VRAM.
Convertido en benchmarks prácticos: entrenar un LLM de 7 mil millones de parámetros en FP16 con tamaños de lote razonables típicamente satura el cómputo antes que el ancho de banda; el servicio en tiempo real en el mismo modelo usualmente está limitado por el ancho de banda y sigue la cifra de 864 GB/s. Los benchmarks de generación de imágenes por difusión se sitúan entre ambos — los pasos intensivos en cómputo utilizan bien los núcleos tensoriales, mientras que los bloques de atención aún usan ancho de banda.
Check the NVIDIA L40 page for complete specifications and related GPU matchups.