¿Qué tan bien escala NVIDIA GB200 Superchip en múltiples GPUs?
Respuesta
Titular de rendimiento de NVIDIA GB200 Superchip: 4,500 TFLOPS FP16, 150 TFLOPS FP32, 16,000 GB/s de ancho de banda, 384 GB de VRAM.
Convertido en benchmarks prácticos: entrenar un LLM de 7 mil millones de parámetros en FP16 con tamaños de lote razonables típicamente satura el cómputo antes que el ancho de banda; el servicio en tiempo real en el mismo modelo usualmente está limitado por el ancho de banda y sigue la cifra de 16,000 GB/s. Los benchmarks de generación de imágenes por difusión se sitúan entre ambos — los pasos intensivos en cómputo utilizan bien los núcleos tensoriales, mientras que los bloques de atención aún usan ancho de banda.
See the NVIDIA GB200 Superchip page for the full spec sheet and comparisons to related GPUs.