Rendimiento de núcleos tensoriales de NVIDIA A10G
Respuesta
NVIDIA A10G es una tarjeta Ampere que ofrece 70 TFLOPS FP16 y 35 TFLOPS FP32 junto con 600 GB/s de ancho de banda de memoria. Eso es suficiente cómputo para manejar entrenamientos de modelos modernos y cargas de trabajo de servicio en tiempo real a gran escala.
Los benchmarks muestran que NVIDIA A10G funciona particularmente bien en modelos estilo transformador donde los núcleos tensoriales se saturan con grandes MatMuls. Los modelos de difusión, voz y visión también ven aceleraciones fuertes frente a generaciones anteriores. Para el servicio en tiempo real sensible a la latencia, NVIDIA A10G usualmente alcanza tasas objetivo de tokens por segundo en modelos de lenguaje grandes muy por encima del umbral de 30-50 tok/s que la mayoría de los productos busca.
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.