Desempenho de núcleo tensorial do NVIDIA A10G
Resposta
NVIDIA A10G é uma placa Ampere que oferece 70 TFLOPS FP16 e 35 TFLOPS FP32 junto com 600 GB/s de largura de banda de memória. Isso é computação suficiente para lidar com treinamento de modelos modernos e cargas de trabalho de serving em tempo real em grande escala.
Benchmarks mostram que NVIDIA A10G tem desempenho particularmente bom em modelos estilo transformer onde os núcleos tensor são saturados por grandes MatMuls. Modelos de difusão, fala e visão também veem acelerações fortes em relação às gerações anteriores. Para serving em tempo real sensível à latência, NVIDIA A10G geralmente atinge taxas de tokens por segundo em grandes modelos de linguagem bem acima do limite de 30-50 tok/s que a maioria dos produtos busca.
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.