Производительность тензорных ядер NVIDIA A10G
Ответ
NVIDIA A10G — это Ampere карта, предлагающая 70 FP16 TFLOPS и 35 FP32 TFLOPS вместе с пропускной способностью памяти 600 ГБ/с. Этого достаточно для обработки современных задач обучения моделей и обслуживания в реальном времени на серьёзном уровне.
Бенчмарки показывают, что NVIDIA A10G особенно хорошо работает на трансформерных моделях, где тензорные ядра насыщаются большими матричными умножениями. Модели диффузии, речевые и визуальные нагрузки также демонстрируют значительный прирост по сравнению с предыдущими поколениями. Для чувствительного к задержкам производственного обслуживания в реальном времени NVIDIA A10G обычно достигает целевых показателей токенов в секунду на больших языковых моделях, значительно превышая порог в 30-50 ток/с, на который ориентируются большинство продуктов.
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.