Производительность тензорных ядер NVIDIA A10G

Ответ

NVIDIA A10G — это Ampere карта, предлагающая 70 FP16 TFLOPS и 35 FP32 TFLOPS вместе с пропускной способностью памяти 600 ГБ/с. Этого достаточно для обработки современных задач обучения моделей и обслуживания в реальном времени на серьёзном уровне.

Бенчмарки показывают, что NVIDIA A10G особенно хорошо работает на трансформерных моделях, где тензорные ядра насыщаются большими матричными умножениями. Модели диффузии, речевые и визуальные нагрузки также демонстрируют значительный прирост по сравнению с предыдущими поколениями. Для чувствительного к задержкам производственного обслуживания в реальном времени NVIDIA A10G обычно достигает целевых показателей токенов в секунду на больших языковых моделях, значительно превышая порог в 30-50 ток/с, на который ориентируются большинство продуктов.

The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.

Дополнительные FAQ по NVIDIA A10G

Изучить NVIDIA A10G