Быстрее ли NVIDIA GeForce RTX 3080 A100 для дообучения?
Ответ
Пиковая вычислительная мощность NVIDIA GeForce RTX 3080 достигает 29.8 FP16 TFLOPS и 14.9 FP32 TFLOPS, с пропускной способностью памяти 760 ГБ/с, питающей вычислительные блоки. Архитектура Ampere включает тензорные ядра, оптимизированные для смешанной точности BF16/FP16 / FP8 — форматов, наиболее важных для современных трансформеров.
Реальная пропускная способность при обучении моделей масштабируется близко к теоретическим пикам при больших размерах пакетов; меньшие пакеты ограничены пропускной способностью памяти. Для инференса с низкой задержкой количество токенов в секунду на трансформерах, таких как Llama 70B, сильно зависит от стратегии квантизации — FP8/INT8 раскрывают потолок вычислительной мощности, FP16 ограничен пропускной способностью.
The NVIDIA GeForce RTX 3080 page has the complete datasheet and side-by-side comparisons.