Продуктивність тензорних ядер NVIDIA A10G
Відповідь
NVIDIA A10G — це Ampere карта, що пропонує 70 FP16 TFLOPS і 35 FP32 TFLOPS разом із 600 ГБ/с пропускної здатності пам’яті. Цього достатньо, щоб обробляти сучасне навчання моделей і навантаження реального часу на серйозному рівні.
Бенчмарки показують, що NVIDIA A10G особливо добре працює на трансформерних моделях, де тензорні ядра насичуються великими матричними множеннями. Моделі дифузії, мовлення та зору також демонструють значні прискорення порівняно зі старими поколіннями. Для продуктивного обслуговування в реальному часі, чутливого до затримки, NVIDIA A10G зазвичай досягає цільових показників токенів за секунду на великих мовних моделях значно вище порогу 30-50 ток/с, на який орієнтуються більшість продуктів.
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.