Performanța nucleelor tensoriale a NVIDIA A10G

Răspuns

NVIDIA A10G este o placă Ampere care oferă 70 TFLOPS FP16 și 35 TFLOPS FP32 împreună cu 600 GB/s lățime de bandă a memoriei. Este suficientă putere de calcul pentru a gestiona antrenamentul modelelor moderne și sarcinile de servire în timp real la scară serioasă.

Benchmark-urile arată că NVIDIA A10G performează deosebit de bine pe modele de tip transformator unde nucleele tensor sunt saturate de MatMul-uri mari. Modelele de difuzie, sarcinile de vorbire și viziune beneficiază, de asemenea, de accelerări puternice față de generațiile mai vechi. Pentru servirea în producție sensibilă la latență, NVIDIA A10G atinge de obicei ratele țintă de tokeni pe secundă pe modelele mari de limbaj bine peste pragul de 30-50 tok/s pe care îl vizează majoritatea produselor.

The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.

Mai multe întrebări frecvente despre NVIDIA A10G

Explorează NVIDIA A10G