Wydajność rdzeni tensorowych NVIDIA A10G

Odpowiedź

NVIDIA A10G to karta Ampere, oferująca 70 TFLOPS FP16 i 35 TFLOPS FP32 wraz z przepustowością pamięci 600 GB/s. To wystarczająca moc obliczeniowa, by obsłużyć nowoczesne treningi modeli i obciążenia obsługi w czasie rzeczywistym na poważną skalę.

Benchmarki pokazują, że NVIDIA A10G radzi sobie szczególnie dobrze na modelach typu transformator, gdzie rdzenie tensorowe są nasycone dużymi mnożeniami macierzy (MatMul). Modele dyfuzji, zadania mowy i wizji również wykazują znaczne przyspieszenia w porównaniu do starszych generacji. Dla produkcyjnej obsługi w czasie rzeczywistym wrażliwej na opóźnienia, NVIDIA A10G zwykle osiąga docelowe wartości tokenów na sekundę na dużych modelach językowych znacznie powyżej progu 30-50 tok/s, do którego dąży większość produktów.

The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.

Więcej FAQ o NVIDIA A10G

Poznaj NVIDIA A10G