Prestazioni dei tensor core di NVIDIA A10G
Risposta
NVIDIA A10G è una scheda Ampere che offre 70 TFLOPS FP16 e 35 TFLOPS FP32 insieme a 600 GB/s di larghezza di banda della memoria. È abbastanza potenza di calcolo per gestire l'addestramento di modelli moderni e carichi di lavoro di serving in tempo reale su larga scala.
I benchmark mostrano che NVIDIA A10G si comporta particolarmente bene su modelli in stile transformer dove i tensor core sono saturati da grandi MatMul. I modelli di diffusione, i carichi di lavoro di voce e visione vedono anche forti accelerazioni rispetto alle generazioni precedenti. Per il serving in tempo reale sensibile alla latenza, NVIDIA A10G solitamente raggiunge tassi di token al secondo su grandi modelli linguistici ben al di sopra della soglia di 30-50 tok/s che la maggior parte dei prodotti mira a raggiungere.
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.