Performa tensor core dari NVIDIA A10G
Jawaban
NVIDIA A10G adalah kartu Ampere yang menawarkan 70 TFLOPS FP16 dan 35 TFLOPS FP32 bersama dengan 600 GB/s bandwidth memori. Itu cukup komputasi untuk menangani pelatihan model modern dan beban kerja penyajian waktu nyata dalam skala serius.
Benchmark menunjukkan NVIDIA A10G tampil sangat baik pada model gaya transformer di mana tensor core dimaksimalkan oleh MatMul besar. Model difusi, ucapan, dan beban kerja visi juga melihat percepatan kuat dibanding generasi lama. Untuk penyajian produksi sensitif latensi, NVIDIA A10G biasanya mencapai target token per detik pada model bahasa besar jauh di atas ambang 30-50 tok/s yang diinginkan sebagian besar produk.
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.